En mi último artículo sobre el mundial de Russia os contaba una serie de conclusiones sobre la aplicación de la inteligencia artificial (IA o AI en inglés) a un set de datos recogidos durante la pasada FIFA World Cup Russia 2018. Respecto a los datos, eran variables sobre el comportamiento de los jugadores a lo largo de los 64 partidos de la fase final. Y, respecto a las herramientas, empleé dos algoritmos de aprendizaje supervisado: knn (k-vecinos más cercanos; k-nearest neighbours) y árboles de decisión (decision trees).
Tras una serie de pruebas en torno a estos tres ejes de actuación:
- Número de variables a considerar.
- Variables normalizadas o sin normalizar.
- Considerar a todos los jugadores o eliminar ciertas actuaciones poco representativas (jugadores con muy pocos minutos jugados).
Llegamos a un modelo con una precisión del 78,95%. Según este modelo, un jugador actúa como Portero (GK – goalkeeper), Defensa (DF – defender), Centrocampista (MF – midfielder) o Delantero (FW – forwarder) en función de dos variables (de entre las estudiadas, claro):
- Z1: porcentaje del tiempo jugado que el jugador permanece en la zona de velocidad Z1 (0 – 7 km/h).
- OH: porcentaje del tiempo jugado que el jugador permanece en el campo del equipo rival.
- Si el tiempo de juego en su propio campo es menor que el 34% del tiempo de juego total y el tiempo de juego en la zona de velocidad Z1 es menor que el 88% del tiempo total de juego –> Defensa. Acierto del 86%.
- Si el tiempo de juego en su propio campo es menor que el 34% del tiempo de juego total y el tiempo de juego en la zona de velocidad Z1 es mayor o igual que el 88% del tiempo total de juego –> Portero. Acierto del 100%.
- Si el tiempo de juego en su propio campo es mayor o igual que el 58% del tiempo de juego total –> Delantero. Acierto del 78%.
- Si el tiempo de juego en su propio campo es mayor o igual que el 34% del tiempo de juego total y menor que el 58% del tiempo de juego total –> Centrocampista. Acierto del 71%.
Con estas premisas, ¿qué jugadores no actuaron como era esperado a priori por su demarcación? Es decir, por ejemplo, ¿qué delanteros actuaron como centrocampistas? o ¿qué centrocampistas actuaron como defensas? Es lo que he llamado comportamientos anómalos.
Vamos con una foto general de las 4 zonas establecidas por la inteligencia artificial y de los outliers.
Dato #1: 101 jugadores se han comportado de manera anómala.
Dato #2: 33 defensas (DF) se comportaron de manera anómala. Todos lo han hecho como centrocampistas (MF). DF –> MF (33).
Dato #3: 47 centrocampistas (MF) se comportaron de manera anómala. 24 se comportaron como delanteros (FW) y 23 se comportaron como defensas (DF). MF –> FW (24) + MF –> DF (23).
Dato #4: 20 delanteros (FW) se comportaron de manera anómala. Todos lo han hecho como centrocampistas (MF). 18 se comportaron como centrocampistas (MF) y 2 se comportaron como defensas (DF). FW –> MF (18) + FW –> DF (2).
Dato #5: 1 portero (GK) se comportó de manera anómala. Lo hizo como ¿delanteros (FW)? GK –> FW (1). Creedme que he revisado el dato 3 veces en la página Web de la FIFA. Evidentemente, debe de tratarse de un error de transcripción porque el hecho de que el portero de Arabia Saudi (Mohammed Alowa) pase el 96% de su tiempo de juego en campo rival es raro. Y que, dando este dato por bueno, Luis Suárez solo le metiera un gol, muy muy raro.
Dato #6: Alemania (Germany) es la selección con más jugadores con comportamiento anómalo (8). Le siguen Argentina, Inglaterra (England) y España (Spain) con 7 jugadores.
¿Qué pasará cuando analice cada actuación de cada jugador por separado? Próximamente.
#data #bigdata #datascience #futbol #football #soccer #fifa #fifaworldcup #russia2018 #datascientist #rstudio #tableau #bigdata #final #russia2018 #footballanalytics #footballdata #goalkeeper #defender #midfielder #forwarder #portero #defensa #centrocampista #delantero #machinelearning #inteligenciaartificial #aprendizajeautomatico #arbolesdedecision #decisiontrees #knn #vecinomascercano #aprendizajesupervisado #aprendizajenosupervisado #kmeans