La semana pasada, al hilo de mi artículo sobre el análisis de la última edición de la BSS desde la perspectiva de la procedencia de los atletas, Emilio Cajete (Emi) me “retó” a que hiciera un estudio parecido teniendo en cuenta un espectro temporal más grande. Me he centrado en los últimos 39 años (1979 – 2018*) si bien me gustaría hacer un pequeño resumen de los datos de los que dispongo.
*no dispongo datos de 1989.
En 1979 (hace 39 años) no se disponía de los medios informáticos y tecnológicos de los que disponemos ahora ni probablemente la organización se planteaba el posible uso que se le podrían dar en el futuro a los datos. Por eso, los datos de procedencia (y de género – categoría) de los primeros años son bastante pobres.
De los 420.028 atletas que aparecen en las clasificaciones de 1979 a 2018 (con la mencionada excepción de 1989), 24.777 son o bien descalificados, o bien sin tiempo establecido o bien con tiempo superior a 2h45m. Nos quedamos, pues, con una muestra de 395.251 finishers netos.
De estos 395.251, 384.820 tienen procedencia y 10.430 (un 2,64%) no tienen procedencia identificada ni he podido inferirla con garantías de manera automatizada. El trabajo “a puro huevo” se lo dejo a Gabriel 🙂
Tras un trabajo de limpieza y homogeneización de localidades, llegamos a un listado con 388 poblaciones con 100 o más finishers (en 39 ediciones). Quizás no sea demasiado exigente para 39 ediciones, lo veremos.
En el estudio de 2018, el podio lo ocupaban Arrasate/Mondragón, Irún y Lasarte – Oria.
El panorama ha cambiado bastante, ¿no? Lerín, Tarazona y Berrobi se coronan como las más rápidas en el all-time de la BSS. Si os fijáis bien en la tabla, la población con más participantes es Sodupe, con 211 finishers. Quizás, como anticipábamos, el límite de 100 participantes para 39 ediciones sea ciertamente escaso. Por aquello de que la media no es un estadístico demasiado robusto, he decidido hacer el mismo estudio con la mediana, mucho menos sensible a los valores anómalos que la media.
Se intercambian algunas posiciones pero, en esencia, están las mismas poblaciones. En cierto modo es lógico puesto que no he tenido en cuenta a lso corredores fuera de control (outliers o valores anómalos en potencia).
¿Qué pasa si nos centramos en las poblaciones con más de 500 participantes?
Altsasu, Tafalla y Estella – Lizarra se alzan con las 3 primeras posiciones. Poderío Navarro.
¿Qué pasa si nos centramos en las poblaciones con más de 1.000 participantes?
Beasain, Zumaia y Zumárraga ganan con la media y Orio se cuela como tercera según la mediana. Por fin aparecen poblaciones gipuzkoanas…
Por último, ¿Qué pasa si nos centramos en las poblaciones con más de 5.000 participantes?
Vitoria – Gasteiz, Irún e Iruña – Pamplona ganan con la media y Irún, Vitoria – Gasteiz y Errenteria ganan según la mediana entre las más grandes.
Si nos fijamos en las 4 tablas de la media o en las 4 de la mediana, a medida que aumenta el tamaño de las poblaciones, aumentan las medias y las medianas del ritmo medio. La popularización…
En este último gráfico podéis ver las poblaciones de acuerdo a su número de participantes y su ritmo medio promedio.
#data #bigdata #datascience #tableau #rstudio #running #carreraspopulares #boostbehobiass #behobiass #run #train #insights #runningdata #atletismo #athletics #20k #datascientist #datacy #20km #donostiasansebastian #donostia #irun #paridad #bss505025 #poblaciones #ine #racing #atletismo #athletics #marathon #maraton #mediamaraton #halfmarathon