Gramática

“Juntaletras” text mining / minería de texto de “Juntaletras”

El jueves me tocaba rodaje, rodaje de pretemporada a ritmos muy asequibles, para ir haciendo base. 60 minutos por delante para pensar sin más distracciones que los pocos coches que circulan de madrugada por Igara. Y lo que se me ocurrió fue que, al igual que había hecho con las letras de las canciones de U2 y de Bruce Springsteen, podría hacer un análisis de los textos de los posts de Gabriel Beldarrain.

Curiosamente, esa noche, Emilio Cajete (Emi) me propuso hacer exactamente eso. “Estoy segurísimo que a un apasionado de la estadística como es el le haría muchísima ilusión” añadió. Que a dos personas se les ocurra lo mismo con unas horas de margen tiene que ser una señal. así que el viernes por la mañana me puse a ello.

La mayoría de vosotros conocéis a Gabriel y seguro que leéis con entusiasmo sus posts. Esta va por ti, “Juntaletras“: espero que te guste y que te haga ilusión este adelantado regalo de Olentzero.

Con este análisis, a parte de sacarle una sonrisa a Gabriel, busco confirmar la idea de que sus posts tratan sobre atletismo / carreras populares. O quizás traten sobre el amor como en el caso de U2 y del BOSS…

Para empezar, me he hecho con los posts que ha publicado Gabriel en 2017 (hasta el viernes 15 de diciembre). 425 textos en total. Las he descargado de forma automatizada (en dos pasos) de blogspot.

Y, sin más, empiezo a jugar con las palabras.

La primera aproximación ofrece los siguientes datos:

En el histograma se aprecia que las palabras más utilizadas son (que, los, con, las, por,…). Parece que hay demasiadas palabras vacías (stopwords) que enmascaran el estudio. En forma de tabla se ve más claro:

Podemos utilizar una nube de palabras para representarlo de forma más visual.

En una segunda aproximación, elimino las stopwords del idioma inglés. Obtenemos los siguientes datos:

Probamos con la visualización en forma de tabla y comprobamos que, tal y como vaticinaba, el atletismo es el tema central de las publicaciones de Gabriel: metros, carrera, atletas, atleta, tiempo,… Se cuela Donostia, lo que nos indica que los posts hablan de atletismo y, sobre todo, de atletismo en Gipuzkoa.

Volvemos a utilizar una nube de palabras para representarlo de forma más visual.

En una tercera y última aproximación elimino las stopwords, los términos (bat, tres y dos) y agrupo los términos que aparecen en singular y en plural (año, atleta y carrera). El resultado es el siguiente:

Ahora sí que los patrones emergen con claridad y podemos afirmar que, tal y como sospechaba, el atletismo es el tema fundamental de las publicaciones de nuestro querido Juntaletras. Si omitiéramos los nombres propios, “maratón” y “mujeres” entrarían en el top10 en detrimento de “Mikel – puesto 7” y de “Jon – puesto 9”.

Dejamos las palabras de un lado y vamos con los números. 425 posts que se reparten de la siguiente forma a lo largo de los 12 meses:

Se ve que mantiene un ritmo bastante constante con la salvedad de Agosto, donde “se le disparan las pulsaciones”.

Curiosidades:

  • 425 posts.
  • 35 posts por mes de promedio
  • 260.057 palabras.
  • 612 palabras por post de promedio.
  • 1.383.475 letras. ¡Son muchas letras que juntar!
  • 3.255 letras por post de promedio.

Bueno Gabriel, espero que te guste el regalito que te hacemos Emi y Yo y ¡que sigas contándonos la actualidad del atletismo popular gipuzkoano!

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *