Comparto con vosotros mi primera incursión en la minería de texto (text mining) y lo hago de la mano de una de mis pasiones, U2. Para los que, como yo hasta hace bien poco no sepáis lo que es esto del text mining, os pongo un extracto de lo que dice la wikipedia.
“La minería de texto, también conocida como minería de datos de texto y más o menos equivalente a la analítica de texto, es el proceso de derivar información de alta calidad del texto. La información de alta calidad se obtiene típicamente a través de la elaboración de patrones y tendencias a través de medios tales como el aprendizaje estadístico de patrones. La minería de texto generalmente implica el proceso de estructurar el texto de entrada (generalmente el análisis, junto con la adición de algunas características lingüísticas derivadas y la eliminación de otras, y su posterior inserción en una base de datos), derivar patrones dentro de los datos estructurados y finalmente evaluar e interpretar de la salida. La “alta calidad” en la minería de textos generalmente se refiere a una combinación de relevancia, novedad e interés. Las tareas de minería de texto típicas incluyen categorización de texto, agrupamiento de texto, extracción de concepto / entidad, producción de taxonomías granulares, análisis de sentimiento, resumen de documento y modelado de relaciones de entidad (es decir, relaciones de aprendizaje entre entidades con nombre).”
¿Qué es lo que busco con este estudio? Sencillo: busco confirmar la idea de que la música en general y la de los dublineses en particular, trata sobre el amor (love). Más concretamente, si lo hace de forma explícita, esto es, a través de las letras de sus canciones.
Para empezar, me he hecho con las letras de todas las canciones de U2 que tienen letra. 211 canciones en total (incluyendo las de su hasta ahora último disco – Songs of Experience). Las he descargado de forma automatizada de la página oficial del grupo. Por otro lado, me he descargado un listado con las canciones que contiene cada álbum (para un estudio posterior pormenorizado por álbum).
Cruzando ambas tablas, obteniendo una nueva tabla con la letra de cada canción y el álbum al que pertenece la misma. Ahora es cuando empieza el juego con las palabras.
La primera aproximación ofrece los siguientes datos:
- 33.263 palabras utilizadas en las 211 canciones. Un promedio de 158 palabras por canción.
- 3.523 frecuencias (palabras únicas) utilizadas en las 211 canciones. Un 11%.
En el histograma se aprecia que las palabras más utilizadas son (the, you, and, love,…). Parece que se van cumpliendo los presagios pero hay una serie de palabras vacías (stopwords) que enmascaran el estudio. En forma de tabla se ve más claro:
Podemos utilizar una nube de palabras para representarlo de forma más visual.
En una segunda aproximación, elimino las stopwords del idioma inglés. Obtenemos los siguientes datos:
- 22.168 palabras utilizadas en las 211 canciones. Un promedio de 105 palabras por canción.
- 3.489 frecuencias (palabras únicas) utilizadas en las 211 canciones. Un 16%.
Probamos con la visualización en forma de tabla y comprobamos que, tal y como vaticinaba, el amor (love) ocupa el primer lugar de forma destacada:
Volvemos a utilizar una nube de palabras para representarlo de forma más visual.
En una tercera y última aproximación, elimino los términos (can, cant, get, got y dont) de forma manual y obtengo los siguientes resultados:
Tal y como sospechaba, el amor es el tema fundamental de las canciones de u2.
Próximamente un análisis por álbum y, si me animo y tengo tiempo, me meto con algún otro grupo: se admiten sugerencias.