Música,  U2

U2 lyrics text mining by Album (sentiment analysis) / (análisis del sentimiento)

Continúo con mis análisis de las letras de las canciones de U2 (text mining). Hasta ahora, me he centrado en un análisis temático a través de las palabras más utilizadas en estos tres ámbitos.

En este caso voy a realizar un análisis “sentimental” para clasificar las canciones en “positivas” y “negativas”. Una canción positiva es aquella que obtiene una puntuación mayor que 0 en la función “score.sentiment” y una canción negativa es una canción que obtiene una puntuación menor que 0 en la función “score.sentiment“. Esta función evalúa el número de palabras positivas y de palabras negativas contenidas en la canción en base a sendos diccionarios de palabras positivas y negativas.

El presente estudio abarca los siguientes álbumes de los irlandeses:

  • Boy.
  • October.
  • War.
  • Under A Blood Red Sky.
  • The Unforgettable Fire.
  • Wide Awake In America.
  • The Joshua Tree.
  • Rattle and Hum.
  • Achtung Baby.
  • Zooropa.
  • Pop.
  • All That You Can’t Leave Behind.
  • How To Dismantle An Atomic Bomb.
  • No Line On The Horizon.
  • Songs of Innocence.
  • Songs Of Experience.
  • Other Album (abarca canciones que no han sido editadas en álbumes de estudio sino en recopilatorios, singles, etc.).

Lo primero que hago es “partir” (untoken) la letra de cada canción de cada disco en palabras (mi token es palabra). Luego, comparo la lista de palabras obtenidas con dos diccionarios de referencia: uno de palabras “positivas” y  otro de palabras “negativas“.

Cuento las palabras positivas y las palabras negativas de cada canción y obtengo la diferencia entre las primeras y las segundas. El resultado es un valor que indica lo positiva o negativa que es una canción. Siempre desde el punto de vista de las palabras individuales y de los diccionarios de hu.liu.

Las 10 canciones más “positivas” son:

Y las 10 canciones más “negativas” son:

Por último, calculo la “positividad” o la “negatividad” de cada disco y esta es el resultado:

Así queda la clasificación de los álbumes, con “Other album“como álbum más positivo y “No Line On The Horizon” como disco oficial más positivo y con “October” como álbum más negativo.

Al acabar este ejercicio se me ocurrió crear una tabla con las tres palabras más usadas de cada disco y su puntuación. Este es el resultado:

Ordenamos los discos por la variable “Score“:

Casualidad o no, el amor pierde peso en los primeros puestos cuando la puntuación (“Score“) se vuelve negativa.

Hasta pronto amigos lectores.

Los diccionarios de palabras “positivas” y “negativas” se han descargado de Minqing Hu and Bing Liu. “Mining and Summarizing Customer Reviews.” 
Proceedings of the ACM SIGKDD International Conference on Knowledge 
Discovery and Data Mining (KDD-2004), Aug 22-25, 2004, Seattle, 
Washington, USA.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *