En los últimos meses os he dado unos cuantos datos sobre la música y sobre los conciertos de la banda irlandesa U2. En concreto, en este artículo, hacía un análisis sobre los setlist de los conciertos aplicando el algoritmo “reglas de asociación – association rules“.
¿Qué son las reglas de asociación? Para los que estéis menos versados en minería de datos y aprendizaje automático (machine learning), las reglas de asociación se utilizan para descubrir hechos que ocurren en común dentro de un determinado conjunto de datos, patrones de repetición. Aplicado a los conciertos de U2, busco conjuntos de canciones (parejas, tríos, etc.) que se repitan juntas en muchos conciertos.
Nuestras reglas de asociación U2-eras van a tener este aspecto:
Para evaluar la bondad de una regla se utilizan 4 parámetros:
- support: el respaldo que tiene la regla. El número de conciertos en los que aparecen los elementos de la izquierda (lhs) y los de la derecha (rhs) entre el total de conciertos.
- confidence: el número de conciertos en los que aparecen los elementos de la izquierda (lhs) y los de la derecha (rhs) entre el total de conciertos en los que aparecen los elementos del lado izquierdo (lhs).
- expected confidence: confianza esperable. El número de conciertos en los que aparecen los elementos de la derecha (rhs) entre el total de conciertos.
- lift: estadístico que compara la frecuencia observada de una regla con la frecuencia esperada simplemente por azar (si la regla no existe realmente). Cuanto más se aleje el valor de lift de 1, más evidencias de que la regla no se debe a un artefacto aleatorio, es decir, mayor la evidencia de que la regla representa un patrón real. Se calcula dividiendo la confianza entre la confianza esperable.
Continuando con este análisis, me he propuesto buscar cuáles han sido los conciertos más raros que U2 ha dado (hasta la fecha). El estudio se ha realizado teniendo en cuenta 1.620 conciertos ofrecidos entre el 1 de octubre de 1976 y el 28 de octubre de 2018.
De entre las 48.583 reglas, he seleccionado aquellas con un soporte mayor que 0.4 y he obtenido 36 reglas. He buscado qué conciertos incumplen cada una de las reglas y he obtenido el número de reglas “incumplidas” por cada concierto. A mayor número de reglas incumplidas, mayor rareza del concierto. Raro como antónimo de estándar, convencional. En ningún caso, como sinómino de malo. De hecho, los valores raros o anómalos (outliers) suelen ser joyas que hay que analizar con mucho cuidado en el entorno empresarial.
Estas son las 36 reglas obtenidas que, como véis, involucran a 6 canciones: Bullet The Blue Sky, One, Pride (In The Name of Love), Sunday Bloody Sunday, Where The Streets Have No Name y With or Without You.
La regla R33, por ejemplo, ha sido “incumplida” en 251 conciertos. Esto es, en 251 conciertos U2 ha interpretado Pride (In The Name of Love) y no ha interpretado Bullet The Blue Sky.
En el siguiente gráfico pinto las reglas en función de la confianza (confidence) y del soporte (support). Mediante el color represento el lift y mediante el tamaño, el número de conciertos que incumplen cada regla.
Los conciertos más raros (según el criterio anteriormente mencionado) son 6 shows de la pequeña gira “Lovetown Tour“, cada uno de los cuáles no cumple 11 de las 36 reglas de asociación con mayor soporte.
En defensa de estos 6 shows, he de decir que las reglas 30 y 36 no deberíamos tenérselas en cuenta ya que One aparece en el lado derecho (rhs) y fue publicada en 1991 y esta gira se desarrolló entre finales de 1989 y principios de 1990.
Si agrupamos los conciertos “incumplidores – raros” por gira, este es el resultado:
La gira 360º Tour es la que más rarezas acumula, con 826 reglas “incumplidas” y ATYCLB Tour la que menos, con tan solo 2 reglas “incumplidas”. Las giras Boy Tour y October Tour se libran porque ninguna de las 6 canciones que conforman las 36 reglas, habían sido publicadas cuando se celebraron las mismas.
Si analizamos la dimensión temporal, estas son las reglas por día (día/mes):
En términos absolutos, el 1 de diciembre es el día en el que más reglas se han incumplido, con 43 registros. En el otro extremo, tenemos muchos días con ninguna regla incumplida. Como este dato por sí solo dice poco ya que no todos los días ha habido el mismo número de conciertos, calculamos el ratio número de reglas / número de shows y este es el resultado:
En términos relativos, el 27 de diciembre es el día más raro, con 11 reglas incumplidas en un único show, esto es, 11 reglas/show.
Si nos fijamos en los meses, octubre (october) es el mes menos convencional, con 436 reglas incumplidas y enero (january) es el mes más convencional (y en el que menos conciertos ha ofrecido U2) con 77 reglas incumplidas.
Si nos fijamos en los días de la semana, el sábado (saturday) es el día menos convencional, con 735 reglas incumplidas y el jueves (thursday) es el día más convencional con 418 reglas incumplidas.
¿Os imagináis el potencial que tiene este algoritmo en el mundo comercial? ¿Clientes que no compran productos que deberían comprar? ¿Productos que suelen comprarse junto a otros? ¿Colocación de productos en un almacén? ¿Promoción de productos? ¿Packs de productos? ¿Días en los que no se venden tantos productos como se esperaba?…
A vuestra disposición, datacy.
¡Hasta pronto!
#u2 #u2shows #music #data #datascience #datascientist #machinelearning #bigdata #artificialinteligence #ai #ia #inteligenciaartificial #aprendizajeautomatico #insights #asociationrules #reglasdeasociacion #soporte #confianza #datacy #datadrivendecisions