destacadas,  Negocio,  Política

NoHablamosHacemos: análisis desde Twitter

Con motivo de la celebración del día internacional de la mujer el pasado viernes, se me ocurrió realizar una escucha en Twitter. Como suelo hacer siempre, primero me documento sobre el tema para buscar las palabras (hashtags) más relevantes sobre el tema que quiero escuchar.

Navegando por Internet me encontré con esta noticia en la que, en resumidas cuentas, contaba cómo Podemos y PP se preparaban para las movilizaciones del 8M. Cada partido con su hashtag, a modo de batalla por la supremacía en del feminismo. No huele a elecciones ni nada.

Decidí aprovecharme de la «pelea» y decidí escuchar ambos hashtags. Como las escuchas en streaming consumen muchos recursos, descargué los tweets a posteriori, haciendo dos descargas de 3.200 tweets para cada hashtag.

Estas fueron las cifras totales:

  • #NadaNosPara8M (el hashtag de Podemos): 5.801 tweets entre las 8:30:04 y las 13:49:16.
    #NoHablamosHacemos (el hashtag de Podemos): 5.539 tweets entre las 20:36:06 (7 de marzo) y las 13:50:39 (8 de marzo).

Hoy centraré el análisis en la red que se crea tras escuchar al hashtag del PP – #NoHablamosHacemos.

Se trata de una red con 1.879 nodos (usuarios únicos de Twitter) y 2.677 aristas. Algunos de sus parámetros son:
  • Densidad: 0,076%. De todas las posibles aristas (si todos los usuarios estuvieran conectados con todos), la red sólo dispone del 0,072% de las mismas. ¿Es mucho o poco? La mejor forma de calcularlo es confrontarlo con otros grafos similares. Esto es relativamente sencillo de calcularlo con programación en, por ejemplo, R. Confrontamos la distancia media de nuestro grafo con la de 1.000 grafos aleatorios con parámetros similares (igual número de nodos y densidad aproximadamente igual). Este es el resultado:
La densidad del grafo es la que cabría esperar para una red de sus características.
  • Distancia media: 1,71 saltos (aristas). ¿La comparamos con nuestras redes aleatorias?
La distancia media es notablemente inferior a la que cabría esperar (ni aparece en la gráfica). La red está muy bien interconectada y el flujo entre vértices es muy rápido.

También podemos detectar a los usuarios más influyentes gracias a ciertos parámetros derivados de sus comportamiento en la red (he pseudonimizado los nombres de usuario por protección de datos):

  • Grado o número de conexiones: conexiones entrantes (retweets recibidos), salientes (retweets realizados) y totales (la suma de ambas). Top5 usuarios (anonimizados):
top5 usuarios por grado
  • Betweenness: mide la importancia de un nodo (usuario) en la red desde el punto de vista del flujo de información. Cuanto más alto sea el valor del parámetro, más relevante será el usuario para la conectividad global de la red.
top5 usuarios por betweenness
  • Eigenvector: mide lo bien conectado que está un nodo, especialmente, lo bien conectado que está con otros nodos que, a su vez, están bien conectados.
top5 usuarios por eigenvector

Gracias al paquete graphjs y a la función threejs de R, podemos plotear las redes de forma interactiva. Esta es la red sin asignar pesos a los nodos. Podéis girarla y hacer zoom para acceder a cualquier nodo.

En la siguiente animación, el tamaño de los nodos es proporcional a su valor Eigen, a su poder de influencia en la red:

Estas son las palabras más utilizadas en los tweets recogidos en forma de nube de palabras:

La red que se crea con el hashtag del PP es más densa que la de Podemos, siendo muy poco densas en ambos casos.

En ambas redes hay una figura que destaca sobre las demás. Se admiten apuestas.

Pronto más.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *