(Elecciones Generales 2019 – 10N)
Ya estamos al borde de una nueva campaña electoral y no sé si os pasa a vosotros pero Yo tengo la sensación de vivir en una campaña continua. Me pasa como con las rebajas (antaño muy bien acotadas y ahora se encadenan las rebajas con las “mid season sales” con el black friday,…).
Una vez más, me he propuesto analizar los programas electorales de unos cuantos partidos y tratar de representarlos en dos ejes.
He “analizado” los programas electorales de estos 6 partidos políticos:
- PSOE.
- PP.
- Ciudadanos.
- Unidas Podemos.
- VOX.
- PACMA.
¿En qué consiste el análisis?
El análisis consiste en leer los pdfs (de manera automatizada con la función pdf_text de R) y crear un corpus con las palabras contenidas en los mismos.
Elimino las palabras vacías (stopwords) y cuento las veces que aparece cada término y creo una tabla ordenada por frecuencia de aparición. Para cada término cuento el número de apariciones y el peso relativo dentro del programa (apariciones entre total de palabras).
Cuando tengo la tabla de cada partido, las junto todas en una única tabla y hago un resumen de dicha tabla, obteniendo el número total de apariciones de cada término.
Selecciono los 18 términos más representativos (los 20 con mayor número de apariciones) y vuelvo a bajar al nivel de partido.
Para cada partido extraigo estas 18 palabras de su tabla de frecuencias original y las guardo en una nueva tabla (un dataframe). En caso de que alguna(s) de la(s) palabra(s) top18 no estuviera presente en el programa del partido, se crea la instancia con valor 0.
¿Cómo represento a los partidos en un plano?
Tengo un espacio con 18 dimensiones (cada una de las palabras seleccionadas) pero quiero pintar a los partidos en dos ejes… Acudo a un algoritmo de reducción dimensional como el análisis de componentes principales. El algoritmo crea nuevas variables (dimensiones) a partir de combinaciones lineales de las variables existentes (las palabras).
Cada variable explica una cantidad de la variabilidad contenida en los datos. Yo he elegido las dos primeras para una representación visualmente sencilla.
¿Queréis ver los resultados?
Cuando los 4 grandes partidos nacionales entran en juego… con dos dimensiones somos capaces explicar el 92,7% de la variabilidad. El resultado es bastante curioso. A priori podríamos pensar que la dimensión 1 (horizontal) representa el eje izquierda – derecha… salvo por Ciudadanos, que se pasa al extremo izquierda..
Si incorporamos a VOX a la ecuación… la variabilidad capturada baja hasta el 81,1% (la representación es peor). Se sigue respetando el clásico orden izquierda – derecha (con la excepción de Ciudadanos).
¿Y si incorporamos a un partido con postulados radicalmente diferente a los postulados del resto de partidos? Vamos con PACMA. La variabilidad capturada con dos dimensiones sube hasta el 82,1% y parece que, ahora, el eje izquierda – derecha viene representado por la dimensión 2 (en vertical). Introducir en la ecuación a un partido con propuestas tan diferentes provoca que se amplíe el espectro y que los partidos más “tradicionales” se compriman.
¿Qué pasa con Ciudadanos?
En primer lugar, el programa electoral que he encontrado en su página Web es muy esquemático y esto motiva que los pesos de las palabras clave se disparen.
La palabra personas, por ejemplo, tiene un peso del 4,42% en Ciudadanos frente a un promedio del 0,27% en el resto de los 5 partidos.
Con los datos de que dispongo este es el “curioso” resultado.
Solo espero que a la segunda sea la vencida y que, tras las próximas elecciones, no tenga que escribir algo parecido a esto que publiqué el pasado 27 de marzo.
datacy – data driven decisions.