datacy - data driven decisions


Social Data Text Mining
¿De qué se habló en España en 2019?
Datos extraídos de los titulares de el diario El Pais en 2019
Actualizado a octubre de 2020.
Elaborado por datacy.

0. Introducción

Para el presente estudio me he basado en los titulares de las portadas diarias de el diario El Pais.

He agrupado los titulares por meses para ver la evolución de los temas más tratados a lo largo del año.

He utilizado técnicas de minería de datos para recoger la información, extraer las palabras más repetidas y visualizarlas en forma de nube de palabras.

1. Metodología de trabajo

De manera muy resumida, este es el proceso seguido para obtener el resultado final (la nube de palabras de cada mes):

  • Lectura automatizada de los tirulares de la portada de cada día.

  • Agrupación de los titulares por mes.

  • Extracción de las palabras contenidas en cada titular –> creación del corpus.

  • Eliminación de palabras vacías del corpus (artículos, preposiciones, etc.)

  • Agrupación y resumen de frecuencias por cada término.

  • Creación de la nube de palabras (visualización).

2. Resultados año 2019

2.1. Enero

En los 104 titulares analizados, he contabilizado 673 palabras (una vez excluídas las palabras vacías).

Estas son las palabras más utilizadas en el mes de enero:
Terms value Peso (%)
2 julen 7 1.04
3 maduro 6 0.89
4 gobierno 6 0.89
5 vox 6 0.89
6 madrid 5 0.74
7 podemos 5 0.74
8 guaidó 4 0.59
9 venezuela 4 0.59
10 busca 4 0.59
11 política 4 0.59

2.2. Febrero

En los 114 titulares analizados, he contabilizado 659 palabras (una vez excluídas las palabras vacías).

Estas son las palabras más utilizadas en el mes de febrero:
Terms value Peso (%)
1 gobierno 9 1.37
2 sánchez 9 1.37
4 maduro 8 1.21
5 juicio 8 1.21
6 elecciones 7 1.06
7 guaidó 7 1.06
8 ‘procés’ 7 1.06
9 ciudadanos 6 0.91
10 directo 5 0.76
11 trump 5 0.76

2.3. Marzo

En los 112 titulares analizados, he contabilizado 632 palabras (una vez excluídas las palabras vacías).

Estas son las palabras más utilizadas en el mes de marzo:
Terms value Peso (%)
2 psoe 6 0.95
3 voto 6 0.95
4 brexit 5 0.79
5 madrid 5 0.79
6 batalla 4 0.63
7 gobierno 4 0.63
8 listas 4 0.63
9 niños 3 0.47
10 vacía 3 0.47
11 escaños 3 0.47

2.4. Abril

En los 114 titulares analizados, he contabilizado 653 palabras (una vez excluídas las palabras vacías).

Estas son las palabras más utilizadas en el mes de abril:
Terms value Peso (%)
1 sánchez 10 1.53
2 debate 9 1.38
3 derecha 8 1.23
5 campaña 7 1.07
6 gobierno 6 0.92
7 iglesias 6 0.92
8 rivera 6 0.92
9 psoe 4 0.61
10 semana 3 0.46
11 ciudadanos 3 0.46

2.5. Mayo

En los 120 titulares analizados, he contabilizado 675 palabras (una vez excluídas las palabras vacías).

Estas son las palabras más utilizadas en el mes de mayo:
Terms value Peso (%)
1 sánchez 10 1.48
2 psoe 9 1.33
3 madrid 7 1.04
4 podemos 6 0.89
5 gobierno 6 0.89
6 calle 5 0.74
7 congreso 5 0.74
8 casado 5 0.74
9 europea 4 0.59
11 crisis 4 0.59

2.6. Junio

En los 104 titulares analizados, he contabilizado 641 palabras (una vez excluídas las palabras vacías).

Estas son las palabras más utilizadas en el mes de junio:
Terms value Peso (%)
1 madrid 12 1.87
2 vox 11 1.72
3 sánchez 10 1.56
5 investidura 7 1.09
6 trump 6 0.94
7 iglesias 6 0.94
8 colau 6 0.94
9 poder 5 0.78
10 ciudadanos 5 0.78
11 gobierno 4 0.62

2.7. Julio

En los 102 titulares analizados, he contabilizado 605 palabras (una vez excluídas las palabras vacías).

Estas son las palabras más utilizadas en el mes de julio:
Terms value Peso (%)
1 sánchez 16 2.64
2 podemos 12 1.98
4 psoe 8 1.32
5 investidura 8 1.32
6 iglesias 7 1.16
7 madrid 5 0.83
8 gobierno 5 0.83
9 acuerdo 4 0.66
10 posible 3 0.50
11 primera 3 0.50

2.8. Agosto

En los 99 titulares analizados, he contabilizado 606 palabras (una vez excluídas las palabras vacías).

Estas son las palabras más utilizadas en el mes de agosto:
Terms value Peso (%)
1 Open Arms 8 1.32
3 gobierno 7 1.16
4 podemos 6 0.99
5 psoe 6 0.99
6 elecciones 5 0.83
7 sánchez 4 0.66
8 china 4 0.66
9 salvini 4 0.66
11 inmigrantes 3 0.50
12 control 3 0.50

2.9. Septiembre

En los 109 titulares analizados, he contabilizado 664 palabras (una vez excluídas las palabras vacías).

Estas son las palabras más utilizadas en el mes de septiembre:
Terms value Peso (%)
2 sánchez 7 1.05
3 gobierno 5 0.75
4 elecciones 5 0.75
5 psoe 4 0.60
6 partidos 4 0.60
7 brexit 4 0.60
8 bloqueo 3 0.45
9 político 3 0.45
10 centro 3 0.45
11 madrid 3 0.45

2.10. Octubre

En los 125 titulares analizados, he contabilizado 763 palabras (una vez excluídas las palabras vacías).

Estas son las palabras más utilizadas en el mes de octubre:
Terms value Peso (%)
1 barcelona 11 1.44
2 torra 10 1.31
3 franco 8 1.05
4 gobierno 7 0.92
5 sánchez 7 0.92
6 ‘procés’ 7 0.92
8 disturbios 6 0.79
9 exhumación 6 0.79
10 mossos 6 0.79
11 violencia 6 0.79

2.11. Noviembre

En los 95 titulares analizados, he contabilizado 579 palabras (una vez excluídas las palabras vacías).

Estas son las palabras más utilizadas en el mes de noviembre:
Terms value Peso (%)
1 sánchez 12 2.07
2 psoe 11 1.90
3 vox 8 1.38
5 10n 6 1.04
6 iglesias 6 1.04
7 bloqueo 5 0.86
8 erc 5 0.86
9 elecciones 4 0.69
10 político 4 0.69
11 gobierno 4 0.69

2.12. Diciembre

En los 104 titulares analizados, he contabilizado 650 palabras (una vez excluídas las palabras vacías).

Estas son las palabras más utilizadas en el mes de noviembre:
Terms value Peso (%)
1 psoe 10 1.54
2 erc 10 1.54
4 investidura 9 1.38
5 sánchez 9 1.38
6 madrid 8 1.23
7 junqueras 6 0.92
8 gobierno 6 0.92
9 vox 6 0.92
10 abogacía 4 0.62
11 2019 4 0.62

2.13. Resumen del año

En los 1.302 titulares analizados, he contabilizado 7.813 palabras (una vez excluídas las palabras vacías).

Estas son las palabras más utilizadas en el año 2019:
Terms value Peso (%)
1 sánchez 99 1.27
3 psoe 71 0.91
4 gobierno 69 0.88
5 madrid 52 0.67
6 vox 50 0.64
7 podemos 47 0.60
8 iglesias 37 0.47
9 elecciones 33 0.42
10 investidura 31 0.40
11 trump 27 0.35