datacy - data driven decisions


Social Data Text Mining
¿De qué se habló en España en 2020?
Datos extraídos de los titulares de el diario El Pais en 2020
Actualizado a octubre de 2020.
Elaborado por datacy.

0. Introducción

Para el presente estudio me he basado en los titulares de las portadas diarias de el diario El Pais.

He agrupado los titulares por meses para ver la evolución de los temas más tratados a lo largo del año.

He utilizado técnicas de minería de datos para recoger la información, extraer las palabras más repetidas y visualizarlas en forma de nube de palabras.

1. Metodología de trabajo

De manera muy resumida, este es el proceso seguido para obtener el resultado final (la nube de palabras de cada mes):

  • Lectura automatizada de los tirulares de la portada de cada día.

  • Agrupación de los titulares por mes.

  • Extracción de las palabras contenidas en cada titular –> creación del corpus.

  • Eliminación de palabras vacías del corpus (artículos, preposiciones, etc.)

  • Agrupación y resumen de frecuencias por cada término.

  • Creación de la nube de palabras (visualización).

2. Resultados año 2020

2.1. Enero

En los 115 titulares analizados, he contabilizado 747 palabras (una vez excluídas las palabras vacías).

Estas son las palabras más utilizadas en el mes de enero:
Terms value Peso (%)
1 sánchez 16 2.14
3 gobierno 9 1.20
4 torra 6 0.80
5 psoe 6 0.80
6 española 5 0.67
7 wuhan 5 0.67
8 china 5 0.67
9 erc 5 0.67
10 poder 5 0.67
11 avión 4 0.54

2.2. Febrero

En los 82 titulares analizados, he contabilizado 526 palabras (una vez excluídas las palabras vacías).

Estas son las palabras más utilizadas en el mes de febrero:
Terms value Peso (%)
1 coronavirus 12 2.28
3 mobile 6 1.14
4 gobierno 5 0.95
5 trump 4 0.76
6 expansión 3 0.57
7 caso 3 0.57
8 virus 3 0.57
9 presión 3 0.57
10 venezuela 3 0.57
11 ley 3 0.57

2.3. Marzo

En los 101 titulares analizados, he contabilizado 617 palabras (una vez excluídas las palabras vacías).

Estas son las palabras más utilizadas en el mes de marzo:
Terms value Peso (%)
1 coronavirus 26 4.21
2 virus 11 1.78
4 muertos 7 1.13
5 pandemia 7 1.13
6 gobierno 7 1.13
7 epidemia 6 0.97
8 madrid 6 0.97
9 crisis 5 0.81
10 sanidad 5 0.81
11 contagiados 5 0.81

2.4. Abril

En los 89 titulares analizados, he contabilizado 636 palabras (una vez excluídas las palabras vacías).

Estas son las palabras más utilizadas en el mes de abril:
Terms value Peso (%)
1 coronavirus 26 4.09
2 muertos 16 2.52
3 registra 13 2.04
4 cifra 13 2.04
5 fallecidos 10 1.57
6 diarios 10 1.57
7 horas 7 1.10
8 virus 7 1.10
10 gobierno 6 0.94
11 contagios 6 0.94

2.5. Mayo

En los 89 titulares analizados, he contabilizado 619 palabras (una vez excluídas las palabras vacías).

Estas son las palabras más utilizadas en el mes de mayo:
Terms value Peso (%)
1 coronavirus 14 2.26
2 fase 11 1.78
3 gobierno 10 1.62
4 fallecidos 8 1.29
5 madrid 6 0.97
6 desescalada 6 0.97
8 sánchez 4 0.65
9 sanidad 4 0.65
10 civil 4 0.65
11 crisis 4 0.65

2.6. Junio

En los 81 titulares analizados, he contabilizado 582 palabras (una vez excluídas las palabras vacías).

Estas son las palabras más utilizadas en el mes de junio:
Terms value Peso (%)
1 gobierno 7 1.20
3 residencias 6 1.03
4 fronteras 5 0.86
5 madrid 5 0.86
6 coronavirus 5 0.86
7 virus 4 0.69
8 alarma 4 0.69
9 comunidad 3 0.52
10 millones 3 0.52
11 unidos 3 0.52

2.7. Julio

En los 76 titulares analizados, he contabilizado 541 palabras (una vez excluídas las palabras vacías).

Estas son las palabras más utilizadas en el mes de julio:
Terms value Peso (%)
2 virus 8 1.48
3 gobierno 6 1.11
4 cuarentena 5 0.92
5 contagios 5 0.92
6 lleida 4 0.74
7 fondo 4 0.74
8 sánchez 4 0.74
9 casos 4 0.74
10 brotes 3 0.55
11 galicia 3 0.55

2.8. Agosto

En los 80 titulares analizados, he contabilizado 534 palabras (una vez excluídas las palabras vacías).

Estas son las palabras más utilizadas en el mes de agosto:
Terms value Peso (%)
1 vuelta 7 1.31
2 casos 7 1.31
3 madrid 6 1.12
4 sanidad 6 1.12
5 coronavirus 6 1.12
6 mayor 6 1.12
8 gobierno 5 0.94
9 contagios 5 0.94
10 registra 5 0.94
11 sánchez 4 0.75

2.9. Septiembre

En los 80 titulares analizados, he contabilizado 550 palabras (una vez excluídas las palabras vacías).

Estas son las palabras más utilizadas en el mes de septiembre:
Terms value Peso (%)
1 madrid 26 4.73
2 gobierno 11 2.00
3 sánchez 8 1.45
4 coronavirus 7 1.27
6 restricciones 5 0.91
7 ola 5 0.91
8 segunda 5 0.91
9 contagios 4 0.73
10 zonas 4 0.73
11 illa 4 0.73

2.10. Octubre

En los 58 titulares analizados, he contabilizado 388 palabras (una vez excluídas las palabras vacías).

Estas son las palabras más utilizadas en el mes de octubre:
Terms value Peso (%)
1 madrid 17 4.38
2 pandemia 7 1.80
3 gobierno 5 1.29
5 comunidad 4 1.03
6 sanidad 4 1.03
7 alarma 4 1.03
8 restricciones 3 0.77
9 abascal 3 0.77
10 vox 3 0.77
11 casado 3 0.77

2.11. Noviembre

En los 69 titulares analizados, he contabilizado 431 palabras (una vez excluídas las palabras vacías).

Estas son las palabras más utilizadas en el mes de noviembre:
Terms value Peso (%)
1 biden 12 2.78
3 trump 7 1.62
4 ganador 5 1.16
5 gobierno 4 0.93
6 coronavirus 4 0.93
7 presidente 4 0.93
8 victoria 4 0.93
9 bbva 3 0.70
10 fusión 3 0.70
11 sabadell 3 0.70

2.12. Diciembre

En los 66 titulares analizados, he contabilizado 410 palabras (una vez excluídas las palabras vacías).

Estas son las palabras más utilizadas en el mes de noviembre:
Terms value Peso (%)
1 navidad 6 1.46
3 covid 5 1.22
4 vacuna 5 1.22
5 europa 4 0.98
6 judicial 4 0.98
7 virus 4 0.98
8 supremo 3 0.73
9 gobierno 3 0.73
10 muertes 3 0.73
11 millones 3 0.73

2.13. Resumen del año

En los 986 titulares analizados, he contabilizado 6.584 palabras (una vez excluídas las palabras vacías).

Estas son las palabras más utilizadas en el año 2019:
Terms value Peso (%)
1 coronavirus 110 1.67
3 madrid 80 1.22
4 gobierno 78 1.18
5 sánchez 52 0.79
6 virus 49 0.74
7 sanidad 36 0.55
8 pandemia 33 0.50
9 contagios 32 0.49
10 muertos 31 0.47
11 crisis 29 0.44