datacy - data driven decisions


Social Data Text Mining
¿De qué se habló en Gipuzkoa en 2020?
Datos extraídos de los titulares del Diario Vasco en 2020
Actualizado a octubre de 2020.
Elaborado por datacy.

0. Introducción

Para el presente estudio me he basado en los titulares de las portadas diarias de el diario El Diario Vasco.

He agrupado los titulares por meses para ver la evolución de los temas más tratados a lo largo del año.

He utilizado técnicas de minería de datos para recoger la información, extraer las palabras más repetidas y visualizarlas en forma de nube de palabras.

1. Metodología de trabajo

De manera muy resumida, este es el proceso seguido para obtener el resultado final (la nube de palabras de cada mes):

  • Lectura automatizada de los tirulares de la portada de cada día.

  • Agrupación de los titulares por mes.

  • Extracción de las palabras contenidas en cada titular –> creación del corpus.

  • Eliminación de palabras vacías del corpus (artículos, preposiciones, etc.). También se han eliminado las palabras “Donostia” “Gipuzkoa”, “Euskadi”, “Gobierno” y “Vasco” ya que, tratándose de El Diario Vasco, se sobreentiende el contexto geográfico.

  • Agrupación y resumen de frecuencias por cada término.

  • Creación de la nube de palabras (visualización).

2. Resultados año 2020

2.1. Enero

En los 155 titulares analizados, he contabilizado 915 palabras (una vez excluídas las palabras vacías).

Estas son las palabras más utilizadas en el mes de enero:
Terms value Peso (%)
sánchez 17 1.86
investidura 7 0.77
erc 6 0.66
euros 5 0.55
tamborrada 5 0.55
podemos 4 0.44
política 4 0.44
fiesta 4 0.44
consulta 3 0.33
pacto 3 0.33

2.2. Febrero

En los 145 titulares analizados, he contabilizado 815 palabras (una vez excluídas las palabras vacías).

Estas son las palabras más utilizadas en el mes de febrero:
Terms value Peso (%)
coronavirus 13 1.60
vertedero 12 1.47
zaldibar 11 1.35
real 7 0.86
aire 6 0.74
españa 5 0.61
eibar 5 0.61
contaminación 5 0.61
alerta 5 0.61
vecinos 5 0.61

2.3. Marzo

En los 153 titulares analizados, he contabilizado 840 palabras (una vez excluídas las palabras vacías).

Estas son las palabras más utilizadas en el mes de marzo:
Terms value Peso (%)
coronavirus 30 3.57
contagios 11 1.31
día 10 1.19
residencias 10 1.19
mayores 9 1.07
medidas 8 0.95
casos 7 0.83
españa 7 0.83
virus 7 0.83
positivos 6 0.71

2.4. Abril

En los 139 titulares analizados, he contabilizado 782 palabras (una vez excluídas las palabras vacías).

Estas son las palabras más utilizadas en el mes de abril:
Terms value Peso (%)
coronavirus 18 2.30
niños 13 1.66
salir 12 1.53
mascarillas 11 1.41
sánchez 10 1.28
desescalada 10 1.28
residencias 9 1.15
mayores 8 1.02
crisis 6 0.77
actividad 5 0.64

2.5. Mayo

En los 149 titulares analizados, he contabilizado 822 palabras (una vez excluídas las palabras vacías).

Estas son las palabras más utilizadas en el mes de mayo:
Terms value Peso (%)
fase 16 1.95
lunes 10 1.22
coronavirus 9 1.09
desescalada 9 1.09
mascarillas 8 0.97
calle 7 0.85
sanidad 7 0.85
salir 6 0.73
playa 6 0.73
vuelta 6 0.73

2.6. Junio

En los 146 titulares analizados, he contabilizado 851 palabras (una vez excluídas las palabras vacías).

Estas son las palabras más utilizadas en el mes de junio:
Terms value Peso (%)
brote 9 1.06
fase 8 0.94
normalidad 8 0.94
desescalada 7 0.82
alarma 7 0.82
casos 7 0.82
españa 7 0.82
contagio 6 0.71
contagios 6 0.71
covid19 5 0.59

2.7. Julio

En los 155 titulares analizados, he contabilizado 904 palabras (una vez excluídas las palabras vacías).

Estas son las palabras más utilizadas en el mes de julio:
Terms value Peso (%)
ordizia 14 1.55
virus 13 1.44
contagios 12 1.33
positivos 11 1.22
foco 9 1.00
salud 9 1.00
mascarilla 9 1.00
casos 8 0.88
pnv 6 0.66
casa 5 0.55

2.8. Agosto

En los 152 titulares analizados, he contabilizado 958 palabras (una vez excluídas las palabras vacías).

Estas son las palabras más utilizadas en el mes de agosto:
Terms value Peso (%)
contagios 15 1.57
casos 9 0.94
vascos 9 0.94
salud 8 0.84
restricciones 7 0.73
covid 6 0.63
día 6 0.63
positivos 5 0.52
positivo 5 0.52
rey 5 0.52

2.9. Septiembre

En los 149 titulares analizados, he contabilizado 870 palabras (una vez excluídas las palabras vacías).

Estas son las palabras más utilizadas en el mes de septiembre:
Terms value Peso (%)
covid 16 1.84
aulas 10 1.15
pandemia 8 0.92
casos 8 0.92
covid19 7 0.80
contagios 7 0.80
virus 7 0.80
vuelta 7 0.80
segunda 6 0.69
vacuna 6 0.69

2.10. Octubre

En los 155 titulares analizados, he contabilizado 828 palabras (una vez excluídas las palabras vacías).

Estas son las palabras más utilizadas en el mes de octubre:
Terms value Peso (%)
restricciones 9 1.09
confinamiento 7 0.85
casos 7 0.85
navarra 7 0.85
madrid 6 0.72
pandemia 6 0.72
covid19 6 0.72
positivos 5 0.60
pcr 5 0.60
contagios 5 0.60

2.11. Noviembre

En los 149 titulares analizados, he contabilizado 787 palabras (una vez excluídas las palabras vacías).

Estas son las palabras más utilizadas en el mes de noviembre:
Terms value Peso (%)
covid 12 1.52
biden 8 1.02
restricciones 8 1.02
ola 7 0.89
trump 6 0.76
vacuna 6 0.76
medidas 5 0.64
sánchez 5 0.64
contagios 5 0.64
segunda 5 0.64

2.12. Diciembre

En los 149 titulares analizados, he contabilizado 833 palabras (una vez excluídas las palabras vacías).

Estas son las palabras más utilizadas en el mes de noviembre:
Terms value Peso (%)
navidad 22 2.64
vacuna 11 1.32
covid 8 0.96
plan 8 0.96
vacunación 8 0.96
salud 6 0.72
ola 5 0.60
segunda 5 0.60
residencias 5 0.60
bares 5 0.60

2.13. Resumen del año

En los 1.796 titulares analizados, he contabilizado 10.205 palabras (una vez excluídas las palabras vacías).

Estas son las palabras más utilizadas en el año 2020:
Terms value Peso (%)
coronavirus 87 0.85
contagios 71 0.70
casos 55 0.54
covid 54 0.53
virus 51 0.50
residencias 47 0.46
sánchez 46 0.45
salud 44 0.43
día 42 0.41
medidas 40 0.39