datacy - data driven decisions


Social Data Text Mining
¿De qué se habló en Gipuzkoa en 2021?
Datos extraídos de los titulares del Diario Vasco en 2021
Actualizado a agosto de 2021
Elaborado por datacy.

0. Introducción

Para el presente estudio me he basado en los titulares de las portadas diarias de el diario El Diario Vasco.

He agrupado los titulares por meses para ver la evolución de los temas más tratados a lo largo del año.

He utilizado técnicas de minería de datos para recoger la información, extraer las palabras más repetidas y visualizarlas en forma de nube de palabras.

1. Metodología de trabajo

De manera muy resumida, este es el proceso seguido para obtener el resultado final (la nube de palabras de cada mes):

  • Lectura automatizada de los tirulares de la portada de cada día.

  • Agrupación de los titulares por mes.

  • Extracción de las palabras contenidas en cada titular –> creación del corpus.

  • Eliminación de palabras vacías del corpus (artículos, preposiciones, etc.). También se han eliminado las palabras “Donostia” “Gipuzkoa”, “Euskadi”, “Gobierno” y “Vasco” ya que, tratándose de El Diario Vasco, se sobreentiende el contexto geográfico.

  • Agrupación y resumen de frecuencias por cada término.

  • Creación de la nube de palabras (visualización).

2. Resultados año 2021

2.1. Enero

En los 155 titulares analizados, he contabilizado 844 palabras (una vez excluídas las palabras vacías).

Estas son las palabras más utilizadas en el mes de enero:
Terms value Peso (%)
vacunación 10 1.18
covid 8 0.95
dosis 8 0.95
ola 7 0.83
tercera 6 0.71
segunda 6 0.71
osakidetza 6 0.71
contagios 5 0.59
zona 5 0.59
semana 5 0.59

2.2. Febrero

En los 140 titulares analizados, he contabilizado 754 palabras (una vez excluídas las palabras vacías).

Estas son las palabras más utilizadas en el mes de febrero:
Terms value Peso (%)
vacunación 9 1.19
covid 8 1.06
vacuna 8 1.06
mayores 7 0.93
residencias 6 0.80
pandemia 6 0.80
nuevos 5 0.66
vacunas 5 0.66
positivos 5 0.66
primera 4 0.53

2.3. Marzo

En los 155 titulares analizados, he contabilizado 862 palabras (una vez excluídas las palabras vacías).

Estas son las palabras más utilizadas en el mes de marzo:
Terms value Peso (%)
semana 16 1.86
astrazeneca 13 1.51
santa 10 1.16
vacunación 9 1.04
covid 9 1.04
pandemia 7 0.81
cuatro 7 0.81
vacunar 7 0.81
sanidad 7 0.81
positivos 6 0.70

2.4. Abril

En los 150 titulares analizados, he contabilizado 824 palabras (una vez excluídas las palabras vacías).

Estas son las palabras más utilizadas en el mes de abril:
Terms value Peso (%)
vacunación 11 1.33
alarma 9 1.09
astrazeneca 8 0.97
covid 8 0.97
dosis 8 0.97
uci 6 0.73
mayores 6 0.73
copa 5 0.61
cuarta 5 0.61
ola 5 0.61

2.5. Mayo

En los 155 titulares analizados, he contabilizado 870 palabras (una vez excluídas las palabras vacías).

Estas son las palabras más utilizadas en el mes de mayo:
Terms value Peso (%)
astrazeneca 10 1.15
vacunados 9 1.03
dosis 9 1.03
vacunas 8 0.92
alarma 6 0.69
vacuna 6 0.69
semana 6 0.69
urkullu 5 0.57
contagios 5 0.57
vascos 4 0.46

2.6. Junio

En los 150 titulares analizados, he contabilizado 862 palabras (una vez excluídas las palabras vacías).

Estas son las palabras más utilizadas en el mes de junio:
Terms value Peso (%)
mascarilla 12 1.39
vacuna 10 1.16
sanidad 8 0.93
sánchez 7 0.81
dosis 6 0.70
verano 6 0.70
contagios 5 0.58
covid 5 0.58
mallorca 5 0.58
pandemia 5 0.58

2.7. Julio

En los 155 titulares analizados, he contabilizado 893 palabras (una vez excluídas las palabras vacías).

Estas son las palabras más utilizadas en el mes de Julio:
Terms value Peso (%)
jóvenes 12 1.34
contagios 10 1.12
ola 10 1.12
vascos 8 0.90
covid 7 0.78
frenar 7 0.78
sánchez 7 0.78
asesino 5 0.56
medidas 5 0.56
positivos 5 0.56

2.8. Agosto

En los 155 titulares analizados, he contabilizado 926 palabras (una vez excluídas las palabras vacías).

Estas son las palabras más utilizadas en el mes de Agosto:
Terms value Peso (%)
vacuna 11 1.19
covid 9 0.97
curso 5 0.54
kabul 5 0.54
osakidetza 5 0.54
pandemia 5 0.54
plata 5 0.54
restricciones 5 0.54
afganistán 4 0.43
españa 4 0.43

2.9. Septiembre

En los 150 titulares analizados, he contabilizado 874 palabras (una vez excluídas las palabras vacías).

Estas son las palabras más utilizadas en el mes de Septiembre:
Terms value Peso (%)
volcán 11 1.26
palma 10 1.14
pandemia 8 0.92
lava 5 0.57
mar 5 0.57
erupción 4 0.46
jóvenes 4 0.46
medidas 4 0.46
nuevos 4 0.46
octubre 4 0.46

2.10. Octubre

En los 155 titulares analizados, he contabilizado 870 palabras (una vez excluídas las palabras vacías).

Estas son las palabras más utilizadas en el mes de Octubre:
Terms value Peso (%)
covid 7 0.80
real 6 0.69
eta 5 0.57
fin 5 0.57
vida 5 0.57
medidas 4 0.46
millones 4 0.46
otegi 4 0.46
sociedad 4 0.46
volcán 4 0.46

2.11. Noviembre

En los 150 titulares analizados, he contabilizado 823 palabras (una vez excluídas las palabras vacías).

Estas son las palabras más utilizadas en el mes de Noviembre:
Terms value Peso (%)
covid 8 0.97
medidas 6 0.73
vacuna 6 0.73
pensiones 5 0.61
plan 5 0.61
restricciones 5 0.61
víctimas 5 0.61
real 4 0.49
coches 3 0.36
cotizaciones 3 0.36

2.12. Diciembre

En los 155 titulares analizados, he contabilizado 884 palabras (una vez excluídas las palabras vacías).

Estas son las palabras más utilizadas en el mes de Diciembre:
Terms value Peso (%)
covid 20 2.26
test 8 0.90
navidad 7 0.79
vacuna 6 0.68
pasaporte 5 0.57
vascos 5 0.57
antígenos 4 0.45
falta 4 0.45
guipuzcoanos 4 0.45
medidas 4 0.45

2.13. Resumen del año

En los 1.825 titulares analizados, he contabilizado 10.286 palabras (una vez excluídas las palabras vacías).

Estas son las palabras más utilizadas en el año 2020:
Terms value Peso (%)
covid 95 0.92
vacunación 64 0.62
semana 53 0.52
pandemia 51 0.50
dosis 47 0.46
vacuna 43 0.42
vascos 43 0.42
contagios 41 0.40
ola 40 0.39
restricciones 40 0.39