datacy - data driven decisions


Social Data Text Mining
¿De qué se habló en Gipuzkoa en 2024?
Datos extraídos de los titulares de Noticias de Gipuzkoa en 2024
Actualizado en abril de 2024
Elaborado por datacy.

0. Introducción

Para el presente estudio me he basado en los titulares de las portadas diarias de el diario Noticias de Gipuzkoa.

He agrupado los titulares por meses para ver la evolución de los temas más tratados a lo largo del año.

He utilizado técnicas de minería de datos para recoger la información, extraer las palabras más repetidas y visualizarlas en forma de nube de palabras.

1. Metodología de trabajo

De manera muy resumida, este es el proceso seguido para obtener el resultado final (la nube de palabras de cada mes):

  • Lectura automatizada de los tirulares de la portada de cada día.

  • Agrupación de los titulares por mes.

  • Extracción de las palabras contenidas en cada titular –> creación del corpus.

  • Eliminación de palabras vacías del corpus (artículos, preposiciones, etc.). También se han eliminado las palabras “Donostia” “Gipuzkoa”, “Euskadi”, “Gobierno” y “Vasco” ya que, tratándose de El Diario Vasco, se sobreentiende el contexto geográfico.

  • Agrupación y resumen de frecuencias por cada término.

  • Creación de la nube de palabras (visualización).

2. Resultados año 2024

2.1. Enero

En los 528 titulares analizados, he contabilizado 3748 palabras (una vez excluídas las palabras vacías).

Estas son las palabras más utilizadas en el mes de enero:
Terms value Peso (%)
ley 21 0.56
gaza 17 0.45
amnistía 17 0.45
detenido 17 0.45
sánchez 16 0.43
psoe 14 0.37
hamás 14 0.37
israel 13 0.35
trump 13 0.35
pnv 12 0.32

2.2. Febrero

En los 488 titulares analizados, he contabilizado 3305 palabras (una vez excluídas las palabras vacías).

Estas son las palabras más utilizadas en el mes de febrero:
Terms value Peso (%)
detenido 17 0.51
prisión 14 0.42
valencia 14 0.42
gaza 12 0.36
incendio 12 0.36
ley 11 0.33
tolosa 11 0.33
trump 11 0.33
urkullu 11 0.33
agresión 11 0.33

2.3. Marzo

En los 526 titulares analizados, he contabilizado 3552 palabras (una vez excluídas las palabras vacías).

Estas son las palabras más utilizadas en el mes de marzo:
Terms value Peso (%)
pnv 14 0.39
caso 12 0.34
muertos 11 0.31
ley 10 0.28
koldo 10 0.28
irun 10 0.28
pradales 10 0.28
ataque 10 0.28
amnistía 9 0.25
rusia 9 0.25

2.4. Abril

En los 508 titulares analizados, he contabilizado 3342 palabras (una vez excluídas las palabras vacías).

Estas son las palabras más utilizadas en el mes de abril:
Terms value Peso (%)
sánchez 28 0.84
pnv 21 0.63
israel 16 0.48
pradales 13 0.39
eta 10 0.30
gaza 10 0.30
irán 8 0.24
ataque 8 0.24
accidente 8 0.24
aprueba 8 0.24

2.13. Resumen del año

En los 2.050 titulares analizados, he contabilizado 13.947 palabras (una vez excluídas las palabras vacías).

Estas son las palabras más utilizadas en el año 2023:
Terms value Peso (%)
sánchez 62 0.44
pnv 53 0.38
detenido 48 0.34
gaza 46 0.33
ley 44 0.32
israel 39 0.28
pradales 38 0.27
trump 36 0.26
eta 34 0.24
psoe 34 0.24