datacy - data driven decisions


Social Data Text Mining
¿De qué se habló en Gipuzkoa en 2023?
Datos extraídos de los titulares del Diario Vasco en 2023
Actualizado en junio de 2023
Elaborado por datacy.

0. Introducción

Para el presente estudio me he basado en los titulares de las portadas diarias de el diario El Diario Vasco.

He agrupado los titulares por meses para ver la evolución de los temas más tratados a lo largo del año.

He utilizado técnicas de minería de datos para recoger la información, extraer las palabras más repetidas y visualizarlas en forma de nube de palabras.

1. Metodología de trabajo

De manera muy resumida, este es el proceso seguido para obtener el resultado final (la nube de palabras de cada mes):

  • Lectura automatizada de los tirulares de la portada de cada día.

  • Agrupación de los titulares por mes.

  • Extracción de las palabras contenidas en cada titular –> creación del corpus.

  • Eliminación de palabras vacías del corpus (artículos, preposiciones, etc.). También se han eliminado las palabras “Donostia” “Gipuzkoa”, “Euskadi”, “Gobierno” y “Vasco” ya que, tratándose de El Diario Vasco, se sobreentiende el contexto geográfico.

  • Agrupación y resumen de frecuencias por cada término.

  • Creación de la nube de palabras (visualización).

2. Resultados año 2023

2.1. Enero

En los 155 titulares analizados, he contabilizado 837 palabras (una vez excluídas las palabras vacías).

Estas son las palabras más utilizadas en el mes de enero:
Terms value Peso (%)
real 9 1.08
sociedad 5 0.60
jugadores 4 0.48
sebastián 4 0.48
pnv 4 0.48
derbi 4 0.48
crimen 3 0.36
cambio 3 0.36
poder 3 0.36
casa 3 0.36

2.2. Febrero

En los 140 titulares analizados, he contabilizado 756 palabras (una vez excluídas las palabras vacías).

Estas son las palabras más utilizadas en el mes de febrero:
Terms value Peso (%)
euros 4 0.53
turquía 4 0.53
real 4 0.53
menores 3 0.40
muertos 3 0.40
historia 3 0.40
ayuda 3 0.40
banca 3 0.40
gas 3 0.40
sebastián 3 0.40

2.3. Marzo

En los 150 titulares analizados, he contabilizado 830 palabras (una vez excluídas las palabras vacías).

Estas son las palabras más utilizadas en el mes de marzo:
Terms value Peso (%)
real 5 0.60
roma 5 0.60
media 4 0.48
dispara 4 0.48
euros 4 0.48
mujeres 4 0.48
guipuzcoanos 4 0.48
delitos 3 0.36
historia 3 0.36
ley 3 0.36

2.4. Abril

En los 150 titulares analizados, he contabilizado 797 palabras (una vez excluídas las palabras vacías).

Estas son las palabras más utilizadas en el mes de abril:
Terms value Peso (%)
euros 6 0.75
social 5 0.63
alumnos 4 0.50
semana 4 0.50
pintxos 4 0.50
víctimas 4 0.50
hijo 3 0.38
centros 3 0.38
primera 3 0.38
hace 3 0.38

2.5. Mayo

En los 155 titulares analizados, he contabilizado 825 palabras (una vez excluídas las palabras vacías).

Estas son las palabras más utilizadas en el mes de mayo:
Terms value Peso (%)
pnv 12 1.45
bildu 8 0.97
28m 6 0.73
real 6 0.73
récord 5 0.61
vivienda 4 0.48
jóvenes 4 0.48
coche 4 0.48
angulas 4 0.48
abstención 4 0.48

2.6. Junio

En los 150 titulares analizados, he contabilizado 839 palabras (una vez excluídas las palabras vacías).

Estas son las palabras más utilizadas en el mes de junio:
Terms value Peso (%)
tráfico 14 1.67
horarios 14 1.67
primera 12 1.43
cortes 12 1.43
localidad 12 1.43
paso 12 1.43
decisiva 10 1.19
etapas 10 1.19
explosivas 10 1.19
semana 10 1.19

2.7. Julio

En los 155 titulares analizados, he contabilizado 797 palabras (una vez excluídas las palabras vacías).

Estas son las palabras más utilizadas en el mes de julio:
Terms value Peso (%)
sánchez 9 1.13
tráfico 8 1.00
feijóo 8 1.00
fermín 6 0.75
localidad 5 0.63
rutas 5 0.63
cortes 4 0.50
horarios 4 0.50
cambios 4 0.50
dbus 4 0.50

2.8. Agosto

En los 155 titulares analizados, he contabilizado 823 palabras (una vez excluídas las palabras vacías).

Estas son las palabras más utilizadas en el mes de agosto:
Terms value Peso (%)
rubiales 6 0.73
euros 5 0.61
noche 5 0.61
fallece 4 0.49
real 4 0.49
casos 4 0.49
españa 4 0.49
agua 4 0.49
récord 4 0.49
zakharyan 4 0.49

2.9. Septiembre

En los 150 titulares analizados, he contabilizado 812 palabras (una vez excluídas las palabras vacías).

Estas son las palabras más utilizadas en el mes de septiembre:
Terms value Peso (%)
real 8 0.99
champions 6 0.74
menores 5 0.62
equipo 4 0.49
hombre 4 0.49
sociedad 4 0.49
casos 4 0.49
chastain 4 0.49
sánchez 3 0.37
urkullu 3 0.37

2.10. Octubre

En los 155 titulares analizados, he contabilizado 952 palabras (una vez excluídas las palabras vacías).

Estas son las palabras más utilizadas en el mes de octubre:
Terms value Peso (%)
gaza 13 1.37
israel 12 1.26
hamás 8 0.84
real 6 0.63
personas 6 0.63
hospital 5 0.53
zarauztarra 5 0.53
sánchez 4 0.42
millones 4 0.42
europa 4 0.42

2.11. Noviembre

En los 150 titulares analizados, he contabilizado 839 palabras (una vez excluídas las palabras vacías).

Estas son las palabras más utilizadas en el mes de noviembre:
Terms value Peso (%)
sánchez 15 1.79
amnistía 7 0.83
pnv 6 0.72
real 5 0.60
investidura 4 0.48
puigdemont 4 0.48
euros 4 0.48
jugadores 4 0.48
cargas 4 0.48
legislatura 4 0.48

2.12. Diciembre

En los 155 titulares analizados, he contabilizado 854 palabras (una vez excluídas las palabras vacías).

Estas son las palabras más utilizadas en el mes de diciembre:
Terms value Peso (%)
real 7 0.82
euros 6 0.70
irpf 6 0.70
bildu 5 0.59
accidente 5 0.59
muerte 5 0.59
error 5 0.59
pensión 4 0.47
jugadores 4 0.47
sociedad 4 0.47

2.13. Resumen del año

En los 1.820 titulares analizados, he contabilizado 9.961 palabras (una vez excluídas las palabras vacías).

Estas son las palabras más utilizadas en el año 2023:
Terms value Peso (%)
real 61 0.61
euros 48 0.48
pnv 46 0.46
sánchez 41 0.41
bildu 33 0.33
tráfico 30 0.30
primera 28 0.28
guipuzcoanos 27 0.27
jugadores 24 0.24
semana 24 0.24