Hoy la cosa va de letras. De letras y de palabras. La ortografía del español utiliza una variante del alfabeto latino, que consta de 27 letras: a, b, c, d, e, f, g, h, i, j k, l, m, n, ñ, o, p, q, r, s, t, u, v, w, x, y, z. Hasta aquí no creo que os haya descubierto nada. Si no tenéis nada mejor que hacer entre semana de 2 a 3, podéis ver “La Ruleta de la Suerte“. Si no os va este rollo, no me negaréis que alguna vez habéis jugado al “Ahorcado“. Aún así, quizás los millennials necesiten una explicación.
El ahorcado (también llamado colgado) es un juego de adivinanzas de lápiz y papel para dos o más jugadores. Un jugador piensa en una palabra, frase u oración y el otro trata de adivinarla. Si la letra sugerida no está presente en la palabra, el otro jugador dibuja un elemento de la figura de hombre palo ahorcado como una marca de conteo. El juego termina cuando:
- El jugador adivinador completa la palabra, o adivina la palabra completa correctamente.
- El otro jugador completa el diagrama.
Tanto en “La Ruleta” como en el “ahorcado” tenemos que adivinar las letras que forman parte de las palabras para, finalmente, adivinar la palabra o frase escondida. Podemos lanzarnos a lo loco o podemos tirar de datos para mejorar nuestra “suerte”. Para este estudio me he descargado un lemario de esta dirección: olea.org.
El lemario tiene 52.241 palabras y, si las agrupamos por el número de caracteres que tiene cada una, obtenemos este gráfico:
Sin demasiado análisis, ya vemos que hay algunas letras con más posibilidades que las otras
La “a” es una apuesta segura para el ahorcado. En la Ruleta de la Suerte, como las vocales se compran, la apuesta más segura sería la “r“. Las 5 vocales se llevan el 46% del pastel.
Podemos afinar un poco más. En ambos juegos, contamos con una variable muy importante, el número de caracteres de la(s) palabra(s) a adivinar. Haciendo un análisis un poco más detallado, podemos mejorar nuestras posibilidades de éxito.
En términos relativos:
Como veis, si conocemos a priori el tamaño de la palabra a adivinar, podemos aumentar nuestras posibilidades de éxito.
Las vocales se cuelan en muchos podios. Si prescindimos de las vocales (muy útil para La Ruleta de la Suerte), estas son las consonantes que deberemos elegir para maximizar nuestras ganancias.
La Ruleta de la ¿Suerte? Algo de suerte está claro que hay pero podemos hacer que esa componente se minimice estudiando un poco el vocabulario español. Así limitaremos la suerte a no caer en “quiebra” y/o en “pierde turno”.
La “r“, la “l” y la “c” son las apuestas más seguras. ¿Podríamos afinar un poco más? Ya lo creo que sí, pero eso lo dejo para otro artículo.
#data #datascience #datascientist #textmining #mineriadetextos #rstudio #bigdata #letras #palabras #words
4 Comments
Pingback:
Pingback:
Pingback:
Pingback: