Gramática

La Ruleta de la ¿Suerte? (III). Euskara/Basque language

Continuando con los análisis de la ortografía española e inglesa que hice hace unos días, he realizado un estudio similar sobre el euskera. Así pues, volvemos a las letras, a las letras y a las palabras. La ortografía del euskera consta de 27 letras: a, b, c, d, e, f, g, h, i, j k, l, m, n, o, p, q, r, s, t, u, v, w, x, y, z. Las consonantes c, q, v, w, y, se utilizan para palabras procedentes de otros idiomas y normalmente son sustituidas por sus equivalentes en euskera: la k para la c y la q, la b o la u para la v y la w, y la j para la y. Yo las he dejado porque en el lexicon que he utilizado, sí aparecen.
Con este artículo vamos a descubrir algunas pistas (tips) para triunfar en las versiones vascas de “La Ruleta de la Suerte” (The Wheel of Fortune) y la más casera de el “Ahorcado” (Ahorkadoa).
Tanto en “La Ruleta” como en el “ahorcado” tenemos que adivinar las letras que forman parte de las palabras para, finalmente, adivinar la palabra o frase escondida. Podemos lanzarnos a lo loco o podemos tirar de datos para mejorar nuestra “suerte”. Para este estudio me he descargado el lexicon de Euskal Herriko Unibertsitatea IXA Taldea “Basque WordNet-LMF. 2014″ de la página Web de la Universitat Pompeu Fabra. Me ha costado poder convertir el xml a un dataframe interpretable en r pero con trabajo y con ayuda de profesionales como Alex Rayón, todo es posible.
El lexicon tiene 21.479 palabras y, si las agrupamos por el número de caracteres que tiene cada una, obtenemos este gráfico:

Sin demasiado análisis, ya vemos que hay algunas letras con más posibilidades que otras:
 

La “a” vuelve a ser la gran dominadora, al igual que ocurría en el español y a diferencia de lo que ocurría en el inglés (donde dominaba la “e”).
La “a” es una apuesta segura para el ahorcado. En la Ruleta de la Suerte, como las vocales se compran, las apuestas más segura sería la “r” o la “t“. Las 5 vocales se llevan el 47% (en el español era el 46% y en el inglés el 39%). Las vocales tienen un peso parecido en el euskera y en el español.
En las últimas posiciones también vemos cambios. Mientras que en el español, el farolillo rojo se lo llevaba la “w” y en el inglés se lo lleva la “j“, en el euskera ese “honor” se lo lleva la “q“.
Podemos afinar un poco más. En ambos juegos, contamos con una variable muy importante, el número de caracteres de la(s) palabra(s) a adivinar. Haciendo un análisis un poco más detallado, podemos mejorar nuestras posibilidades de éxito.

En términos relativos:

Como veis, si conocemos a priori el tamaño de la palabra a adivinar, podemos aumentar nuestras posibilidades de éxito.

Las vocales se cuelan en la mayoría de los podios. Si prescindimos de las vocales (muy útil para La Ruleta de la Suerte), estas son las consonantes que deberemos elegir para maximizar nuestras ganancias.

La Ruleta de la ¿Suerte? Algo de suerte está claro que hay pero podemos hacer que esa componente se minimice estudiando un poco el vocabulario español. Así limitaremos la suerte a no caer en “quiebra” y/o en “pierde turno”.
La “r“, la “t” y la “n” son las apuestas más seguras. ¿Podríamos afinar un poco más? A estas alturas ya sabéis que sí, pero eso lo dejo para otro artículo.
#data #datascience #datascientist #textmining #mineriadetextos #rstudio #bigdata #letras #palabras #words #ruletadelasuerte #thewheeloffortune #hangman #ahorcado #dataanalytics #euskera #english #ingles #basque #español #languageanalysis #analisisdellenguaje

One Comment

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *