La familia dplyr() no para de crecer. Allá por junio os explicaba el nuevo miembro de la familia, across() que nos permite aplicar una o varias funciones a más de una columna de forma simultánea. Hoy os voy a hablar de dos nuevos verbos que se vienen a hacernos un poco más fácil la tarea de manipular datos en R:…
-
-
Poniendo números al factor campo en LaLiga
(Fútbol – LaLiga) La pandemia ha traído cambios al fútbol y quizás el más llamativo sea que los partidos se disputan sin público. ¿Se traduce esto en que los locales ganan menos partidos que antes? ¿Es un mito o una realidad? ¿Ganaban más partidos los locales que los visitantes con público? ¿Mito o realidad? Dejemos que sean los datos nos…
-
Los hijos del babyBoom
Hace un par de semanas os presentaba una visualización en forma de espiral y otra en forma de calendario sobre el babyboom en España. Me hice con los datos en el portal del INE y, gracias a la granularidad diaria, opté por una visualización en forma de espiral: necesitaba visualizar 35.770 observaciones (una para cada día del año a lo largo…
-
El jugador más valioso… de la Real
Hoy os voy a hablar de una aventura que inicié en el mes de julio (julio de 2020). El día 6 de julio comenzaba mi andadura como colaborador en la emisora HablaRadio. Una emisora con muy buena música y con contenidos locales (Donostia y Gipuzkoa) muy interesantes. Los lunes, en torno a las 11:15 hablamos de datos. Datos en un…
-
2011 fue el año en la que cambiamos el tabaco por la cerveza
El tabaco y la cerveza han seguido trayectorias antagónicas desde 2003 hasta 2019. He descargado los datos relativos a los Impuestos Especiales de la Agencia Tributaria y os ofrezco unos cuántos insights sobre nuestros hábitos de consumo. Tabaco En el siguiente gráfico he confrontado el consumo de tabaco (millones de cajetillas) con el precio del mismo (€/cajetilla). El consumo ha…
-
Visualizando el “baby boom”
La semana pasada me topé con una visualización sobre los nacimientos ocurridos en Estados Unidos a lo largo de unos cuantos años. Mostraba tanto los nacimientos absolutos (el número de nacimientos) como un indicador relativo: el número de nacimientos dividido por el número de nacimientos esperables. La dimensión temporal abarcaba venía marcada por el binomio día-mes. Esto es, la dimensión…
-
¿Qué fue de… la cerveza, el papel higiénico y la harina?
El pasado 17 de abril, en pleno estado de alarma, os hablaba de los otros “héroes” del confinamiento en este blog. Productos como la cerveza, la harina y el papel higiénico y conceptos como el fitness tuvieron su momento de gloria durante los momentos más duros del confinamiento. Todo ello desde la perspectiva de Google Trends. El interés por estos…
-
dplyr 1.0.0
El pasado mes de junio tenemos disponible la versión 1.0.0 del paquete dplyr. Uno de mis paquetes favoritos para transformación, limpieza y procesos de calidad del dato en R. Dplyr pertenece a la selecta colección de paquetes tidyverse. Confieso que soy muy fan de todo este universo. Si ya habéis actualizado a la versión 1.0.0 de #dplyr, es posible que…
-
Pon color a tu código
La fortaleza de la sencillez. Ayer me topé, por accidente, con una funcionalidad de RStudio que desconocía. Se trata de una función que estará disponible en la próxima versión pero que ya puede ser probada a través de las RStudio daily builds. Pequeños detalles que te pueden hacer “la vida” un poco más fácil. La vida del programador, entiéndase. Te…
-
14 datos de LaLiga que (probablemente) desconocías
Se acabó la temporada 2019/2020 de LaLiga Santander. Una temporada diferente con partidos en el mes de julio. Una temporada diferente con dos partes claramente separadas por la COVID-19. 27 jornadas preCOVID y 11 jornadas postCOVID. Os dejo unas cuantas reflexiones en forma de datos sobre lo que han dado de sí los 380 partidos disputados. LaLiga en su conjunto…