La familia dplyr() no para de crecer. Allá por junio os explicaba el nuevo miembro de la familia, across() que nos permite aplicar una o varias funciones a más de una columna de forma simultánea. Hoy os voy a hablar de dos nuevos verbos que se vienen a hacernos un poco más fácil la tarea de manipular datos en R:…
-
-
Los jueves son los nuevos martes (energía)
Vamos con un poco de #energía para acabar el miércoles. 1️⃣ Durante la parte más dura del confinamiento, nuestra relación con la energía cambió de forma cuantitativa (-21% con respecto a 2019) y cualitativa (era difícil distinguir un sábado de un martes). 2️⃣ Poco a poco hemos ido recuperando el consumo en relación a 2019: Desde el desconfinamiento estamos en un 4,5%…
-
Los hijos del babyBoom
Hace un par de semanas os presentaba una visualización en forma de espiral y otra en forma de calendario sobre el babyboom en España. Me hice con los datos en el portal del INE y, gracias a la granularidad diaria, opté por una visualización en forma de espiral: necesitaba visualizar 35.770 observaciones (una para cada día del año a lo largo…
-
Donostia envejece 4 años desde 2000
Hoy me había propuesto hablar sobre la edad media de la población de Donostia – San Sebastián. Y lo voy a hacer 🙂 Eso sí, por el camino os voy a regalar un bonus track. Los datos los he sacado del portal de datos abiertos del Ayuntamiento de Donostia – San Sebastián. No os entretengo mucho, entre 2000 y 2019…
-
El jugador más valioso… de la Real
Hoy os voy a hablar de una aventura que inicié en el mes de julio (julio de 2020). El día 6 de julio comenzaba mi andadura como colaborador en la emisora HablaRadio. Una emisora con muy buena música y con contenidos locales (Donostia y Gipuzkoa) muy interesantes. Los lunes, en torno a las 11:15 hablamos de datos. Datos en un…
-
Visualizando el “baby boom”
La semana pasada me topé con una visualización sobre los nacimientos ocurridos en Estados Unidos a lo largo de unos cuantos años. Mostraba tanto los nacimientos absolutos (el número de nacimientos) como un indicador relativo: el número de nacimientos dividido por el número de nacimientos esperables. La dimensión temporal abarcaba venía marcada por el binomio día-mes. Esto es, la dimensión…
-
dplyr 1.0.0
El pasado mes de junio tenemos disponible la versión 1.0.0 del paquete dplyr. Uno de mis paquetes favoritos para transformación, limpieza y procesos de calidad del dato en R. Dplyr pertenece a la selecta colección de paquetes tidyverse. Confieso que soy muy fan de todo este universo. Si ya habéis actualizado a la versión 1.0.0 de #dplyr, es posible que…
-
Pon color a tu código
La fortaleza de la sencillez. Ayer me topé, por accidente, con una funcionalidad de RStudio que desconocía. Se trata de una función que estará disponible en la próxima versión pero que ya puede ser probada a través de las RStudio daily builds. Pequeños detalles que te pueden hacer “la vida” un poco más fácil. La vida del programador, entiéndase. Te…
-
Alterar filas en R con “estilo”
A estas alturas no os sorprenderá que sea un fan del paquete dplyr de R. Hoy os voy a presentar otra de las novedades de la familia, incluida en la recientemente publicada versión 1.0.0. Se trata de una serie de funciones para alterar filas y está inspirada en UPDATE, INSERT, UPSERT y DELETE de SQL. Como las funciones “join”, estas…
-
Renombrar columnas “con estilo” en R
Hoy os traigo otra perlita de dplyr para los que os gusta (o no os queda más remedio) que manipular datos. Si la semana pasada os mostraba cómo mejorar vuestra productividad con la función across(), hoy os voy a mostrar cómo ordenar columnas en un data frame sin necesidad de aprenderos los índices y/o realizar anotaciones adicionales en un cuaderno.…