[Datos: API Open Street Map]
Creo que a estas alturas ya conocéis mi debilidad por los datos. Habitualmente, mis trabajos siguen la metodología CRISP-DM (figura 1), muy utilizada en minería de datos. A partir de una(s) pregunta(s) concreta(s), busco o recopilo datos, los comprendo, …
En otras ocasiones, sin embargo, los datos llevan a las preguntas y volvemos al círculo de la figura 1.
En esta ocasión, sin embargo, me he dejado llevar. A raíz de un artículo de Dominic Royé sobre cómo acceder a los datos de Open Street Map desde R, he decidido bajarme datos de la Península Ibérica sobre fuentes de agua. En al artículo, los datos se plotean en R con ggmap. Yo he optado por Tableau.
Las consultas son bastante sencillas
##############################
# Fuentes de agua peninsula iberica
##############################
# Construir el area de busqueda de las fuentes
m <- matrix(c(-9,5,35,44),ncol=2,byrow=TRUE)
row.names(m) <- c("x","y")
names(m) <- c("min","max")
# Construir la consulta
qWater <- m %>%
opq (timeout=25*100) %>%
add_osm_feature("amenity","drinking_water")
water <- osmdata_sf(qWater)
# Transformar los datos
waterT <- as.data.frame(as.character(water$osm_points$osm_id))
waterT$coord <- as.character(water$osm_points$geometry)
waterT$ciudad <- as.character(water$osm_points$addr.city)
waterT$coord <- stringr::str_replace_all(waterT$coord,"c\\(","")
waterT$coord <- stringr::str_replace_all(waterT$coord,"\\)","")
partido <- reshape::colsplit(waterT$coord, ",", names=c("Lon","Lat"))
partido$Lat <- trimws(partido$Lat, which = "both")
partido$Lon <- trimws(partido$Lon, which = "both")
waterT$Lat <- partido$Lat
waterT$Lon <- partido$Lon
waterT$coord <- NULL
colnames(waterT)[1] <- "fuente"
# Guardar los resultados en un csv
write.csv2(waterT, "waterT.csv", row.names = FALSE)
Quería comprobar si, tal y como cabría esperar, en el norte hay más fuentes públicas que en el sur. La visualización (figura 2) lo deja bien claro.
Hasta ahora, no creo que os haya descubierto nada, ¿o sí?
Un segundo vistazo a la foto me ha revelado un aspecto que me había pasado desapercibido. ¿Alguien ve algo especial? ¿Algún patrón?
¿No? Pista: arriba a la izquierda.
¿Todavía nada? Pista 2: no todos los caminos llevan a Roma.
Sí, es el Camino de Santiago.
#data #datamining #mineriadedatos #rstudio #tableau #datascience #datacy #datadrivendecisions #españa #portugal #peninsulaiberica #fuentes #agua #mapa #visualizacion