Para ejecutar el pipeline ETL necesitas poblar el directorio data-raw/ con los datos originales. Por motivos de tamaño, estos archivos no están en el repositorio.
Descarga automática de datos
- Asegúrate de tener R y los paquetes necesarios (
readr,httr,fs,purrr). - Ejecuta el script:
source("R/00-setup/download_data_raw.R")
Esto descargará todos los archivos listados en el índice público y los colocará en su ruta correspondiente bajo data-raw/.
- El índice de archivos se encuentra en:
docs-site/data_index.csv(ajusta la URL si lo alojas en otro sitio). - El script es idempotente: solo descarga archivos que no existen localmente.
¿Cómo se genera el índice?
Solo los administradores (con credenciales S3) pueden generar o actualizar el índice:
- Configura las variables en
.env(CF_S3_ACCESS_KEY,CF_S3_SECRET_KEY,CF_S3_ENDPOINT,CF_S3_BUCKET,CF_S3_PUBLIC_BASE_URL). - Ejecuta:
source("R/00-setup/generate_data_index.R")
Esto crea/actualiza el archivo docs-site/data_index.csv con la lista de archivos y URLs públicas.
Importante: Si los datos del bucket cambian, recuerda regenerar y volver a publicar el índice.