Concepto técnico detrás del ahorro de costos
Si particionamos por fecha y hacemos WHERE fecha = 'hoy', BigQuery ignora físicamente todos los archivos de ayer y mañana.
Pasamos de escanear 1TB a 100MB en una sola línea de código.
#dezoomcamp #DataEngineeringZoomcamp
Concepto técnico detrás del ahorro de costos
Si particionamos por fecha y hacemos WHERE fecha = 'hoy', BigQuery ignora físicamente todos los archivos de ayer y mañana.
Pasamos de escanear 1TB a 100MB en una sola línea de código.
#dezoomcamp #DataEngineeringZoomcamp
Una distinción técnica importante que vimos en la tarea.
External Tables: Leen directo de GCS (Parquet/CSV). Ideales para staging, pero no tienen cache ni clustering.
Native Tables: Viven dentro de BigQuery. Más rápidas y optimizables.
#dezoomcamp
Una distinción técnica importante que vimos en la tarea.
External Tables: Leen directo de GCS (Parquet/CSV). Ideales para staging, pero no tienen cache ni clustering.
Native Tables: Viven dentro de BigQuery. Más rápidas y optimizables.
#dezoomcamp
Con BigQuery ML en el #DataEngineeringZoomcamp de #DataTalksClub aprendimos a crear, entrenar y ejecutar modelos directamente en el Data Warehouse.
No tuvimos que mover terabytes de datos a Python.
Podemos entrenar un modelo con CREATE MODEL y predecir con ML.PREDICT.
Con BigQuery ML en el #DataEngineeringZoomcamp de #DataTalksClub aprendimos a crear, entrenar y ejecutar modelos directamente en el Data Warehouse.
No tuvimos que mover terabytes de datos a Python.
Podemos entrenar un modelo con CREATE MODEL y predecir con ML.PREDICT.
Al ser una base de datos columnar, leer todas las columnas dispara los costos innecesariamente
✅ Selecciona solo las columnas que necesitas
✅ Filtra siempre primero por tu columna particionada
Tu presupuesto te lo agradecerá
#dezoomcamp #DataEngineeringZoomcamp
Al ser una base de datos columnar, leer todas las columnas dispara los costos innecesariamente
✅ Selecciona solo las columnas que necesitas
✅ Filtra siempre primero por tu columna particionada
Tu presupuesto te lo agradecerá
#dezoomcamp #DataEngineeringZoomcamp
Partitioning: Divide la tabla en segmentos (ej. por día). Reduce costos al ignorar particiones enteras
Clustering: Ordena los datos dentro de la partición. Acelera filtros y sorts
Úsalos juntos para máximo rendimiento
#dezoomcamp #DataTalksClub
Partitioning: Divide la tabla en segmentos (ej. por día). Reduce costos al ignorar particiones enteras
Clustering: Ordena los datos dentro de la partición. Acelera filtros y sorts
Úsalos juntos para máximo rendimiento
#dezoomcamp #DataTalksClub
Gracias a sus "Internals" ya que almacenamiento y cómputo trabajan por separado
Colossus: Almacenamiento barato y distribuido
Dremel: Motor de cómputo que paraleliza tu query en miles de workers
Jupiter: La red de ultra velocidad que los une
#dezoomcamp
Gracias a sus "Internals" ya que almacenamiento y cómputo trabajan por separado
Colossus: Almacenamiento barato y distribuido
Dremel: Motor de cómputo que paraleliza tu query en miles de workers
Jupiter: La red de ultra velocidad que los une
#dezoomcamp
#DataEngineeringZoomcamp #DataTalksClub #dezoomcamp
#DataEngineeringZoomcamp #DataTalksClub #dezoomcamp
Proceso que aprendimos para manejar datos:
1. Extraemos datos
2. Los cargamos en nuestro Data Lake (repositorio/bucket para datos crudos)
3. Transformamos con SQL (BigQuery)
Todo orquestado por @kestra.io
#dezoomcamp #DataEngineeringZoomcamp #DataTalksClub #Kestra
Proceso que aprendimos para manejar datos:
1. Extraemos datos
2. Los cargamos en nuestro Data Lake (repositorio/bucket para datos crudos)
3. Transformamos con SQL (BigQuery)
Todo orquestado por @kestra.io
#dezoomcamp #DataEngineeringZoomcamp #DataTalksClub #Kestra
1. Generación de código usando Copilot
2. Ingeniería de contexto. Copilot tiene acceso a la estructura de nuestro proyecto por lo que facilita la corrección de errores y actializaciones
3. RAG para "leer" documentación
#dezoomcamp #DataTalksClub @kestra.io
1. Generación de código usando Copilot
2. Ingeniería de contexto. Copilot tiene acceso a la estructura de nuestro proyecto por lo que facilita la corrección de errores y actializaciones
3. RAG para "leer" documentación
#dezoomcamp #DataTalksClub @kestra.io
Serie de procesos automatizados que mueven datos desde un origen hasta un destino.
#dezoomcamp #DataEngineeringZoomcamp #DataTalksClub
Serie de procesos automatizados que mueven datos desde un origen hasta un destino.
#dezoomcamp #DataEngineeringZoomcamp #DataTalksClub
Es nuestro "director de orquesta" que nos ayudará a que todas nuestras herramientas y plataformas (python, código, bases de datos, cloud, etc.) trabajen juntas.
#dezoomcamp #DataEngineeringZoomcamp #DataTalksClub #Kestra
Es nuestro "director de orquesta" que nos ayudará a que todas nuestras herramientas y plataformas (python, código, bases de datos, cloud, etc.) trabajen juntas.
#dezoomcamp #DataEngineeringZoomcamp #DataTalksClub #Kestra
Usamos YAML (el lenguaje) para escribir un Workflow (la secuencia de tareas) dentro de Kestra (la herramienta), la cual se encarga del Workflow Orchestration (ejecutarlo y gestionarlo).
#dezoomcamp #DataEngineeringZoomcamp #DataTalksClub
Usamos YAML (el lenguaje) para escribir un Workflow (la secuencia de tareas) dentro de Kestra (la herramienta), la cual se encarga del Workflow Orchestration (ejecutarlo y gestionarlo).
#dezoomcamp #DataEngineeringZoomcamp #DataTalksClub
#dezoomcamp #DataEngineeringZoomcamp
#dezoomcamp #DataEngineeringZoomcamp
#dezoomcamp
#dezoomcamp