Extracion, Transformacion y Carga (Load) - ETL
Desde mi experiencia personal veo como la ETL com el proceso fundamental en la integración de datos y hace parce de una arquitectura de pipeline de datos, se utiliza para ingestar y transformar datos desde múltiples fuentes hacia la bodega de almacenamiento de datos, como un DWH o DataLake.
1. Extracción (Extract)
Aca se ingesta la informacion de diferentes origenes de datos, desde una base de datos On-premise hasta bases de datos Cloud, pero aca no acaba todo, se pueden ingestar archivos planos (csv,txt, etc.) o archivos de un datalake, como los .parquet.
Tambien el llamado a una API, en fin todo aquello a tenga informacion y se disponibilice para consumo de datos.
2. Transformación (Transform)
En este proceso, se aplican todas las reglas de negocio en los datos, transformaciones, combinaciones, formatos, etc.
3. Carga (Load)
En la carga se disponibilizan datos, en su version negocio, es decir datos ya depurados y listos para ser analizados por diferentes herramientas de BI
AWS disponibiliza varias herramientas para ejecucion de procesos ETL, una de ellas, si no la mas importante es, AWS Glue, se pueden utilizar diferentes lenguajes de programacion para tratar a los datos como codigo, sin embargo no es la unica.
Dentro de un Pipeline de datos, intervienen multiples procesos, uno de ellos es ETL, sin embargo no es el unico, una arquitectura de datos evalua, desde el proceso de ingesta, modelado de datos, almacenamiento y servicio, pasando por redes, seguridad, perfiles, etc.
Para esto se utilizan servicios de AWS como Lambda, AWS Glue, AWS Athena,
Almacenamiento como AWS S3, AWS DynamoDB, AWS Aurora y Dashboard como AWS quicksight.
Espero esto te de una guia muy de alto nivel de que es un proceso de ETL y que herramientas utilizar en AWS.
Hasta la proxima!
-GuechaTech
Top comments (0)