DEV Community

Cover image for Guia para entender definitivamente un proceso ETL en ingenieria de datos con AWS
Andres
Andres

Posted on • Edited on

Guia para entender definitivamente un proceso ETL en ingenieria de datos con AWS

Extracion, Transformacion y Carga (Load) - ETL

Image description

Desde mi experiencia personal veo como la ETL com el proceso fundamental en la integración de datos y hace parce de una arquitectura de pipeline de datos, se utiliza para ingestar y transformar datos desde múltiples fuentes hacia la bodega de almacenamiento de datos, como un DWH o DataLake.

1. Extracción (Extract)

Aca se ingesta la informacion de diferentes origenes de datos, desde una base de datos On-premise hasta bases de datos Cloud, pero aca no acaba todo, se pueden ingestar archivos planos (csv,txt, etc.) o archivos de un datalake, como los .parquet.
Tambien el llamado a una API, en fin todo aquello a tenga informacion y se disponibilice para consumo de datos.

Image description

2. Transformación (Transform)

En este proceso, se aplican todas las reglas de negocio en los datos, transformaciones, combinaciones, formatos, etc.

Image description

3. Carga (Load)

En la carga se disponibilizan datos, en su version negocio, es decir datos ya depurados y listos para ser analizados por diferentes herramientas de BI

Image description

AWS disponibiliza varias herramientas para ejecucion de procesos ETL, una de ellas, si no la mas importante es, AWS Glue, se pueden utilizar diferentes lenguajes de programacion para tratar a los datos como codigo, sin embargo no es la unica.

Dentro de un Pipeline de datos, intervienen multiples procesos, uno de ellos es ETL, sin embargo no es el unico, una arquitectura de datos evalua, desde el proceso de ingesta, modelado de datos, almacenamiento y servicio, pasando por redes, seguridad, perfiles, etc.

Image description

Para esto se utilizan servicios de AWS como Lambda, AWS Glue, AWS Athena,
Almacenamiento como AWS S3, AWS DynamoDB, AWS Aurora y Dashboard como AWS quicksight.

Espero esto te de una guia muy de alto nivel de que es un proceso de ETL y que herramientas utilizar en AWS.

Hasta la proxima!

-GuechaTech

AWS Security LIVE!

Join us for AWS Security LIVE!

Discover the future of cloud security. Tune in live for trends, tips, and solutions from AWS and AWS Partners.

Learn More

Top comments (0)

Billboard image

The Next Generation Developer Platform

Coherence is the first Platform-as-a-Service you can control. Unlike "black-box" platforms that are opinionated about the infra you can deploy, Coherence is powered by CNC, the open-source IaC framework, which offers limitless customization.

Learn more

👋 Kindness is contagious

Please leave a ❤️ or a friendly comment on this post if you found it helpful!

Okay