Diana Castro

for AWS Community Builders

Posted on Dec 19, 2025 • Edited on Dec 22, 2025

Diario de una builder: Preparándonos para AWS Machine Learning desde cero

#beginners #aws #machinelearning #ai

Me gusta compartir mi experiencia en la preparación de certificaciones, especialmente cuando el objetivo es construir criterio y no únicamente aprobar un examen. Al final, el valor no está en la certificación en sí, sino en el conocimiento que se adquiere durante el proceso y en cómo este se traduce en crecimiento profesional.

Actualmente estoy enfocada en obtener las certificaciones de Machine Learning y AI Developer en AWS y, siguiendo las buenas prácticas, recorro con cuidado las guías oficiales de cada examen.

En este diario documento el camino que sigo para aterrizar conceptos que suelen parecer abstractos cuando se estudian de manera aislada. En más de una ocasión, durante un examen de certificación, aparece alguno de esos detalles trabajados previamente, y es ahí donde confirmo que aprender construyendo realmente marca la diferencia.

A través de esta serie de artículos comparto ese proceso para que, si estás comenzando en Machine Learning en AWS, puedas apoyarte en experiencias reales y en un enfoque práctico para transitar este camino de aprendizaje.

Formatos de datos: un tema menos glamoroso, pero crítico

Quiero comenzar por un tema que suele parecer secundario hasta aburrido de abordar, pero que tiene un impacto directo tanto en los laboratorios, en el entrenamiento de modelos y por supuesto en las certificaciones: los formatos de datos.

¿Por qué debe importarnos el formato de los datos?

Es común encontrar preguntas en el examen donde no se evalúa un algoritmo, sino la capacidad de elegir cómo almacenar, procesar y consumir los datos dentro de un flujo de Machine Learning en AWS. En escenarios prácticos, la elección del formato impacta directamente en:

El rendimiento de los procesos
Los costos asociados
La capacidad de escalar una solución

El primer dominio del examen está relacionado con Data Preparation for Machine Learning, lo que incluye actividades como la ingesta y el almacenamiento de datos. En este contexto comienzan a aparecer conceptos como formatos de datos validados y no validados, tal como se describen en la guía oficial del examen.

Más allá de memorizar definiciones, este dominio busca que desarrolles criterio para:

Cuándo escoger un formato de datos sobre otro
Para qué tipos de cargas de trabajo son más efectivos
En qué casos de uso aplican dentro de un flujo de ML
Con qué servicios y herramientas de AWS son compatibles o no

Entender estos puntos no solo te ayudará a responder preguntas del examen, sino también a tomar mejores decisiones cuando construyas soluciones reales de Machine Learning en AWS.

Iniciando con algo de teoría

Antes de profundizar en los distintos formatos de datos y sus fortalezas, es importante aclarar algunos conceptos que aparecen de forma recurrente en el examen de AWS Machine Learning.

Formatos validados

Son aquellos formatos que AWS soporta de manera nativa para procesos de entrenamiento, procesamiento o inferencia, y cuyo uso está documentado oficialmente en los servicios correspondientes, como Amazon SageMaker.

Formatos no validados

Son formatos que, aunque pueden almacenarse en Amazon S3 u otros servicios de AWS, requieren transformaciones adicionales antes de poder ser utilizados dentro de un flujo de Machine Learning.

Una vez clara esta distinción, es necesario repasar otro concepto fundamental: la forma en que los datos se organizan internamente. A grandes rasgos, los formatos de datos pueden clasificarse según si almacenan la información por filas (row-based) o por columnas (column-based), una diferencia que tiene un impacto directo en el rendimiento y en los costos cuando trabajamos con Machine Learning.

Una analogía de la vida real: tarjetas coleccionables

Me gusta mucho trabajar con analogías y ejemplos prácticos. Últimamente, mi hijo se ha convertido en un coleccionista experto de tarjetas Pokemon, así que permíteme compartir un ejemplo de mi vida cotidiana.

Para un coleccionista, cada tarjeta es un elemento único que consta de varios atributos importantes para definir su valor: nombre, código, tipo y rareza (créeme, hay muchos más atributos como brillo, edición o estado, pero no nos compliquemos).

Enfoque orientado a filas (Row-based)

En un enfoque orientado a filas, cada tarjeta se almacena como una unidad completa, con todos sus atributos juntos:

Tarjeta A: tipo eléctrico, rareza común
Tarjeta B: tipo dragón, rareza rara
Tarjeta C: tipo psíquico, rareza especial

Desde la perspectiva del coleccionista, este enfoque es ideal cuando:

Quiere revisar una tarjeta específica
Necesita conocer todas las características de una carta en particular
Agrega nuevas cartas a su colección una por una

En los álbumes de mis hijos, cada compartimiento contiene una carta completa. Este enfoque es eficiente cuando se trabaja con registros individuales, pero no es óptimo para analizar grandes volúmenes de tarjetas al mismo tiempo.

Enfoque orientado a columnas (Column-based)

En un enfoque orientado a columnas, los atributos de las tarjetas se almacenan por separado:

Todos los nombres juntos
Todos los tipos juntos
Todas las rarezas juntas
Todos los niveles juntos

Desde la perspectiva del coleccionista, este enfoque resulta ideal cuando quiere:

Encontrar todas las cartas de cierto tipo
Analizar la distribución de rarezas en su colección
Identificar patrones o tendencias dentro de un conjunto grande de cartas

Es como reorganizar la colección para analizarla: en lugar de ver carta por carta, se agrupan los atributos para poder comparar rápidamente.

Formato	Organización	¿Validado?	Casos de uso típicos	¿Comprimido?	Servicios AWS comunes	Observaciones
JSON	Row-based	Sí	Ingesta de eventos, datos semi-estructurados, APIs	No por defecto (puede comprimirse)	S3, Kinesis, Lambda, SageMaker	Legible para humanos. Soporta datos estructurados y semi-estructurados. Mayor latencia de parsing y overhead de tamaño.
CSV	Row-based	Sí	Datasets pequeños, prototipos, carga inicial	No por defecto (puede comprimirse)	S3, SageMaker, Glue	No soporta esquema ni estructuras complejas. Fácil de producir y consumir, pero poco eficiente a gran escala.
RecordIO	Binario	Sí	Entrenamiento optimizado en SageMaker	Sí	SageMaker	Serializado binario, eficiente y secuencial. No legible para humanos. Requiere procesamiento previo.
Parquet	Column-based	Sí	Big Data, entrenamiento ML, análisis	Sí (compresión columnar)	S3, Glue, Athena, SageMaker	Muy eficiente para consultas y ML. Ideal para grandes volúmenes. No todos los algoritmos built-in lo soportan directamente.
Avro	Row-based	No	Streaming, intercambio de datos	Sí	S3, Kafka (MSK), Glue	Común en pipelines con Kafka. Requiere transformación previa. No recomendado para entrenamiento directo en SageMaker.

Esta tabla resume uno de los criterios más importantes que evalúa el examen: no todos los formatos sirven para todo. Elegir correctamente implica entender el volumen de datos, el tipo de procesamiento y el servicio de AWS involucrado.

Practiquemos para el examen

Una empresa está construyendo un pipeline de Machine Learning en AWS para entrenar un modelo de clasificación utilizando un dataset de varios terabytes almacenado en Amazon S3.

El equipo necesita reducir el tiempo de entrenamiento y minimizar los costos de I/O, ya que el modelo solo utiliza un subconjunto de las columnas disponibles en el dataset.

¿Cuál es el formato de datos más adecuado para este escenario?

A. CSV, porque es fácil de producir y compatible con la mayoría de los servicios de AWS

B. JSON, porque permite manejar datos semi-estructurados de forma flexible

C. Parquet, porque almacena los datos de forma columnar y permite leer solo las columnas necesarias

D. Avro, porque es eficiente para intercambio de datos en sistemas distribuidos

Respuesta correcta

Parquet es un formato column-based y comprimido, lo que permite que los procesos de entrenamiento y análisis lean únicamente las columnas requeridas por el modelo. Esto reduce significativamente el I/O, mejora el rendimiento y disminuye los costos, especialmente cuando se trabaja con grandes volúmenes de datos en Amazon S3 y servicios como Amazon SageMaker, Athena o AWS Glue.

Otra historia hubiera sido si la pregunta estuviera enfocada en eventos en tiempo real, si no se enfocara en entrenamiento directo sino en ingesta.

Este pequeño mapa mental puede servir como recordatorio rápido del propósito de los principales formatos de datos, tanto para el examen como para la toma de decisiones en proyectos reales.

Conclusión

Entender cuándo usar un formato orientado a filas o a columnas, distinguir entre formatos validados y no validados, y reconocer el propósito de cada uno dentro de un pipeline permite desarrollar el criterio que el examen busca evaluar. Ese mismo criterio es el que luego se traduce en mejores decisiones técnicas cuando diseñamos soluciones de Machine Learning en entornos productivos.

Este es solo el primer paso del diario. A partir de aquí, el foco estará en cómo transformar, preparar y consumir estos datos.

DEV Community