Jesus Oviedo Riquelme

Posted on Oct 7, 2025

MLZC25-08. Predicción de Precios de Autos: Tu Primer Proyecto Completo de Machine Learning

#tutorial #beginners #spanish #machinelearning

🎯 Objetivo del Post: Aprenderás los conceptos fundamentales del Machine Learning aplicándolos a un proyecto real de predicción de precios de automóviles, desde la teoría hasta la implementación práctica.

🚗 El Problema: ¿Cuánto Vale Realmente tu Auto?

Imagina que eres un vendedor de autos usados experimentado. Cada día llegan clientes con la misma pregunta: "¿Cuánto vale mi auto?" Tu experiencia te permite estimar precios considerando factores como marca, modelo, año, kilometraje y condición. Pero, ¿qué pasaría si pudieras automatizar este proceso con una precisión superior y consistencia total?

Eso es exactamente lo que lograremos: crear un sistema de Machine Learning que prediga precios de automóviles con mayor precisión que la estimación manual, utilizando datos reales y algoritmos probados.

🧠 Machine Learning: La Revolución Silenciosa

¿Qué es Machine Learning?

Machine Learning (ML) es una rama de la inteligencia artificial que permite a las computadoras aprender patrones complejos de los datos sin ser programadas explícitamente para cada tarea específica.

Analogía simple: En lugar de escribir reglas como "si el auto tiene menos de 50,000 km, aumenta el precio en 20%", el ML analiza miles de ejemplos y descubre automáticamente estas relaciones complejas.

Los Tres Pilares del Machine Learning

📊 Aprendizaje Supervisado: Tenemos datos con "respuestas correctas" (precios conocidos) - Es nuestro caso
🔍 Aprendizaje No Supervisado: Solo tenemos datos sin respuestas conocidas
🎮 Aprendizaje por Refuerzo: El sistema aprende mediante recompensas y castigos

Nuestro proyecto utiliza Aprendizaje Supervisado porque tenemos un dataset histórico de autos con sus precios reales (MSRP - Manufacturer's Suggested Retail Price).

🎯 ¿Por qué Elegimos Predicción de Precios de Autos?

Este proyecto es ideal para aprender Machine Learning por múltiples razones estratégicas:

✅ 1. Problema Universal y Relatable

Todos hemos comprado o vendido un auto
Entendemos intuitivamente los factores que afectan el precio
Es un problema que resuena con nuestra experiencia personal

✅ 2. Datos Ricos y Accesibles

Especificaciones técnicas detalladas disponibles
Precios históricos reales del mercado
Características del mercado bien documentadas

✅ 3. Métricas de Éxito Claras

Podemos medir fácilmente la precisión comparando predicciones vs. precios reales
RMSE (Root Mean Square Error) nos dice exactamente qué tan bien funciona
R² nos muestra qué porcentaje de la variación explicamos

✅ 4. Curva de Aprendizaje Progresiva

Empezamos simple: precio basado solo en año y marca
Complejidad gradual: agregamos motor, transmisión, eficiencia
Técnicas avanzadas: regularización, feature engineering

✅ 5. Aplicación Práctica Inmediata

Concesionarios pueden usar esto para valuaciones
Compradores pueden verificar si un precio es justo
Vendedores pueden optimizar sus precios

📊 Los Datasets: Nuestros Tesoros de Información

En este curso trabajaremos con dos datasets complementarios que nos permitirán explorar diferentes enfoques de la predicción de precios:

💡 Estrategia de Aprendizaje: Usaremos el dataset principal para aprender conceptos fundamentales, y el dataset de tarea para aplicar lo aprendido en un contexto diferente.

Dataset Principal del Curso (Clase)

Fuente: data.csv

Este dataset contiene información detallada sobre vehículos con las siguientes características:

Características del Vehículo

Make (Marca): BMW, Audi, Mercedes-Benz, Toyota, etc.
Model: Modelo específico del vehículo
Year: Año de fabricación (1990-2017)
Engine HP: Potencia del motor en caballos de fuerza
Engine Cylinders: Número de cilindros del motor
Engine Fuel Type: Tipo de combustible (regular unleaded, premium unleaded, etc.)

Especificaciones Técnicas

Transmission Type: Tipo de transmisión (MANUAL, AUTOMATIC, AUTOMATED_MANUAL)
Driven_Wheels: Tracción (rear wheel drive, front wheel drive, all wheel drive, four wheel drive)
Number of Doors: Número de puertas
Vehicle Size: Tamaño del vehículo (Compact, Midsize, Large)
Vehicle Style: Estilo del vehículo (Sedan, Coupe, Convertible, SUV, etc.)

Eficiencia y Popularidad

highway MPG: Millas por galón en carretera
city mpg: Millas por galón en ciudad
Popularity: Índice de popularidad del vehículo
MSRP: Precio de venta sugerido por el fabricante (nuestra variable objetivo)

Dataset de la Tarea (Homework)

Fuente: car_fuel_efficiency.csv

Este dataset se enfoca específicamente en la eficiencia de combustible y contiene:

Características del Motor

engine_displacement: Desplazamiento del motor
num_cylinders: Número de cilindros
horsepower: Potencia en caballos de fuerza
fuel_type: Tipo de combustible (Gasoline, Diesel)

Características del Vehículo

vehicle_weight: Peso del vehículo
num_doors: Número de puertas
drivetrain: Tipo de tracción (Front-wheel drive, All-wheel drive, etc.)
model_year: Año del modelo

Rendimiento

acceleration: Aceleración
fuel_efficiency_mpg: Eficiencia de combustible en millas por galón (nuestra variable objetivo)
origin: Origen del vehículo (USA, Europe, etc.)

¿Por qué Dos Datasets?

Dataset de Clase: Más completo, ideal para aprender conceptos fundamentales
Dataset de Tarea: Más específico, perfecto para aplicar lo aprendido
Diferentes enfoques: Uno se enfoca en características generales, otro en eficiencia
Práctica real: Simula situaciones reales donde tienes diferentes tipos de datos

Cómo Acceder a los Datasets

Para la Clase (Conceptos Fundamentales)

import pandas as pd

# Dataset principal del curso
url_clase = "https://raw.githubusercontent.com/alexeygrigorev/mlbookcamp-code/refs/heads/master/chapter-02-car-price/data.csv"
df_clase = pd.read_csv(url_clase)

print("Dataset de Clase:")
print(f"Forma: {df_clase.shape}")
print(f"Columnas: {df_clase.columns.tolist()}")
print(f"Primeras filas:")
print(df_clase.head())

Para la Tarea (Homework)

# Dataset de la tarea
url_tarea = "https://raw.githubusercontent.com/alexeygrigorev/datasets/master/car_fuel_efficiency.csv"
df_tarea = pd.read_csv(url_tarea)

print("Dataset de Tarea:")
print(f"Forma: {df_tarea.shape}")
print(f"Columnas: {df_tarea.columns.tolist()}")
print(f"Primeras filas:")
print(df_tarea.head())

# Ejemplo de las columnas disponibles
print(f"\nColumnas del dataset de clase: {df_clase.columns.tolist()}")
print(f"Columnas del dataset de tarea: {df_tarea.columns.tolist()}")

Información Adicional que Podríamos Necesitar

En un proyecto real, también consideraríamos:

Condición y Historial

Número de dueños anteriores
Historial de accidentes
Mantenimiento registrado
Garantía restante

Contexto del Mercado

Ubicación geográfica: Los precios varían por región
Temporada: Los convertibles valen más en verano
Tendencia del mercado: Algunos modelos se vuelven más populares

El Proceso de Machine Learning

Nuestro proyecto seguirá estos pasos:

1. Recolección y Preparación de Datos

Descargar datos de autos con precios
Limpiar datos faltantes o incorrectos
Convertir texto a números cuando sea necesario

2. Análisis Exploratorio de Datos (EDA)

Visualizar distribuciones de precios
Identificar relaciones entre variables
Detectar valores atípicos (outliers)

3. División de Datos

Entrenamiento (70%): Para enseñar al modelo
Validación (15%): Para ajustar parámetros
Prueba (15%): Para evaluar el rendimiento final

4. Entrenamiento del Modelo

Usar Regresión Lineal como punto de partida
Encontrar la mejor línea que relacione características con precio

5. Evaluación y Mejora

Medir qué tan precisas son nuestras predicciones
Ajustar el modelo para mejor rendimiento

¿Qué es la Regresión Lineal?

La regresión lineal es uno de los algoritmos más simples y fundamentales en ML. Imagina que graficas el año del auto en el eje X y el precio en el eje Y. La regresión lineal encuentra la línea recta que mejor se ajusta a estos puntos.

Fórmula simple: Precio = a × Año + b

Donde:

a es la pendiente (cuánto aumenta el precio por año)
b es el intercepto (precio base)

Métricas de Evaluación: ¿Cómo Sabemos si Funciona?

Error Cuadrático Medio (RMSE)

Mide la diferencia promedio entre predicciones y valores reales. Un RMSE de $5,000 significa que, en promedio, nuestras predicciones están $5,000 lejos del precio real.

Coeficiente de Determinación (R²)

Mide qué porcentaje de la variación en precios puede explicar nuestro modelo. Un R² de 0.8 significa que explicamos el 80% de la variación.

Expectativas Realistas

Lo que SÍ puede hacer nuestro modelo:

Identificar patrones generales en los datos
Hacer predicciones razonables para autos similares a los que vio en entrenamiento
Mejorar con más datos y características

Lo que NO puede hacer:

Predecir el precio exacto de un auto único
Considerar factores emocionales o de mercado no incluidos en los datos
Funcionar bien con autos muy diferentes a los datos de entrenamiento

Próximos Pasos

En los siguientes posts exploraremos:

MLZC25-09 - Preparación de Datos: Cómo limpiar y preparar nuestro dataset (usando el dataset de clase)
MLZC25-10 - Análisis Exploratorio: Entendiendo nuestros datos con visualizaciones
MLZC25-11 - Marco de Validación: Dividiendo datos correctamente
MLZC25-12 - Regresión Lineal: Implementando nuestro primer modelo
MLZC25-13 - Métricas de Evaluación: RMSE y otras formas de medir éxito
MLZC25-14 - Ingeniería de Características: Creando variables más útiles
MLZC25-15 - Regularización y Ajuste: Mejorando nuestro modelo

Estrategia de Aprendizaje

Posts MLZC25-09 a MLZC25-12: Usaremos el dataset de clase para aprender conceptos fundamentales
Posts MLZC25-13 a MLZC25-15: Aplicaremos lo aprendido al dataset de la tarea
Práctica: Cada post incluirá ejemplos con ambos datasets

Conclusión

El proyecto de predicción de precios de autos es una excelente introducción al Machine Learning porque combina un problema real con conceptos fundamentales. Aprenderemos cómo los algoritmos pueden encontrar patrones en los datos y hacer predicciones útiles.

Recuerda: Machine Learning no es magia, es matemática aplicada. Cada predicción es el resultado de encontrar la mejor manera de combinar las características de entrada para estimar el valor de salida.

En el siguiente post, veremos cómo preparar nuestros datos para que el modelo pueda aprender de ellos efectivamente.