Python para inteligencia artificial, por dónde empezar si sos developer junior

#ai #beginners #python #machinelearning

Python es el lenguaje más popular del mundo según el índice TIOBE de principios de 2026, con más del 21% de participación, y la razón principal de ese número es la IA. En la encuesta de Stack Overflow 2025, el uso de Python entre developers pasó del 51% al 58%, el mayor salto anual de cualquier lenguaje en los últimos años. Es que los frameworks más importantes de IA, TensorFlow, PyTorch, Scikit-learn, todos corren sobre Python.

Si sos developer junior y querés entrar al mundo de la IA, la pregunta no es si aprender Python. La pregunta es por dónde empezar sin ahogarte en librerías que no vas a necesitar todavía.

Por qué Python y no otro lenguaje

Hay razones concretas. Los frameworks de machine learning (ML) más usados en producción son Python-nativos. La comunidad es enorme, lo que significa que vas a encontrar documentación, respuestas en Stack Overflow y tutoriales para casi cualquier problema que tengas. La sintaxis es limpia y permite concentrarse en el problema antes que en el lenguaje.

Datos reales: según Stack Overflow 2025, el 84% de los developers usa o planea usar herramientas de IA en su trabajo. Python es el lenguaje que conecta esas herramientas. No hay un segundo cercano para ese rol específico.

El error más común cuando empezás

La mayoría de los artículos sobre Python para IA te tiran 15 librerías en la primera pantalla. NumPy, Pandas, Matplotlib, Scikit-learn, TensorFlow, PyTorch, Keras, Hugging Face, LangChain, y siguen. El resultado es que no sabés por dónde empezar y terminás aprendiendo el nombre de cosas sin entender cómo se conectan.

La realidad de un proyecto de machine learning es que tiene un orden. Primero vas a manipular datos, después los vas a visualizar para entender qué tenés, después vas a preparar esos datos para un modelo, y finalmente vas a entrenar y evaluar el modelo. Cada librería existe para una parte específica de ese flujo, y si aprendés en ese orden, todo tiene sentido mucho más rápido.

El flujo real y qué usar en cada parte

Fundamento matemático de los datos

NumPy es la base de casi todo el ecosistema. Es una librería para operaciones numéricas con arrays multidimensionales, y la razón por la que Python puede hacer cálculos a velocidad de C sin que vos lo notes. No necesitás dominarla en profundidad al principio, pero entender cómo funciona un array de NumPy te va a evitar mucha confusión después.

import numpy as np

datos = np.array([2, 4, 6, 8, 10])
print(datos.mean())  # 6.0
print(datos.std())   # 2.8...

Manipulación de datos

Pandas es la herramienta para trabajar con datasets reales, los que vienen en CSV, Excel o bases de datos. Te permite cargar, limpiar, filtrar y transformar datos con una API que después de un par de días ya se siente natural.

import pandas as pd

df = pd.read_csv("datos.csv")
print(df.head())
print(df.isnull().sum())  # cuántos valores faltantes hay por columna

En el mundo real, pasar del 70% al 80% del tiempo de un proyecto de ML se va en esta etapa. Datos sucios, columnas mal tipadas, valores faltantes. Pandas es donde se resuelve eso.

Visualización

Matplotlib es el motor base para gráficos en Python. No es el más bonito, pero es el más compatible con el resto del ecosistema. Seaborn está construido sobre Matplotlib y te da gráficos estadísticos con menos código. Para proyectos donde el resultado tiene que mostrarse en un dashboard o una web, Plotly es la opción más usada en 2026.

import matplotlib.pyplot as plt

plt.plot([1, 2, 3, 4], [10, 20, 15, 30])
plt.title("Mi primer gráfico")
plt.show()

Machine learning clásico

Scikit-learn es el punto de entrada correcto para cualquier junior que quiere construir su primer modelo predictivo. Tiene una API consistente que funciona igual para regresión lineal, árboles de decisión, clustering, o métricas de evaluación. Open source, con licencia BSD, y con una de las documentaciones más claras del ecosistema.

from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
modelo = LinearRegression()
modelo.fit(X_train, y_train)
predicciones = modelo.predict(X_test)
print(mean_squared_error(y_test, predicciones))

No aprendas TensorFlow ni PyTorch antes de entender bien Scikit-learn. Esa es una de las cosas que más demora el progreso de los developers juniors.

Deep learning

Una vez que tenés claro el flujo de datos y entrenaste modelos clásicos con Scikit-learn, recién ahí tiene sentido entrar a deep learning. Las dos opciones principales son PyTorch y TensorFlow.

PyTorch en 2026 domina en investigación y está ganando terreno fuerte en producción. Su modelo de ejecución es más intuitivo para quien viene de Python porque permite inspeccionar qué pasa en cada paso. TensorFlow tiene ventajas en despliegue a escala, con herramientas como TensorFlow Serving y TFLite para móviles. Keras está integrada como la API de alto nivel de TensorFlow y reduce bastante el boilerplate.

Para un junior que arranca, PyTorch es el camino más recomendado hoy porque tiene más recursos de aprendizaje modernos y es el que más se usa en el ecosistema open source.

Modelos de lenguaje y NLP

Hugging Face Transformers es la librería estándar para trabajar con modelos de lenguaje preentrenados. Modelos como BERT, GPT y sus variantes están disponibles con pocas líneas de código. Para proyectos que necesitan procesar texto en volumen o integrar un LLM, es el punto de entrada correcto.

from transformers import pipeline

clasificador = pipeline("sentiment-analysis")
resultado = clasificador("Este artículo es muy útil")
print(resultado)

Un roadmap realista en tiempo

Si podés dedicarle entre una y dos horas por día, esta es una progresión que podrías seguir:

Semanas 1 y 2: bases de Python si no las tenés sólidas. Variables, funciones, listas, diccionarios, clases básicas. Sin esto, todo lo demás se complica.
Semanas 3 y 4: NumPy y Pandas con datasets reales. Kaggle tiene datasets gratuitos para practicar desde el primer día.
Semana 5: visualización con Matplotlib y Seaborn. No necesitás profundizar mucho, con poder graficar distribuciones y correlaciones alcanza.
Semanas 6 al 8: Scikit-learn. Regresión lineal, árboles de decisión, evaluación de modelos con train-test split y métricas como accuracy, RMSE y F1.
Semanas 9 al 12: introducción a PyTorch. Tensores, autograd, tu primera red neuronal.
Semanas 13 en adelante: proyectos propios. Un clasificador de imágenes, un modelo que predice algo que te interese, un chatbot básico. El portfolio importa más que los cursos.

Lo que no necesitás aprender todavía

LangChain, LlamaIndex, MLflow, Ray, Spark, Airflow. Son herramientas reales y muy usadas en producción, pero son para cuando ya sabés construir y evaluar modelos. Aprenderlas antes es como aprender a hacer pit stop en Fórmula 1 antes de aprender a manejar.

Dónde practicar gratis desde hoy

Kaggle tiene cursos cortos de Python, Pandas y machine learning completamente gratuitos, con entorno de notebooks en el navegador sin instalar nada. Fast.ai tiene un curso de deep learning que es probablemente el mejor recurso gratuito para pasar de Scikit-learn a PyTorch. Microsoft Learn también tiene rutas de aprendizaje sobre Python e IA que podés seguir a tu ritmo:

👉 https://learn.microsoft.com/training/browse/?filter-products=python&terms=python&wt.mc_id=studentamb_510930

El camino no es corto, pero tampoco es imposible. La clave es ir en orden y no saltar a deep learning antes de tener claro cómo funciona un pipeline de datos. Los developers que más rápido avanzan no son los que leen más, son los que construyen cosas desde el primer mes aunque sean simples.