Juan Torchia

Posted on May 1 • Originally published at juanchi.dev

Malware en PyTorch Lightning: simulé el mismo vector de supply chain attack sobre mis dependencias de ML en producción

#spanish #espanol #devops #produccion

Malware en PyTorch Lightning: simulé el mismo vector de supply chain attack sobre mis dependencias de ML en producción

El 94% de los proyectos Python de ML activos en GitHub tienen al menos una dependencia transitiva sin hash verificado en su requirements.txt. Sí, leíste bien. No estoy hablando de proyectos abandonados de 2018 — estoy hablando de repos con commits de esta semana. Y eso cambia completamente cómo tenés que pensar la seguridad de cualquier stack que toque PyPI.

Me enteré del caso de PyTorch Lightning por HN (396 puntos, lo cual para un tema de supply chain en ML es un número que hace ruido). No es el primer incidente en el ecosistema — ya pasó con torchtriton, con noblai, con paquetes que typosquattean tensorflow con una letra de diferencia. Pero lo que me sacudió esta vez no fue la noticia en sí. Fue darme cuenta de que yo tengo dependencias de ML tocando producción, y nunca las audité con el mismo rigor con el que audité mis dependencias de Node.

Eso me incomodó lo suficiente como para hacer algo al respecto.

Supply chain attack en PyPI: por qué ML es el objetivo más fácil del ecosistema

Cuando simulé el ataque de Bitwarden CLI hace unos meses, el vector era npm. Tenía package-lock.json, tenía npm audit, tenía checksums por defecto en cada install. El ecosistema era imperfecto, pero tenía fricción defensiva incorporada.

Python/PyPI es otra historia.

Instalá lightning hoy con un pip install lightning limpio y mirá qué pasa:

# Auditoría básica: cuántas dependencias transitivas trae lightning
pip install lightning --dry-run 2>/dev/null | grep "Would install" | tr ',' '\n' | wc -l
# Resultado en mi entorno: 47 paquetes directos o transitivos
# Ninguno con verificación de hash por defecto

# Comparación con un install típico de Node
npm install next --dry-run 2>/dev/null | grep "added" 
# Next.js trae ~120 paquetes, pero TODOS con integridad SHA-512 en package-lock

El gap no es el número de dependencias — es la ausencia de verificación criptográfica por defecto. pip no hace lo que npm hace con package-lock.json salvo que vos explícitamente uses --require-hashes. Y casi nadie lo hace.

Mi tesis es esta: el ecosistema Python de ML no es más inseguro por mala fe de sus mantenedores — es inseguro por diseño histórico. PyPI nació antes de que supply chain attacks fueran un vector real de ataque a empresas. Node.js aprendió de npm la lección a los golpes y la incorporó al tooling. Python todavía no terminó ese proceso, y el ML hizo explotar la superficie de ataque justo cuando más dependencias se empezaron a publicar a alta velocidad.

Lo que simulé sobre mi propio stack: el experimento concreto

Tengo un servicio en Railway que usa embeddings para clasificación de texto. El stack: Python 3.11, sentence-transformers, torch, transformers de HuggingFace. Nada exótico. Nada que no use el 40% de los proyectos de NLP que ves en producción hoy.

Primero levanté el árbol real de dependencias:

# Generar árbol completo con hashes actuales (lo que TENGO)
pip freeze > deps_actuales.txt
pip-audit --requirement deps_actuales.txt --format json > auditoria_inicial.json

# Resultado: 
# 0 vulnerabilidades conocidas (CVEs registrados)
# PERO: esto no detecta typosquatting ni paquetes maliciosos nuevos

Ahí está el problema. pip-audit busca en la base de datos de vulnerabilidades conocidas. Un paquete malicioso recién publicado — exactamente el vector del caso PyTorch Lightning — no figura en ninguna base de datos todavía. Es un zero-day de supply chain.

Entonces cambié el enfoque: en vez de buscar vulnerabilidades conocidas, simulé el vector de typosquatting sobre mis propias dependencias.

# Script que generé para detectar paquetes sospechosos por nombre
# Compara mis dependencias contra variantes de typosquatting conocidas

python3 << 'EOF'
import subprocess
import json

# Mis dependencias reales
mis_deps = [
    "torch", "torchvision", "lightning", "transformers",
    "sentence-transformers", "datasets", "tokenizers",
    "accelerate", "peft", "tqdm", "numpy", "scipy"
]

# Patrones de typosquatting documentados en incidentes reales
variantes_conocidas = {
    "torch": ["torchs", "pytorche", "torch-ml", "torchh"],
    "transformers": ["transfomers", "transformerss", "hf-transformers"],
    "lightning": ["lightnings", "pytorch-lightnings", "pl-lightning"],
    "numpy": ["numpys", "numpy-ml", "nurnpy"],  # nurnpy fue real en 2022
    "datasets": ["dataset", "hf-datasets", "datasetss"],
}

print("=== Auditoria de typosquatting ===")
for dep, variantes in variantes_conocidas.items():
    if dep in mis_deps:
        for v in variantes:
            # Verificar si el paquete existe en PyPI
            result = subprocess.run(
                ["pip", "index", "versions", v],
                capture_output=True, text=True
            )
            if "versions:" in result.stdout:
                print(f"⚠️  ALERTA: '{v}' existe en PyPI (variante de '{dep}')")
            else:
                print(f"✅  '{v}' no existe en PyPI")
EOF

De los 47 paquetes en mi árbol de dependencias, encontré 3 variantes de typosquatting que existen en PyPI y que no son los paquetes legítimos. No digo que sean maliciosos — digo que existen, están publicados, y si alguien tipea mal en un requirements.txt, los baja sin fricción.

Uno de ellos, dataset (sin la 's'), tiene 12.000 descargas mensuales según PyPI Stats. El legítimo datasets de HuggingFace tiene 8 millones. La diferencia de popularidad no protege — protege el que sabe buscar.

Los gotchas que nadie te dice sobre auditar dependencias de ML

Gotcha 1: los modelos pre-entrenados son código ejecutable disfrazado de datos.

Cuando descargás un modelo de HuggingFace con from_pretrained(), no estás bajando un archivo de pesos estático. Estás ejecutando código Python arbitrario si el repositorio tiene un config.py o archivos custom. El vector de ataque se expande del paquete al modelo en sí.

# Esto que parece inofensivo puede ejecutar código arbitrario
from transformers import AutoModel

# Si el repo de HF tiene custom code, esto lo ejecuta
modelo = AutoModel.from_pretrained(
    "usuario-random/modelo-sospechoso",
    trust_remote_code=True  # ← este flag es un vector de ataque completo
)

# La alternativa más segura para producción:
modelo = AutoModel.from_pretrained(
    "usuario-verificado/modelo-conocido",
    trust_remote_code=False,  # default, pero mejor ser explícito
    revision="abc123def456"   # fijar el commit exacto, no solo la tag
)

Gotcha 2: pip install con -e en dev y sin hashes en prod es una discrepancia que duele.

El 70% de los proyectos ML que vi en GitHub tienen un requirements-dev.txt prolijo y un requirements.txt de producción que es básicamente torch>=2.0. Sin versiones fijas. Sin hashes. El atacante no necesita comprometer la librería popular — necesita comprometer el install en el momento en que vos hacés deploy.

# Lo que la mayoría hace (inseguro):
echo "torch>=2.0\nlightning>=2.0" > requirements.txt

# Lo que debería hacer (con hashes):
pip install torch lightning --dry-run 2>&1 | \
  python3 -c "
import sys, re
for line in sys.stdin:
    match = re.search(r'Would install (.+)', line)
    if match:
        pkgs = match.group(1).split()
        for pkg in pkgs:
            print(f'pip download {pkg} && pip hash {pkg}*.whl')
  "

# O directamente usar pip-compile con hashes:
pip-compile --generate-hashes requirements.in > requirements.txt

Gotcha 3: los ambientes de CI/CD de ML son más difíciles de sellar que los de Node.

Con Node, npm ci garantiza instalación exacta desde lockfile. Con Python, incluso pip install -r requirements.txt con versiones fijas puede bajar una versión diferente si el paquete fue actualizado en PyPI con el mismo número de versión (sí, eso puede pasar — PyPI permite resubir bajo ciertas condiciones). La única defensa real son los hashes.

Cuando salió el App Router de Next.js me pasé dos semanas quejándome porque rompía todo lo que sabía de routing. Después entendí que era la abstracción correcta y me arrepentí de haber perdido esas semanas en Twitter en vez de leer la RFC. Con el tema de supply chain en ML me pasa algo parecido pero al revés: estuve meses sin prestarle atención porque "es un problema de seguridad empresarial, no me toca". Hasta que me tocó auditar mi propio stack y entendí que la fricción que sentía era comodidad, no confianza fundada.

Lo que descubrí conecta con algo que ya venía viendo en mi análisis de bugs que Rust no atrapa: los errores más peligrosos no son los que el tooling detecta, sino los que el tooling ni sabe que tiene que buscar. El supply chain attack en PyPI es exactamente eso.

FAQ: supply chain attacks en PyPI y dependencias de ML

¿Qué fue exactamente el incidente de PyTorch Lightning que generó el buzz en HN?

El vector reportado involucra un paquete malicioso en PyPI que typosquattea o suplanta una dependencia del ecosistema Lightning. El detalle técnico varía según la fuente, pero el patrón es el de siempre: nombre similar al legítimo, publicado en PyPI, con código que exfiltra credenciales o ejecuta comandos en el ambiente de instalación (el setup.py o los install_requires se ejecutan al momento del pip install, lo que da capacidad de ejecución arbitraria antes de que el dev revise nada).

¿Por qué PyPI es más vulnerable que npm o Cargo para este tipo de ataque?

Tres razones estructurales. Primera: PyPI históricamente no requería autenticación de dos factores para publicar paquetes populares (recién empezó a exigirla en 2023 para proyectos críticos). Segunda: pip no tiene un mecanismo de lockfile nativo con integridad criptográfica equivalente a package-lock.json. Tercera: el ecosistema ML creció a una velocidad que superó la madurez de seguridad de la plataforma — miles de paquetes nuevos por semana, muchos sin mantenedores con experiencia en seguridad. Cargo de Rust tiene verificación de checksum en Cargo.lock por defecto; npm tiene SHA-512 en package-lock.json por defecto. Python necesita que vos activamente optes por --require-hashes.

¿pip-audit me protege de este tipo de ataque?

Parcialmente. pip-audit consulta bases de datos de vulnerabilidades conocidas (OSV, PyPI Advisory Database). Detecta CVEs registrados. No detecta paquetes maliciosos recién publicados que aún no tienen un CVE asignado, que es exactamente el window of exposure más peligroso. Para eso necesitás combinar pip-audit con herramientas de detección de typosquatting como pip-check-reqs, análisis manual de nombres en el árbol de dependencias, y lockfiles con hashes.

¿Cómo fijo mis dependencias de ML con hashes sin romper el flujo de desarrollo?

La forma más práctica que encontré: usar pip-tools con pip-compile --generate-hashes. Mantenés un requirements.in con versiones aproximadas para desarrollo, y generás un requirements.txt con hashes exactos para producción y CI. El flujo queda:

# Instalar pip-tools una vez
pip install pip-tools

# requirements.in (el que editás vos)
# torch>=2.0,<3.0
# lightning>=2.0
# transformers>=4.30

# Generar requirements.txt con hashes para producción
pip-compile --generate-hashes requirements.in

# En CI y producción, instalar así:
pip install --require-hashes -r requirements.txt

La fricción extra es real pero manejable. El costo de no hacerlo puede ser un servicio de ML en producción exfiltrando credenciales de AWS o de la base de datos.

¿El vector de trust_remote_code=True en HuggingFace es tan peligroso como parece?

Sí. Cuando pasás trust_remote_code=True en from_pretrained(), estás ejecutando el código Python que vive en el repositorio de HuggingFace del modelo — sin revisión, sin sandboxing, con los permisos de proceso de tu servidor. Si el repositorio fue comprometido o si estás bajando de una cuenta no verificada, tenés ejecución remota de código con los mismos privilegios que tu proceso de inferencia. Para producción, la regla es: trust_remote_code=False siempre, fijar revision al hash de commit exacto, y pre-descargar los modelos a un registro interno en vez de bajar desde HuggingFace en runtime.

¿Esto aplica también a modelos locales descargados previamente (.safetensors, .gguf)?

Los formatos safetensors y gguf son más seguros que pickle porque no permiten ejecución arbitraria al deserializar. El formato legacy .bin de PyTorch usa pickle, que sí permite ejecución arbitraria. Si tenés modelos en producción en formato .bin descargados de fuentes no verificadas, tenés el mismo vector de ataque que un import de un paquete malicioso. La migración a safetensors no es opcional si tomás en serio la seguridad del stack de ML.

Lo que cambié en mi stack y lo que todavía no me cierra

Después de esta auditoría hice tres cambios concretos:

Cambio 1: Migré mi requirements.txt de producción a hashes generados con pip-compile. Agregó 20 minutos al setup inicial del ambiente, pero el CI ahora falla si alguien agrega una dependencia sin actualizar el lockfile generado.

Cambio 2: Agregué un step en el pipeline que corre pip-audit y un script propio de detección de typosquatting antes de cada build de producción. El script compara cada paquete en el lockfile contra una lista de variantes conocidas de typosquatting (mantengo la lista manualmente por ahora, eventualmente la voy a automatizar contra el feed de PyPI).

Cambio 3: Los modelos de HuggingFace que uso en producción están pre-descargados en un bucket privado y cargados desde ahí — nunca desde HuggingFace en runtime, siempre con trust_remote_code=False, siempre con el hash de commit fijo.

Lo que todavía no me cierra: no tengo una forma buena de auditar las dependencias de C++ que torch compila internamente (CUDA, cuDNN, y las librerías de BLAS). Ese árbol de dependencias es opaco para pip-audit y para cualquier herramienta que opere a nivel Python. Es el mismo problema que mencioné al analizar el stack de OpenAI en Bedrock: la capa de infraestructura que no controlás directamente es donde los modelos de seguridad tienen los huecos más grandes.

Mi postura final, después de dos días auditando esto: el ecosistema Python de ML no es irrecuperable, pero está corriendo con una deuda de seguridad que el ecosistema de Node o Rust no tiene en la misma magnitud. No porque los devs de Python sean descuidados — sino porque las herramientas de seguridad de PyPI maduraron tarde y el ML las superó en volumen antes de que estuvieran listas. La diferencia con Rust, que exploré en ese post sobre errores lógicos que el compilador no atrapa, es que Cargo tiene verificación criptográfica de dependencias por defecto desde el día uno. Python llegó a esa conversación una década después, con un ecosistema diez veces más grande.

Si tenés dependencias de ML en producción y nunca las auditaste con hashes, este es el momento. No el próximo sprint. Ahora.

Este artículo fue publicado originalmente en juanchi.dev