lu1tr0n

Posted on Jun 21 • Originally published at elsolitario.org

lcamtuf: 150 portadas clónicas en Amazon delatan el slop de IA

#ai #machinelearning #programming #tutorial

El investigador de seguridad Michał Zalewski, conocido en línea como lcamtuf, publicó el 21 de junio de 2026 un texto incómodo para quienes insisten en que el contenido generado por IA es indistinguible del humano. Su prueba no es un paper ni un detector: es un collage de unas 150 portadas de libros infantiles que Amazon devuelve al buscar «100000 whys». Casi todas son iguales.

Ese fenómeno —que ya tiene nombre propio, el slop de IA— revela algo más profundo sobre cómo escriben los modelos de lenguaje y por qué, pese a ser modelos estadísticos del habla humana, dejan una firma reconocible.

TL;DR

El 21/06/2026, lcamtuf mostró ~150 portadas de libros infantiles casi idénticas que Amazon devuelve al buscar «100000 whys».- Varios de esos libros son bestsellers de categoría en literatura infantil y están generados con IA.- Patrón clave: ante un prompt similar, un LLM produce salida funcionalmente idéntica cerca del 80% de las veces.- Todas las portadas de la fila superior repiten un dinosaurio rugiendo en la esquina superior izquierda.- Hay clústeres recurrentes: un cohete rojo y blanco, un golden retriever y un león que reaparecen en muchas tapas.- La tesis: el texto de IA se delata no por tics distintos a los humanos, sino por usar siempre el mismo repertorio de tics.- El «no es esto, es aquello» («it's not this — it's that») es uno de esos tics recurrentes y delatores.- El título alude al libro soviético de 1929 «One Hundred Thousand Whys», popularizado luego en China.

Qué pasó: 150 portadas que parecen la misma

La discusión arranca con un argumento que muchos desarrolladores hemos escuchado en reuniones y en hilos de redes: si un modelo de lenguaje es, en esencia, un modelo estadístico de cómo hablan los humanos, entonces su salida debería ser, casi por definición, indistinguible del lenguaje humano bajo cualquier prueba estadística. Es un razonamiento elegante y, a primera vista, difícil de rebatir.

lcamtuf responde con una imagen en lugar de una ecuación. Al buscar «100000 whys» en Amazon aparecen alrededor de 150 portadas de libros de divulgación infantil. No son simplemente parecidas: comparten composición, paleta y hasta los mismos elementos gráficos. Toda la fila superior del collage muestra un dinosaurio rugiendo en la esquina superior izquierda. Si uno sigue mirando, encuentra otros grupos: un cohete de caricatura rojo y blanco, un golden retriever, un león. No es coincidencia ni plagio entre autores; es el rastro de una herramienta que produce lo mismo una y otra vez.

Lo perturbador es que ninguna de esas portadas, vista de forma aislada, tiene nada de «inhumano». Cualquiera podría existir. El problema aparece cuando se ven las 150 juntas: ahí queda claro que estamos ante slop de IA en estado puro, el tipo de contenido que hoy llena categorías enteras de no ficción en tiendas como Amazon.
El collage de lcamtuf: 150 tapas distintas, la misma plantilla invisible.

Por qué la IA produce el mismo «slop»

La clave técnica es lo que lcamtuf llama el carácter cuasi-determinista de estas herramientas. Si cien «autores» le dan a su modelo favorito un prompt similar —por ejemplo, «generá un libro de referencia para niños»—, el modelo produce una salida funcionalmente idéntica quizás el 80% de las veces. No porque copie, sino porque, ante una entrada parecida y con parámetros de generación conservadores, recorre las mismas regiones de su espacio de probabilidades.

Para un desarrollador esto no debería sorprender. Un LLM convierte un prompt en una distribución de probabilidad sobre el siguiente token, y luego muestrea de esa distribución. Si bajás la temperatura —el parámetro que controla cuánta aleatoriedad se inyecta— la salida converge hacia la secuencia más probable. Con temperatura cero y el mismo prompt, muchos modelos devuelven exactamente lo mismo. Aun con temperatura moderada, las primeras decisiones (estructura, encabezados, fórmulas de apertura) tienden a repetirse porque son las de mayor probabilidad.

graph LR
  A["Prompt similar (100 usuarios)"] --> B["LLM con temperatura baja"]
  B --> C["Mismo repertorio de mannerisms"]
  C --> D["Salida clonica ~80% de las veces"]
  D --> E["Cluster visible: mismo dino, mismo cohete"]

El mismo principio que produce 150 dinosaurios en la esquina superior izquierda produce 150 introducciones que empiezan igual, 150 conclusiones que cierran con la misma cadencia y 150 listas con la misma estructura de viñetas. La determinación visual de las portadas es solo la versión más fácil de ver de un fenómeno que ocurre también en la prosa.

💭 Clave: La firma de un LLM no está en un tic exótico que los humanos nunca usen. Está en que recurre al mismo conjunto complejo de tics ante casi cualquier prompt normal. La señal es el clúster, no la palabra.

La firma no es el tic, es el repertorio

Aquí está el aporte más fino del artículo, y conviene leerlo despacio porque va contra la intuición. La escritura de un LLM no es distintiva porque sus manías sean diferentes a las nuestras. Los humanos también usamos rayas largas, antítesis, listas de tres y frases del tipo «no se trata de X, sino de Y». Lo distintivo es que el modelo echa mano del mismo repertorio amplio y reconocible de manías en respuesta a casi cualquier pedido.

El ejemplo que cita lcamtuf es la construcción «it's not this — it's that» («no es esto, es aquello»). Un humano la usa de vez en cuando, cuando el contraste lo amerita. Un LLM la usa con una frecuencia que, agregada a otras veinte manías igual de probables, termina formando una huella estadística. Es la concentración y la co-ocurrencia de marcas lo que delata, no cada marca por separado.

Por eso el autor advierte que se trata de una señal difusa: no deberías despedir a tu pasante porque escribió «no es esto, es aquello» en un correo. Pero en contextos más informales, dice, está bien confiar en el instinto. Y ese instinto importa cada vez más, porque los modelos clásicos de interacción en línea se desmoronan cuando producir contenido cuesta mucho menos que interactuar con él.
Detectar slop es leer el repertorio completo, no una sola frase.

Cómo detectarlo en la práctica

Ningún detector basado en una sola regla funciona, justamente porque cada manía aislada es perfectamente humana. Pero la idea del repertorio sugiere un enfoque distinto: contar cuántas marcas del repertorio típico aparecen juntas. No es una prueba forense, es un termómetro. Acá va un detector mínimo y honesto en Python que cualquiera puede adaptar a su idioma y a su corpus.

import re
import sys

# Marcas frecuentes del "repertorio" tipico de un LLM (ES/EN)
PATRONES = [
    r"no se trata de .*? sino de",   # "no es X, es Y"
    r"it'?s not .*? it'?s",
    r"en el mundo actual",
    r"en la era digital",
    r"sumerg(irse|amonos|ete) en",
    r"\ben resumen\b.*\ben conclusi[oó]n\b",
    r"\u2014",                        # uso intensivo de raya larga
]

def puntuar(texto: str) -> int:
    return sum(1 for p in PATRONES
               if re.search(p, texto, re.IGNORECASE | re.DOTALL))

if __name__ == "__main__":
    texto = sys.stdin.read()
    score = puntuar(texto)
    print(f"Senales de repertorio LLM: {score}/{len(PATRONES)}")
    print("Probable IA" if score >= 3 else "Probablemente humano (senal debil)")

Para ejecutarlo basta con pasar un texto por la entrada estándar. La sintaxis cambia un poco según el sistema operativo:

# Linux
cat articulo.txt | python3 slop_detector.py

# macOS
cat articulo.txt | python3 slop_detector.py

# Windows (PowerShell)
Get-Content articulo.txt | python slop_detector.py

⚠️ Ojo: Un puntaje alto es una sospecha, no un veredicto. Hay humanos que escriben con esas mismas marcas y modelos que las evitan si se les pide. Usalo para priorizar revisión manual, nunca para acusar ni para tomar decisiones automáticas sobre personas.

Impacto y análisis: qué significa para LATAM

Para la comunidad de desarrolladores en América Latina, el slop de IA no es un debate abstracto sobre tapas de libros. Toca tres frentes muy concretos. El primero es la confianza en el contenido técnico: tutoriales, respuestas de foros y posts de blog generados en masa que repiten el mismo esqueleto, los mismos ejemplos y, a veces, los mismos errores. Cuando cien artículos «explican» lo mismo con la misma plantilla, encontrar la fuente original y verificada se vuelve más caro que antes.

El segundo frente es la economía de la atención. lcamtuf lo resume con una frase que debería incomodar a cualquiera que automatice publicaciones: si usás un LLM para automatizar tu blog, lo más probable es que tu publicación pueda rebautizarse como «100,000 Whys». No porque la tecnología sea mala —es asombrosa—, sino porque sin curaduría humana converge hacia lo indistinguible del montón.

El tercero es práctico y casi cultural: en español, las marcas del repertorio cambian. La raya larga, los anglicismos calcados, las antítesis y las fórmulas de cierre tienen su propia versión local. Quien quiera detectar slop en castellano necesita construir su propio diccionario de manías, porque los detectores entrenados en inglés rinden peor sobre nuestra prosa. Es una oportunidad para herramientas hechas desde la región.

💡 Tip: Si publicás con ayuda de IA, rompé el determinismo a propósito: cambiá la estructura, agregá un ejemplo propio que el modelo no podía conocer, citá una fuente verificada y reescribí las aperturas. El antídoto contra el clúster es la singularidad que solo vos podés aportar.

Qué sigue

El propio lcamtuf agregó tres posdatas relevantes. La primera: el título «100,000 whys» probablemente proviene de un libro de 1929, «One Hundred Thousand Whys», casi desconocido en Occidente pero popular en China por razones políticas curiosas. La segunda: el contenido de esos libros generados es exactamente lo que uno esperaría, tan genérico como las tapas. La tercera: no se trata de un único título; el patrón se repite en otras búsquedas y categorías.

La conclusión razonable no es que la detección de IA esté resuelta —no lo está— ni que toda automatización sea mala. Es que el determinismo de los modelos deja huellas agregadas, y que esas huellas seguirán siendo útiles mientras el costo de producir siga siendo menor que el de leer con atención. A medida que las plataformas intenten filtrar slop, veremos una carrera entre quienes diversifican prompts y modelos para esconder la firma y quienes afinan el ojo —y los contadores de manías— para detectarla.

📖 Resumen en Telegram: Ver resumen

Preguntas frecuentes

¿Qué es el slop de IA?

Es el contenido genérico generado en masa con modelos de lenguaje o de imagen, sin curaduría humana real. Se reconoce porque muchas piezas distintas comparten la misma estructura, los mismos clichés y, en el caso de las imágenes, los mismos elementos gráficos, como las 150 portadas casi idénticas del ejemplo de lcamtuf.

¿Se puede distinguir el texto escrito por IA del humano?

No con certeza absoluta a partir de una sola frase, porque cada manía individual también la usan los humanos. Pero sí de forma probabilística: los LLM recurren al mismo repertorio amplio de manías ante casi cualquier prompt, y esa concentración de marcas forma una firma estadística detectable en conjunto.

¿Por qué los modelos producen salidas tan parecidas?

Porque son cuasi-deterministas. Ante prompts similares y con parámetros de generación conservadores, eligen las secuencias de mayor probabilidad, así que producen salidas funcionalmente idénticas cerca del 80% de las veces. Bajar la temperatura acentúa aún más esa convergencia.

¿Sirven los detectores automáticos de IA?

Sirven como termómetro, no como veredicto. Un puntaje alto indica que vale la pena revisar manualmente, pero hay falsos positivos (humanos con ese estilo) y falsos negativos (modelos a los que se les pidió variar). No deberían usarse para sancionar personas de forma automática.

¿Qué puedo hacer si publico contenido con ayuda de IA?

Romper el determinismo: aportar ejemplos propios, cambiar la estructura por defecto, citar fuentes verificables, reescribir las aperturas y los cierres, y revisar todo con criterio editorial. La curaduría humana es justamente lo que evita que tu publicación termine siendo parte del clúster.

Referencias

The 100,000 whys of AI — lcamtuf's thing — artículo original que presenta el collage y la tesis del repertorio.- One Hundred Thousand Whys — Wikipedia — el libro de 1929 del que probablemente proviene el título recurrente.- AI slop — Wikipedia — definición y contexto del fenómeno de contenido generado en masa.

📱 ¿Te gusta este contenido? Únete a nuestro canal de Telegram @programacion donde publicamos a diario lo más relevante de tecnología, IA y desarrollo. Resúmenes rápidos, contenido fresco todos los días.

DEV Community