lu1tr0n

Posted on May 21 • Originally published at elsolitario.org

Plagio con IA: ChatGPT copió su tutorial con todo y los enlaces internos

#ai #programming #machinelearning #tutorial

Un desarrollador encontró sus propios enlaces dentro de artículos copiados por ChatGPT que rankeaban por encima del suyo en Google. La anécdota, publicada el 20 de mayo en el blog personal de Axel K., resume en una sola escena el plagio con IA que enfrentan miles de creadores de contenido técnico en 2026: la IA generativa ingiere su trabajo sin permiso, lo reescribe a escala industrial y los algoritmos de búsqueda premian a las copias.

El caso no es aislado. Es la consecuencia visible de un modelo de negocio que opera desde hace años en una zona gris legal: entrenar modelos con todo lo público de internet, vender el output y dejar a los autores originales fuera de la cadena de valor.

TL;DR

Un creador encontró sus enlaces intactos dentro de artículos generados por ChatGPT que rankeaban arriba del original en Google.
El caso ilustra cómo las granjas de contenido con IA reescriben tutoriales completos sin atribución y se posicionan en SERP.
Modelos como GPT-4, Claude y Gemini se entrenaron con scrapes masivos de la web pública, en muchos casos sin opt-out efectivo.
The New York Times demanda a OpenAI desde diciembre de 2023 por uso no autorizado de millones de artículos.
Existen pleitos contra Meta, Microsoft y Perplexity por scraping y respuestas que reproducen contenido casi literal.
El estándar llms.txt propone declarar qué partes de un sitio pueden ser ingeridas por LLMs, aunque su adopción es voluntaria.
robots.txt permite bloquear GPTBot, ClaudeBot y Google-Extended, pero solo si el bot respeta la directiva.
Para creadores en LATAM el problema se agrava: menor poder legal contra plataformas y SEO dominado por contenido en inglés traducido por IA.

El caso Axel: el plagio que dejó huellas

Axel K. es un desarrollador que mantiene un blog sobre comercio electrónico, donde publica tutoriales originales investigados por cuenta propia. El 20 de mayo de 2026 publicó una entrada describiendo cómo descubrió que otros sitios estaban rankeando por encima del suyo en Google con artículos generados por IA que copiaban su trabajo.

El detalle que delata el plagio es absurdo: los artículos copiados contenían los enlaces originales hacia el blog de Axel, con el mismo texto ancla, intactos. Quien generó el contenido con ChatGPT no se molestó en revisar ni limpiar el output. La IA copió tutorial, estructura, ejemplos y referencias, y el operador del sitio copiacat lo publicó tal cual.

💭 Clave: El test del "link residual" es uno de los métodos más simples para detectar contenido generado por IA a partir de un original específico. Si un artículo enlaza al tuyo con un texto ancla que solo tiene sentido dentro de tu narrativa, probablemente lo copió.

El caso de Axel es revelador no por su escala —es solo un blogger más— sino por su tipicidad. Cualquier creador de contenido técnico, educativo o periodístico en 2026 puede reproducir el experimento. Buscá una frase exacta de uno de tus artículos en Google. Si aparecen sitios desconocidos con la misma idea reescrita, ya formás parte del corpus.

Cómo el plagio con IA se volvió escala industrial

El plagio existió siempre. Lo nuevo no es la copia, sino el costo marginal. Antes, copiar un tutorial requería sentarse, leer, parafrasear y reescribir. Hoy un operador con una suscripción a ChatGPT Plus paga 20 dólares al mes y produce decenas de artículos por día, con prompts del estilo:

Lee este artículo: [URL del tutorial original]
Reescríbelo con tu propia estructura, mantén los ejemplos
y agrega una intro y conclusión nuevas. 1500 palabras mínimo.

El operador no publica un artículo a la vez. Publica cien, mil, diez mil. Las granjas de contenido con IA se llenan de tutoriales reciclados, los venden con publicidad o programas de afiliados y compiten por SERP con creadores originales que tardaron semanas en investigar un tema.

El cálculo económico es brutal: el creador original invierte horas y conocimiento. El operador del sitio copia invierte céntimos por artículo. Si Google rankea ambos con criterios similares, el copiacat gana por volumen.

Las granjas de contenido con IA producen miles de artículos diarios a costo marginal.

Por qué Google premia el contenido copiado

Google asegura desde 2022 que su algoritmo prioriza "contenido original creado para personas, no para buscadores". En la práctica, los signals que dominan el ranking siguen siendo señales técnicas: velocidad del sitio, schema markup, backlinks, freshness, autoridad del dominio.

Un sitio copiacat moderno tiene todo eso: tema WordPress optimizado, schema correcto, contenido fresco diariamente —gracias a la IA—, backlinks comprados o intercambiados en redes oscuras de PBN (private blog networks). El creador original, con un sitio personal, suele tener menor autoridad de dominio y menos backlinks.

El resultado es que el algoritmo, técnicamente, no distingue entre original y copia bien camuflada. Y el sitio que mejor monetiza —el copiacat con anuncios y afiliados— suele tener más recursos para hacer SEO técnico que el blogger independiente.

⚠️ Ojo: Reportar contenido copiado a Google vía la herramienta de Search Console funciona en casos puntuales, pero no escala. Si una granja produce diez mil artículos copiados, no podés enviar diez mil DMCAs.

El precedente legal: NYT vs OpenAI y los pleitos en curso

En diciembre de 2023 The New York Times demandó a OpenAI y Microsoft alegando que sus modelos se entrenaron con millones de artículos del Times sin licencia, y que en algunos casos los modelos reproducen párrafos casi textuales del contenido original cuando se les pregunta. El caso sigue activo en 2026 y es el más mediático de una serie de pleitos similares.

A esa demanda se sumaron otras: Getty Images contra Stability AI, autores literarios contra Meta por usar libros pirateados de LibGen y Z-Library para entrenar Llama, y Perplexity contra varios editores que la acusan de reproducir noticias completas sin generar tráfico al sitio original.

El argumento de las compañías de IA es uniforme: el entrenamiento constituye fair use bajo la doctrina estadounidense, similar a cómo un humano puede leer un libro y luego escribir sobre el tema. El argumento de los demandantes también es uniforme: el output de los modelos compite directamente con el contenido original y captura valor sin compensación.

graph TD
A["Creador original"] -->|publica| B["Articulo en blog"]
B -->|scraping| C["Crawler de IA"]
C -->|entrenamiento| D["LLM"]
D -->|prompt| E["Operador copiacat"]
E -->|publica| F["Articulo reciclado"]
F -->|SEO tecnico| G["Aparece en Google"]

Cómo proteger tu contenido del scraping con IA

Existen tres capas de defensa disponibles hoy, ninguna perfecta:

1. robots.txt para bloquear bots conocidos

Los principales crawlers de IA respetan robots.txt si se declaran. Bloquearlos requiere agregar líneas explícitas:

User-agent: GPTBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: CCBot
Disallow: /

Google-Extended bloquea a Gemini sin afectar el rankeo en Google Search. CCBot es Common Crawl, base de muchos datasets de entrenamiento. La limitación es obvia: scrapers que ignoran robots.txt no se detienen con este archivo.

2. llms.txt: el estándar emergente

Jeremy Howard propuso en 2024 el estándar llms.txt, un archivo en la raíz del sitio que declara qué contenido es apropiado para que los LLMs lo consuman y cómo. La idea es ofrecer una versión limpia y estructurada del contenido para que los modelos lo citen correctamente en vez de scrapearlo desordenado.

# Mi blog técnico
> Tutoriales originales sobre desarrollo web

## Contenido permitido para LLMs
- [Guía de React](/guia-react.md): tutorial completo, citar con atribución
- [Patrones backend](/patrones-backend.md): código bajo MIT, mencionar fuente

## Restringido
- Posts marcados con

llms.txt es voluntario y aún experimental. Su adopción depende de que los proveedores de modelos lo respeten, lo cual no está garantizado.

3. Marcado HTML semántico para licencia

Algunos creadores agregan meta tags experimentales:

Bing y Google-Extended reconocen variantes de estos tags. La efectividad real depende del scraper.

Defensas técnicas actuales: robots.txt, llms.txt y meta tags experimentales.

El problema agravado para creadores en LATAM

Para creadores de contenido técnico en español, el panorama es peor que el de Axel. Tres razones específicas explican por qué el plagio con IA pega más fuerte en la región hispana.

Primero, el SEO en español compite contra traducciones automáticas de contenido en inglés. Una granja con IA puede tomar el mejor tutorial de Stack Overflow o Medium, traducirlo al español con GPT y posicionarse en SERP hispano antes que un creador local que escribió original en español. La velocidad del pipeline de traducción ganó al criterio editorial.

Segundo, las herramientas legales son débiles. Un blogger argentino o salvadoreño no tiene recursos para demandar a OpenAI o a un sitio copiacat alojado en otro país. Las leyes de propiedad intelectual varían y los costos procesales superan ampliamente el daño económico individual.

Tercero, los modelos de IA están sub-representando culturalmente al español de LATAM. Cuando un modelo regurgita contenido sobre programación en español, suele neutralizar el dialecto, perder regionalismos y producir prosa genérica que no conecta con la audiencia local. El contenido original auténtico se diluye dentro de un mar de output sintético.

💡 Tip: Si publicás contenido técnico en español, identificá tu voz con marcas regionales sutiles —ejemplos locales, modismos técnicos del país—. Hace al contenido más difícil de "lavar" por IA y construye relación con la audiencia.

Qué viene: regulación, llms.txt y el futuro del contenido original

El AI Act de la Unión Europea, vigente desde 2024 y con aplicación gradual hasta 2027, obliga a los proveedores de modelos generales a publicar un resumen detallado del dataset de entrenamiento. La idea es que los autores puedan identificar si su obra fue usada y exigir compensación o eliminación.

En Estados Unidos, la administración federal no ha aprobado legislación equivalente y los pleitos siguen siendo el principal mecanismo. La pregunta abierta es si los acuerdos privados —como el de OpenAI con Axel Springer o con Associated Press— se convierten en estándar de la industria o si quedan como excepción para grandes editores con poder de negociación.

En LATAM no hay regulación específica todavía. Brasil avanzó con una propuesta de ley de IA inspirada en el modelo europeo, pero sigue en discusión legislativa. El resto de la región opera bajo leyes de derechos de autor pre-IA, con escasa fuerza práctica frente a infractores extranjeros.

El futuro probable es una combinación: estándares técnicos voluntarios (llms.txt, ai.txt), licencias de contenido a nivel plataforma (Reddit, Stack Overflow y X ya cobran por sus APIs) y litigios estratégicos por parte de medios con recursos. Para el blogger individual, la opción más realista sigue siendo escribir tan bien y tan específico que el contenido sea reconociblemente suyo, aun después de pasar por un modelo generativo.

📖 Resumen en Telegram: Ver resumen

Preguntas frecuentes

¿El plagio con IA es legal?

Depende del país y del tipo de contenido. En Estados Unidos, la doctrina de fair use es ambigua para outputs de IA y los casos en curso aún no fijan precedente. En la UE, el AI Act exige transparencia sobre datasets pero no prohíbe el entrenamiento. En LATAM, las leyes de derechos de autor aplican pero la ejecución contra infractores extranjeros es difícil.

¿Bloquear GPTBot afecta mi posicionamiento en Google?

No. GPTBot es el crawler de OpenAI, separado de Googlebot. Bloquearlo solo evita que tu contenido entre en el entrenamiento de modelos OpenAI futuros. Google-Extended es el crawler que alimenta Gemini, también independiente del Googlebot de búsqueda. Bloquear ambos no penaliza tu SEO en Google Search.

¿Sirve enviar DMCAs a sitios copiacat?

Funciona para casos puntuales, especialmente si el sitio está alojado en jurisdicciones que respetan DMCA. No escala a operaciones masivas. Para granjas con cientos de artículos copiados, el costo de gestionar las solicitudes supera el beneficio individual de cada take-down.

¿Cómo detecto si mi contenido fue copiado por IA?

Búsquedas exactas de frases distintivas en Google, monitoreo con herramientas como Copyscape u Originality.ai, y revisión de backlinks anómalos en Google Search Console. La heurística del "link residual" descripta por Axel —buscar tus propios enlaces en otros sitios— es sorprendentemente efectiva.

¿Existe alguna forma de exigir compensación si mi contenido entrenó un modelo?

Hoy es muy difícil para creadores individuales. Las compañías de IA no publican listas detalladas de sus datasets. La única vía actual es sumarse a class actions cuando existan, como la de autores contra Meta. El AI Act europeo podría cambiar esto a partir de 2026-2027 al exigir resúmenes públicos de entrenamiento.

¿llms.txt va a resolver el problema?

Probablemente no por sí solo. Es un estándar voluntario que requiere adopción tanto de creadores como de proveedores de modelos. Tiene valor como señal de intención y como formato canónico para citar fuentes, pero sin enforcement legal o técnico solo funciona con actores de buena fe.

Referencias

Axel K. — AI is just unauthorised plagiarism at a bigger scale — Artículo original del 20 de mayo de 2026 que motivó este análisis.
llmstxt.org — Propuesta de estándar llms.txt por Jeremy Howard para declarar uso permitido a LLMs.
OpenAI — GPTBot documentation — Documentación oficial del crawler GPTBot y cómo bloquearlo vía robots.txt.
robotstxt.org — Especificación canónica del estándar robots.txt.
Wikipedia — NYT v. Microsoft Corporation — Resumen del caso legal en curso entre The New York Times y OpenAI/Microsoft.

📱 ¿Te gusta este contenido? Únete a nuestro canal de Telegram @programacion donde publicamos a diario lo más relevante de tecnología, IA y desarrollo. Resúmenes rápidos, contenido fresco todos los días.

DEV Community