DEV Community

Cover image for Robots.txt a fost informal 28 de ani. Iată ce greșesc majoritatea dezvoltatorilor.
FLASH SHIP
FLASH SHIP

Posted on

Robots.txt a fost informal 28 de ani. Iată ce greșesc majoritatea dezvoltatorilor.

Fiecare dezvoltator a editat un fișier robots.txt măcar o dată. Majoritatea scriem câteva reguli Disallow și uităm de el.

Problema: robots.txt a fost o convenție informală din 1994 până când RFC 9309 l-a transformat în standard oficial de internet, în septembrie 2022. 28 de ani fără o specificație formală.

Standardizarea a clarificat regulile de parsare. Dar confuziile de bază persistă.

Crawling ≠ Indexare

Cel mai important lucru despre robots.txt: blochează crawl-ul, nu indexarea.

Disallow: /secret/ împiedică Googlebot să acceseze pagina. Dar dacă altcineva face link către ea, Google poate indexa URL-ul, afișându-l în rezultate fără titlu, fără descriere, fără conținut.

Pentru deindexare reală, folosește:

<meta name="robots" content="noindex">
Enter fullscreen mode Exit fullscreen mode

Sau headerul HTTP: X-Robots-Tag: noindex

Și iată capcana: dacă blochezi o pagină în robots.txt ȘI pui noindex pe ea, Google nu poate citi noindex-ul (fiindcă nu accesează pagina). Pagina rămâne indexată fără conținut.

63% din site-urile enterprise își blochează propriile CSS/JS

Un audit SearchEngineZine din 2026 a descoperit că 63% din site-urile enterprise blochează accidental fișierele CSS și JavaScript prin robots.txt.

Googlebot folosește un renderer bazat pe Chromium. Are nevoie de CSS și JS ca să „vadă" pagina ta. Blochezi acele fișiere → Google vede un schelet spart → evaluarea Core Web Vitals eșuează → ranking-ul scade.

Greșeală clasică în WordPress:

# Blochează toate stilurile și scripturile temei
Disallow: /wp-content/themes/
Enter fullscreen mode Exit fullscreen mode

Cinci greșeli frecvente

  1. Blochezi CSS/JS: 63% din site-urile enterprise fac asta accidental
  2. Aștepți deindexare de la Disallow: robots.txt ≠ noindex
  3. Wildcard prea agresiv: Disallow: /admin blochează și /administrator
  4. Staging-ul moștenește Disallow: uiți să scoți Disallow: / la lansare
  5. Crawl-delay pentru Google: Google îl ignoră complet; doar Bing/Yandex îl respectă

Explozia traficului de boți

Conform Cloudflare Radar 2025, 57,5% din traficul web e generat de boți. ~20,3% din traficul verificat e crawlere AI.

Ratio crawl-to-refer:

  • ClaudeBot: 11.122:1 (crawlează 11K pagini per referral trimis)
  • GPTBot: ~1.255:1

Blocarea e simplă: User-agent: GPTBot / Disallow: /

Dar blocarea crawl-ului ≠ dispariția din AI search. ChatGPT Search folosește indexul Bing (~92%). Conținutul tău poate apărea în răspunsuri AI indiferent.

Ghidul complet

Am scris un articol detaliat cu specificul WordPress (robots.txt virtual vs. fizic, conflicte pluginuri), optimizare crawl budget, crawlere AI, și verificare pas cu pas.


Articol publicat de FLASH SHIP S.R.L., agenție digitală din Sibiu, specializată în sisteme de creștere organică.

Top comments (0)