Pentru a intelege robots.txt, trebuie mai intai sa intelegi ce sunt robotii (aceia de web).
Un robot este un program sau un script al unor motoare de cautare ca: Google, Yahoo, MSN etc. Ei sunt trimisi pe internet sa caute site-uri web si sa adune informatii despre ele. Mai sunt cunoscuti si ca “Spiders“, “Crawlers” si chiar “Bots“.
Fisierul Robots.txt functioneaza ca o bariera, care nu lasa acesti robotii sa ajunca la anumite fisiere.
Daca propietarul site-ului doreste sa dea instructiuni acestor “web robots” trebuie sa adauge fisierul robots.txt in radacina site-ului, Ex.: (www.exemplu.com/robots.txt).
Robotii vor cauta acest fisier si vor actiona in consecinta.
Un exemplu de robots.txt este:
User-agent: * Disallow: /wp- Disallow: /feed/ Disallow: /category/ Disallow: /tag/
User-agent: ( Specifica robotul )
User-agent: * ( Interzice toate motoarele de cautare sa indexeze fisierele care le specifici )
Disallow: /fisier/ ( Specifica fisierele pe care nu vrei sa le indexeze )
Daca vrei sa specifici un motor de cautare care sa nu indexeze trebuie sa stii cum se numesc robotii. Astia sunt cei mai populari.
Google: Googlebot
Google Images: Googlebot-Image
Yahoo: Slurp
MSN (Bing): Msnbot
Altavista: Scooter
Daca vrei sa interzici ca google sa indexeze un fisier comanda este urmatoarea:
User-agent: Googlebot
Disallow: /blog/
Daca ai mai multe sub domeni trebuie sa faci un robots.txt pentru fiecare.
Pentru cateva setari mai facile, poti adauga un <meta> tag intre tag-urile <head> </head>. La acesta poti adauga un nume (name), si cateva atribute (content) . Mai jos aveti cateva exemple de tag-uri meta si explicatii pentru fiecare:
<META CONTENT="NOINDEX, FOLLOW">
- nu indexeaza continutul paginii dar urmeaza link-urile de pe aceasta
<META CONTENT="INDEX, NOFOLLOW">
- indexeaza continutul paginii dar nu urmeaza link-urile de pe aceasta
<META CONTENT="NOINDEX, NOFOLLOW">
- nu indexeaza continutul si nu urmeaza link-urile
Tineti minte totusi:
- robotii malitiosi (care cauta mail-uri sau vulnerabilitati) pot ignora Meta tag-ul.
- Daca nu setati un meta tag robots, acesta va avea implicit continutul: “INDEX,FOLLOW“






Cum se poate seta ca un anume fisier dintr-un director blocat sa fie totusi indexat ?
de ex eu am :
User-agent: *
Disallow: /images/
dar am in acest director fisierul oferta.pdf pe care as vrea sa il indexeze totusi
/images/banners/oferta.pdf
Multumesc de ajutor.
Remarkable commentary! Website owners had their checking. I’m hoping to read simple things extra from your website. It looks like you’ll have incredible understanding and so dream. Now i’m strongly influenced with that material.