Dlaczego w ogóle wziąłem się za ten temat? Dzisiaj analizowałem swojego bloga i działanie robotów na stronie Narzędzi Google dla Webmasterów i zauważyłem, że mam bardzo restrykcyjny plik robots.txt, który wyglądał mniej więcej tak:
# BEGIN XML-SITEMAP-PLUGIN
Sitemap: http://ittechblog.pl/sitemap.xml.gz
# END XML-SITEMAP-PLUGIN User-agent: *
# disallow files in /cgi-bin
Disallow: /cgi-bin/
Disallow: /comments/
Disallow: /z/j/
Disallow: /z/c/
# disallow all files ending in .php
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.txt$
#disallow all files in /fc- directorys
Disallow: /fc-*/
# disallow all files with ? in url
Disallow: /*?
# disallow any files that are stats related
Disallow: /stats*
Disallow: /about/legal-notice/
Disallow: /about/copyright-policy/
Disallow: /about/terms-and-conditions/
Disallow: /about/feed/
Disallow: /about/trackback/
Disallow: /contact/
Disallow: /tag
Disallow: /docs*
Disallow: /manual*
Disallow: /category/uncategorized*
Obecnie mam bardziej liberalny, co możecie sami sprawdzić :)
Co dziwne, wiele blogów traktujących o SEO, pozycjonowaniu czy optymalizacji WP i ogólnie stron nie ma zdefiniowanego w ogóle pliku robots.txt.
Zaznaczam, że nie jest to wpis mający na celu “wypunktować” braki w innych blogach a jedynie ma nakreślić obszary do poprawy. Dobry plik robots.txt ułatwi i nam życie (ograniczy ruch i obciążenie serwera, zabezpieczy materiały poufne, zwiększy bezpieczeńśtwo skryptu) i wyszukiwarkom (ułatwiając im życie poprawiamy im “humor” co może się odbić w naszych pozycjach w wynikach wyszukiwania).
O samym robots.txt czy warto i dlaczego poczytajcie (dość stary ale nadal aktualny) wpis http://webfan.pl/robots-txt.html i na zakąskę wpis o SEO na sprawnymarketing.pl.
Macie jakieś inne propozycje, co powinien zawierać idealny plik robots.txt?