Data: 29.1.2009 o 8:30 Kategoria: Internet
Nie daj się, stosuj robots.txt

Ostatnio wziąłem się za analizę ruchu wy­szu­ki­wa­rek co nie­uchron­nie prowadzi do kon­fi­gu­ra­cji w pliku robots.txt. Otwo­rzy­łem plik /robots.txt z kilku naj­więk­szych blogów w Polsce … i okazało się, że nie mają nic skon­fi­gu­ro­wa­nego. Mediafun nawet nie ma w ogóle pliku na serwerze. Antyweb ma domyślny wpis. I tak można by jeszcze trochę po­wy­mie­niać ;) Z polskiej czołówki po­zy­tyw­nie wyróżnia się webfan.pltomasz.topa.pl oraz oczy­wi­ście wpninja.pl.

Dlaczego w ogóle wziąłem się za ten temat? Dzisiaj ana­li­zo­wa­łem swojego bloga i dzia­ła­nie robotów na stronie Narzędzi Google dla We­bma­ste­rów i za­uwa­ży­łem, że mam bardzo re­stryk­cyjny plik robots.txt, który wyglądał mniej więcej tak:

# BEGIN XML-SITEMAP-PLUGIN
Sitemap: http://ittechblog.pl/sitemap.xml.gz
# END XML-SITEMAP-PLUGIN

User-agent: *
# disallow files in /cgi-bin
Disallow: /cgi-bin/
Disallow: /comments/
Disallow: /z/j/
Disallow: /z/c/
# disallow all files ending in .php
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.txt$
#disallow all files in /wp– di­rec­to­rys
Disallow: /wp-*/
# disallow all files with ? in url
Disallow: /*?
# disallow any files that are stats related
Disallow: /stats*
Disallow: /about/legal-notice/
Disallow: /about/copyright-policy/
Disallow: /about/terms-and-conditions/
Disallow: /about/feed/
Disallow: /about/trackback/
Disallow: /contact/
Disallow: /tag
Disallow: /docs*
Disallow: /manual*
Disallow: /category/uncategorized*

Obecnie mam bardziej li­be­ralny, co możecie sami sprawdzić :)

Co dziwne, wiele blogów trak­tu­ją­cych o SEO, po­zy­cjo­no­wa­niu czy opty­ma­li­za­cji WP i ogólnie stron nie ma zde­fi­nio­wa­nego w ogóle pliku robots.txt.

Za­zna­czam, że nie jest to wpis mający na celu „wy­punk­to­wać” braki w innych blogach a jedynie ma na­kre­ślić obszary do poprawy. Dobry plik robots.txt ułatwi i nam życie (ogra­ni­czy ruch i ob­cią­że­nie serwera, za­bez­pie­czy ma­te­riały poufne, zwiększy bez­pie­czeńś­two skryptu) i wy­szu­ki­war­kom (uła­twia­jąc im życie po­pra­wiamy im „humor” co może się odbić w naszych po­zy­cjach w wynikach wyszukiwania).

O samym robots.txt czy warto i dlaczego po­czy­taj­cie (dość stary ale nadal aktualny) wpis http://webfan.pl/robots-txt.html i na zakąskę wpis o SEO na sprawnymarketing.pl.

Macie jakieś inne pro­po­zy­cje, co powinien zawierać idealny plik robots.txt?

Tagi: optymalizacja, robots, wordpress