Data: 29.1.2009 o 8:30 Kategoria: Internet
Nie daj się, stosuj robots.txt

Ostatnio wziąłem się za analizę ruchu wy­szu­ki­wa­rek co nie­uchron­nie prowadzi do kon­fi­gu­ra­cji w pliku robots.txt. Otwo­rzy­łem plik /robots.txt z kilku naj­więk­szych blogów w Polsce … i okazało się, że nie mają nic skon­fi­gu­ro­wa­nego. Mediafun nawet nie ma w ogóle pliku na serwerze. Antyweb ma domyślny wpis. I tak można by jeszcze trochę po­wy­mie­niać ;) Z polskiej czołówki po­zy­tyw­nie wyróżnia się webfan.pltomasz.topa.pl oraz oczy­wi­ście wpninja.pl.

Dlaczego w ogóle wziąłem się za ten temat? Dzisiaj ana­li­zo­wa­łem swojego bloga i dzia­ła­nie robotów na stronie Narzędzi Google dla We­bma­ste­rów i za­uwa­ży­łem, że mam bardzo re­stryk­cyjny plik robots.txt, który wyglądał mniej więcej tak:

# BEGIN XML-SITEMAP-PLUGIN
Sitemap: http://ittechblog.pl/sitemap.xml.gz
# END XML-SITEMAP-PLUGIN

User-agent: *
# disallow files in /cgi-bin
Disallow: /cgi-bin/
Disallow: /comments/
Disallow: /z/j/
Disallow: /z/c/
# disallow all files ending in .php
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.txt$
#disallow all files in /wp– di­rec­to­rys
Disallow: /wp-*/
# disallow all files with ? in url
Disallow: /*?
# disallow any files that are stats related
Disallow: /stats*
Disallow: /about/legal-notice/
Disallow: /about/copyright-policy/
Disallow: /about/terms-and-conditions/
Disallow: /about/feed/
Disallow: /about/trackback/
Disallow: /contact/
Disallow: /tag
Disallow: /docs*
Disallow: /manual*
Disallow: /category/uncategorized*

Obecnie mam bardziej li­be­ralny, co możecie sami sprawdzić :)

Co dziwne, wiele blogów trak­tu­ją­cych o SEO, po­zy­cjo­no­wa­niu czy opty­ma­li­za­cji WP i ogólnie stron nie ma zde­fi­nio­wa­nego w ogóle pliku robots.txt.

Za­zna­czam, że nie jest to wpis mający na celu „wy­punk­to­wać” braki w innych blogach a jedynie ma na­kre­ślić obszary do poprawy. Dobry plik robots.txt ułatwi i nam życie (ogra­ni­czy ruch i ob­cią­że­nie serwera, za­bez­pie­czy ma­te­riały poufne, zwiększy bez­pie­czeńś­two skryptu) i wy­szu­ki­war­kom (uła­twia­jąc im życie po­pra­wiamy im „humor” co może się odbić w naszych po­zy­cjach w wynikach wyszukiwania).

O samym robots.txt czy warto i dlaczego po­czy­taj­cie (dość stary ale nadal aktualny) wpis http://webfan.pl/robots-txt.html i na zakąskę wpis o SEO na sprawnymarketing.pl.

Macie jakieś inne pro­po­zy­cje, co powinien zawierać idealny plik robots.txt?

Tagi: optymalizacja, robots, wordpress
  • http://itporady.pl Bartek

    Przez Ciebie musiałem odpalić ftp, zgrać, wy­edy­to­wać i wgrać ten nędzny robots.txt :)

    • http://ittechblog.pl iTomek

      Ciężkie życie :P

  • http://itporady.pl Bartek

    Przez Ciebie musiałem odpalić ftp, zgrać, wy­edy­to­wać i wgrać ten nędzny robots.txt :)

    • http://ittechblog.pl Tomasz Fiedoruk

      Ciężkie życie :P

  • http://tomasz.topa.pl Tomasz Topa

    Robots.txt to przecież podstawa… wy­star­czy choćby pobieżny przegląd logów apache’a żeby zobaczyć, że prawie każda wizyta jakiegoś crawlera zaczyna się od pobrania tego pliku.

    W moim pliku jest nie­zbędne minimum, za­blo­ko­wane foldery „sys­te­mowe” i link do sitemapy.

  • http://tomasz.topa.pl Tomasz Topa

    Robots.txt to przecież podstawa… wy­star­czy choćby pobieżny przegląd logów apache’a żeby zobaczyć, że prawie każda wizyta jakiegoś crawlera zaczyna się od pobrania tego pliku.

    W moim pliku jest nie­zbędne minimum, za­blo­ko­wane foldery „sys­te­mowe” i link do sitemapy.

  • http://ittechblog.pl iTomek

    A co powiecie o wtyczce http://yoast.com/wordpress/meta-robots-wordpress-plugin/ — za­sta­na­wiam się co warto w niej włączyć. Sądząc po opisach po­szcze­gól­nych ele­men­tów to chyba wszystko ;)

  • http://ittechblog.pl Tomasz Fiedoruk

    A co powiecie o wtyczce http://yoast.com/wordpress/meta-robots-wordpress-plugin/ — za­sta­na­wiam się co warto w niej włączyć. Sądząc po opisach po­szcze­gól­nych ele­men­tów to chyba wszystko ;)

  • http://marsjaninzmarsa.co.cc mar­sja­nin­zmarsa

    A ja mam plik, nawet skon­fi­gu­ro­wany. Co prawda sam w nim nie grze­ba­łem, ale od czego są wtyczki? ;)

  • http://marsjaninzmarsa.co.cc mar­sja­nin­zmarsa

    A ja mam plik, nawet skon­fi­gu­ro­wany. Co prawda sam w nim nie grze­ba­łem, ale od czego są wtyczki? ;)

  • http://styleone.pl aniec2

    Zmie­ni­łem, bo nie wska­zy­wał mi stemap’y (dziwna odmiana:)
    Oby więcej takich artykułów!

    Pytanie: Jeśli zmie­ni­łem plik robots.txt to edytuje też od­po­wied­nią zakładkę w na­rzę­dziach google’a czy nie trzeba wy­ko­ny­wać żadnej czynności?

    • http://styleone.pl aniec2

      Od­po­wia­dam: nie trzeba edytować, google sobie samemu z tym świetnie radzi.

  • http://styleone.pl aniec2

    Zmie­ni­łem, bo nie wska­zy­wał mi stemap’y (dziwna odmiana:)
    Oby więcej takich artykułów!

    Pytanie: Jeśli zmie­ni­łem plik robots.txt to edytuje też od­po­wied­nią zakładkę w na­rzę­dziach google’a czy nie trzeba wy­ko­ny­wać żadnej czynności?

    • http://styleone.pl aniec2

      Od­po­wia­dam: nie trzeba edytować, google sobie samemu z tym świetnie radzi.

  • http://jacek.kruzycki.pl Jacek Krużycki

    Ja w robots.txt blokuję zakresy IP jakichś dziwnych crawlerów :)

  • http://jacek.kruzycki.pl Jacek Krużycki

    Ja w robots.txt blokuję zakresy IP jakichś dziwnych crawlerów :)

  • http://yagbu.eu Jagbyś

    O nawet i ja posiadam ten pliczek, być może nie wy­pa­siony, jednak blokuje to co ma blokować. ;)

  • http://yagbu.eu Jagbyś

    O nawet i ja posiadam ten pliczek, być może nie wy­pa­siony, jednak blokuje to co ma blokować. ;)

  • http://www.blueman.pl BlueMan

    Ja też posiadam ten pliczek. Jak się go nie posiada to spo­ooooro errorów apache zapisuje do logów ;)

  • http://www.blueman.pl BlueMan

    Ja też posiadam ten pliczek. Jak się go nie posiada to spo­ooooro errorów apache zapisuje do logów ;)

  • Pingback: Krótkie podsumowanie: styczeń 2009

  • http://www.topmenedzer.pl Menedżer

    Podstawa — jeśli nie skon­fi­gu­ru­jesz dobrze robots.txt, zapomnij o dobrym ruchu z G.

  • http://www.topmenedzer.pl Menedżer

    Podstawa — jeśli nie skon­fi­gu­ru­jesz dobrze robots.txt, zapomnij o dobrym ruchu z G.