robots.txt
robots.txt
je standardizovaný textový soubor, kterým může web indikovat, u kterých stránek je nebo není žádoucí, aby je procházeli internetoví boti např. za účelem indexace skrze web crawler. Tento soubor se musí nacházet v kořenovém adresáři daného webu. Jeho syntaxi definuje RFC 9309.
Příklady
[editovat | editovat zdroj]Uvedením následujícího textu v souboru robots.txt
lze zakázat procházení webu všem vyhledávačům:
User-agent: * Disallow: /
Následující příklad zakáže všem robotům, aby procházeli obsah složek /cgi-bin
, /images
, /tmp
a /private
:
User-agent: * Disallow: /cgi-bin/ Disallow: /images/ Disallow: /tmp/ Disallow: /private/
Zakázaní Googlebotu procházet vše v adresáři /en
:
User-agent: Googlebot Disallow: /en/
Alternativy
[editovat | editovat zdroj]Parametr konkrétních odkazů
[editovat | editovat zdroj]Zakázat procházení konkrétních odkazů lze i vložením speciálního parametru rel="nofollow"
do každého z odkazů.
<a href="/stranka-kterou-nechci-prochazet" rel="nofollow">
Metatag robots
[editovat | editovat zdroj]Zákaz procházení odkazů vedoucí z konkrétní URL lze pomocí umístění speciálního metatagu do hlavičky stránky.
<meta name="robots" content="nofollow" />
Sitemap.xml
[editovat | editovat zdroj]Do souboru robots.txt je doporučené vložit odkaz na sitemap.xml, aby tento soubor mohly vyhledávače snáze nalézt a využívat jej k efektivnějšímu procházení webu.
Sitemap: http://www.example.org/sitemap/sitemap.xml
Zákaz procházení není zákaz indexace
[editovat | editovat zdroj]Mnoho správců webů se mylně domnívá, že zákazem procházení dojde automaticky i k zákazu indexace stránek, ale praxe je mírně složitější. Internetové vyhledávače musí stránku navštívit a stáhnout, aby ji mohly zanést do svého indexu (proces indexace). Když je procházení daného adresáře zakázané v souboru robots.txt
, tak danou stránku nemohou roboti navštívit a tedy indexovat. Jestliže však na danou stránku vede mnoho zpětných odkazů, tak mohou tuto stránku vyhodnotit, jako důležitou a přesto ji indexovat.
Související články
[editovat | editovat zdroj]Externí odkazy
[editovat | editovat zdroj]- Obrázky, zvuky či videa k tématu robots.txt na Wikimedia Commons
- Vysvětlení na Jakpsatweb.cz
- Vysvětlení (en)
- Validace správnosti zapsání robots.txt Archivováno 18. 1. 2007 na Wayback Machine.
- Jak správně zapsat soubor robots.txt?
- Soubor robots.txt: základní příručka
- Použití atributu rel="nofollow" Archivováno 28. 10. 2020 na Wayback Machine.