robots.txt
robots.txt
je standardizovaný textový soubor, kterým může web indikovat, u kterých stránek je nebo není žádoucí, aby je procházeli internetoví boti např. za účelem indexace skrze web crawler. Tento soubor se musí nacházet v kořenovém adresáři daného webu. Jeho syntaxi definuje RFC 9309.
Příklady[editovat | editovat zdroj]
Uvedením následujícího textu v souboru robots.txt
lze zakázat procházení webu všem vyhledávačům:
User-Agent: * Disallow: /
Následující příklad zakáže všem robotům, aby procházeli obsah složek /cgi-bin
, /images
, /tmp
a /private
:
User-Agent: * Disallow: /cgi-bin/ Disallow: /images/ Disallow: /tmp/ Disallow: /private/
Zakázaní Googlebotu procházet vše v adresáři /en
:
User-Agent: Googlebot Disallow: /en/
Alternativy[editovat | editovat zdroj]
Parametr konkrétních odkazů[editovat | editovat zdroj]
Zakázat procházení konkrétních odkazů lze i vložením speciálního parametru rel="nofollow"
do každého z odkazů.
<a href="/stranka-kterou-nechci-prochazet" rel="nofollow">
Metatag robots[editovat | editovat zdroj]
Zákaz procházení odkazů vedoucí z konkrétní URL lze pomocí umístění speciálního metatagu do hlavičky stránky.
<meta name="robots" content="nofollow" />
Sitemap.xml[editovat | editovat zdroj]
Do souboru robots.txt je doporučené vložit odkaz na sitemap.xml, aby tento soubor mohly vyhledávače snáze nalézt a využívat jej k efektivnějšímu procházení webu.
Sitemap: http://www.example.org/sitemap/sitemap.xml
Zákaz procházení není zákaz indexace[editovat | editovat zdroj]
Mnoho správců webů se mylně domnívá, že zákazem procházení dojde automaticky i k zákazu indexace stránek, ale praxe je mírně složitější. Internetové vyhledávače musí stránku navštívit a stáhnout, aby ji mohly zanést do svého indexu (proces indexace). Když je procházení daného adresáře zakázané v souboru robots.txt
, tak danou stránku nemohou roboti navštívit a tedy indexovat. Jestliže však na danou stránku vede mnoho zpětných odkazů, tak mohou tuto stránku vyhodnotit, jako důležitou a přesto ji indexovat.