Proč soubor robots.txt neslouží k zákazu indexace

Mám ve svém okolí mnoho lidí, kteří dnes a denně vytváří webové stránky a i ti největší SEO odborníci spolu s nimi dělají dost často jednu zásadní chybu.

Tou chybou je právě nejrůznější podoba zápisu do souboru robots.txt v tomto tvaru pro zákaz indexace.

User-agent: *

Disallow: /

Toto je ale špatně, v souboru robots.txt se indexace nijak neovlivňuje, jen zakazujete vyhledávacímu robotovy prohledat určitou strukturu či místo, ne ale web zaindexovat.

Proč se zobrazují výsledky ve vyhledávání i když je procházení zakázáno?

Vyhledávací roboti nečerpají data pouze z toho, že by web procházeli (o tom si povíme něco později). Na váš web totiž zcela určitě bude někdo odkazovat a vyhledávací roboti berou to, odkud se na web odkazuje, url odkazu a mnoho dalších aspektů a to i bez toho, že musí přímo na web zabrousit.

Vyhledávače zároveň, pokud mají jen dílčí informace o webu, tak na to uživatele přímo upozorňují. Je tam hláška něco ve stylu: zobrazení popisu je u tohoto výsledku zakázáno souborem robots.txt

Rozdíl mezi indexací a procházením

Jak jsem už lehce načal, vyhledávací roboti nečerpají data jen a pouze z toho, že web prolezou a jednotlivé stránky si k sobě stáhnout pro pozdější zpracování. Je pro ně důležité i to, jak vaše stránka celkově zapadá do internetu. Pokud tedy na vás ostatní odkazujou, ty odkazy mají určitě nějaké popisy, klíčová slova, fráze a i samotná stránka odkud se odkazuje může hodně napovědět, co na vaší stránce nalezne. Z toho všeho + procházení se dá sestavit fulltextové vyhledávání, které pak je předáno uživateli. Spolu s nejrůznějšími katalogy a výpisy lze získat poměrně ucelený obraz o tom, co na webu pravděpodobně bude a kam jej při výpisu zařadit.

Procházení neboli crawlování je pak pouze dílčí část, kdy vyhledávací robot na web zavítá a navštíví jednotlivé stránky, které potom bude zpracovávat.

Jak správně zakázat indexaci?

Jediný a správný způsob na to, jak vyhledávacímu robotu sdělit, že tohle indexovat za žádnou cenu nemá je metatag robots s hodnotou noindex, který se dává do hlavičky dokumentu. Vypadá takto:

Toto je jediná, správná metoda, jak docílit toho, že se nějaký obsah nemá indexovat. Ještě se dají najít návody, jak to řešit pomoci canonical url, nicméně toto je správně.

Další na co si dávejte pozor je, aby soubor robots.txt v případě, že něco nechcete indexovat neobsahoval i zákaz procházení pro tu danou stránku. Pokud vyhledávacímu robotovi zakážete přístup na stránku, jak se dozví o tom, že stránku nemá indexovat? Nijak! Je to špatně. Pokud něco nechcete indexovat, musíte vyhledávacímu robotovy povolit přístup na web, aby mohl zjistit, že toto se indexovat nemá.

Malá rada na závěr

Pokud vyvíjíte nějakou betaverzi webu, která je na internetu, je rozhodně nejlepší použít http autentizaci. Dá se nastavit poměrně jednoduše například souborem .htpasswd. Na daný web se tak vyhledávač vůbec nedostane, protože nezná uživatelské jméno a heslo. Můžete tak na betě nastavit vše tak jak potřebuje, sami si otestovat a při překlopení na ostrý server stačí obsah tohoto souboru vymazat či jej smazat úplně.

Webster.K 27.6. 2019 Užitečné návody

Tagy: SEO, Vyhledávače

Proč soubor robots.txt neslouží k zákazu indexace

Proč se zobrazují výsledky ve vyhledávání i když je procházení zakázáno?

Rozdíl mezi indexací a procházením

Jak správně zakázat indexaci?

Malá rada na závěr

Další články

Speciální typy sítí

Rozdělení počítačových sítí podle velikosti

Vytváříme .zip archiv s heslem v macOS

IP certifikace – co jednotlivé čísla znamenají

Skrytý správce pro optimalizaci uložiště v macOS

Jak pozvolna měnit intenzitu jasu, hlasitost a podsvícení klávesnice

Zrychlujeme macOS

Vyjímání, kopírování, vkládání a další běžné zkratky v macOS

Klávesové zkratky v macOS – význam znaků

Jak zobrazit texty písní v Apple Music na Macku

Mohlo by vás zajímat

Kategorie UTP kabelu a jejich specifikace

Soubor je pro cílový souborový systém příliš velký

Neustále padá WiFi síť

ASCII tabulka

Nastavení HTML5 přehrávače v Google Chrome

Nastavení prostorového zvuku

Import kontaktů z Nokie do Androidu

Safírové sklo vs Gorilla Glass

Vypadává WiFi síť

Linux terminál – kopírujeme soubory přes SSH pomocí SCP