Proč soubor robots.txt neslouží k zákazu indexace

Mám ve svém okolí mnoho lidí, kteří dnes a denně vytváří webové stránky a i ti největší SEO odborníci spolu s nimi dělají dost často jednu zásadní chybu.

Tou chybou je právě nejrůznější podoba zápisu do souboru robots.txt v tomto tvaru pro zákaz indexace.

User-agent: *

Disallow: /

Toto je ale špatně, v souboru robots.txt se indexace nijak neovlivňuje, jen zakazujete vyhledávacímu robotovy prohledat určitou strukturu či místo, ne ale web zaindexovat.

Proč se zobrazují výsledky ve vyhledávání i když je procházení zakázáno?

Vyhledávací roboti nečerpají data pouze z toho, že by web procházeli (o tom si povíme něco později). Na váš web totiž zcela určitě bude někdo odkazovat a vyhledávací roboti berou to, odkud se na web odkazuje, url odkazu a mnoho dalších aspektů a to i bez toho, že musí přímo na web zabrousit.

Vyhledávače zároveň, pokud mají jen dílčí informace o webu, tak na to uživatele přímo upozorňují. Je tam hláška něco ve stylu: zobrazení popisu je u tohoto výsledku zakázáno souborem robots.txt

Rozdíl mezi indexací a procházením

Jak jsem už lehce načal, vyhledávací roboti nečerpají data jen a pouze z toho, že web prolezou a jednotlivé stránky si k sobě stáhnout pro pozdější zpracování. Je pro ně důležité i to, jak vaše stránka celkově zapadá do internetu. Pokud tedy na vás ostatní odkazujou, ty odkazy mají určitě nějaké popisy, klíčová slova, fráze a i samotná stránka odkud se odkazuje může hodně napovědět, co na vaší stránce nalezne. Z toho všeho + procházení se dá sestavit fulltextové vyhledávání, které pak je předáno uživateli. Spolu s nejrůznějšími katalogy a výpisy lze získat poměrně ucelený obraz o tom, co na webu pravděpodobně bude a kam jej při výpisu zařadit.

Procházení neboli crawlování je pak pouze dílčí část, kdy vyhledávací robot na web zavítá a navštíví jednotlivé stránky, které potom bude zpracovávat.

Jak správně zakázat indexaci?

Jediný a správný způsob na to, jak vyhledávacímu robotu sdělit, že tohle indexovat za žádnou cenu nemá je metatag robots s hodnotou noindex, který se dává do hlavičky dokumentu. Vypadá takto:

<meta name="robots" content="noindex" />

Toto je jediná, správná metoda, jak docílit toho, že se nějaký obsah nemá indexovat. Ještě se dají najít návody, jak to řešit pomoci canonical url, nicméně toto je správně.

Další na co si dávejte pozor je, aby soubor robots.txt v případě, že něco nechcete indexovat neobsahoval i zákaz procházení pro tu danou stránku. Pokud vyhledávacímu robotovi zakážete přístup na stránku, jak se dozví o tom, že stránku nemá indexovat? Nijak! Je to špatně. Pokud něco nechcete indexovat, musíte vyhledávacímu robotovy povolit přístup na web, aby mohl zjistit, že toto se indexovat nemá.

Malá rada na závěr

Pokud vyvíjíte nějakou betaverzi webu, která je na internetu, je rozhodně nejlepší použít http autentizaci. Dá se nastavit poměrně jednoduše například souborem .htpasswd. Na daný web se tak vyhledávač vůbec nedostane, protože nezná uživatelské jméno a heslo. Můžete tak na betě nastavit vše tak jak potřebuje, sami si otestovat a při překlopení na ostrý server stačí obsah tohoto souboru vymazat či jej smazat úplně.





Další články

IP certifikace – co jednotlivé čísla znamenají

IP certifikace je pojem, s jehož značením se setkáme prakticky na každém kroku. Jednotlivé stupně krytí mají mobilní telefony, kamery, spínače světel či světla... [ pokračovat ve čtení ]

Skrytý správce pro optimalizaci uložiště v macOS

V operačním systému macOS je od verze Sierra k dispozici optimalizační utilita, která velmi usnadní a pomůže při uvolnění uložiště. Tato utilita může velmi... [ pokračovat ve čtení ]

Jak pozvolna měnit intenzitu jasu, hlasitost a podsvícení klávesnice

Snad každý uživatel MacBooku někdy měnil podsvícení displeje, hlasitost a nebo intenzitu podsvícení klávesnice klávesovými zkratky. Na MacBooku k tomu slouží klávesy F1, F2,... [ pokračovat ve čtení ]

Zrychlujeme macOS

Uživatelé, kteří vlastní starší MacBooky, hlavně modely Air mohou při aktualizaci na novější verze (hlavně El Capitan a novější) narazit na problém, kdy jejich... [ pokračovat ve čtení ]

Vyjímání, kopírování, vkládání a další běžné zkratky v macOS

V operačním systému macOS existuje velké množství zkratek, nyní se ale podíváme na ty nejběžnější, který by měl každý uživatel systému znát.

Klávesové zkratky v macOS – význam znaků

Operační systém macOS je plný klávesových zkratech. Pokud nějaká volba klávesovou zkratku má, například v horním panelu se zobrazují i klávesy, díky kterým tuto... [ pokračovat ve čtení ]

Jak zobrazit texty písní v Apple Music na Macku

Pokud vlastníte AppleTV, jistě jste si při poslechu hudby všimli jedné zajímavé věci, kterou jsou texty písní, které zobrazují přesně to, co slyšíte. Jde... [ pokračovat ve čtení ]

Jak podepsat soubor PDF bez nutnosti vytisknutí

Určitě to všichni znáte, čas od času vám dorazí důležitý PDF soubor, který je potřeba podepsat a odeslat zpět. Mnoho uživatelů tuto „rutinu“ řeší... [ pokračovat ve čtení ]

Hromadné přejmenování souborů ve Finderu

Hromadné přejmenování souborů je akce, která ve většině případů vyžaduje hodně času. Mnoho uživatelů všech operačních systému je velmi často přejmenovávají po jednom a... [ pokračovat ve čtení ]

Jak najít v MacBooku ty největší soubory

Určitě jste si někdy položili otázku, jak by se dali zobrazit ty největší soubory, které zabírají v MacBooku místo. Existuje pro toto vyhledávání mnoho... [ pokračovat ve čtení ]