Proč soubor robots.txt neslouží k zákazu indexace

Mám ve svém okolí mnoho lidí, kteří dnes a denně vytváří webové stránky a i ti největší SEO odborníci spolu s nimi dělají dost často jednu zásadní chybu.

Tou chybou je právě nejrůznější podoba zápisu do souboru robots.txt v tomto tvaru pro zákaz indexace.

User-agent: *

Disallow: /

Toto je ale špatně, v souboru robots.txt se indexace nijak neovlivňuje, jen zakazujete vyhledávacímu robotovy prohledat určitou strukturu či místo, ne ale web zaindexovat.

Proč se zobrazují výsledky ve vyhledávání i když je procházení zakázáno?

Vyhledávací roboti nečerpají data pouze z toho, že by web procházeli (o tom si povíme něco později). Na váš web totiž zcela určitě bude někdo odkazovat a vyhledávací roboti berou to, odkud se na web odkazuje, url odkazu a mnoho dalších aspektů a to i bez toho, že musí přímo na web zabrousit.

Vyhledávače zároveň, pokud mají jen dílčí informace o webu, tak na to uživatele přímo upozorňují. Je tam hláška něco ve stylu: zobrazení popisu je u tohoto výsledku zakázáno souborem robots.txt

Rozdíl mezi indexací a procházením

Jak jsem už lehce načal, vyhledávací roboti nečerpají data jen a pouze z toho, že web prolezou a jednotlivé stránky si k sobě stáhnout pro pozdější zpracování. Je pro ně důležité i to, jak vaše stránka celkově zapadá do internetu. Pokud tedy na vás ostatní odkazujou, ty odkazy mají určitě nějaké popisy, klíčová slova, fráze a i samotná stránka odkud se odkazuje může hodně napovědět, co na vaší stránce nalezne. Z toho všeho + procházení se dá sestavit fulltextové vyhledávání, které pak je předáno uživateli. Spolu s nejrůznějšími katalogy a výpisy lze získat poměrně ucelený obraz o tom, co na webu pravděpodobně bude a kam jej při výpisu zařadit.

Procházení neboli crawlování je pak pouze dílčí část, kdy vyhledávací robot na web zavítá a navštíví jednotlivé stránky, které potom bude zpracovávat.

Jak správně zakázat indexaci?

Jediný a správný způsob na to, jak vyhledávacímu robotu sdělit, že tohle indexovat za žádnou cenu nemá je metatag robots s hodnotou noindex, který se dává do hlavičky dokumentu. Vypadá takto:

<meta name="robots" content="noindex" />

Toto je jediná, správná metoda, jak docílit toho, že se nějaký obsah nemá indexovat. Ještě se dají najít návody, jak to řešit pomoci canonical url, nicméně toto je správně.

Další na co si dávejte pozor je, aby soubor robots.txt v případě, že něco nechcete indexovat neobsahoval i zákaz procházení pro tu danou stránku. Pokud vyhledávacímu robotovi zakážete přístup na stránku, jak se dozví o tom, že stránku nemá indexovat? Nijak! Je to špatně. Pokud něco nechcete indexovat, musíte vyhledávacímu robotovy povolit přístup na web, aby mohl zjistit, že toto se indexovat nemá.

Malá rada na závěr

Pokud vyvíjíte nějakou betaverzi webu, která je na internetu, je rozhodně nejlepší použít http autentizaci. Dá se nastavit poměrně jednoduše například souborem .htpasswd. Na daný web se tak vyhledávač vůbec nedostane, protože nezná uživatelské jméno a heslo. Můžete tak na betě nastavit vše tak jak potřebuje, sami si otestovat a při překlopení na ostrý server stačí obsah tohoto souboru vymazat či jej smazat úplně.





Další články

Kategorie UTP kabelu a jejich specifikace

Nestíněný kabel „Twisted Pair“ známý pod označením UTP je zcela jistě nejpopulárnějším kabelem na světě. Kabel UTP se používá nejen k připojení zařízení do... [ pokračovat ve čtení ]

Jak přenastavit WordPress na HTTPS protokol

Důvod, pro používat na webových stránkách HTTPS protokol místo nezabezpečeného HTTP může být mnoho. Jde to od zabezpečení přenesených dat až k SEO nebo... [ pokračovat ve čtení ]

Přidání editoru Gutenberg do vlastních typů příspěvků ve WordPressu

Pokud používáte nějakou dobu Wordpress, určitě jste se setkali s vlastními typy příspěvků. Hodně majitelů webu se pro ně rozhodli, protože standardní příspěvky jsou... [ pokračovat ve čtení ]

Internet jde velmi pomalu či téměř nejde

Internetové připojení má v dnešní době téměř každá domácnost. Výhody internetu jistě nemusíme představovat, nicméně i internetové připojení může mít řadu problému. Nejčastějším problémem... [ pokračovat ve čtení ]

Vypadává WiFi síť

WiFi má v domácnosti snad každý uživatel, který vlastní nějaké to chytré zařízení, notebook či cokoliv dalšího. Proto dokáže být celkem nepříjemné, když toto... [ pokračovat ve čtení ]

Měníme IP adresu v příkazové řádce Windows a Linux Terminálu

Změna IP adresy se může občas hodit. A ne vždy je k dispozici grafické prostředí. To se sice týká spíše Linux uživatelů, nicméně i... [ pokračovat ve čtení ]

Hledáme soubory přes příkazovou řádku Windows a terminál Linuxu

Sami jste se s tím nejspíše někdy také setkali. Potřebujete najít nějaký soubor v počítači ale nevíte, kam jste ho uložili. Možností jak něco... [ pokračovat ve čtení ]

ASCII tabulka

ASCII tabulka je kódová tabulka, která definuje standardní znaky anglické abecedy a další znaky používané v informatice. Zkratka vychází z anglického American Standard Code... [ pokračovat ve čtení ]

Mažeme mezipaměť DNS

Vymazání mezipaměti DNS nepatří k činnostem, co by jsme potřebovali každý den. Jsou ale chvíle, kdy se to hodí a tuto operaci je potřeba... [ pokračovat ve čtení ]

Linux terminál – slučujeme PDF soubory do jednoho

Soubory PDF jsou velmi oblíbené a jejich tisk může v případě většího množství souborů udělat vrásky na čele nejednomu uživateli. Jak je ale jednoduše... [ pokračovat ve čtení ]