Proč soubor robots.txt neslouží k zákazu indexace

Mám ve svém okolí mnoho lidí, kteří dnes a denně vytváří webové stránky a i ti největší SEO odborníci spolu s nimi dělají dost často jednu zásadní chybu. Tou je zápis do souboru robots.txt v tomto tvaru pro zákaz indexace.

User-agent: *

Disallow: /

Toto je ale špatně, v souboru robots.txt se indexace nijak neovlivňuje, jen zakazujete vyhledávacímu robotovy prohledat určitou strukturu či místo, ne ale web zaindexovat.

Pro se zobrazují výsledky ve vyhledávání i když je procházení zakázáno?

Vyhledávací roboti nečerpají data pouze z toho, že by web procházeli (o tom si povíme něco později). Na váš web totiž zcela určitě bude někdo odkazovat a vyhledávací roboti berou to, odkud se na web odkazuje, url odkazu a mnoho dalších aspektů a to i bez toho, že musí přímo na web zabrousit.

Vyhledávače zároveň, pokud mají jen dílčí informace o webu, tak na to uživatele přímo upozorňují. Je tam hláška něco ve stylu: zobrazení popisu je u tohoto výsledku zakázáno souborem robots.txt

Rozdíl mezi indexací a procházením

Jak jsem už lehce načal, vyhledávací roboti nečerpají data jen a pouze z toho, že web prolezou a jednotlivé stránky si k sobě stáhnout pro pozdější zpracování. Je pro ně důležité i to, jak vaše stránka celkově zapadá do internetu. Pokud tedy na vás ostatní odkazujou, ty odkazy mají určitě nějaké popisy, klíčová slova, fráze a i samotná stránka odkud se odkazuje může hodně napovědět, co na vaší stránce nalezne. Z toho všeho + procházení se dá sestavit fulltextové vyhledávání, které pak je předáno uživateli. Spolu s nejrůznějšími katalogy a výpisy lze získat poměrně ucelený obraz o tom, co na webu pravděpodobně bude a kam jej při výpisu zařadit.

Procházení neboli crawlování je pak pouze dílčí část, kdy vyhledávací robot na web zavítá a navštíví jednotlivé stránky, které potom bude zpracovávat.

Jak správně zakázat indexaci?

Jediný a správný způsob na to, jak vyhledávacímu robotu sdělit, že tohle indexovat za žádnou cenu nemá je metatag robots s hodnotou noindex, který se dává do hlavičky dokumentu. Vypadá takto:

<meta name="robots" content="noindex" />

Toto je jediná, správná metoda, jak docílit toho, že se nějaký obsah nemá indexovat. Ještě se dají najít návody, jak to řešit pomoci canonical url, nicméně toto je správně.

Další na co si dávejte pozor je, aby soubor robots.txt v případě, že něco nechcete indexovat neobsahoval i zákaz procházení pro tu danou stránku. Pokud vyhledávacímu robotovi zakážete přístup na stránku, jak se dozví o tom, že stránku nemá indexovat? Nijak! Je to špatně. Pokud něco nechcete indexovat, musíte vyhledávacímu robotovy povolit přístup na web, aby mohl zjistit, že toto se indexovat nemá.

Malá rada na závěr

Pokud vyvíjíte nějakou betaverzi webu, která je na internetu, je rozhodně nejlepší použít http autentizaci. Dá se nastavit poměrně jednoduše například souborem .htpasswd. Na daný web se tak vyhledávač vůbec nedostane, protože nezná uživatelské jméno a heslo. Můžete tak na betě nastavit vše tak jak potřebuje, sami si otestovat a při překlopení na ostrý server stačí obsah tohoto souboru vymazat či jej smazat úplně.





Další články

Zaheslováváme web souborem .htpasswd

Náš předchozí článek o souboru robots.txt měl tak veliký úspěch, že vyvolal mnoho reakcí na jeho konec a to je přesný postup, jak web zaheslovat pomocí souboru .htpasswd.

Kdy koupit 4K UHD TV a kdy je lepší FullHD

4K UHD televize tu s námi již nějakou dobu jsou. Pokud právě nyní zvažujete koupi nové televize, pojďte se s námi podívat na to, která je kdy lepší. Jsou případy, kdy je lepší vybrat 4K UHD a kdy zase naopak je dostatečné FullHD.

Co je 4k, UHD, HD, HDR, WCG nebo Ultra HD?

Určitě to znáte z televizí či monitorů. Všude nejrůznější zkratky ale jak se v nich vyznat když kolikrát i označení výrobců je nepřesné a často na trh uvedou nepřesnou informaci? Navíc se zde hodně často pletou do sebe věci, které nejsou stejné. To se děje například u 4K a UHD, ne, není to to samé…

HDD a SSD, co je vhodnější kam?

Výběr vhodného HDD případně SSD je něco, co se řeší pořád častěji. Pojďme se tedy společně podívat na to, který je vhodnější pro konkrétní použití.

Linux terminál – kopírujeme soubory přes SSH pomocí SCP

Linuxový terminál a SSH, něco, co patří neodmyslitelně k sobě. Ke vzdálenému ovládání PC to používá mnoho uživatelů, nicméně víte, že lze z počítače na kterém momentálně sedíte kopírovat soubory na vzdálený server či opačně?