Mám ve svém okolí mnoho lidí, kteří dnes a denně vytváří webové stránky a i ti největší SEO odborníci spolu s nimi dělají dost často jednu zásadní chybu.
Mám ve svém okolí mnoho lidí, kteří dnes a denně vytváří webové stránky a i ti největší SEO odborníci spolu s nimi dělají dost často jednu zásadní chybu.
Tou chybou je právě nejrůznější podoba zápisu do souboru robots.txt v tomto tvaru pro zákaz indexace.
Disallow: /
Toto je ale špatně, v souboru robots.txt se indexace nijak neovlivňuje, jen zakazujete vyhledávacímu robotovy prohledat určitou strukturu či místo, ne ale web zaindexovat.
Vyhledávací roboti nečerpají data pouze z toho, že by web procházeli (o tom si povíme něco později). Na váš web totiž zcela určitě bude někdo odkazovat a vyhledávací roboti berou to, odkud se na web odkazuje, url odkazu a mnoho dalších aspektů a to i bez toho, že musí přímo na web zabrousit.
Vyhledávače zároveň, pokud mají jen dílčí informace o webu, tak na to uživatele přímo upozorňují. Je tam hláška něco ve stylu: zobrazení popisu je u tohoto výsledku zakázáno souborem robots.txt
Jak jsem už lehce načal, vyhledávací roboti nečerpají data jen a pouze z toho, že web prolezou a jednotlivé stránky si k sobě stáhnout pro pozdější zpracování. Je pro ně důležité i to, jak vaše stránka celkově zapadá do internetu. Pokud tedy na vás ostatní odkazujou, ty odkazy mají určitě nějaké popisy, klíčová slova, fráze a i samotná stránka odkud se odkazuje může hodně napovědět, co na vaší stránce nalezne. Z toho všeho + procházení se dá sestavit fulltextové vyhledávání, které pak je předáno uživateli. Spolu s nejrůznějšími katalogy a výpisy lze získat poměrně ucelený obraz o tom, co na webu pravděpodobně bude a kam jej při výpisu zařadit.
Procházení neboli crawlování je pak pouze dílčí část, kdy vyhledávací robot na web zavítá a navštíví jednotlivé stránky, které potom bude zpracovávat.
Jediný a správný způsob na to, jak vyhledávacímu robotu sdělit, že tohle indexovat za žádnou cenu nemá je metatag robots s hodnotou noindex, který se dává do hlavičky dokumentu. Vypadá takto:
Toto je jediná, správná metoda, jak docílit toho, že se nějaký obsah nemá indexovat. Ještě se dají najít návody, jak to řešit pomoci canonical url, nicméně toto je správně.
Další na co si dávejte pozor je, aby soubor robots.txt v případě, že něco nechcete indexovat neobsahoval i zákaz procházení pro tu danou stránku. Pokud vyhledávacímu robotovi zakážete přístup na stránku, jak se dozví o tom, že stránku nemá indexovat? Nijak! Je to špatně. Pokud něco nechcete indexovat, musíte vyhledávacímu robotovy povolit přístup na web, aby mohl zjistit, že toto se indexovat nemá.
Pokud vyvíjíte nějakou betaverzi webu, která je na internetu, je rozhodně nejlepší použít http autentizaci. Dá se nastavit poměrně jednoduše například souborem .htpasswd. Na daný web se tak vyhledávač vůbec nedostane, protože nezná uživatelské jméno a heslo. Můžete tak na betě nastavit vše tak jak potřebuje, sami si otestovat a při překlopení na ostrý server stačí obsah tohoto souboru vymazat či jej smazat úplně.
PHGame.cz je podporován Vavada online kasino. Zaregistrujte se prostřednictvím odkazu a získejte uvítací bonus 100 freespinů.
.pin up casino- Best Online betting