Semalt: Ako blokovať Darodar Robots.txt

Súbor Robots.txt je typický textový súbor, ktorý obsahuje pokyny o tom, ako by webové prehľadávače alebo roboti mali prehľadávať web. Ich použitie je zrejmé v robotoch vyhľadávacích nástrojov, ktoré sú bežné na mnohých optimalizovaných webových stránkach. Ako súčasť protokolu vylúčenia robotov (REP) tvorí súbor robots.txt podstatný aspekt indexovania obsahu webových stránok a tiež umožňuje serveru autentifikovať žiadosti používateľov zodpovedajúcim spôsobom.
Julia Vashneva, manažérka úspechu Semalt Senior Customer Success Manager, vysvetľuje, že prepojenie je aspekt optimalizácie pre vyhľadávače (SEO), ktorý zahŕňa získavanie prenosu z iných domén vo vašej oblasti. Pre odkazy „nasledovať“ na prenos odkazovej šťavy je nevyhnutné zahrnúť súbor robots.txt na váš webový hostingový priestor, aby pôsobil ako inštruktor toho, ako server interaguje s vašimi stránkami. V tomto archíve sú uvedené pokyny, ktoré povoľujú alebo zakazujú správanie niektorých konkrétnych používateľských agentov.
Základný formát súboru robots.txt
Súbor robots.txt obsahuje dva základné riadky:
User-agent: [meno user-agent]
Zakázať: [reťazec adresy URL sa nemá prehľadávať]
Kompletný súbor robots.txt by mal obsahovať tieto dva riadky. Niektoré z nich však môžu obsahovať viac riadkov užívateľských agentov a smerníc. Tieto príkazy môžu obsahovať také aspekty, ako sú povoľovanie, deaktivácia alebo oneskorenie prehľadávania. Zvyčajne existuje zlom riadka, ktorý oddeľuje každú sadu inštrukcií. Každá z inštrukcií o povolení alebo zakázaní je oddelená týmto zlomom riadka, najmä pre súbor robots.txt s viacerými riadkami.

Príklady
Napríklad súbor robots.txt môže obsahovať kódy ako:
User-agent: darodar
Disallow: / plugin
Disallow: / API
Disallow: / _comments
V tomto prípade je to blok súboru robots.txt, ktorý obmedzuje webový prehľadávač Darodar v prístupe na vaše webové stránky. Vo vyššie uvedenej syntaxi kód blokuje aspekty webovej stránky, ako sú doplnky, rozhranie API a sekcia komentárov. Z týchto poznatkov je možné dosiahnuť množstvo výhod efektívneho vykonávania textového súboru robota. Súbory Robots.txt môžu vykonávať množstvo funkcií. Môžu byť napríklad pripravení:
1. Povoľte všetok obsah webových prehľadávačov na webovej stránke. Napríklad;
User-agent: *
zakázať:
V takom prípade môže k všetkému obsahu používateľa pristupovať ktorýkoľvek webový prehľadávač, ktorý je požiadaný o prístup na webovú stránku.
2. Zablokujte konkrétny webový obsah z konkrétneho priečinka. Napríklad;
User-agent: Googlebot
Disallow: / example-subfolder /
Táto syntax obsahujúca názov user-agent Googlebot patrí spoločnosti Google. Obmedzuje prístup robota k akejkoľvek webovej stránke v reťazci www.ourexample.com/example-subfolder/.
3. Zablokujte konkrétny webový prehľadávač z konkrétnej webovej stránky. Napríklad;
User-agent: Bingbot
Disallow: /example-subfolder/blocked-page.html
Používateľ-agent Bing bot patrí do webových prehľadávačov Bing. Tento typ súboru robots.txt obmedzuje webový prehľadávač Bing v prístupe na konkrétnu stránku pomocou reťazca www.ourexample.com/example-subfolder/blocked-page.
Dôležitá informácia
- Nie každý používateľ používa váš súbor robts.txt. Niektorí používatelia sa môžu rozhodnúť to ignorovať. Väčšina takýchto webových prehľadávačov obsahuje trójske kone a malware.
- Aby bol súbor Robots.txt viditeľný, mal by byť k dispozícii v adresári webovej stránky najvyššej úrovne.
- Znaky „robots.txt“ rozlišujú veľké a malé písmená. V dôsledku toho by ste ich nemali nijakým spôsobom meniť, vrátane kapitalizácie niektorých aspektov.
- "/Robots.txt" je verejná doména. Tieto informácie môže ktokoľvek nájsť, keď ich pridáte do obsahu ktorejkoľvek adresy URL. Nemali by ste indexovať základné údaje alebo stránky, ktoré majú zostať súkromné.