Semalt: Ako blokovať Darodar Robots.txt

Súbor Robots.txt je typický textový súbor, ktorý obsahuje pokyny o tom, ako by webové prehľadávače alebo roboti mali prehľadávať web. Ich použitie je zrejmé v robotoch vyhľadávacích nástrojov, ktoré sú bežné na mnohých optimalizovaných webových stránkach. Ako súčasť protokolu vylúčenia robotov (REP) tvorí súbor robots.txt podstatný aspekt indexovania obsahu webových stránok a tiež umožňuje serveru autentifikovať žiadosti používateľov zodpovedajúcim spôsobom.

Julia Vashneva, manažérka úspechu Semalt Senior Customer Success Manager, vysvetľuje, že prepojenie je aspekt optimalizácie pre vyhľadávače (SEO), ktorý zahŕňa získavanie prenosu z iných domén vo vašej oblasti. Pre odkazy „nasledovať“ na prenos odkazovej šťavy je nevyhnutné zahrnúť súbor robots.txt na váš webový hostingový priestor, aby pôsobil ako inštruktor toho, ako server interaguje s vašimi stránkami. V tomto archíve sú uvedené pokyny, ktoré povoľujú alebo zakazujú správanie niektorých konkrétnych používateľských agentov.

Základný formát súboru robots.txt

Súbor robots.txt obsahuje dva základné riadky:

User-agent: [meno user-agent]

Zakázať: [reťazec adresy URL sa nemá prehľadávať]

Kompletný súbor robots.txt by mal obsahovať tieto dva riadky. Niektoré z nich však môžu obsahovať viac riadkov užívateľských agentov a smerníc. Tieto príkazy môžu obsahovať také aspekty, ako sú povoľovanie, deaktivácia alebo oneskorenie prehľadávania. Zvyčajne existuje zlom riadka, ktorý oddeľuje každú sadu inštrukcií. Každá z inštrukcií o povolení alebo zakázaní je oddelená týmto zlomom riadka, najmä pre súbor robots.txt s viacerými riadkami.

Príklady

Napríklad súbor robots.txt môže obsahovať kódy ako:

User-agent: darodar

Disallow: / plugin

Disallow: / API

Disallow: / _comments

V tomto prípade je to blok súboru robots.txt, ktorý obmedzuje webový prehľadávač Darodar v prístupe na vaše webové stránky. Vo vyššie uvedenej syntaxi kód blokuje aspekty webovej stránky, ako sú doplnky, rozhranie API a sekcia komentárov. Z týchto poznatkov je možné dosiahnuť množstvo výhod efektívneho vykonávania textového súboru robota. Súbory Robots.txt môžu vykonávať množstvo funkcií. Môžu byť napríklad pripravení:

1. Povoľte všetok obsah webových prehľadávačov na webovej stránke. Napríklad;

User-agent: *

zakázať:

V takom prípade môže k všetkému obsahu používateľa pristupovať ktorýkoľvek webový prehľadávač, ktorý je požiadaný o prístup na webovú stránku.

2. Zablokujte konkrétny webový obsah z konkrétneho priečinka. Napríklad;

User-agent: Googlebot

Disallow: / example-subfolder /

Táto syntax obsahujúca názov user-agent Googlebot patrí spoločnosti Google. Obmedzuje prístup robota k akejkoľvek webovej stránke v reťazci www.ourexample.com/example-subfolder/.

3. Zablokujte konkrétny webový prehľadávač z konkrétnej webovej stránky. Napríklad;

User-agent: Bingbot

Disallow: /example-subfolder/blocked-page.html

Používateľ-agent Bing bot patrí do webových prehľadávačov Bing. Tento typ súboru robots.txt obmedzuje webový prehľadávač Bing v prístupe na konkrétnu stránku pomocou reťazca www.ourexample.com/example-subfolder/blocked-page.

Dôležitá informácia

  • Nie každý používateľ používa váš súbor robts.txt. Niektorí používatelia sa môžu rozhodnúť to ignorovať. Väčšina takýchto webových prehľadávačov obsahuje trójske kone a malware.
  • Aby bol súbor Robots.txt viditeľný, mal by byť k dispozícii v adresári webovej stránky najvyššej úrovne.
  • Znaky „robots.txt“ rozlišujú veľké a malé písmená. V dôsledku toho by ste ich nemali nijakým spôsobom meniť, vrátane kapitalizácie niektorých aspektov.
  • "/Robots.txt" je verejná doména. Tieto informácie môže ktokoľvek nájsť, keď ich pridáte do obsahu ktorejkoľvek adresy URL. Nemali by ste indexovať základné údaje alebo stránky, ktoré majú zostať súkromné.