Robots.txt: hoe het de zoekrangschikking van uw website kan helpen of schaden

Openbaarmaking: Uw steun helpt de site draaiende te houden! We verdienen een verwijzingsvergoeding voor sommige van de services die we op deze pagina aanbevelen.


Het robots.txt-bestand is een speciale tool die door websites wordt gebruikt om internetrobots te vertellen die mogelijk bezoeken wat ze wel en niet kunnen doen.

Voordat de Googlebot bijvoorbeeld uw website bezoekt, leest hij het robots.txt-bestand om te zien waar hij wel en niet terecht kan, welke informatie hij kan verzamelen en dergelijke. Natuurlijk doet het dit omdat het een gevestigd bedrijf vertegenwoordigt dat om zijn reputatie geeft.

Als sommige internetoplichters ScamBot5000 zouden hebben gemaakt, zou het waarschijnlijk niet eens het robots.txt-bestand lezen – behalve misschien om te zien waar u het niet wilde laten zoeken.

Dus waarom Robots.txt gebruiken?

Aangezien robots niet hoeven te voldoen aan wat er in het robots.txt-bestand staat, kan het tijdverspilling lijken. Maar het kan eigenlijk heel belangrijk zijn. Natuurlijk komen er spambots op uw website die nutteloze opmerkingen plaatsen, maar dat is een ander probleem met verschillende oplossingen. Het robots.txt-bestand wordt gebruikt om zoekmachines en archivarissen te helpen bij het navigeren op uw site.

In de meeste gevallen willen websites dat robots hun volledige sites bekijken. Maar niet altijd. Stel je voor dat je een site hebt die in twee delen is verdeeld. Een deel bevat een blog waarin je de wereld vertelt wat je denkt over elke nieuwe smartphone die op de markt komt. En het andere deel heeft foto’s van je nieuwe baby. Je vindt het niet erg als mensen naar de foto’s van je baby kijken, want ze is tenslotte schattig als een knoop.

Maar u wilt niet dat die afbeeldingen worden opgenomen in databases van zoekmachines waar mensen die niet eens weten wie u bent, ze kunnen tegenkomen. Of misschien wil je gewoon niet dat je server wordt belast, omdat je toevallig meer dan 10.000 afbeeldingen met een hoge resolutie van je nieuwe baby hebt.

Wat de reden ook is, u kunt een robots.txt-bestand gebruiken om de zoekmachines te vertellen: indexeer mijn smartphone-artikelen maar laat mijn babyfoto’s met rust.

Hoe Robots.txt werkt

De opdrachten erin worden het Robots Exclusion Protocol genoemd. Het bestaat al sinds 1994 en is nooit officieel gestandaardiseerd. Maar het lukt toch best goed.

Er komt veel bij kijken (waar we op komen). Maar meestal zijn er slechts twee commando’s: (1) degene die vertellen op welke robots de commando’s van toepassing zijn; en (2) degenen die de robots vertellen wat ze wel en niet kunnen doen.

Commando gebruiker-agent

Alle secties van een robots.txt-bestand beginnen met een User-agent-opdracht. Het heeft de vorm:

User-agent: [robotnaam]

In dit geval kan [robotnaam] de naam zijn van een bepaalde robot (bijv. Googlebot) of alle robots, wat wordt aangegeven met een asterisk-symbool. Dit laatste geval komt het meest voor. Na de User-agent verwijzen alle opdrachten ernaar tot de volgende User-agent-regel (als die er is).

Niet toestaan

De meest voorkomende opdrachten in een robots.txt-bestand zijn die waarmee de robot niet naar verschillende plaatsen op de website kan gaan. Alle regels hebben een vergelijkbaar formaat als het User-agent-formaat:

Niet toestaan: [bestands- of mapnaam]

In dit geval wordt [bestands- of mapnaam] gegeven relatief ten opzichte van de root van de website. Een veelgebruikte locatie voor een website op een gedeelde server is bijvoorbeeld / home / websiteName / public_html. Wat robots.txt betreft, is dit slechts de hoofdmap, of /.

Simpele voorbeelden

Misschien is het eenvoudigste robots.txt-bestand er een dat alle robots vertelt waar ze maar willen:

User-agent: *

Maar als u een website wilt die ‘off the grid’ is en niet kan worden gevonden door normale zoekmachines, kan uw robots.txt-bestand er als volgt uitzien:

User-agent: * Disallow: /

Een realistischer geval zou er een zijn waarbij u niet wilt dat de Google-zoekrobot naar privégebieden gaat:

User-agent: Googlebot Disallow: / cgi-bin / Disallow: / wp-admin /

Wat doet Robots.txt??

Omdat de uitsluitingsnorm voor robots niet wordt ondersteund door een gezaghebbende instantie zoals de ISO en de W3C, is precies waar elke robot op zal letten variabel. Dus de user-agent en niet-toegestane opdrachten die we zojuist hebben besproken, zijn alles waar u echt op kunt vertrouwen. Maar er zijn nog andere niet-standaard opdrachten die u aan uw robots.txt-bestand kunt toevoegen.

Toestaan

De opdracht allow is bijna standaard. De meeste robots begrijpen het wel. Maar het heeft echt niet veel nut. Het wordt over het algemeen gebruikt als een manier om een ​​klein deel van een anderszins niet toegestane site uit te graven. De meeste robots geven voorrang aan elk commando dat langer is. Het kan verwarrend zijn en moet worden vermeden.

Voorbeeld

User-agent: * Disallow: / Allow: / wp

Kruipvertraging

Crawlvertraging vertelt de robot hoe vaak hij de site kan bezoeken. Het oorspronkelijke idee was om te voorkomen dat een robot de webserver zou domineren. Met andere woorden, het was een manier om een ​​onbedoelde DoS-aanval te voorkomen. Maar de meeste robots gebruiken het niet en degenen die dat wel doen, gebruiken het op verschillende manieren.

Voorbeeld

User-agent: * Crawlvertraging: 10

Gastheer

Het hostcommando vertelt de robot welke host hij moet crawlen. Dit lijkt misschien vreemd, maar het is bedoeld voor mirror-sites. Als je een basiswebsite had met de naam freeware.com en mireware freeware1.com en freeware2.com, zou het logisch zijn als robots alleen freeware.com crawlen, aangezien de andere twee precies hetzelfde zouden zijn.

Voorbeeld

User-agent: * Host: freeware.com

Sitemap

Deze opdracht vertelt robots waar de XML-sitemap van de site te vinden is. Over het algemeen worden sitemaps rechtstreeks ingediend bij zoekmachines.

Voorbeeld

User-agent: * Sitemap: http://www.mysite.com/sitemap.xml

Meta-tags

Naast het robots.txt-bestand zijn er ook robots-metatags. Door ze te gebruiken kun je per pagina aangeven wat robots moeten doen. Zoals bij de meeste metatags, gebruikt het twee kenmerken: naam en inhoud.

Het naamkenmerk bevat meestal het woord “robots”. Het kan echter de naam van een specifieke robot bevatten, of zelfs meerdere, gescheiden door komma’s.

Het contentkenmerk bevat een of meer opdrachten, gescheiden door komma’s. De meest voorkomende zijn ‘noindex’ (indexeer de pagina niet) en ‘nofollow’ (volg de links op de pagina niet). Er zijn veel andere parameters, waaronder: index, follow, none, noarchive, nocache en nosnippet. Zie de geavanceerde bronnen voor meer informatie.

Voorbeeld

Verdere bronnen

Hieronder vind je een up-to-date verzameling gidsen, tutorials en tools voor robots.txt.

Basisintroducties

  • Hoe u uw Robots.txt-bestand kunt maken en configureren: een geweldige en grondige introductie tot het onderwerp.
  • De Web Robots-pagina’s: een basisintroductie van het robots.txt-bestand.
  • What Is Robots.txt: de MOZ-pagina die meer gericht is op de SEO-kant van de zaak.
  • Wat is een Robots.txt-bestand: het artikel van Patrick Sexton dat een goede introductie biedt tot alle basisprincipes.
  • Over de Robots-tag: basisinformatie over het besturen van robots met de metatag.
  • Leer meer over Robots.txt met interactieve voorbeelden: een grondige introductie tot robots.txt-bestanden.

Geavanceerde informatie

  • Een diepere blik op Robots.txt: een goede bespreking van het onderwerp inclusief patroonafstemming.
  • Robots.txt-specificaties: de specificatie van Google, waarin precies wordt uitgelegd hoe ze het bestand gebruiken.
  • Robots Exclusion Protocol: informatie van Bing over hoe robots.txt-bestanden worden gebruikt.
  • Robots.txt is een zelfmoordnotitie: een uitleg van Archive.org waarom het zelfs geen robots.txt-bestanden meer leest, wat het beschouwt als “een dom, dom idee in de moderne tijd”.
  • Zoekmachines stoppen met het indexeren van specifieke berichten en pagina’s in WordPress: hoewel de focus op WordPress ligt, biedt dit artikel een grondige introductie in robots-metatags.
  • Hoe SEO te blokkeren en te vernietigen met 5K + -richtlijnen: een casestudy over hoe een website zijn zichtbaarheid vernietigde vanwege een te gecompliceerd robots.txt-bestand.
  • Robots.txt Disallow: 20 jaar fouten om te vermijden: goed advies over wat u niet moet doen met uw robots.txt-bestand.

Robots.txt Tools

  • McAnerin’s Robot Control Code Generation Tool: een volledig uitgeruste robots.txt-generator met een aantal specifieke robots om regels voor te maken.
  • SEO-boekhulpmiddelen: eenvoudige hulpmiddelen voor het maken en controleren van robots.txt-bestanden.
  • Robots Database: een lijst met meer dan 300 robots en details over elk.
  • Robots.txt Tester: Google’s tool voor het controleren van uw robots.txt-bestand. Het is van cruciaal belang dat u weet wat Google denkt dat het wel en niet kan doen op uw site.

Overzicht

Het robots.txt-bestand en robots-metatags kunnen nuttige hulpmiddelen zijn voor website-eigenaren en beheerders. Maar je moet goed met ze omgaan. Bij onjuist gebruik kunnen ze de zichtbaarheid van uw website ernstig schaden.

Jeffrey Wilson Administrator
Sorry! The Author has not filled his profile.
follow me
    Like this post? Please share to your friends:
    Adblock
    detector
    map