Robots.txt: Hvordan det kan hjelpe eller skade nettstedets søkerangeringer

Formidling: Din støtte hjelper med å holde nettstedet i gang! Vi tjener et henvisningsgebyr for noen av tjenestene vi anbefaler på denne siden.


Robots.txt-filen er et spesielt verktøy som brukes av nettsteder for å fortelle alle internettroboter som kan besøke hva de kan og ikke kan gjøre.

Før Googlebot besøker nettstedet ditt, leser det for eksempel robots.txt-filen for å se hvor den kan og ikke kan gå, hvilken informasjon den kan samle og sånt. Selvfølgelig gjør det dette fordi det representerer et etablert selskap som bryr seg om sitt rykte.

Hvis noen Internett-svindlere opprettet ScamBot5000, ville den sannsynligvis ikke en gang lest robots.txt-filen – bortsett fra kanskje for å se hvor du ikke vil ha den..

Så hvorfor bruke Robots.txt?

Gitt at roboter ikke trenger å følge det som finnes i robots.txt-filen, kan det virke som bortkastet tid. Men det kan faktisk være veldig viktig. Visst vil spambots komme inn på nettstedet ditt og legge ut unyttige kommentarer, men det er et annet problem med forskjellige løsninger. Robots.txt-filen brukes til å hjelpe søkemotorer og arkivere til å vite hvordan du navigerer på nettstedet ditt.

Under de fleste omstendigheter ønsker nettsteder at roboter skal sjekke ut hele nettstedene sine. Men ikke alltid. Se for deg at du har et nettsted som er delt i to deler. Den ene delen inneholder en blogg der du forteller verden hva du synes om hver nye smarttelefon som kommer på markedet. Og den andre delen har bilder av din nye baby. Du har ikke noe imot at folk ser på bildene av babyen din, for hun er tross alt søt som en knapp.

Men du vil ikke at bildene skal inkluderes i søkemotordatabaser hvor folk som ikke engang vet hvem du er, kan komme over dem. Eller kanskje du ikke vil at serveren din skal beskattes fordi du tilfeldigvis har over 10.000 bilder med høy oppløsning av den nye babyen din.

Uansett årsak kan du bruke en robots.txt-fil for å fortelle søkemotorene: indeksere smarttelefonartiklene mine, men la babybildene mine være i fred.

Slik fungerer Robots.txt

Kommandoene i den er referert til som Robots Exclusion Protocol. Det har eksistert siden 1994, og har aldri blitt offisielt standardisert. Men det klarer uansett å fungere ganske bra.

Det er mye for det (som vi vil komme til). Men stort sett er det bare to kommandoer: (1) de som forteller hvilke roboter kommandoene bruker på; og (2) de som forteller robotene hva de kan og ikke kan gjøre.

Bruker-agent kommando

Alle deler av en robots.txt-fil starter med en User-agent-kommando. Det er av formen:

Bruker-agent: [robot-name]

I dette tilfellet kan [robotnavn] enten være navnet på en bestemt robot (f.eks. Googlebot) eller alle roboter, som er indikert med et stjernesymbol. Dette siste tilfellet er det vanligste. Etter User-agent refererer alle kommandoer til den til neste User Agent agent-linje (hvis det er en).

Disallow

De vanligste kommandoene i en robots.txt-fil er de som ikke tillater roboten å gå til forskjellige steder på nettstedet. Alle linjene har et lignende format som User-agent-formatet:

Avvis: [fil- eller katalognavn]

I dette tilfellet blir [fil- eller katalognavn] gitt i forhold til nettstedroten. For eksempel er et vanlig sted for et nettsted på en delt server / home / websiteName / public_html. For robots.txt er dette bare rotkatalogen, eller /.

Enkle eksempler

Den kanskje enkleste robots.txt-filen er en som forteller alle roboter å dra hvor de vil:

Bruker agent: *

Men hvis du vil ha et nettsted som er “utenfor nettet” og ikke kan bli funnet av vanlige søkemotorer, kan robots.txt-filen din se slik ut:

Bruker-agent: * Avvis: /

En mer realistisk sak vil være en der du ikke vil at Google-søkroboten skal gå til private områder:

Bruker-agent: Googlebot Disallow: / cgi-bin / Disallow: / wp-admin /

Hva annet gjør Robots.txt?

Siden standarder for ekskludering av roboter ikke er sikkerhetskopiert av noe autoritativt organ som ISO og W3C, er nøyaktig hva en gitt robot vil ta hensyn til, variabel. Brukeragenten og ikke tillatelse-kommandoene vi nettopp har diskutert, er alt du virkelig kan stole på. Men det er andre ikke-standardiserte kommandoer som du kan legge til i robots.txt-filen.

Tillate

Tillat-kommandoen er nesten standard. De fleste roboter forstår det. Men det er virkelig ikke til mye bruk. Det brukes vanligvis som en måte å skjære ut en liten del av et ellers ikke tillatt sted å bli gjennomgått på. De fleste roboter gir forrang for hvilken kommando som er lengre. Det kan være forvirrende og bør unngås.

Eksempel

Bruker-agent: * Tillat: / Tillat: / wp

Crawl-Delay

Gjennomsøk-forsinkelse forteller roboten hvor ofte den kan besøke nettstedet. Den opprinnelige ideen var å forhindre en robot i å dominere webserveren. Det var med andre ord en måte å unngå et utilsiktet DoS-angrep på. Men de fleste roboter bruker ikke det og de som gjør det, bruker det på forskjellige måter.

Eksempel

Bruker-agent: * Gjennomsøk-forsinkelse: 10

Vert

Vertskommandoen forteller roboten hvilken vert den skal gjennomgå. Dette kan virke rart, men det er ment for speilsteder. Hvis du hadde et basisnettsted kalt freeware.com og speil freeware1.com og freeware2.com, ville det være fornuftig at roboter bare gjennomsøker freeware.com, gitt at de to andre ville være nøyaktig det samme.

Eksempel

Bruker-agent: * Vert: freeware.com

Sitemap

Denne kommandoen forteller roboter hvor nettstedets XML-sitemap kan bli funnet. Generelt sendes nettkart direkte til søkemotorer.

Eksempel

Bruker-agent: * Sitemap: http://www.mysite.com/sitemap.xml

Metatagger

I tillegg til robots.txt-filen, er det også metatagger for roboter. Ved å bruke dem kan du indikere hva roboter skal gjøre på et per-nivå-nivå. Som med de fleste metakoder, bruker den to attributter: navn og innhold.

Navneattributtet inneholder vanligvis ordet “roboter.” Imidlertid kan den inkludere navnet på en spesifikk robot – eller til og med flere som er adskilt av kommaer.

Innholdsattributtet inneholder en eller flere kommandoer, atskilt med kommaer. De vanligste er “noindex” (ikke indekser siden) og “nofollow” (ikke følg lenkene på siden). Det er mange andre parametere, inkludert: indeks, følg, ingen, noarchive, nocache og nosnippet. Se de avanserte ressursene for mer informasjon.

Eksempel

Ytterligere ressurser

Nedenfor finner du en oppdatert samling av guider, veiledninger og verktøy for robots.txt.

Grunnleggende introduksjoner

  • Hvordan lage og konfigurere Robots.txt-filen: en flott og grundig introduksjon til emnet.
  • Web Robots Pages: en grunnleggende introduksjon til filen robots.txt.
  • Hva er Robots.txt: MOZ-siden som fokuserer mer på SEO-siden av ting.
  • Hva er en Robots.txt-fil: Patrick Sextons artikkel som gir en god introduksjon til alle de grunnleggende.
  • Om Robots Tag: grunnleggende informasjon om å kontrollere roboter med metakoden.
  • Lær om Robots.txt med interaktive eksempler: en grundig introduksjon til robots.txt-filer.

Avansert informasjon

  • Et dypere blikk på Robots.txt: en god diskusjon om emnet inkludert mønster matching.
  • Robots.txt-spesifikasjoner: Googles spesifikasjon, som forklarer nøyaktig hvordan de bruker filen.
  • Protokoll for unntak av roboter: informasjon fra Bing om hvordan robots.txt-filer brukes.
  • Robots.txt er et selvmordsnotat: en forklaring fra Archive.org på hvorfor den ikke lenger leser robots.txt-filer, som den anser som “en dum, dum idé i moderne tid.”
  • Hvordan stoppe søkemotorer fra å indeksere spesifikke innlegg og sider i WordPress: selv om fokuset er på WordPress, gir denne artikkelen en grundig innføring i metatagger for roboter.
  • Slik blokkerer og ødelegger SEO med 5K + direktiver: en casestudie om hvordan ett nettsted ødela synligheten på grunn av en for komplisert robots.txt-fil.
  • Robots.txt Disallow: 20 års feil å unngå: gode råd om hva du ikke skal gjøre med robots.txt-filen.

Robots.txt-verktøy

  • McAnerins verktøy for generering av robotkontrollkoder: en full-featured robots.txt-generator med en rekke spesifikke roboter for å lage regler for.
  • SEO Book Tools: enkle verktøy for å lage og sjekke robots.txt-filer.
  • Robotedatabase: en liste med over 300 roboter og detaljer om hver.
  • Robots.txt Tester: Googles verktøy for å sjekke robots.txt-filen. Det er viktig at du vet hva Google mener det kan og ikke kan gjøre på nettstedet ditt.

Sammendrag

Robot.txt-filen og metatagger for roboter kan være nyttige verktøy for eiere og administratorer av nettsteder. Men du må passe godt på dem. Hvis de brukes feil, kan de skade nettstedets synlighet i stor grad.

Jeffrey Wilson Administrator
Sorry! The Author has not filled his profile.
follow me
    Like this post? Please share to your friends:
    Adblock
    detector
    map