Robots.txt: Paano Ito Makakatulong o Masaktan ang Mga Ranggo sa Paghahanap ng Iyong Website

Pagbubunyag: Tumutulong ang iyong suporta na panatilihing tumatakbo ang site! Kumikita kami ng bayad sa referral para sa ilan sa mga serbisyong inirerekumenda namin sa pahinang ito.


Ang file na robots.txt ay isang espesyal na tool na ginagamit ng mga website upang sabihin sa anumang mga robot sa internet na maaaring bisitahin ang maaari nilang gawin at hindi magawa.

Halimbawa, bago bisitahin ng Googlebot ang iyong website, binabasa nito ang robots.txt file upang makita kung saan maaari at hindi ito makakapunta, kung anong impormasyon ang makokolekta nito, at mga bagay na tulad nito. Siyempre, ginagawa nito ito sapagkat kumakatawan ito sa isang itinatag na kumpanya na nagmamalasakit sa reputasyon nito.

Kung ang ilang mga internet scammers ay lumikha ng ScamBot5000, marahil ay hindi nito mabasa ang robots.txt file – maliban marahil upang makita kung saan hindi mo nais itong maghanap.

Kaya Bakit Gumamit ng Robots.txt?

Ibinigay na ang mga robot ay hindi kailangang sumunod sa kung ano ang nasa file ng robots.txt, ito ay tila isang pag-aaksaya ng oras. Ngunit talagang maaari itong maging napakahalaga. Oo naman, ang mga spambots ay papasok sa iyong website at mag-post ng walang saysay na mga puna, ngunit iba ang isyu na may iba’t ibang mga solusyon. Ginagamit ang robots.txt file upang matulungan ang mga search engine at archiver na malaman kung paano mag-navigate sa iyong site.

Sa ilalim ng karamihan sa mga pangyayari, nais ng mga website ng mga robot na suriin ang kanilang buong mga site. Ngunit hindi palagi. Isipin na mayroon kang isang site na nahahati sa dalawang bahagi. Ang isang bahagi ay naglalaman ng isang blog kung saan sinabi mo sa mundo kung ano ang iniisip mo tungkol sa bawat bagong smartphone na dumarating sa merkado. At ang iba pang bahagi ay may mga larawan ng iyong bagong sanggol. Hindi mo pansin ang mga taong tumitingin sa mga larawan ng iyong sanggol, dahil siya, pagkatapos ng lahat maganda bilang isang pindutan.

Ngunit hindi mo nais ang mga larawang iyon na kasama sa mga database ng search engine kung saan ang mga taong hindi mo alam kung sino ang maaari mong makuha sa kanila. O baka ayaw mo lang ng buwis ang iyong server dahil may nangyari ka na higit sa 10,000 larawan ng mataas na resolusyon ng iyong bagong sanggol.

Anuman ang dahilan, maaari kang gumamit ng isang robots.txt file upang sabihin sa mga search engine: i-index ang aking mga artikulo sa smartphone ngunit iwanan lamang ang aking mga larawan sa aking sanggol..

Paano gumagana ang Robots.txt

Ang mga utos sa loob nito ay tinukoy bilang ang Robot Exterior Protocol. Ito ay mula pa noong 1994, at hindi pa opisyal na na-standardize. Ngunit pinamamahalaan itong gumana nang maayos.

Marami dito (na makukuha natin). Ngunit karamihan, mayroong dalawang mga utos lamang: (1) ang nagsasabi kung aling mga robot ang naaangkop sa mga utos; at (2) yaong nagsasabi sa mga robot kung ano ang magagawa at hindi nila magagawa.

User-Agent Command

Ang lahat ng mga seksyon ng isang robots.txt file ay nagsisimula sa isang utos ng User-ahente. Ito ay sa anyo:

Ahente ng gumagamit: [pangalan ng robot]

Sa kasong ito, ang [robot-name] ay maaaring alinman sa pangalan ng isang partikular na robot (halimbawa, Googlebot) o lahat ng mga robot, na kung saan ay ipinahiwatig na may simbolo ng mga asterisk. Ang huling kaso na ito ay ang pinaka-karaniwan. Kasunod ng User-ahente, ang lahat ng mga utos ay sumangguni dito hanggang sa susunod na linya ng User-ahente (kung mayroong isa).

Hindi pinapayag

Ang pinaka-karaniwang mga utos sa isang file na robots.txt ay ang mga hindi pinapayagang ang robot na pumunta sa iba’t ibang mga lugar sa website. Ang lahat ng mga linya ay may katulad na format sa format na User-agent:

Disallow: [file o pangalan ng direktoryo]

Sa kasong ito, ang [file o direktoryo ng pangalan] ay binibigyan ng kaugnayan sa ugat ng website. Halimbawa, ang isang karaniwang lokasyon para sa isang website sa isang ibinahaging server ay / home / websiteName / public_html. Tulad ng pag-aalala ng robots.txt, ito lamang ang direktoryo ng ugat, o /.

Mga simpleng halimbawa

Marahil ang pinakasimpleng file na robots.txt ay isa na nagsasabi sa lahat ng mga robot na pumunta saanman nais nila:

Ahente ng gumagamit: *

Ngunit kung nais mo ang isang website na “off the grid” at hindi matagpuan ng mga normal na search engine, maaaring ganito ang hitsura ng iyong robots.txt file:

Ahente ng gumagamit: * Hindi pinapayagan: /

Ang isang mas makatotohanang kaso ay isa kung saan hindi mo nais ang Google search robot na pupunta sa mga pribadong lugar:

Ahente ng gumagamit: Hindi pinapayagan ng Googlebot: / cgi-bin / Disallow: / wp-admin /

Ano ang Iba Pa Ang Robots.txt Gawin?

Dahil ang pamantayan sa pagbubukod sa mga robot ay hindi nai-back up ng anumang may akitikong katawan tulad ng ISO at W3C, eksakto kung ano ang magbibigay ng pansin sa anumang binigyan ng robot. Kaya, ang mga gumagamit-ahente at hindi pinapayag na mga utos na ating tinalakay lamang ang lahat na maaari mong asahan. Ngunit may iba pang mga utos na hindi nakatayo na maaari mong idagdag sa iyong robots.txt file.

Payagan

Ang utos ng pahintulot ay halos pamantayan. Karamihan sa mga robot ay nauunawaan ito. Ngunit ito ay talagang hindi mahusay na paggamit. Ito ay karaniwang ginagamit bilang isang paraan upang mag-ukit ng isang maliit na bahagi ng isang kung hindi man pinapayagang site na mai-crawl. Karamihan sa mga robot ay nagbibigay ng unahan sa alinmang utos ay mas mahaba. Maaari itong malito at dapat iwasan.

Halimbawa

Ahente ng gumagamit: * Huwag pahintulutan: / Payagan: / wp

Crawl-Delay

Ang pag-antala ng crawl ay nagsasabi sa robot kung gaano kadalas itong bisitahin ang site. Ang orihinal na ideya ay upang mapanatili ang isang robot mula sa dominado sa web server. Sa madaling salita, ito ay isang paraan upang maiwasan ang isang hindi sinasadyang pag-atake sa DoS. Ngunit ang karamihan sa mga robot ay hindi gumagamit nito at sa mga ginagawa nito, ginagamit ito sa iba’t ibang paraan.

Halimbawa

Ahente ng gumagamit: * Crawl-pagkaantala: 10

Host

Ang utos ng host ay nagsasabi sa robot kung aling host ang dapat itong mag-crawl. Ito ay maaaring mukhang kakaiba, ngunit ito ay inilaan para sa mga site ng salamin. Kung mayroon kang isang base website na tinatawag na freeware.com at mga salamin na freeware1.com at freeware2.com, makatuwiran para sa mga robot na mag-crawl lamang ng freeware.com, na ibinigay na ang iba pang dalawa ay magiging eksaktong pareho.

Halimbawa

Ahente ng gumagamit: * Host: freeware.com

Sitemap

Ang utos na ito ay nagsasabi sa mga robot kung saan matatagpuan ang sitemap ng XML ng site. Sa pangkalahatan, ang mga sitemaps ay direktang isinumite sa mga search engine.

Halimbawa

Ahente ng gumagamit: * Sitemap: http://www.mysite.com/sitemap.xml

Mga Meta Tags

Bilang karagdagan sa file na robots.txt, mayroon ding mga tag na meta ng robot. Sa pamamagitan ng paggamit nito, maaari mong ipahiwatig kung ano ang dapat gawin ng mga robot sa isang antas ng bawat pahina. Tulad ng karamihan sa mga meta tag, gumagamit ito ng dalawang katangian: pangalan at nilalaman.

Ang katangian ng pangalan ay karaniwang naglalaman ng salitang “mga robot.” Gayunpaman, maaari itong isama ang pangalan ng isang tiyak na robot – o kahit na maraming mga pinaghiwalay ng mga koma.

Ang katangian ng nilalaman ay naglalaman ng isa o higit pang mga utos, na pinaghiwalay ng mga koma. Ang pinaka-karaniwang mga ito ay “noindex” (huwag i-index ang pahina) at “nofollow” (huwag sundin ang mga link sa pahina). Maraming iba pang mga parameter, kabilang ang: index, sundin, wala, noarchive, nocache, at nosnippet. Tingnan ang mga advanced na mapagkukunan para sa karagdagang impormasyon.

Halimbawa

Karagdagang Mga Mapagkukunan

Sa ibaba makikita mo ang isang napapanahong koleksyon ng mga gabay, mga tutorial at tool para sa robots.txt.

Mga Pangunahing Pagpapakilala

  • Paano Gumawa at I-configure ang Iyong File ng Robots.txt: isang mahusay at masusing pagpapakilala sa paksa.
  • Ang Mga Pahina ng Robot ng Web: isang pangunahing pagpapakilala sa file na robots.txt.
  • Ano ang Robots.txt: ang pahina ng MOZ na higit na nakatuon sa bahagi ng SEO ng mga bagay.
  • Ano ang File ng Robots.txt: Ang artikulo ni Patrick Sexton na nagbibigay ng isang mahusay na pagpapakilala sa lahat ng mga pangunahing kaalaman.
  • Tungkol sa Robots Tag: pangunahing impormasyon tungkol sa pagkontrol sa mga robot gamit ang meta tag.
  • Alamin ang Tungkol sa Robots.txt sa Mga Interactive na Halimbawa: isang masusing pagpapakilala sa mga file na robots.txt.

Advanced na Impormasyon

  • Isang Mas Malalim na Tumingin sa Robots.txt: isang mahusay na talakayan sa paksa kabilang ang pagtutugma ng pattern.
  • Mga Pagtukoy sa Robots.txt: Ang pagtutukoy ng Google, na nagpapaliwanag nang eksakto kung paano nila ginagamit ang file.
  • Proteksyon ng Pagsasama ng Robots: impormasyon mula sa Bing tungkol sa kung paano ginagamit ang mga file na robots.txt.
  • Ang Robots.txt Ay Isang Paalala sa Pagpapakamatay: isang paliwanag mula sa Archive.org kung bakit hindi na nito binabasa ang mga file ng robots.txt, na itinuturing nito na “isang hangal, hangal na ideya sa modernong panahon.”
  • Paano Ihinto ang Mga Mga Search Engine Mula sa Pag-index ng mga Tukoy na Mga Post at Mga Pahina sa WordPress: bagaman ang pokus ay nasa WordPress, ang artikulong ito ay nagbibigay ng isang masusing pagpapakilala sa mga robot ng meta tag.
  • Paano I-block at Wasakin ang SEO na may 5K + Directives: isang pag-aaral sa kaso kung paano sinira ng isang website ang kakayahang makita dahil sa isang sobrang kumplikadong file ng robots.txt.
  • Hindi pinayagang Robots.txt: 20 Taon ng Mga Pagkakamali Upang Iwasan: magandang payo tungkol sa hindi dapat gawin sa iyong robots.txt file.

Mga tool sa Robots.txt

  • Ang Robot Control Code Generation Tool ng McAnerin: isang buong tampok na robots.txt generator na may maraming mga tukoy na robot upang lumikha ng mga patakaran para sa.
  • Mga Tool sa Book ng SEO: mga simpleng tool para sa paglikha at pagsuri ng mga file ng robots.txt.
  • Robot Database: isang listahan ng higit sa 300 mga robot at mga detalye tungkol sa bawat isa.
  • Robots.txt Tester: tool ng Google para suriin ang iyong robots.txt file. Kritikal na alam mo kung ano ang iniisip ng Google na maaari at hindi maaaring gawin sa iyong site.

Buod

Ang file na robots.txt at mga tag ng meta ng robot ay maaaring maging kapaki-pakinabang na tool para sa mga may-ari ng website at mga administrador. Ngunit dapat kang mag-ingat sa kanila. Kung ginamit nang hindi tama, maaari nilang lubos na makapinsala sa kakayahang makita ang iyong website.

Jeffrey Wilson Administrator
Sorry! The Author has not filled his profile.
follow me