robots.txt Generator
Bumuo ng robots.txt file para sa iyong website kaagad. Magdagdag ng mga panuntunan ng user-agent, payagan/huwag payagan ang mga path, crawl-delay, at URL ng sitemap. Libre, real-time na robots.txt generator.
Bumuo ng robots.txt file para sa iyong website kaagad. Magdagdag ng mga panuntunan ng user-agent, payagan/huwag payagan ang mga path, crawl-delay, at URL ng sitemap. Libre, real-time na robots.txt generator.
Ang robots.txt ay isang plain text file sa ugat ng isang website na nagsasabi sa mga crawler kung aling mga landas ang maaari nilang bisitahin at dapat nilang iwasan. Ang format ay itinayo noong 1994 at sinusuportahan ng halos bawat search engine at maayos na crawler. Ang file ay advisory — binabalewala ito ng mga malisyosong crawler — ngunit ang mga lehitimong crawler (Google, Bing, atbp.) ay iginagalang ang mga direktiba nito nang mapagkakatiwalaan.
Mga karaniwang gamit: pagharang sa mga crawler mula sa mga lugar ng admin (/wp-admin/, /admin/), hindi kasama ang mga faceted na parameter ng URL ng paghahanap na gumagawa ng duplicate na content, pinipigilan ang pag-index ng mga staging o development path, pagdedeklara ng lokasyon ng sitemap, at pagpayag sa mga partikular na ahente ng user habang bina-block ang iba. Binabasa ang file sa simula ng bawat sesyon ng pag-crawl.
Ang generator na ito ay bumubuo ng isang syntactically correct robots.txt mula sa mga input ng form. Ang mga karaniwang pattern (payagan ang lahat, i-block lahat, i-block ang mga partikular na landas) ay mga template; maaaring idagdag ang mga custom na panuntunan sa bawat user agent. Napupunta ang output sa /robots.txt ng root ng iyong site.
Ang pagsusulat ng kamay na robots.txt ay madaling magkamali. Ang mga pagkakamali sa syntax (case sensitivity, eksaktong pagtutugma ng path, pagkakasunud-sunod ng mga panuntunan) ay tahimik na nagbubunga ng maling gawi — ang mga landas na sinadya mong harangan ay mananatiling crawl, o ang mga path na gusto mong ma-index ay hindi isasama. Ang isang generator na gumagawa ng tamang syntax ay umiiwas sa mga pitfalls na ito.
Ang robots.txt ay mayroon ding banayad na pakikipag-ugnayan sa iba pang mga tool sa SEO. Hindi pinipigilan ng hindi pagpayag ang isang path sa robots.txt na lumabas sa mga resulta ng paghahanap (maaaring i-index ng Google ang URL nang hindi ito gina-crawl); Kinakailangan ng meta noindex na i-crawl muna ang page. Pag-alam kung aling tool ang gagamitin para sa kung aling layunin ang mahalaga; magagabayan ka ng generator.
Pumili ng template, i-customize, i-deploy.
Format: User-agent: <name> na sinusundan ng Allow/Disallow directives. * tumutugma sa lahat ng mga bot. Ang mga partikular na pangalan (Googlebot, Bingbot) ay nagta-target ng mga partikular na crawler. Maaaring mag-stack ng mga panuntunan ang maramihang mga bloke ng User-agent.
Huwag payagan: Hinaharangan ng <path> ang mga landas na nagsisimula sa ibinigay na prefix. Huwag payagan: / hinaharangan ang buong site. Huwag payagan: /admin/ hinaharangan ang anumang bagay sa ilalim ng /admin/. Trailing slash bagay; Disallow: /admin (no slash) ay tumutugma din sa /administrator.
Ang crawl-delay (sa mga segundo) ay humihiling ng mas mabagal na pag-crawl. Idineklara ng Sitemap (ganap na URL) ang lokasyon ng iyong sitemap. # nagsisimula ng linya ng komento.