robots.txt 生成器
即时为您的网站生成robots.txt文件。添加用户代理规则、允许/禁止路径、爬取延迟和站点地图URL。免费实时robots.txt生成器。
即时为您的网站生成robots.txt文件。添加用户代理规则、允许/禁止路径、爬取延迟和站点地图URL。免费实时robots.txt生成器。
robots.txt 是网站根目录下的纯文本文件,它告诉爬虫它们可以访问哪些路径以及应该避免哪些路径。该格式可以追溯到 1994 年,几乎所有搜索引擎和行为良好的爬虫都支持该格式。该文件是建议性的——恶意爬虫会忽略它——但合法的爬虫(Google、Bing 等)会可靠地遵守其指令。
常见用途:阻止爬虫进入管理区域(/wp-admin/、/admin/)、排除产生重复内容的分面搜索 URL 参数、防止对暂存或开发路径建立索引、声明站点地图位置以及允许特定用户代理同时阻止其他用户代理。在每个爬网会话开始时都会读取该文件。
该生成器根据表单输入构建语法正确的 robots.txt。常见模式(允许所有、阻止所有、阻止特定路径)是模板;可以为每个用户代理添加自定义规则。输出位于站点根目录的 /robots.txt。
手写 robots.txt 很容易出错。语法错误(区分大小写、精确路径匹配、规则排序)会默默地产生错误行为 - 您想要阻止的路径仍然被爬行,或者您想要索引的路径被排除。生成正确语法的生成器可以避免这些陷阱。
robots.txt 还与其他 SEO 工具有微妙的交互。禁止 robots.txt 中的路径并不会阻止它出现在搜索结果中(Google 可能会在不抓取 URL 的情况下将其编入索引); meta noindex 要求首先抓取页面。知道使用哪个工具来实现哪个意图很重要;生成器可以指导您。
选择模板、定制、部署。
格式:用户代理:<名称>,后跟允许/禁止指令。 * 匹配所有机器人。特定名称(Googlebot、Bingbot)针对特定的抓取工具。多个用户代理块可以堆叠规则。
禁止:<path> 阻止以给定前缀开头的路径。禁止:/ 阻止整个站点。禁止:/admin/ 阻止 /admin/ 下的任何内容。尾部斜杠很重要;禁止:/admin(无斜杠)也匹配/administrator。
爬行延迟(以秒为单位)请求较慢的爬行。站点地图(绝对 URL)声明您的站点地图位置。 # 开始注释行。