免费转换器

robots.txt 生成器

即时为您的网站生成robots.txt文件。添加用户代理规则、允许/禁止路径、爬取延迟和站点地图URL。免费实时robots.txt生成器。

添加规则

生成的robots.txt

关于此工具

robots.txt 是网站根目录下的纯文本文件,它告诉爬虫它们可以访问哪些路径以及应该避免哪些路径。该格式可以追溯到 1994 年,几乎所有搜索引擎和行为良好的爬虫都支持该格式。该文件是建议性的——恶意爬虫会忽略它——但合法的爬虫(Google、Bing 等)会可靠地遵守其指令。

常见用途:阻止爬虫进入管理区域(/wp-admin/、/admin/)、排除产生重复内容的分面搜索 URL 参数、防止对暂存或开发路径建立索引、声明站点地图位置以及允许特定用户代理同时阻止其他用户代理。在每个爬网会话开始时都会读取该文件。

该生成器根据表单输入构建语法正确的 robots.txt。常见模式(允许所有、阻止所有、阻止特定路径)是模板;可以为每个用户代理添加自定义规则。输出位于站点根目录的 /robots.txt。

为什么使用 robots.txt 生成器

手写 robots.txt 很容易出错。语法错误(区分大小写、精确路径匹配、规则排序)会默默地产生错误行为 - 您想要阻止的路径仍然被爬行,或者您想要索引的路径被排除。生成正确语法的生成器可以避免这些陷阱。

robots.txt 还与其他 SEO 工具有微妙的交互。禁止 robots.txt 中的路径并不会阻止它出现在搜索结果中(Google 可能会在不抓取 URL 的情况下将其编入索引); meta noindex 要求首先抓取页面。知道使用哪个工具来实现哪个意图很重要;生成器可以指导您。

使用方法

选择模板、定制、部署。

  1. 选择起始模板: 允许所有(默认抓取所有内容姿势)、阻止所有(阻止索引中的所有内容)或自定义(从您指定的规则开始)。
  2. 添加用户代理规则: 禁止所有抓取工具或特定命名的机器人(Googlebot、Bingbot、GPTBot)使用特定路径。每个用户代理块都有自己的一组允许和禁止指令。
  3. 添加站点地图 URL: 包括 XML 站点地图的绝对 URL。爬虫使用它来发现他们可能会错过的 URL。
  4. 保存并部署: 下载生成的文件。上传到您的域的根目录(因此它显示在 https://example.com/robots.txt)。通过在浏览器中访问该 URL 进行验证。

常见用例

技术细节

格式:用户代理:<名称>,后跟允许/禁止指令。 * 匹配所有机器人。特定名称(Googlebot、Bingbot)针对特定的抓取工具。多个用户代理块可以堆叠规则。

禁止:<path> 阻止以给定前缀开头的路径。禁止:/ 阻止整个站点。禁止:/admin/ 阻止 /admin/ 下的任何内容。尾部斜杠很重要;禁止:/admin(无斜杠)也匹配/administrator。

爬行延迟(以秒为单位)请求较慢的爬行。站点地图(绝对 URL)声明您的站点地图位置。 # 开始注释行。

最佳实践

常见问题

我可以自定义生成的输出吗?
是的。该工具提供了各种自定义选项,可以根据您的特定需求定制输出。在生成之前调整设置,或使用不同的选项重新生成。
生成的内容可以免费使用吗?
是的。您使用此工具生成的所有内容都可以用于个人、教育或商业目的,没有任何限制或归属要求。
这个需要账号吗?
不需要。该工具无需注册、无需电子邮件、无需注册即可立即使用。只需打开页面并开始生成。
我的输入数据是否保密?
是的。所有处理都发生在您的浏览器中。您的输入数据和生成的输出永远不会发送到任何外部服务器。
如何阻止一个机器人但允许其他机器人?
单独的用户代理块。用户代理:BadBot 后跟 Disallow: / 阻止 BadBot。用户代理:* 与允许:/ 允许其他人。
robots.txt 区分大小写吗?
路径匹配区分大小写。不允许:/Admin 与/admin 不匹配。匹配您 URL 的实际大小写。
抓取延迟实际上会减慢 Google 的速度吗?
Google 不尊重抓取延迟。它遵循 Search Console 中的抓取速度设置。其他爬虫(Bing、Yandex)尊重爬行延迟。
我的数据上传了吗?
不会。生成发生在您的浏览器中。