robots.txt 生成器

可视化配置爬虫规则,生成标准 robots.txt 文件

点击「添加规则组」开始配置
场景示例 — 点击「填入」加载常用配置
禁止爬取管理后台
允许所有爬虫,但禁止访问 /admin/ 目录
只允许 Googlebot
只允许 Google 爬虫,禁止其他所有爬虫
允许所有爬虫
完全开放,允许所有爬虫访问所有页面
关于 robots.txt 生成器
  • robots.txt 是网站根目录下的文本文件,告知搜索引擎爬虫哪些页面可以抓取、哪些不可以
  • 支持多个 User-agent 规则组,可针对不同爬虫设置不同的访问规则
  • 生成的文件需上传到网站根目录,通过 https://yourdomain.com/robots.txt 访问
操作说明
  • 点击「添加规则组」新增一个 User-agent 规则块,选择爬虫类型并添加 Allow/Disallow 规则
  • 每个规则组可添加多条路径规则,支持通配符(* 匹配任意字符,$ 匹配行尾)
  • 右侧实时预览生成内容,点击「下载 robots.txt」保存文件
注意事项
  • robots.txt 是君子协议,恶意爬虫不会遵守;敏感内容应通过登录验证保护,而非仅依赖 robots.txt
  • Disallow 规则不会阻止页面被索引,如需阻止索引应在页面中添加 <meta name="robots" content="noindex">
  • 所有处理均在浏览器本地完成,不会上传任何数据
robots.txt 知识详解
常见爬虫 User-agent 列表
爬虫名称User-agent所属
Google 搜索GooglebotGoogle
Google 图片Googlebot-ImageGoogle
Bing 搜索BingbotMicrosoft
百度搜索Baiduspider百度
所有爬虫*通配符
语法示例
# 禁止所有爬虫访问整个网站 User-agent: * Disallow: / # 允许所有爬虫访问所有页面 User-agent: * Allow: / # 禁止特定目录 User-agent: * Disallow: /admin/ Disallow: /private/ # 通配符:禁止所有 .pdf 文件 User-agent: * Disallow: /*.pdf$ # Sitemap 声明 Sitemap: https://example.com/sitemap.xml