robots.txt 生成器
可视化配置爬虫规则,生成标准 robots.txt 文件
点击「添加规则组」开始配置
场景示例 — 点击「填入」加载常用配置
禁止爬取管理后台
允许所有爬虫,但禁止访问 /admin/ 目录
只允许 Googlebot
只允许 Google 爬虫,禁止其他所有爬虫
允许所有爬虫
完全开放,允许所有爬虫访问所有页面
关于 robots.txt 生成器
- robots.txt 是网站根目录下的文本文件,告知搜索引擎爬虫哪些页面可以抓取、哪些不可以
- 支持多个 User-agent 规则组,可针对不同爬虫设置不同的访问规则
- 生成的文件需上传到网站根目录,通过
https://yourdomain.com/robots.txt访问
操作说明
- 点击「添加规则组」新增一个 User-agent 规则块,选择爬虫类型并添加 Allow/Disallow 规则
- 每个规则组可添加多条路径规则,支持通配符(
*匹配任意字符,$匹配行尾) - 右侧实时预览生成内容,点击「下载 robots.txt」保存文件
注意事项
- robots.txt 是君子协议,恶意爬虫不会遵守;敏感内容应通过登录验证保护,而非仅依赖 robots.txt
- Disallow 规则不会阻止页面被索引,如需阻止索引应在页面中添加
<meta name="robots" content="noindex"> - 所有处理均在浏览器本地完成,不会上传任何数据
robots.txt 知识详解
常见爬虫 User-agent 列表
| 爬虫名称 | User-agent | 所属 |
|---|---|---|
| Google 搜索 | Googlebot | |
| Google 图片 | Googlebot-Image | |
| Bing 搜索 | Bingbot | Microsoft |
| 百度搜索 | Baiduspider | 百度 |
| 所有爬虫 | * | 通配符 |
语法示例
# 禁止所有爬虫访问整个网站
User-agent: *
Disallow: /
# 允许所有爬虫访问所有页面
User-agent: *
Allow: /
# 禁止特定目录
User-agent: *
Disallow: /admin/
Disallow: /private/
# 通配符:禁止所有 .pdf 文件
User-agent: *
Disallow: /*.pdf$
# Sitemap 声明
Sitemap: https://example.com/sitemap.xml