robots.txt Generator

robots.txt 规则配置

+ 添加规则组

Sitemap URL（可选）

Crawl-delay（可选，秒）

📖 robots.txt详解

什么是robots.txt？

robots.txt是放置在网站根目录下的纯文本文件，用于告诉搜索引擎爬虫哪些页面可以抓取，哪些不可以。它遵循Robots Exclusion Protocol（机器人排除协议）。

基本语法

User-agent: * # 适用于所有爬虫
Disallow: /admin/ # 禁止抓取 /admin/ 目录
Allow: /admin/public/ # 允许抓取 /admin/public/
Sitemap: https://example.com/sitemap.xml

常用指令

指令	说明	示例
User-agent	指定适用的搜索引擎爬虫	`User-agent: Googlebot`
Disallow	禁止抓取的路径	`Disallow: /private/`
Allow	允许抓取的路径（覆盖Disallow）	`Allow: /public/`
Sitemap	站点地图URL	`Sitemap: https://...`
Crawl-delay	抓取间隔（秒）	`Crawl-delay: 10`

常见爬虫名称

User-agent	搜索引擎
Googlebot	Google
Bingbot	Bing
Baiduspider	百度
Sogou web spider	搜狗
360Spider	360搜索
YandexBot	Yandex
*	所有爬虫

常见配置示例

# 允许所有爬虫访问所有内容
User-agent: *
Allow: /

# 禁止所有爬虫访问所有内容
User-agent: *
Disallow: /

# 禁止抓取特定目录
User-agent: *
Disallow: /admin/
Disallow: /tmp/
Disallow: /cgi-bin/

💡 小贴士：robots.txt只是一种建议性的协议，善意的爬虫会遵守它，但恶意爬虫可能会忽略。不要依赖robots.txt来保护敏感信息，敏感内容应使用服务器端的身份验证和授权机制来保护。