← 返回工具箱
🤖 robots.txt生成器

robots.txt 规则配置

+ 添加规则组

📖 robots.txt详解

什么是robots.txt?

robots.txt是放置在网站根目录下的纯文本文件,用于告诉搜索引擎爬虫哪些页面可以抓取,哪些不可以。它遵循Robots Exclusion Protocol(机器人排除协议)。

基本语法

User-agent: * # 适用于所有爬虫
Disallow: /admin/ # 禁止抓取 /admin/ 目录
Allow: /admin/public/ # 允许抓取 /admin/public/
Sitemap: https://example.com/sitemap.xml

常用指令

指令说明示例
User-agent指定适用的搜索引擎爬虫User-agent: Googlebot
Disallow禁止抓取的路径Disallow: /private/
Allow允许抓取的路径(覆盖Disallow)Allow: /public/
Sitemap站点地图URLSitemap: https://...
Crawl-delay抓取间隔(秒)Crawl-delay: 10

常见爬虫名称

User-agent搜索引擎
GooglebotGoogle
BingbotBing
Baiduspider百度
Sogou web spider搜狗
360Spider360搜索
YandexBotYandex
*所有爬虫

常见配置示例

# 允许所有爬虫访问所有内容
User-agent: *
Allow: /

# 禁止所有爬虫访问所有内容
User-agent: *
Disallow: /

# 禁止抓取特定目录
User-agent: *
Disallow: /admin/
Disallow: /tmp/
Disallow: /cgi-bin/
💡 小贴士:robots.txt只是一种建议性的协议,善意的爬虫会遵守它,但恶意爬虫可能会忽略。不要依赖robots.txt来保护敏感信息,敏感内容应使用服务器端的身份验证和授权机制来保护。