robots.txt是放置在网站根目录下的纯文本文件,用于告诉搜索引擎爬虫哪些页面可以抓取,哪些不可以。它遵循Robots Exclusion Protocol(机器人排除协议)。
| 指令 | 说明 | 示例 |
|---|---|---|
| User-agent | 指定适用的搜索引擎爬虫 | User-agent: Googlebot |
| Disallow | 禁止抓取的路径 | Disallow: /private/ |
| Allow | 允许抓取的路径(覆盖Disallow) | Allow: /public/ |
| Sitemap | 站点地图URL | Sitemap: https://... |
| Crawl-delay | 抓取间隔(秒) | Crawl-delay: 10 |
| User-agent | 搜索引擎 |
|---|---|
| Googlebot | |
| Bingbot | Bing |
| Baiduspider | 百度 |
| Sogou web spider | 搜狗 |
| 360Spider | 360搜索 |
| YandexBot | Yandex |
| * | 所有爬虫 |