广告位
Robots.txt 检测工具
在线检测网站的 robots.txt 规则,解析 User-agent 分组、Allow/Disallow 规则、Sitemap 与 Crawl-delay,并提供 URL 抓取权限检测
正在抓取 robots.txt,请稍候...
robots.txt 原文
规则解析
URL 抓取权限检测
广告位
工具介绍与功能
Robots.txt 检测工具通过服务端代理抓取目标站点的 robots.txt,解析其中的抓取规则,帮助站长与 SEO 从业者了解搜索引擎爬虫的访问限制。支持 User-agent 分组展示、Sitemap 与 Crawl-delay 提取,以及单条 URL 的抓取权限判定。
-
原文展示:抓取目标站点 /robots.txt 并高亮显示原始内容
-
规则解析:按 User-agent 分组展示 Allow/Disallow 规则
-
URL 检测:输入路径判定某爬虫是否被允许抓取
-
附加信息:提取 Sitemap 链接与 Crawl-delay 抓取延迟
安全保障
-
超时控制:服务端抓取 10 秒超时,避免长时间阻塞
-
协议校验:仅允许 http/https 协议,拒绝内网/文件协议
常见问题
robots.txt 对网站有什么作用?
robots.txt 是放置在网站根目录的协议文件,用于告知搜索引擎爬虫哪些页面可以抓取、哪些禁止抓取。它是控制站点被搜索引擎收录范围的重要手段,但仅是建议性约束,恶意爬虫可能忽略。
User-agent: * 是什么意思?
星号 * 代表匹配所有爬虫。在该分组下设置的规则对所有未单独声明的爬虫生效。若要针对特定爬虫设置规则(如 Googlebot、Baiduspider),需单独声明 User-agent 分组。
URL 检测结果的判定规则是什么?
本工具按 robots.txt 标准实现最长前缀匹配:对指定 User-agent 的所有规则按路径长度排序,最长匹配的规则决定最终结果(Allow 或 Disallow)。同时支持 * 与 $ 通配符。
广告位