网站Robots介绍及使用注意事项

编辑:云鸦网络 时间:2021-05-14 09:55

Robots介绍及使用注意事项
Robots是网站和爬虫之间的协议。它使用简单直接的文本格式txt来告诉相应的爬虫允许的权限。也就是说,robots.txt是在搜索引擎中访问网站时要查看的第一个文件。当搜索蜘蛛访问一个站点时,它会首先检查robots.txt是否存在于该站点的根目录中。如果是,搜索Robots将根据文件内容确定访问范围;如果Robots不存在,搜索蜘蛛将能够访问该站点上所有未受保护的页面。
1、Robots.txt可以告诉搜索引擎哪些页面可以被爬取,哪些页面不能被爬取。
2、开发者可以通过robots工具创建、验证和更新robots.txt文件,也可以在百度上查看robots.txt文件的有效性。
3、注:如果您想包含网站上的所有内容,请不要创建robots.txt文件;Robots工具目前支持48K文件内容检测,请确保您的Robots.txt文件不太大,并且目录的最大长度不超过250个字符。将其放在网站的根目录中。