robots.txt应该禁止哪些目录?

266次阅读
没有评论

1:需要禁止的目录

如果你想要防止搜索引擎抓取到你的网站上的敏感信息,那么你应该在 robot.txt 中禁止搜索引擎访问这些目录。

需要禁止的目录包括:这个目录存储着你不希望被公开的信息,例如用户密码、数据库配置文件等。

如果你的网站包含有版权信息,例如视频、音频、图片等,你应该将这些文件放在一个单独的目录中,并在 robot.txt 中禁止搜索引擎访问。

这些目录存储的是你个人的文件,例如日志文件、个人图片、文档等,不希望被公开。

2:如何禁止目录

什么是 robot.txt?

Robot.txt 是一个简单的文本文件
,可以告诉搜索引擎你的网站哪些目录不希望被爬取。这个文件必须放在网站的根目录

下,并且命名为“robot.txt”。如果不存在这个文件,搜索引擎就会爬取整个网站。

那么,应该禁止哪些目录呢?

一般来说,非文本文件包括图片、视频、音频、PDF、Flash 等。这些文件很大,而且很难被分析和理解,所以通常不希望被搜索引擎爬取。

内容重复是一个常见的问题,特别是在大型站点中。通常情况下,内容重复会导致你的网站在搜索引擎中排名靠后。因此,应该避免将重复内容放入 robot.txt 中。

特定用户代理是一些特定的浏览器或者应用程序,如 Googlebot、Bingbot、Slurp、ia_archiver 等。这些代理通常不会遵循 robot.txt 中的规则。如果你不希望这些代理访问你的站点,可以将其添加到 robot.txt 中。

3:robots.txt 的作用

机器人协议(Robots Protocol),又称网络爬虫协议,是一种标准的、能够被搜索引擎遵守的协议。它告诉搜索引擎哪些页面可以被索引、哪些页面不能被索引。

robot.txt 文件是一个包含有关如何处理搜索引擎的指令的文件。它通常会包含一下内容:

  • 一些特定目录或文件不能被搜索引擎抓取。
  • 对于大型站点,告诉搜索引擎遵循的顺序。
  • 限制每个 IP 地址或用户的访问频率。
  • 如果站点有多个子域名,告诉搜索引擎哪个子域名

中包含重要内容。

当然,这些都是可选内容。最重要的是你不希望让搜索引擎访问的目录或文件,这样就可以防止它们将你的数据用于其他用途。

正文完
有偿技术支持加微信
post-qrcode
 
评论(没有评论)
验证码