robots.txt应该禁止哪些目录？

266次阅读

1：需要禁止的目录

如果你想要防止搜索引擎抓取到你的网站上的敏感信息，那么你应该在 robot.txt 中禁止搜索引擎访问这些目录。

需要禁止的目录包括：这个目录存储着你不希望被公开的信息，例如用户密码、数据库配置文件等。

如果你的网站包含有版权信息，例如视频、音频、图片等，你应该将这些文件放在一个单独的目录中，并在 robot.txt 中禁止搜索引擎访问。

这些目录存储的是你个人的文件，例如日志文件、个人图片、文档等，不希望被公开。

2：如何禁止目录

什么是 robot.txt？

Robot.txt 是一个简单的文本文件
，可以告诉搜索引擎你的网站哪些目录不希望被爬取。这个文件必须放在网站的根目录

下，并且命名为“robot.txt”。如果不存在这个文件，搜索引擎就会爬取整个网站。

那么，应该禁止哪些目录呢？

一般来说，非文本文件包括图片、视频、音频、PDF、Flash 等。这些文件很大，而且很难被分析和理解，所以通常不希望被搜索引擎爬取。

内容重复是一个常见的问题，特别是在大型站点中。通常情况下，内容重复会导致你的网站在搜索引擎中排名靠后。因此，应该避免将重复内容放入 robot.txt 中。

特定用户代理是一些特定的浏览器或者应用程序，如 Googlebot、Bingbot、Slurp、ia_archiver 等。这些代理通常不会遵循 robot.txt 中的规则。如果你不希望这些代理访问你的站点，可以将其添加到 robot.txt 中。

3：robots.txt 的作用

机器人协议（Robots Protocol），又称网络爬虫协议，是一种标准的、能够被搜索引擎遵守的协议。它告诉搜索引擎哪些页面可以被索引、哪些页面不能被索引。

robot.txt 文件是一个包含有关如何处理搜索引擎的指令的文件。它通常会包含一下内容：

中包含重要内容。

当然，这些都是可选内容。最重要的是你不希望让搜索引擎访问的目录或文件，这样就可以防止它们将你的数据用于其他用途。

正文完

有偿技术支持加微信

发表至：小白建站

2023-01-09

什么是robots.txt文件? 如何使用robots.txt禁止搜索引擎收录