搞过网站的朋友都了解robots.txt文档是用于限定检索模块稳定爬取,只爬取大家期待被百度收录的內容的。例如大家网站的后台管理也不期待被检索爬取,那麼robots文档必须那样写:
User-agent: * Disallow: /admin/ 可是那样大家非常容易发觉了一个难题,假如有些人要破译进攻得话,非常容易就了解了后台管理,一下子就清晰了网站的构造。 大家其实不想那样! 有木有方法让robots.txt既能限定检索模块,又不泄漏后台管理详细地址和隐私保护文件目录呢?有! 一、应用使用通配符(*): User-agent: * Disallow: /a*/ 那样的书写,严禁全部的检索模块爬取网站根目录下a开始的文件目录。当您的后台管理是admok165得话,也有谁会见到呢? 二、只写文件目录前好多个英文字母,不写全: User-agent: * Disallow: /ad 这类的书写,是严禁全部的检索模块爬取网站根目录下ad开始的文件目录。 最终表明一下,之上这二种方式,必须网站导航沒有同样英文字母开始的,比如ad文件目录,假如有2个一样的,那需在robots.txt文档里加上上一个英文字母差别起来。