中文网站如何禁止垃圾爬虫，节省系统资源（定期更新）

互联网上有很多的网络爬虫机器人，它们带着各自的任务到处爬行，但这些爬虫机器人有些是有用的，例如Baiduspider、Googlebot、bingbot等。但还有很多垃圾爬虫，对网站没有任何益处，还耗费资源。

什么是垃圾爬虫？

垃圾爬虫即对网站发展与推广无价值的爬虫。它们一般是一些数据采集爬虫或境外的搜索引擎爬虫。

数据采集爬虫

此类爬虫对网站发展或推广没有任何价值。有些还害处挺大。

数据采集爬虫大致可分为两种，一种是采集数据再转载到另外的网站的，此类爬虫对整个互联网都会造成巨大损害。说难听点就是“小偷”。

另外一种是为了建立某种大数据平台而采集数据的爬虫。例如Semrush，对应的爬虫是SemrushBot，这是一家靠销售数据的公司，但对于被爬行的网站来说，没有任何价值。

境外的搜索引擎爬虫

这个很好理解，它们就和百度、谷歌一样都是搜索引擎蜘蛛爬虫，但由于一些搜索引擎实在太小众，而且对中文网站来说几乎没有引流的效果。

例如：俄罗斯的Yandex搜索引擎，对于的爬虫是YandexBot，它爬行量不小，但对于中文站点引流几乎为0。从价值的角度来说，也可以归类于垃圾爬虫，除非网站有俄语版本或业务是覆盖俄罗斯的网站。

究竟有多少垃圾爬虫？

这个数字没人说得清除，因为互联网上的爬虫在不断增加，也没有任何权威机构做过这方面的统计。但大部分的搜索引擎爬虫还是比较恪守规矩的，不会爬行频率太高而造成网站访问缓慢或崩溃。

本文针对中国境内的中文网站常见的垃圾爬虫做了个初步归纳，并生成robots.txt文件分享给各位站长，方便禁止它们。并定期更新维护（以下版本更新于2022年5月24日）。

User-agent: DataForSeoBot
Disallow: /

User-agent: SemrushBot
Disallow: /

User-agent: MJ12bot
Disallow: /

User-agent: AhrefsBot
Disallow: /

User-agent: Feedly
Disallow: /

User-agent: DotBot
Disallow: /

User-agent: YandexBot
Disallow: /

User-agent: ias-ir
Disallow: /

User-agent: adsbot
Disallow: /

User-agent: barkrowler
Disallow: /

User-agent: Mail.RU_Bot
Disallow: /

User-agent: SEOkicks
Disallow: /

User-agent: ias-va
Disallow: /

User-agent: proximic
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: grapeshot
Disallow: /

User-agent: BLEXBot

Disallow: /

将以上内容保存为robots.txt文件，并上传至网站根目录即可生效。或添加至已有的robots.txt文件内容顶部。

① 所有内容不保证其准确性，有效性，时间性。阅读本站内容因误导等因素而造成的损失本站不承担连带责任；

② 当政府机关依照法定程序要求披露信息时，本站均得免责；

③ 若因线路及非本站所能控制范围的故障导致暂停服务期间造成的一切不便与损失，论坛不负任何责任；

④ 会员通过任何手段和方法对本站进行破坏，我们有权对其行为作出处理。并保留进一步追究其责任的权利；

⑤ 未经原作者允许不得转载本文内容，否则将视为侵权；转载或者引用本文内容请注明来源及原作者；

⑥ 对于不遵守此声明或者其他违法使用本文内容者，聚问天空网依法保留追究权等。

THE END