访问我博客的爬虫排名:国内爬虫太“懒”了

image

最近统计了一下博客上的各种爬虫,基本是两个类型:

(1)搜索引擎厂家的爬虫,多数是知名大厂,只有一个seekport是个小众的德国搜索引擎,其他都是大厂,这个行业活下来的搜索引擎都不容易。

(2)专业搜索引擎或者行业研究的爬虫

从这些爬虫的排名看,国内搜索引擎大厂的爬虫都比较“懒”(或者是“笨”、“穷”),他们来访问我这个小站的次数远远低于国外大厂Bing或者Google,差别大约在6-10倍,这种效率上的差别,带来的直接效果就是这些国外大厂搜的内容更多、更新更快。究其原因,可能还是爬虫的数量不足,难以大范围、高频次采集。估计在国内搜索大厂眼中,搜索引擎毕竟只是带来收入的一个渠道,用户能否搜索到不重要,重要的是可以附带广告就行。但是国外的搜索引擎大厂,明显更为认真,他们会努力提高搜索引擎的结果和排名,以便获得更大的优势。

排名 爬虫 谁养的 链接
1 BingBot 2 Bing
2 Google Bot 2.1 Google
3 AhrefsBot Ahrefs online marketing,12 trillion link database https://ahrefs.com/zh/robot
4 MJ12bot 1.4 Majestic is a UK based specialist search engine https://mj12bot.com/
5 SemrushBot SEMrush sends out to discover and collect new and updated web data https://www.semrush.com/bot/
6 Seekport Crawler Seekport http://www.seekport.com/
7 Sogou Web Spider 4 Sogou
8 360Spider 360
9 Baiduspider 2 Baidu
10 General Crawlers 不知道是啥

上述列表中是最常来的爬虫,肯定还有一些频次更低的,比如以前就有两个。DotBot和Feedly Feed Fetcher,最近这两位不怎么来了

DotBot和Feedly Feed Fetcher两个爬虫

 

相关信息

https://en.wikipedia.org/wiki/Internet_Bot

https://en.wikipedia.org/wiki/Web_crawler

发表评论

电子邮件地址不会被公开。 必填项已用*标注