搜索引擎蜘蛛ip照妖镜

通过该工具可以识别是否是真的搜索引擎蜘蛛IP,很多是通过user-agent伪造的,帮大家节省垃圾流量带宽.不少伪造的爬虫程序会伪造 user-agent冒充baidu、google等搜索擎,好在google,baidu,bing等搜索引擎都提供一个DNS反向IP查询功能。
以下是收集一部分的搜索引擎的特征
搜索引擎 user-agent 备注
百度 Baiduspider/2.0
Baiduspider-image

常见百度旗下同类型蜘蛛还有下面这些:Baiduspider-mobile(抓取wap)、Baiduspider-image(抓取图片)、Baiduspider-video(抓取视频)、Baiduspider-news(抓取新闻)

百度蜘蛛IP:
  • 220.181.108.76 ~ 220.181.108.187
  • 123.125.71.92 ~ 123.125.71.113
Bing bingbot/2.0
Bing蜘蛛IP:
  • 157.55.39.97 ~ 157.55.39.98
  • 40.77.167.36 ~ 40.77.167.87
  • 207.46.13.1 ~ 207.46.13.255
Google Googlebot/2.1
Google蜘蛛IP:
  • 66.249.74.78 ~ 66.249.74.80
  • 66.249.71.53 ~ 66.249.71.124
  • 66.249.65.93 ~ 66.249.65.99
搜狗sogou Sogou+web+spider/4.0
搜狗蜘蛛IP:
  • 61.135.189.97 ~ 61.135.189.98
  • 123.126.113.189
神马搜索 Yisouspider

原属一搜蜘蛛。

神马搜索IP:
  • 42.156.137.103
360搜索 360Spider
360搜索蜘蛛IP:
  • 180.153.232.*
  • 180.153.234.*
  • 180.153.236.*
  • 180.163.220.*
  • 42.236.101.*
今日头条 Bytespider
今日头条蜘蛛IP:
  • 111.225.149.2 ~ 111.225.149.249
  • 110.249.202.2 ~ 110.249.202.249
Yahoo Yahoo!
Yahoo蜘蛛IP:
  • 68.180.230.46、68.180.228.253
以下是收集一部分的未知的爬虫特征
爬虫名称 user-agent 特征 备注
The Knowledge AI The+Knowledge+AI
爬虫IP:
  • 66.160.140.174 ~ 64.62.252.179
  • 66.160.140.184 ~ 66.160.140.188
AhrefsBot AhrefsBot/6.1
AhrefsBot是一个营销网站的爬取蜘蛛,负责分析网站信息。(建议禁止这些IP)
爬虫IP:
  • 54.36.148.1 ~ 54.36.148.254
  • 54.36.149.1 ~ 54.36.149.254
  • 54.36.150.1 ~ 54.36.150.254
SemrushBot SemrushBot/6~bl
SemrushBot也是一个营销网站的爬取蜘蛛,负责分析网站信息。(建议禁止这些IP)
爬虫IP:
  • 46.229.168.136 ~ 46.229.168.162