搜索引擎爬虫(Spider)或者机器人(bot)访问网站特点及分析
广告:
搜索引擎UserAgent:
Googlebot Bytespider BLEXBot Baiduspider YisouSpider Googlebot SemrushBot bingbot DotBot 360Spider
DotBot : Mozilla/5.0 (compatible; DotBot/1.1; http://www.opensiteexplorer.org/dotbot, help@moz.com)
Sogou web spider : Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)
Baiduspider :Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
YisouSpider :Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.81 YisouSpider/5.0 Safari/537.36
Bytespider : Mozilla/5.0 (Linux; Android 5.0; SM-G900P Build/LRX21T) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.7938.1115 Mobile Safari/537.36; Bytespider
YandexBot : Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)
bingbot : Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)
360Spider : Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36;360Spider
Googlebot :Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
BLEXBot : Mozilla/5.0 (compatible; BLEXBot/1.0; +http://webmeup-crawler.com/)
SemrushBot:SEMrush 是一个强大的、全面的在线营销竞争情报平台,其中包括 SEO、PPC、社交媒体和视频广告研究。
Exabot:
AhrefsBot:AhrefsBot是ahrefs.com的一条网络爬虫,通过抓取网页建立索引库,并提供反向链接分析和服务
CCBot: 美国
ZoominfoBot: 美国
CCBot: 美国
robots.txt 禁止写法:
User-agent:YisouSpider
Disallow:/
User-agent: yisouspider
Disallow: /update
Disallow: /history
禁止抓取 update、history 目录下网页
其他:
yisouspider 一搜蜘蛛
FeedDemon 内容采集
BOT/0.1 (BOT for JCE) sql 注入
CrawlDaddy sql 注入
Java 内容采集
Jullo 内容采集
Feedly 内容采集
UniversalFeedParser 内容采集
ApacheBench cc 攻击器
Swiftbot 无用爬虫
YandexBot 无用爬虫
AhrefsBot 无用爬虫
YisouSpider 无用爬虫(已被 UC 神马搜索收购,此蜘蛛可以放开!)
MJ12bot 无用爬虫
ZmEu phpmyadmin 漏洞扫描
WinHttp 采集 cc 攻击
EasouSpider 无用爬虫
HttpClient tcp 攻击
Microsoft URL Control 扫描
YYSpider 无用爬虫
jaunty wordpress 爆破扫描器
oBot 无用爬虫
Python-urllib 内容采集
Indy Library 扫描
FlightDeckReports Bot 无用爬虫
Linguee Bot 无用爬虫
每个爬虫抓取特点:
1.Sogou web:固定同一个IP,如:220.181.125.106,跟普通用户一样,抓取每个页面用同一sessionid,每隔10秒左右抓取一次。
2. so.com 360Spider 每次访问用不同IP,不同sessionid,间隔时间时长最高可每秒20多次,不同的ip 如:42.236.10.110
3.baidu.com 每次访问用不同IP,跟普通用户一样,抓取每个页面用不同ip,间隔时间比较长。
4.yisouspider 每次访问用不同IP,跟普通用户一样,抓取每个页面用不同ip,间隔时间时长时短,有时几秒一次,全天会经常访问。
5. DotBot 每次访问用同一次ip,不同sessionid,间隔时间时长1秒一次,但并不是一直访问
6. Googlebot 每次访问用同一次ip,同一sesssionid,间隔时间时长最高可1秒一次,有时一秒访问两次,但并不是一直访问
7. Bytespider 每次访问用不同IP,不同sessionid,间隔时间时长最高可2秒一次
8. bingbot 每次访问用不同IP,不同sessionid,间隔时间时长最高可30秒左右一次
9.BLEXBot 同一ip,共sesssionid,间隔时间时长最高可1秒左右一次 176.9.4.107 (德国)
10.SemrushBot 不同ip
11.Exabot 同一ip,3秒左右访问一次 法国
12. AhrefsBot 不同ip,10秒左右访问一次 法国
13.ZoominfoBot 不同ip,10秒左右访问一次 美国
14.CCBot 同一ip,10秒左右访问一次 美国
so.com页面转向代码:
http://www.so.com/link?m=anXMqRPrMC1q6PSQES2fzEntRMI%2BcimPSHHCVI8wChywVJQUk7CsOzbAj8bdEZJ50ZArarV1d42VFTgyE8I1frrspi7VdsPNg69D0RFp8WwZMR0989UzLfdqJOcUixaneRXNdc2enBhc%3D
<meta content="always" name="referrer">
<script>window.location.replace("http://www.53bk.com/")</script>
<noscript>
<meta http-equiv="refresh" content="0;URL='http://www.53bk.com/'">
</noscript>
cururl:http://www.53bk.com/
refer:http://www.so.com/link?m=anXMqRPrMC1q6PSQES2fzEntRMI+cimPSHHCVI8wChywVJQUk7CsOzbAj8bdEZJ50ZArarV1d42VFTgyE8I1frrspi7VdsPNg69D0RFp8WwZMR0989UzLfdqJOcUixaneRXNdc2enBhc=
Connection:keep-alive
Accept:text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8
Accept-Encoding:gzip, deflate
Accept-Language:zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7
Host:www.53bk.com
Referer:http://www.so.com/link?m=anXMqRPrMC1q6PSQES2fzEntRMI%2BcimPSHHCVI8wChywVJQUk7CsOzbAj8bdEZJ50ZArarV1d42VFTgyE8I1frrspi7VdsPNg69D0RFp8WwZMR0989UzLfdqJOcUixaneRXNdc2enBhc%3D
User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36 OPR/60.0.3255.151
Upgrade-Insecure-Requests:1
百度页面搜索转向代码:
https://www.baidu.com/link?url=ZaRdutd-_FMUyNxbxonyB66E-t5gTkttXPL2NTW4BG7&wd=&eqid=8ffd6569000590ef000000065d0706b8
响应标头:
Location: http://www.53bk.com/ 302转向
cururl:http://www.53bk.com/
refer:https://www.baidu.com/link?url=JmHSJr-e53qzYyN-aVzIZRolMVUziTlgfk235j-bzCi&wd=&eqid=93720c1b000149e1000000065d070af3
Connection:keep-alive
Accept:text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8
Accept-Encoding:gzip, deflate
Accept-Language:zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7 CheckCode=2F84
Host:www.53bk.com
Referer:https://www.baidu.com/link?url=JmHSJr-e53qzYyN-aVzIZRolMVUziTlgfk235j-bzCi&wd=&eqid=93720c1b000149e1000000065d070af3
User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36 OPR/60.0.3255.151
Upgrade-Insecure-Requests:1
广告: