联系我们
cms新闻网站系统、政府cms定制开发

广州网站建设公司-阅速公司

报纸新媒体网站内容发布一体化解决方案联系电话
/
http://www.ysneo.com/
广州网站建设公司
您当前位置:首页>网站运营

网站运营

搜索引擎爬虫(Spider)或者机器人(bot)访问网站特点及分析

发布时间:2019/6/28 11:39:28  作者:Admin  阅读:272  

搜索引擎UserAgent:

Googlebot Bytespider BLEXBot Baiduspider YisouSpider Googlebot SemrushBot bingbot DotBot 360Spider

DotBot : Mozilla/5.0 (compatible; DotBot/1.1; http://www.opensiteexplorer.org/dotbot, help@moz.com)

Sogou web spider : Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)

Baiduspider :Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

YisouSpider :Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.81 YisouSpider/5.0 Safari/537.36

Bytespider : Mozilla/5.0 (Linux; Android 5.0; SM-G900P Build/LRX21T) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.7938.1115 Mobile Safari/537.36; Bytespider

YandexBot : Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)

bingbot : Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)

360Spider : Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36;360Spider

Googlebot :Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

BLEXBot : Mozilla/5.0 (compatible; BLEXBot/1.0; +http://webmeup-crawler.com/)

SemrushBot:SEMrush 是一个强大的、全面的在线营销竞争情报平台,其中包括 SEO、PPC、社交媒体和视频广告研究。

Exabot:

AhrefsBot:AhrefsBot是ahrefs.com的一条网络爬虫,通过抓取网页建立索引库,并提供反向链接分析和服务

CCBot: 美国

ZoominfoBot: 美国

CCBot: 美国

robots.txt 禁止写法:

User-agent:YisouSpider

Disallow:/

User-agent: yisouspider

Disallow: /update

Disallow: /history

禁止抓取 update、history 目录下网页

其他:

yisouspider 一搜蜘蛛

FeedDemon 内容采集

BOT/0.1 (BOT for JCE) sql 注入

CrawlDaddy sql 注入

Java 内容采集

Jullo 内容采集

Feedly 内容采集

UniversalFeedParser 内容采集

ApacheBench cc 攻击器

Swiftbot 无用爬虫

YandexBot 无用爬虫

AhrefsBot 无用爬虫

YisouSpider 无用爬虫(已被 UC 神马搜索收购,此蜘蛛可以放开!)

MJ12bot 无用爬虫

ZmEu phpmyadmin 漏洞扫描

WinHttp 采集 cc 攻击

EasouSpider 无用爬虫

HttpClient tcp 攻击

Microsoft URL Control 扫描

YYSpider 无用爬虫

jaunty wordpress 爆破扫描器

oBot 无用爬虫

Python-urllib 内容采集

Indy Library 扫描

FlightDeckReports Bot 无用爬虫

Linguee Bot 无用爬虫

每个爬虫抓取特点:

1.Sogou web:固定同一个IP,如:220.181.125.106,跟普通用户一样,抓取每个页面用同一sessionid,每隔10秒左右抓取一次。

2. so.com 360Spider 每次访问用不同IP,不同sessionid,间隔时间时长最高可每秒20多次,不同的ip 如:42.236.10.110

3.baidu.com 每次访问用不同IP,跟普通用户一样,抓取每个页面用不同ip,间隔时间比较长。

4.yisouspider 每次访问用不同IP,跟普通用户一样,抓取每个页面用不同ip,间隔时间时长时短,有时几秒一次,全天会经常访问。

5. DotBot 每次访问用同一次ip,不同sessionid,间隔时间时长1秒一次,但并不是一直访问

6. Googlebot 每次访问用同一次ip,同一sesssionid,间隔时间时长最高可1秒一次,有时一秒访问两次,但并不是一直访问

7. Bytespider 每次访问用不同IP,不同sessionid,间隔时间时长最高可2秒一次

8. bingbot 每次访问用不同IP,不同sessionid,间隔时间时长最高可30秒左右一次

9.BLEXBot 同一ip,共sesssionid,间隔时间时长最高可1秒左右一次 176.9.4.107 (德国)

10.SemrushBot 不同ip

11.Exabot 同一ip,3秒左右访问一次 法国

12. AhrefsBot 不同ip,10秒左右访问一次 法国

13.ZoominfoBot 不同ip,10秒左右访问一次 美国

14.CCBot 同一ip,10秒左右访问一次 美国

so.com页面转向代码:

http://www.so.com/link?m=anXMqRPrMC1q6PSQES2fzEntRMI%2BcimPSHHCVI8wChywVJQUk7CsOzbAj8bdEZJ50ZArarV1d42VFTgyE8I1frrspi7VdsPNg69D0RFp8WwZMR0989UzLfdqJOcUixaneRXNdc2enBhc%3D

<meta content="always" name="referrer">

<script>window.location.replace("http://www.53bk.com/")</script>

<noscript>

<meta http-equiv="refresh" content="0;URL='http://www.53bk.com/'">

</noscript>

cururl:http://www.53bk.com/

refer:http://www.so.com/link?m=anXMqRPrMC1q6PSQES2fzEntRMI+cimPSHHCVI8wChywVJQUk7CsOzbAj8bdEZJ50ZArarV1d42VFTgyE8I1frrspi7VdsPNg69D0RFp8WwZMR0989UzLfdqJOcUixaneRXNdc2enBhc=

Connection:keep-alive

Accept:text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8

Accept-Encoding:gzip, deflate

Accept-Language:zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7

Host:www.53bk.com

Referer:http://www.so.com/link?m=anXMqRPrMC1q6PSQES2fzEntRMI%2BcimPSHHCVI8wChywVJQUk7CsOzbAj8bdEZJ50ZArarV1d42VFTgyE8I1frrspi7VdsPNg69D0RFp8WwZMR0989UzLfdqJOcUixaneRXNdc2enBhc%3D

User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36 OPR/60.0.3255.151

Upgrade-Insecure-Requests:1

百度页面搜索转向代码:

https://www.baidu.com/link?url=ZaRdutd-_FMUyNxbxonyB66E-t5gTkttXPL2NTW4BG7&amp;wd=&amp;eqid=8ffd6569000590ef000000065d0706b8

响应标头:

Location: http://www.53bk.com/ 302转向

cururl:http://www.53bk.com/

refer:https://www.baidu.com/link?url=JmHSJr-e53qzYyN-aVzIZRolMVUziTlgfk235j-bzCi&wd=&eqid=93720c1b000149e1000000065d070af3

Connection:keep-alive

Accept:text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8

Accept-Encoding:gzip, deflate

Accept-Language:zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7 CheckCode=2F84

Host:www.53bk.com

Referer:https://www.baidu.com/link?url=JmHSJr-e53qzYyN-aVzIZRolMVUziTlgfk235j-bzCi&wd=&eqid=93720c1b000149e1000000065d070af3

User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36 OPR/60.0.3255.151

Upgrade-Insecure-Requests:1

相关文章
搜索引擎
cms新闻系统购买咨询
扫描关注 广州阅速软件科技有限公司
扫描关注 广州阅速科技