如何利用网站日志分析百度蜘蛛痕迹

86
补充展位 Pages_Weblog_Get#0
文章摘要
此内容由人工摘要内容,并由AI根据文章内容进行润色
暂无内容

分析站点日志一个SEO从业人员或者个人站长的一项必备技能,通过对网站日志的分析来诊断我们的网站的健康程度,并且还可以看到搜索引擎蜘蛛抓取的记录以及用户的一些行为记录,分析网站是否处在健康的状态。

当然对于本佛系站长来说,seo什么的都是浮云,反正也不会,看日志就单纯是看看百度蜘蛛今天有没有来0.0 跑题了。

什么是搜索引擎蜘蛛?

说白了其实就是搜索引擎来网站抓取内容时,服务器会对本次的访问写下一条行纪录到一个log文件里,纪录了本次的访问链接、ip以及访问状态,通过这个就可以分析得出蜘蛛访问了站点的哪些内容,这类蜘蛛会有很多ip,也有不同的分工,有的抓主页,有的抓内页,有的抓css之类的静态文件,网传也有权重蜘蛛一说(百度官方说是没有)。

如何分析网站日志

这里以windows 服务器IIS网站为例

首先打开IIS管理器

找到对应网站 查看网站属性的编号id

右键-》管理网站-》高级设置

?以本博客网站为例 Id为4

然后就可以去日志目录照对应的日志了 日志目录是 C:\inetpub\logs\LogFiles

看到这一堆规律命名 知道前面看网站id的用处了吧,W3SVC4就是对于本站的日志目录 里面就是本文的主角 站点日志了 都是按日期存储的单个文件

日志文件怎么分析

日志格式如下


#Software: Microsoft Internet Information Services 7.5 #Version: 1.0#Date: 2020-12-03 06:39:22 #Fields: date time s-ip cs-method cs-uri-stem cs-uri-query s-port cs-username c-ip cs(User-Agent) sc-status sc-substatus sc-win32-status time-taken 2020-12-03 06:39:22 172.18.92.13 GET / - 80 - 112.10.26.214 Mozilla/5.0+(Macintosh;+Intel+Mac+OS+X+10_15_4)+AppleWebKit/537.36+(KHTML,+like+Gecko)+Chrome/86.0.4240.198+Safari/537.36 200 0 0 899 2020-12-03 06:39:22 172.18.92.13 GET /assets/fonts/font-awesome/css/font-awesome.css - 80 - 112.10.26.214 Mozilla/5.0+(Macintosh;+Intel+Mac+OS+X+10_15_4)+AppleWebKit/537.36+(KHTML,+like+Gecko)+Chrome/86.0.4240.198+Safari/537.36 304 0 0 86 2020-12-03 06:39:22 172.18.92.13 GET /assets/plugins/rs-plugin/css/extralayers.css - 80 - 112.10.26.214 Mozilla/5.0+(Macintosh;+Intel+Mac+OS+X+10_15_4)+AppleWebKit/537.36+(KHTML,+like+Gecko)+Chrome/86.0.4240.198+Safari/537.36 304 0 0 85 2020-12-03 06:39:22 172.18.92.13 GET /assets/bootstrap/css/bootstrap.css - 80 - 112.10.26.214 Mozilla/5.0+(Macintosh;+Intel+Mac+OS+X+10_15_4)+AppleWebKit/537.36+(KHTML,+like+Gecko)+Chrome/86.0.4240.198+Safari/537.36 304 0 0 91


需要分析的就是如下格式的每一行纪录

包含了来源ip 时间 访问地址 状态等等 然后通过ip筛选就能得出蜘蛛的纪录

2020-12-03 06:39:22 172.18.92.13 GET /assets/bootstrap/css/bootstrap.css - 80 - 112.10.26.214 Mozilla/5.0+(Macintosh;+Intel+Mac+OS+X+10_15_4)+AppleWebKit/537.36+(KHTML,+like+Gecko)+Chrome/86.0.4240.198+Safari/537.36 304 0 0 91

但纯人工去翻阅日志 一条一条查询 那是不现实 累不说效率还很低,这个可以借助一些日志分析工具来辅助,可以提升效率

这里挺喜欢 LogHao的 但是近期不知道什么情况打不开了 不知道是不是关站了 都快半个月了?

补充展位
Pages_Weblog_Get#8e6f5f57-3376-4e06-adce-8a15c6bf3e30
补充展位 Pages_Weblog_Get#1
补充展位 Pages_Weblog_Get#2
专题推荐
暂无内容
补充展位 Pages_Weblog_Get#3