如何利用网站日志分析百度蜘蛛痕迹
关于分析网站日志的作用
分析站点日志一个SEO从业人员或者个人站长的一项必备技能,通过对网站日志的分析来诊断我们的网站的健康程度,并且还可以看到搜索引擎蜘蛛抓取的记录以及用户的一些行为记录,分析网站是否处在健康的状态。
当然对于本佛系站长来说,seo什么的都是浮云,反正也不会,看日志就单纯是看看百度蜘蛛今天有没有来0.0 跑题了。
什么是搜索引擎蜘蛛?
说白了其实就是搜索引擎来网站抓取内容时,服务器会对本次的访问写下一条行纪录到一个log文件里,纪录了本次的访问链接、ip以及访问状态,通过这个就可以分析得出蜘蛛访问了站点的哪些内容,这类蜘蛛会有很多ip,也有不同的分工,有的抓主页,有的抓内页,有的抓css之类的静态文件,网传也有权重蜘蛛一说(百度官方说是没有)。
如何分析网站日志
这里以windows 服务器IIS网站为例
首先打开IIS管理器
找到对应网站 查看网站属性的编号id
右键-》管理网站-》高级设置
?以本博客网站为例 Id为4
然后就可以去日志目录照对应的日志了 日志目录是 C:\inetpub\logs\LogFiles
看到这一堆规律命名 知道前面看网站id的用处了吧,W3SVC4就是对于本站的日志目录 里面就是本文的主角 站点日志了 都是按日期存储的单个文件
日志文件怎么分析
日志格式如下
#Software: Microsoft Internet Information Services 7.5 #Version: 1.0 #Date: 2020-12-03 06:39:22 #Fields: date time s-ip cs-method cs-uri-stem cs-uri-query s-port cs-username c-ip cs(User-Agent) sc-status sc-substatus sc-win32-status time-taken 2020-12-03 06:39:22 172.18.92.13 GET / - 80 - 112.10.26.214 Mozilla/5.0+(Macintosh;+Intel+Mac+OS+X+10_15_4)+AppleWebKit/537.36+(KHTML,+like+Gecko)+Chrome/86.0.4240.198+Safari/537.36 200 0 0 899 2020-12-03 06:39:22 172.18.92.13 GET /assets/fonts/font-awesome/css/font-awesome.css - 80 - 112.10.26.214 Mozilla/5.0+(Macintosh;+Intel+Mac+OS+X+10_15_4)+AppleWebKit/537.36+(KHTML,+like+Gecko)+Chrome/86.0.4240.198+Safari/537.36 304 0 0 86 2020-12-03 06:39:22 172.18.92.13 GET /assets/plugins/rs-plugin/css/extralayers.css - 80 - 112.10.26.214 Mozilla/5.0+(Macintosh;+Intel+Mac+OS+X+10_15_4)+AppleWebKit/537.36+(KHTML,+like+Gecko)+Chrome/86.0.4240.198+Safari/537.36 304 0 0 85 2020-12-03 06:39:22 172.18.92.13 GET /assets/bootstrap/css/bootstrap.css - 80 - 112.10.26.214 Mozilla/5.0+(Macintosh;+Intel+Mac+OS+X+10_15_4)+AppleWebKit/537.36+(KHTML,+like+Gecko)+Chrome/86.0.4240.198+Safari/537.36 304 0 0 91
需要分析的就是如下格式的每一行纪录
包含了来源ip 时间 访问地址 状态等等 然后通过ip筛选就能得出蜘蛛的纪录
2020-12-03 06:39:22 172.18.92.13 GET /assets/bootstrap/css/bootstrap.css - 80 - 112.10.26.214 Mozilla/5.0+(Macintosh;+Intel+Mac+OS+X+10_15_4)+AppleWebKit/537.36+(KHTML,+like+Gecko)+Chrome/86.0.4240.198+Safari/537.36 304 0 0 91
但纯人工去翻阅日志 一条一条查询 那是不现实 累不说效率还很低,这个可以借助一些日志分析工具来辅助,可以提升效率
这里挺喜欢 LogHao的 但是近期不知道什么情况打不开了 不知道是不是关站了 都快半个月了?
网上也有其他的在线分析工具 但感觉都没LogHao顺手,就自己做了个类似的 分析工具日常使用。
说明:由于精力有限的原因 且loghao 网站已恢复运营。故将此工具站不再维护 如需使用该工具请移步logohao
接下来就是选择日志文件 进行上传 然后分析
分析完就可以预览所有的访问来源 也可以单个就搜索引擎进行筛选 个别网传权重蜘蛛也相应做了标示,提供了真假蜘蛛验证的功能,用来排查假蜘蛛。然后根据分析结果针对性的做网站优化,节约掉人工翻日志的重复劳动,对站长的SEO有非常高的实用功能。