百度站长平台抓取诊断工具提交抓取到的页面GB2312中文乱码问题


今天用了百度站长后台的抓取诊断工具试着抓了下网页发现百度蜘蛛视角中网页里的中文全都乱码了。

上个月开始发现博客博客关键词排名一直再下降,之前排名很好的几个关键词排名直接掉没了(好不容易将博客权重提升到2,这会直接又打回了原型),由于上个月改过一次版本做了301重定向程序更新,以为是正常的过一段时间就会好了,谁知等到到现在一个月了还没的好转的迹象,甚至这个月开始掉收录(几万掉到几百,欲哭无泪)。

百度站长平台抓取诊断工具提交抓取到的页面GB2312中文乱码问题

文字乱码估摸着就是导致这次百度关键词排名下降的罪魁了,辛辛苦苦更新了小半年,一次更新回到解放前。


下面是抓取百度蜘蛛视角的网页代码截图,肉眼可见的中文全乱码了

百度站长平台抓取诊断工具提交抓取到的页面中文乱码问题

这里比较坑爹的是用其他的三方蜘蛛模拟工具抓取就没有问题,并且谷歌 bing抓取和收录也都正常,如果不是今天去查了下估计再过一个月百度排名就得掉完了,更新需谨慎啊,不知道多久才能恢复到之前的状态。


问题原因

上次更新手贱加了一个GB2312的编码与页面指定的utf8冲突了(应该是 但不知道为啥就百度会乱码),由于上次更新是母框架级别更新,所以导致最近百度蜘蛛来爬取网页是基本都是全站乱码,全站关键词和收录估计都得哗哗掉,我得出去安静下。

解决方法

把页面的GB2312的去掉。