站点访问流量激增
今天上网站服务器看了眼 给站长吓了一跳,站点访问日志显示突然出现大量访问流量,还以为网站又被人攻击了,自从度娘去年All In AI开始大规模屏蔽小站流量,不太可能有这么些流量(对于上一次网站被攻击的经历印象比较深,最后没办法就躺平让阿里云拉进小黑屋关了一天)网站运营至今首次被攻击者DDOS恶意攻击触发阿里云黑洞屏蔽机制
排查日志找到异常
在服务器上查了下系统访问日志,一查之下发现大部分是OpenAI的网络爬虫在高频率抓取(零零星星的还有一些不知名AI爬虫),根据系统实时访问日志显示两次抓取,最低间隔时间甚至都不到1秒,持续观察了8分钟左右,依然没有丝毫停止的迹象,好在OpenAI官方支持 robots.txt(机器人排除协议),暂时先把其支持屏蔽掉后面再看看要不要放出来,不然这台入门款低配服务器真不一定顶得住。也幸亏当时服务器付费方式是包年包月的,不然流量付费又要多出一部分支出。
异常的访问日志截图
目前对OpenAI一类网络爬虫的疑惑
首先很荣欣能被OpenAI的数据大模型看中,毕竟说明站内的内容多少还是有点用的 (规规矩矩更新了几年,去年年初网站好不容易在搜索引擎巨头那里到了权重二,排名也都还行,年中开始逐步清空排名流量逐渐清零),至少不是因为毫无可取之处的垃圾站才被清排名和流量的 不排斥这类爬虫(纯纯白嫖的除外),另外对于小站点 希望这些厂商可以稍微控制一下抓取频率,毕竟高配置也意味着高成本,大部分小网站是负担不起这个成本的。 网上还有国外某个七人公司的电商网站给OpenAI抓崩了的新闻 也不知道是真是假。
OpenAI爬取得目标网站页面数据的用途
根据官方的表述:允许 GPTBot 访问你的网站有助于训练人工智能模型,使其更安全、更准确,甚至可以帮助扩展人工智能模型的功能。
对于被爬取的站点会有哪些益处/损害
传统搜索引擎:网站为搜索引擎提供内容输出,搜索引擎为网站提供流量入口,二者本质是互利的关系(现在主流大厂都开始走向封闭信息孤岛模式,只是可惜了那些坚持做内容输出的小网站,不但得不到流量扶持,还白白做了别人的嫁衣)
智能聊天GPT:不可否认 很大程度上方便了用户在搜索上的体验,但一些运营者也担心人工智能模型窃取了工作成果,却不用访问网站就可以获取信息,也就变成了单方面的网站输出贡献,AI单方面享受成果(参考某智能体)。当然也不是全部都这样,目前站长后台访问记录还是有一些GPT搜索访问来源的)。
爬虫的高频率访问压力问题
后面考虑看看页面内容输出要不要加一些限制,比如需要用户登录才能看完整的,反正很多网站都这么干,至少让被爬虫抓取白嫖的内容不是完整的。 就到这吧,写着写着就想吐槽互联网环境,国内大环境主流大厂流量闭环的情况下,个人网站现下的生存条件堪忧。