Yuan天空
Yuan天空
  • 我的主页
  • 博客随笔
  • 软件作品
    • TK精灵(进程守护)
    • 远程运维助手
    • DicomStoreSCU
    • TKOCR(离线OCR)
    • 更多...
  • 学习资源
  • 网址收藏
  • HTML模板
专注.NET开发技术领域
  1. 主页
  2. 博客
  3. 发布页

今天网站被OpenAI网络爬虫高频率抓取,纠结要不要屏蔽OpenAI爬虫

OpenAI网络爬虫OpenAI的爬虫高频率抓取屏蔽OpenAI爬虫机器人排除协议搜索引擎
博客随笔 2025-05-07 22

今天网站被OpenAI网络爬虫高频率抓取,纠结要不要屏蔽OpenAI爬虫

站点访问流量激增

今天上网站服务器看了眼 给站长吓了一跳,站点访问日志显示突然出现大量访问流量,还以为网站又被人攻击了,自从度娘去年All In AI开始大规模屏蔽小站流量,不太可能有这么些流量(对于上一次网站被攻击的经历印象比较深,最后没办法就躺平让阿里云拉进小黑屋关了一天)网站运营至今首次被攻击者DDOS恶意攻击触发阿里云黑洞屏蔽机制

排查日志找到异常

在服务器上查了下系统访问日志,一查之下发现大部分是OpenAI的网络爬虫在高频率抓取(零零星星的还有一些不知名AI爬虫),根据系统实时访问日志显示两次抓取,最低间隔时间甚至都不到1秒,持续观察了8分钟左右,依然没有丝毫停止的迹象,好在OpenAI官方支持 robots.txt(机器人排除协议),暂时先把其支持屏蔽掉后面再看看要不要放出来,不然这台入门款低配服务器真不一定顶得住。也幸亏当时服务器付费方式是包年包月的,不然流量付费又要多出一部分支出。

异常的访问日志截图

今天网站被OpenAI网络爬虫暴力抓取,纠结要不要屏蔽掉OpenAI的爬虫

目前对OpenAI一类网络爬虫的疑惑

首先很荣欣能被OpenAI的数据大模型看中,毕竟说明站内的内容多少还是有点用的 (规规矩矩更新了几年,去年年初网站好不容易在搜索引擎巨头那里到了权重二,排名也都还行,年中开始逐步清空排名流量逐渐清零),至少不是因为毫无可取之处的垃圾站才被清排名和流量的 不排斥这类爬虫(纯纯白嫖的除外),另外对于小站点 希望这些厂商可以稍微控制一下抓取频率,毕竟高配置也意味着高成本,大部分小网站是负担不起这个成本的。 网上还有国外某个七人公司的电商网站给OpenAI抓崩了的新闻 也不知道是真是假。

OpenAI爬取得目标网站页面数据的用途

根据官方的表述:允许 GPTBot 访问你的网站有助于训练人工智能模型,使其更安全、更准确,甚至可以帮助扩展人工智能模型的功能。

对于被爬取的站点会有哪些益处/损害

  • 传统搜索引擎:网站为搜索引擎提供内容输出,搜索引擎为网站提供流量入口,二者本质是互利的关系(现在主流大厂都开始走向封闭信息孤岛模式,只是可惜了那些坚持做内容输出的小网站,不但得不到流量扶持,还白白做了别人的嫁衣)

  • 智能聊天GPT:不可否认 很大程度上方便了用户在搜索上的体验,但一些运营者也担心人工智能模型窃取了工作成果,却不用访问网站就可以获取信息,也就变成了单方面的网站输出贡献,AI单方面享受成果(参考某智能体)。当然也不是全部都这样,目前站长后台访问记录还是有一些GPT搜索访问来源的)。

爬虫的高频率访问压力问题

后面考虑看看页面内容输出要不要加一些限制,比如需要用户登录才能看完整的,反正很多网站都这么干,至少让被爬虫抓取白嫖的内容不是完整的。 就到这吧,写着写着就想吐槽互联网环境,国内大环境主流大厂流量闭环的情况下,个人网站现下的生存条件堪忧。

同类文章
如何使用nslookup验证ip判断搜索引擎蜘蛛是否是伪造的百度蜘蛛
Loading...
如何使用nslookup验证ip判断搜索引擎蜘蛛是否是伪造的百度蜘蛛
[分享一下]网站两年多被拉黑不被bing搜索引擎收录的尝试到重新收录
Loading...
[分享一下]网站两年多被拉黑不被bing搜索引擎收录的尝试到重新收录
【博客沉浮】不知道是不是被百度K站了,又是悲伤的一天
Loading...
【博客沉浮】不知道是不是被百度K站了,又是悲伤的一天
Applebot:今天才知道苹果也有自己的网络爬虫,如何屏蔽苹果的网络爬虫
Loading...
Applebot:今天才知道苹果也有自己的网络爬虫,如何屏蔽苹果的网络爬虫
问题反馈/学习建议
1. 文明上网,理性表达,营造舒适的学习氛围
2. 请不要反馈提交与本页主题无关内容
学习资源
分布式网络爬虫的关键技术《网络爬虫全解析 技术、原理与实践.pdf》
Loading...
分布式网络爬虫的关键技术《网络爬虫全解析 技术、原理与实践.pdf》
标题目录
  • 站点访问流量激增
  • 排查日志找到异常
  • 异常的访问日志截图
  • 目前对OpenAI一类网络爬虫的疑惑
  • OpenAI爬取得目标网站页面数据的用途
  • 对于被爬取的站点会有哪些益处/损害
  • 爬虫的高频率访问压力问题