今天网站被OpenAI网络爬虫高频率抓取，纠结要不要屏蔽OpenAI爬虫

2025年05月07日

•

86

补充展位

Pages_Weblog_Get#681b2c5b-f7d7-e5dc-0084-792a24c97223

文章摘要

此内容由人工摘要内容，并由AI根据文章内容进行润色

网站被OpenAI网络爬虫高频率抓取，流量激增，站长担心服务器承受不住压力，考虑屏蔽爬虫。虽然为AI模型提供数据有助于训练，但频繁抓取导致资源消耗巨大，尤其是对小网站而言成本高昂。

OpenAI

网络爬虫

OpenAI的爬虫

高频率抓取

屏蔽OpenAI爬虫

机器人排除协议

搜索引擎

今天网站被OpenAI网络爬虫高频率抓取，纠结要不要屏蔽OpenAI爬虫

站点访问流量激增

今天上网站服务器看了眼给站长吓了一跳，站点访问日志显示突然出现大量访问流量，还以为网站又被人攻击了，自从度娘去年All In AI开始大规模屏蔽小站流量，不太可能有这么些流量（对于上一次网站被攻击的经历印象比较深，最后没办法就躺平让阿里云拉进小黑屋关了一天）网站运营至今首次被攻击者DDOS恶意攻击触发阿里云黑洞屏蔽机制

排查日志找到异常

在服务器上查了下系统访问日志，一查之下发现大部分是OpenAI的网络爬虫在高频率抓取（零零星星的还有一些不知名AI爬虫），根据系统实时访问日志显示两次抓取，最低间隔时间甚至都不到1秒，持续观察了8分钟左右，依然没有丝毫停止的迹象，好在OpenAI官方支持 robots.txt(机器人排除协议)，暂时先把其支持屏蔽掉后面再看看要不要放出来，不然这台入门款低配服务器真不一定顶得住。也幸亏当时服务器付费方式是包年包月的，不然流量付费又要多出一部分支出。

异常的访问日志截图

今天网站被OpenAI网络爬虫暴力抓取，纠结要不要屏蔽掉OpenAI的爬虫

目前对OpenAI一类网络爬虫的疑惑

首先很荣欣能被OpenAI的数据大模型看中，毕竟说明站内的内容多少还是有点用的 (规规矩矩更新了几年，去年年初网站好不容易在搜索引擎巨头那里到了权重二，排名也都还行，年中开始逐步清空排名流量逐渐清零)，至少不是因为毫无可取之处的垃圾站才被清排名和流量的不排斥这类爬虫(纯纯白嫖的除外)，另外对于小站点希望这些厂商可以稍微控制一下抓取频率，毕竟高配置也意味着高成本，大部分小网站是负担不起这个成本的。网上还有国外某个七人公司的电商网站给OpenAI抓崩了的新闻也不知道是真是假。

OpenAI爬取得目标网站页面数据的用途

根据官方的表述：允许 GPTBot 访问你的网站有助于训练人工智能模型，使其更安全、更准确，甚至可以帮助扩展人工智能模型的功能。

对于被爬取的站点会有哪些益处/损害

传统搜索引擎：网站为搜索引擎提供内容输出，搜索引擎为网站提供流量入口，二者本质是互利的关系（现在主流大厂都开始走向封闭信息孤岛模式，只是可惜了那些坚持做内容输出的小网站，不但得不到流量扶持，还白白做了别人的嫁衣）
智能聊天GPT：不可否认很大程度上方便了用户在搜索上的体验，但一些运营者也担心人工智能模型窃取了工作成果，却不用访问网站就可以获取信息，也就变成了单方面的网站输出贡献，AI单方面享受成果(参考某智能体)。当然也不是全部都这样，目前站长后台访问记录还是有一些GPT搜索访问来源的)。

爬虫的高频率访问压力问题

后面考虑看看页面内容输出要不要加一些限制，比如需要用户登录才能看完整的，反正很多网站都这么干，至少让被爬虫抓取白嫖的内容不是完整的。就到这吧，写着写着就想吐槽互联网环境，国内大环境主流大厂流量闭环的情况下，个人网站现下的生存条件堪忧。

补充展位 Pages_Weblog_Get#0

方舟 Coding Plan，限时优惠低至9.9元，现在订阅叠加9.5折

假期无聊心血来潮想买一台大疆云台手机稳定器Osmo Mobile SE

2025年05月04日

补充展位 Pages_Weblog_Get#1

阿里云ecs 2核4G￥9.9/月起 | u2i初创企业高性价比之选,算力最大提升40%

相关推荐

C#监听文件目录新创建的文件并获取到路径

C#监听文件目录新创建的文件并获取到路径

FileSystemWatcher

文件新增监视

网页前端js使用jquery.qrcode插件实现生成带图标的二维码

网页前端js使用jquery.qrcode插件实现生成带图标的二维码

$C#开发中字符串结束符 \0 怎么去$

C#开发中字符串结束符 \0 怎么去

微信公众平台C#开发系列（九）：删除自定义菜单

微信公众平台C#开发系列（九）：删除自定义菜单

C#微信开发：一键删除自定义菜单！封装DeletingCustomDefinedMenu接口，继承ErrorMessage自动解析结果。只需access_token即可调用API清除配置。代码简洁复用性强，告别繁琐XML处理，直接GetResponse获取状态。适合动态管理公众号的开发者，建议收藏备用！

微信公众平台

删除自定义菜单

删除默认菜单

自定义菜单删除接口

微信公众平台C#开发系列（十三）：模板消息-获取微信消息模板的所属行业

微信公众平台C#开发系列（十三）：模板消息-获取微信消息模板的所属行业

基于C#语言详解微信公众平台模板消息所属行业查询方法。通过封装TemplateGetIndustry类继承WeiXinRequest，调用get_industry接口获取账号主营与副营行业信息。示例代码展示如何解析JSON返回的first_class与second_class数据，为开发者提供合规通知场景开发支持

微信公众平台

.NET5框架下使用HttpListener类实现http接口监听替代OWIN自我寄宿

.NET5框架下使用HttpListener类实现http接口监听替代OWIN自我寄宿

补充展位 Pages_Weblog_Get#2

Microsoft Rewards（必应奖励购物卡）是微软官方积分计划

专题推荐

暂无内容

补充展位 Pages_Weblog_Get#3

DicomStoreSCU-DICOM 协议 C-StoreSCU 医疗影像DCM批量转发测试工具