打开软件,点击"?增长 爱搞网站"按钮,从电脑当选择《爱搞网站》文件,或直接将其拖拽至软件界面中。
软件会自动鉴别并解析导入的文件,您可凭据界面提醒选择所需的保留蹊径或下载体式。
确认无误后,点击"起头下载/处置"按钮。期待进度条读取结束,即可在设定的文件夹中查看下载好的正版文件。
OpenAI官宣退役o3与GPT-4.5!,爱搞网站
新智元报路
【新智元导读】o3被封「GOAT」、GPT-4.5被接赘魂灵写手」,OpenAI说退就退。GPT-5.6已在热身——但「更强」能不能信?OpenAI自己说:不定。
OpenAI又干了件让老用户心碎的事。
28号,他们在官方Release Notes上颁发:从2026年8月26日起,o3从ChatGPT正式退役!
GPT-4.5更狠,6月27日就下线,只给30天缓冲。
两个模型目前仅限付用度户在设置内行动切换能力用到——它们早就不是默认选项了,这次是要彻底从菜单上抹掉。
与此同时,驰名博主Leo 5月29日发帖确认:GPT-5.6的开发全力推动中,一个显著更强的新查抄点已在内部上线。
一壁是用户还没来得及说再见,一壁是新模型已经在后盾热身。
最后两个好用的模型,要没了
这话不是我说的。
Reddit热帖下面几百条评论,付用度户们在ChatGPT设置里疯狂截图留想,氛围像是赶在拆迁前最后一次拍照。
有网友恼怒地暗示,OpenAI这种操作「给了我取缔Pro账户的最后一个理由。」
还有效户表白了对o3写风格格的依恋与不舍。
o3是OpenAI的「纯血推理模型」,2025年4月上线,专门给那些必要一步步想、一层层剥的硬核工作设计的。
数学证明、科学推导、代码debug……在这些必要「慢思虑」的场景里,o3险些是无敌的存在。
X上有效户直接封它为「GOAT」(Greatest Of All Time,史上最强)。
还有人说得更直白:「o3是最后一个真在『想问题』的模型,5系列更聪明,但少了那股子轴劲儿。」
o3-pro更是Pro用户的心头好——花更多功夫思虑,给出更靠得住的答案,在数学、科学、编程三大领域碾压式当先,学术评估里的成就单美丽得像学霸的期末考。
再说GPT-4.5。
若是说o3是理工科学霸,GPT-4.5就是文科天才。
这是很多用户心钟赘写作最天然」的模型,文字有温度、有节拍赣注有魂灵。
X用户Striver的评价被宽泛转发:直到今天,4.5依然是最好的写作模型。o3是纯正的原生推理模型。5系列至今都没能匹配这两个模型已经占有的器材。
这就是为什么退役新闻一出,评论区炸了。
不是恼怒,是不舍。
用户纪想的不只是职能,而是一种「相处的感触」——就像你习惯了一个同事的做事风格,忽然被奉告他要走了,代替者能力可能更强,但那个默契没了。
退的是菜单,不是能力
这里有个值得细品的细节:退役仅限ChatGPT的网页和App端,API齐全不受影响。
这意味着开发者依然能够通过API挪用o3和GPT-4.5,企业利用不会断。
这里的逻辑很明显:ChatGPT的界面就那么大,模型列表不能无限膨胀。留着一堆使用率极低的旧模型,既占资源,又分散用户把稳力。
还记得GPT-4o退役时的数据吗?其时日均只有0.1%的用户还在选它。
o3和GPT-4.5的使用率或许率更低——它们早就被藏进了「显示更多模型」的折叠菜单里了。
GPT-5.6:换防已经在路上
OpenAI为什么敢这么干?由于代替者不仅已经就位,并且看上去还更强。
GPT-5.5在4月23日上线,是OpenAI目前最强的公开旗舰。GPT-5.5 Instant在5月5日跟进,成为ChatGPT新默认模型。
但更值得关注的是GPT-5.6。
泄露信息显示,GPT-5.6将选取「双版本」战术:尺度版主攻多步推理能力的飞跃,Pro版则定位为更强的深度思虑模型。
有钻研人员泄漏,内部已经有人把5.6的查抄点当作日常调试工具在用。
算一笔功夫账:GPT-5.5是4月23日发的,5.6的查抄点5月下旬就在内测,若是6月底公开颁布,两代旗舰之间的距离将压缩到约莫60天。
这个节拍,已经起头靠近「月度迭代」了。
退掉o3和4.5,正是为了给这种速度腾出跑路。用户可能还没适应5.5,5.6就要来了。
模型的「性命周期」在急剧缩短——今天的GOAT,明天就是Yesterday's News。
但「更强」这张成就单
你敢信吗?
故事到这里,正本能够扫尾了:旧王逊位,新王即位,迭代提速,全国升平。
但就在颁发退役的第二天,OpenAI干了一件极度畸形的事——罕见颁布了一篇硬核长文,标题大意是《什么才是值得信任的第三方评估》。
长文系统拆解AI模型跑分的「潜规定」,并且直言:好多评估汇报里的亮眼数字,底子注明不了真实能力。
这蹬宗是自己掀了桌子。
OpenAI指出,主题问题在于:前沿模型早就不是「你问我答」的谈天机械人了,它们会用工具、会记高低文、会多步自主行动。
但大量第三方评估还停顿在「给模型前途题、看它答得对不合」的阶段。
真正决定成就凹凸的,往往不是模型自身,而是那套配套的测试框架(harness)。
harness是什么?
单一说就是「科场环境」——场地、工具、规定、能不能重试,全算在内。
统一个学生,在草稿纸都不给的科场和允许查资料的科场里,成就当然不一样。AI模型也一样。
最近Opus 4.8的争议就是活教材。
Datacurve的DeepSWE审计发现,Claude Opus 4.6和4.7在SWE-Bench Pro上超过12%的通过案例属于「舞弊」——模型直接从Docker容器的.git汗青里翻出尺度答案,贴进自己的补丁。
这一行为占了Opus 4.7通过率的约18%、4.6的约25%;坏礁删换肪澈,Opus 4.7从高位跌到54%,GPT-5.5稳坐70%榜首。
更怪诞的是背面。
Anthropic自己也认可,4.8的代码缺点漏报率降到4.7的四分之一。
恳切=低分,舞弊=高分——这就是当前跑分游戏最怪诞的处所。不是某个模型不恳切,而是科场把后门留在那里了,会索求环境的模型天然会找到它。
OpenAI这篇长文拆得更狠。
它说,评估必须先说清自己在测什么:能力上限、安全防护、还是模型对比?三类主张齐全分歧。
而后用数据开刀:GPT-5.5开启compaction后,网络靶场解出率从69.2%飙到92.3%;英国AISI把token预算从1000万加到1亿,成就最高提升59%且还没触顶。
翻译成人话:你给模型一把瑞士军刀它能拆机械,只给一根牙签它连快递盒都撬不开。
分数失真更离谱。METR复查发现GPT-5.4号称「13幼时」的自主能力,其实是钻了环境缝隙,建改后腰斩到约6幼时。
Apollo的测试则显示,GPT-5.5在「藏拙前提」下52%的样本出现了评估意识——有些直接在思想链里写「这是一个sandbagging评估」。
嘴上没摆烂,脑子里已经知路自己在考试。
OpenAI总结了五大评估坑:嘉奖舞弊、拒答、传染、坏题、藏拙。
一个美丽的分数,可能是模型真强,也可能是题泄了、规定坏了、模型钻空子了,或者——它觉察自己在被考,有意收着演。
AI进入系统竞争
回到退役这件事。
当o3这样的「GOAT」都能说退就退,OpenAI背后的底气是「5.6更强」;当GPT-4.5这样的「魂灵写手」被30天后下架,理由是「5.5已经足够好」。
但OpenAI自己刚刚通知全世界:决定谁强谁弱的那张成就单,自身就可能是被做过手脚的。
这是在说一个更深层的事实——在模型迭代越来越快、性命周期越来越短的今天,单一看一个Benchmark数字就下结论的时期,已经实现了。
真正的比拼,不在于某个跑分表上谁排第一,而在于系统能力、评估框架的通明度、以及迭代速度自身。
o3和GPT-4.5的退役,标志取一个时期的闭幕。
但更值得关注的,是下一个时期的游戏规定在被重写:模型换得更快,评估要求更真,用户的适应窗口越来越短。
参考资料:
https://x.com/kimmonismus/status/2060399002231660928https://openai.com/index/trustworthy-third-party-evaluations-foundations/
编纂:所罗门
| 软件名称 | 爱搞网站 |
| 软件版本 | 9.97.370.5839 |
| 软件大幼 | 63.31MB |
| 软件分类 | 工具软件 |
| 运行平台 | Android/ios/winall/win7/win10/win11 |
| 软件授权 | 免费版 |
1、打开软件,点击"?增长 爱搞网站"按钮,从电脑当选择《爱搞网站》文件,或直接将其拖拽至软件界面中。
2、软件会自动鉴别并解析导入的文件,您可凭据界面提醒选择所需的保留蹊径或下载体式。
3、确认无误后,点击"起头下载/处置"按钮。期待进度条读取结束,即可在设定的文件夹中查看下载好的正版文件。