03.09.26 | 16:53 PM
GPT-5.4 来了:能操控电脑、写代码、做表格
新模型整合了推理、编程与智能体工作流三方面的最新进展,并将 GPT-5.3-Codex 的行业领先编程能力纳入其中。
BY 媒介360

OpenAI 正式发布最新前沿模型 GPT-5.4,同步推出面向复杂任务的 GPT-5.4 Pro 版本。新模型整合了推理、编程与智能体工作流三方面的最新进展,并将 GPT-5.3-Codex 的行业领先编程能力纳入其中,成为 OpenAI 首款具备原生计算机控制能力的通用模型。

GPT-5.4 在 Codex 和 API 中具备了原生的计算机控制能力

  • 无需额外插件,模型可通过屏幕截图结合键盘和鼠标指令,直接与网页及软件界面进行交互;
  • 在衡量桌面环境操作能力的 OSWorld-Verified 基准测试中,GPT-5.4 取得了 75.0% 的成绩,不仅大幅超越前代 GPT-5.2 的 47.3%,还超越了 72.4% 的人类基准线;
  • 在浏览器操作基准 WebArena-Verified 上,GPT-5.4 的成功率达到 67.3%,而在 Online-Mind2Web 测试中更以 92.8% 的成功率领跑。

在专业知识工作方面:

  • GPT-5.4 在覆盖 44 种职业的 GDPval 基准测试中达到 83.0% 的胜率或平局率,而 GPT-5.2 仅为 70.9%;
  • 针对投行级电子表格建模任务,GPT-5.4 的得分从 GPT-5.2 的 68.4% 大幅提升至 87.3%;
  • 在演示文稿评估中,68.0% 的人工评测者更青睐 GPT-5.4 的输出结果,理由包括视觉更丰富、美观度更高。

其他方面:

  • 在可操控性方面,GPT-5.4 Thinking 在处理复杂查询时会先输出一份「预先计划」,用户可以在模型生成过程中随时介入并调整方向,无需从头开始。该功能目前已在 ChatGPT 网页版和 Android 端上线,iOS 版本即将跟进;
  • 编程能力方面,GPT-5.4 在 SWE-Bench Pro 上的表现与 GPT-5.3-Codex 持平或略有超越,同时延迟更低。Codex 中新增的 /fast 模式可将 token 生成速度提升至 1.5 倍。

值得一提的是,全新的「工具查找」机制告别了暴力加载,在保持准确率的同时,将总体 Token 消耗暴降了 47%,省钱又提速。

OpenAI 表示,GPT-5.4 是其迄今为止准确性最高的模型,单一事实错误率较 GPT-5.2 降低 33%,完整回复的错误率降低 18%。

在 ChatGPT 中,GPT-5.4 以「GPT-5.4 Thinking」形态上线,面向 Plus、Team 和 Pro 用户开放,同步替代 GPT-5.2 Thinking。

定价方面,API 中 GPT-5.4 的标准输入价格为每百万 token 2.50 美元,输出价格为每百万 token 15 美元;GPT-5.4 Pro 的输入价格为每百万 token 30 美元,输出价格为每百万 token 180 美元,均高于前代 GPT-5.2。

成为 前瞻会员 可继续阅读
媒介360官网持续日更10年,案例总数30W,纵深市场研究覆盖城市1-5线,覆盖服务人群20W
无论您是媒体人,品牌主,行业从业者或者学生都可以在这里找到帮助您提升职业能力
构建专业知识体系的内容产品,及企业服务
advertisement