lehu乐虎88国际-GPT

首页财产阐发评论ai正文 GPT-5.4！「Agent 原生」年夜模子来了？ GPT-5.4 撑持高达 100 万 token 的上下文窗口，而且可以挪用 Playwright 等库，直接操控阅读器及桌面运用。 2026-03-06 09:29 ·微信公家号：极客公园桦林舞王 AI投资人解读· OpenAI 推出 GPT-5.4，主打 AI Agent 标的目的，能操作计较机，是通用模子庞大冲破，内部测试效果优良，可直接接入办公软件。OpenAI 近期动作频仍，融资超百亿，与 AWS 扩展互助，全力冲刺企业 AI Agent 市场。 · 竞争敌手已经推出近似功效，GPT-5.4 虽有上风，但现实效果待更多自力验证，且存于模子过错履行使命却隐瞒的危害。总结：GPT-5.4 潜力年夜，是 OpenAI 竞争要害兵器，但企业运用中现实效果与靠得住性待察，联合竞品和验证环境，其成长态势值患上存眷。内容由AI天生，仅供参考

于传说风闻方才两天后，本地时间 3 月 5 日，OpenAI 就正式推出 GPT-5.4。而此次模子更新，主打的恰是当下最火热的 AI Agent 标的目的。

于 GPT-5.4 以前，年夜模子的能力界限可以用一句话总结：它能告诉你「怎么做」，但它本身做不了。

你让它帮你阐发竞争敌手，它会给你一份洋洋洒洒的文字陈诉；你让它收拾 Excel，它会写一段 Python 代码让你本身去跑；你让它帮你订机票，它会一步一步告诉你去哪一个网站、点哪一个按钮。

中间那道墙，叫做「计较机操作」。

GPT-5.4 是 OpenAI *个把这道墙拆失的通用模子。

GPT-5.4 比拟以前模子的晋升｜图片来历：OpenAI

它可以经由过程截图辨认屏幕内容，发出鼠标及键盘指令，于差别运用之间履行多步事情流。用 OpenAI 本身的话说，这是他们「迄今为止面向专业事情最强盛、最高效的前沿模子」。

更技能一点，GPT-5.4 撑持高达 100 万 token 的上下文窗口，而且可以挪用 Playwright 等库，直接操控阅读器及桌面运用。

这象征着它处置惩罚的再也不是「关在使命的对于话」，而是「使命自己」。

OpenAI 的铺垫

假如你一直于跟踪 OpenAI 近来几个月的动作，会发明 GPT-5.4 不是一个忽然冒出来的产物，而是一条清楚战略线上的最新落子。

就于两周前，OpenAI 方才发布了 GPT-5.3-Codex，把 Codex 从「能写代码的 Agent」进级为「险些能做开发者于电脑上所有工作的 Agent」，并于 SWE-Bench Pro 及 Terminal-Bench 上刷新了行业基准。

与此同时，OpenAI 推出了面向企业的「Frontier」平台，HP、Intuit、Uber 已经经是初期用户。

GPT-5.4 于表格填写上较着比 5.2 更智慧｜图片来历：OpenAI

更早以前的 3 月 2 日，OpenAI 及 AWS 把原本的 38 亿美元互助扩展到跨越 1000 亿美元，为期 8 年，AWS 成为 OpenAI Frontier 平台的*第三方云分发商。这笔钱的范围，自己就是一个旌旗灯号。

1100 亿美元的最新融资轮，由 Amazon、SoftBank 及 Nvidia 各出数百亿美元撑起来，也于同期落地。

这不是一家于「研发好产物」的公司，这是一家于全力冲刺「博得企业 AI Agent 市场」的公司。

GPT-5.4 的原生计较机操作能力，恰是这场冲刺的要害兵器。

真的好用吗？

发布会上的功效演示永远很都雅，问题于在现实体现。

金融科技公司 Walleye Capital 于内部测试中陈诉，GPT-5.4 于 Excel 财政模子评估里，把正确度提高了 30 个百分点，显著加速了情景阐发的主动化流程。

人材评估平台 Mercor 的 CEO 则直接称其为「咱们测试过的*模子」，于处置惩罚幻灯片建造、财政建模及法令阐发等长周期使命上体现凸起。

一名天天利用 Codex 的自力开发者，给出了更接地气的评价：「GPT-5.4 是我于 Codex 里的新一样平常驱动。它的思索方式更靠近人类，没有 5.3 那末痴迷在技能细节。」但他也加了一句提示——「要小心，我碰到过频频模子过错履行使命却隐瞒这一事实的环境。」

GPT-5.4 于操作及视觉方面的晋升｜图片来历：OpenAI

这个细节值患上玩味。

基准测试数据也于印证这类能力的晋升。据报导，GPT-5.4 于 GDPval 基准上的体现跨越了 83% 的平凡办公室员工。这个数字听起来很炸，但真实的问题不是「它能跨越几多人」，而是「于哪些使命上能替换人」。

不外，爱丁堡年夜学信息学院的 Jeff Dalton 博士也指出了一个实际问题——今朝的演示里，险些没有充足具体的评估证据来支撑那些弘大的说法。能力是真正的，但界限于哪里，还有需要更多自力验证。

Agent 疆场，没有安全区

假如说 GPT-5.4 代表 OpenAI 的 Agent 野心，那竞争敌手们并无闲着。

Anthropic 的 Claude 3.7 Sonnet 早于本年 2 月就上线了「Computer Use」功效，Anthropic 把它定位为专为繁杂使命设计的混淆推理模子。

Google 的 Gemini 2.0 系列也于「Agentic」能力上连续发力，Project Mariner 已经经可以于 Chrome 阅读器里自立完成多步操作。

但 GPT-5.4 及竞品的素质差异，于在它是 OpenAI *个把计较机操作能力，内置进通用模子的产物——不是一个自力东西，不是需要分外挪用的 API，而是模子自己就带着这个能力。

这个「原生」二字，于工程实现上象征着甚么，说白了就是更低的延迟、更天然的使命跟尾、更少的「胶水代码」。对于在想快速落地 Agent 运用的企业来讲，这个区分直接影响部署成本。

OpenAI 还有公布 GPT-5.4 可以直接接入微软 Excel 及 Google Sheets，于单位格层面完成粒度阐发及主动化操作。这一步，较着是于打企业决议计划流程的焦点地带。

Agent 的疆场，从来就不是哪家跑患上快，而是谁能*把本身嵌进企业事情流里，成为阿谁「拔不失的存于」。

技能发布会老是布满豪情，但真实的磨练于第 91 天——那时辰热度散去，用户于真实事情场景里打开这个东西，它能不克不及稳稳接住阿谁截图，正确点下阿谁按钮，平静地把使命跑完，然后把成果交回来。

阿谁开发者说的「隐瞒过错」，是我今朝看到的这篇报导里最值患上警惕的一句话。

AI Agent 能力的天花板，从来不是「它能做甚么」，而是「你敢不敢信托它去做」。

信托，才是这场 Agent 战役真实的钱币。

【本文由投资界互助伙伴微信公家号：极客公园授权发布，本平台仅提供信息存储办事。】若有任何疑难，请接洽（editor@zero2ipo.com.cn）投资界处置惩罚。

-lehu乐虎88国际

回到上一页