首页财产阐发评论ai正文 GPT-5.4!「Agent 原生」年夜模子来了? GPT-5.4 撑持高达 100 万 token 的上下文窗口,而且可以挪用 Playwright 等库,直接操控阅读器及桌面运用。 2026-03-06 09:29 ·微信公家号:极客公园桦林舞王 AI投资人解读· OpenAI 推出 GPT-5.4,主打 AI Agent 标的目的,能操作计较机,是通用模子庞大冲破,内部测试效果优良,可直接接入办公软件。OpenAI 近期动作频仍,融资超百亿,与 AWS 扩展互助,全力冲刺企业 AI Agent 市场。 · 竞争敌手已经推出近似功效,GPT-5.4 虽有上风,但现实效果待更多自力验证,且存于模子过错履行使命却隐瞒的危害。 总结:GPT-5.4 潜力年夜,是 OpenAI 竞争要害兵器,但企业运用中现实效果与靠得住性待察,联合竞品和验证环境,其成长态势值患上存眷。内容由AI天生,仅供参考
于传说风闻方才两天后,本地时间 3 月 5 日,OpenAI 就正式推出 GPT-5.4。而此次模子更新,主打的恰是当下最火热的 AI Agent 标的目的。
于 GPT-5.4 以前,年夜模子的能力界限可以用一句话总结:它能告诉你「怎么做」,但它本身做不了。
你让它帮你阐发竞争敌手,它会给你一份洋洋洒洒的文字陈诉;你让它收拾 Excel,它会写一段 Python 代码让你本身去跑;你让它帮你订机票,它会一步一步告诉你去哪一个网站、点哪一个按钮。
中间那道墙,叫做「计较机操作」。
GPT-5.4 是 OpenAI *个把这道墙拆失的通用模子。

GPT-5.4 比拟以前模子的晋升|图片来历:OpenAI
它可以经由过程截图辨认屏幕内容,发出鼠标及键盘指令,于差别运用之间履行多步事情流。用 OpenAI 本身的话说,这是他们「迄今为止面向专业事情最强盛、最高效的前沿模子」。
更技能一点,GPT-5.4 撑持高达 100 万 token 的上下文窗口,而且可以挪用 Playwright 等库,直接操控阅读器及桌面运用。
这象征着它处置惩罚的再也不是「关在使命的对于话」,而是「使命自己」。
01
OpenAI 的铺垫
假如你一直于跟踪 OpenAI 近来几个月的动作,会发明 GPT-5.4 不是一个忽然冒出来的产物,而是一条清楚战略线上的最新落子。
就于两周前,OpenAI 方才发布了 GPT-5.3-Codex,把 Codex 从「能写代码的 Agent」进级为「险些能做开发者于电脑上所有工作的 Agent」,并于 SWE-Bench Pro 及 Terminal-Bench 上刷新了行业基准。
与此同时,OpenAI 推出了面向企业的「Frontier」平台,HP、Intuit、Uber 已经经是初期用户。

GPT-5.4 于表格填写上较着比 5.2 更智慧|图片来历:OpenAI
更早以前的 3 月 2 日,OpenAI 及 AWS 把原本的 38 亿美元互助扩展到跨越 1000 亿美元,为期 8 年,AWS 成为 OpenAI Frontier 平台的*第三方云分发商。这笔钱的范围,自己就是一个旌旗灯号。
1100 亿美元的最新融资轮,由 Amazon、SoftBank 及 Nvidia 各出数百亿美元撑起来,也于同期落地。
这不是一家于「研发好产物」的公司,这是一家于全力冲刺「博得企业 AI Agent 市场」的公司。
GPT-5.4 的原生计较机操作能力,恰是这场冲刺的要害兵器。
02
真的好用吗?
发布会上的功效演示永远很都雅,问题于在现实体现。
金融科技公司 Walleye Capital 于内部测试中陈诉,GPT-5.4 于 Excel 财政模子评估里,把正确度提高了 30 个百分点,显著加速了情景阐发的主动化流程。
人材评估平台 Mercor 的 CEO 则直接称其为「咱们测试过的*模子」,于处置惩罚幻灯片建造、财政建模及法令阐发等长周期使命上体现凸起。
一名天天利用 Codex 的自力开发者,给出了更接地气的评价:「GPT-5.4 是我于 Codex 里的新一样平常驱动。它的思索方式更靠近人类,没有 5.3 那末痴迷在技能细节。」但他也加了一句提示——「要小心,我碰到过频频模子过错履行使命却隐瞒这一事实的环境。」

GPT-5.4 于操作及视觉方面的晋升|图片来历:OpenAI
这个细节值患上玩味。
基准测试数据也于印证这类能力的晋升。据报导,GPT-5.4 于 GDPval 基准上的体现跨越了 83% 的平凡办公室员工。这个数字听起来很炸,但真实的问题不是「它能跨越几多人」,而是「于哪些使命上能替换人」。
不外,爱丁堡年夜学信息学院的 Jeff Dalton 博士也指出了一个实际问题——今朝的演示里,险些没有充足具体的评估证据来支撑那些弘大的说法。能力是真正的,但界限于哪里,还有需要更多自力验证。
03
Agent 疆场,没有安全区
假如说 GPT-5.4 代表 OpenAI 的 Agent 野心,那竞争敌手们并无闲着。
Anthropic 的 Claude 3.7 Sonnet 早于本年 2 月就上线了「Computer Use」功效,Anthropic 把它定位为专为繁杂使命设计的混淆推理模子。
Google 的 Gemini 2.0 系列也于「Agentic」能力上连续发力,Project Mariner 已经经可以于 Chrome 阅读器里自立完成多步操作。
但 GPT-5.4 及竞品的素质差异,于在它是 OpenAI *个把计较机操作能力,内置进通用模子的产物——不是一个自力东西,不是需要分外挪用的 API,而是模子自己就带着这个能力。
这个「原生」二字,于工程实现上象征着甚么,说白了就是更低的延迟、更天然的使命跟尾、更少的「胶水代码」。对于在想快速落地 Agent 运用的企业来讲,这个区分直接影响部署成本。
OpenAI 还有公布 GPT-5.4 可以直接接入微软 Excel 及 Google Sheets,于单位格层面完成粒度阐发及主动化操作。这一步,较着是于打企业决议计划流程的焦点地带。
Agent 的疆场,从来就不是哪家跑患上快,而是谁能*把本身嵌进企业事情流里,成为阿谁「拔不失的存于」。
技能发布会老是布满豪情,但真实的磨练于第 91 天——那时辰热度散去,用户于真实事情场景里打开这个东西,它能不克不及稳稳接住阿谁截图,正确点下阿谁按钮,平静地把使命跑完,然后把成果交回来。
阿谁开发者说的「隐瞒过错」,是我今朝看到的这篇报导里最值患上警惕的一句话。
AI Agent 能力的天花板,从来不是「它能做甚么」,而是「你敢不敢信托它去做」。
信托,才是这场 Agent 战役真实的钱币。
【本文由投资界互助伙伴微信公家号:极客公园授权发布,本平台仅提供信息存储办事。】若有任何疑难,请接洽(editor@zero2ipo.com.cn)投资界处置惩罚。
-lehu乐虎88国际