OpenAI推出全新推理模型o3、o4-mini,以及一个编程智能体

article/2025/4/19 12:53:15

4月17日凌晨,OpenAI正式宣布推出目前OpenAI系列里能力最强的推理模型——o3模型和o4-mini模型。

去年12月,OpenAI就预热过o3推理模型,当时强调的重点是o3模型在解决困难问题上的能力,要显著强于OpenAI第一代推理模型o1。

而此次正式发布中,OpenAI不仅强调了o3模型在能力上的领先性,同时还强调了o3的Agent能力,且强调o3是第一代能够在思维链中使用图像进行推理的模型。

自主调用工具是Agent能力最重要的体现。OpenAI表示,曾看到o3为了解一个特别难的任务,连续调用了大约600次工具。

随着OpenAI的O系列、DeepSeek R1等推理模型日趋成熟,业内普遍认为,只需一条指令即可完成整套任务的AI Agent能力将迎来显著提升。

相比于Google,Anthropic等从去年就开始宣传Agent能力,甚至已经开始推动MCP、A2A等Agent协议普及的公司,OpenAI之前在Agent能力上的布局相对缺失。而今天的发布,证明OpenAI在Agent能力上,仍然有自己的思考和布局。

OpenAI宣布, 从今天开始,Plus、Pro和Team用户就可以使用o3模型和o4-mini模型了,接下来几周还会推出o3-pro模型,替代过去的o1-pro模型。

在彩蛋环节,OpenAI还表示,未来将发布一系列编程工具,重新定义AI时代的编程,首发的是一个叫Codex CLI的开源轻量化编程agent。Codex CLI可以直接使用OpenAI的模型(最终包括o3和o4-mini),接管本地计算机终端命令行界面,直接进行代码编写和文件移动等等。

OpenAI的展示很有意念编程(vibe coding)的味道了:直接在网页上截图了一个别人编程好的效果图,丢给Codex CLI,跟它说做一个html文件复现这个效果,并做一些改动。很快,Codex CLI就自己写了代码,调用了系统工具,复现出了一个类似的效果。

OpenAI今日的发布大致符合预期——o3和 o4-mini已经预热多时,视觉推理与Agent能力也早已在其他公司的模型中有所体现。

不过,从今天的发布中仍能看出OpenAI在Agent等前沿方向上的布局节奏,以及将已有能力产品化的独特能力。

OpenAI的模型迭代,也再一次重新肯定了后训练Scaling Law的存在。目前看来,AI模型在接下来几年,仍然会出现能力的快速进化,还未到达瓶颈。

OpenAI的Agent能力,目前更多的是调用自身的工具

OpenAI此次发布的一大亮点在于Agent的能力。最初的两个展示都与工具调用能力有关。

第一个展示是研究员给了OpenAI一个十年前写过的论文图片,让o3模型找到一个特定的结果,并和最新的研究成果进行比较。

o3模型首先利用内置的视觉推理能力,放大图片,找到了研究员想要的特定结果,然后根据图片中的内容进行推理,算出了论文推导的数值,然后使用搜索功能,查找了十篇论文,比较了最新研究成果与作者十年前论文的结果的区别,最后给出了自己的建议。

第二个演示是研究员问OpenAI,根据我的兴趣,读新闻,告诉我一些我可能感兴趣的事情。

这个演示则利用的是OpenAI内置的记忆工具——OpenAI几天前刚刚宣布OpenAI的模型目前有了可以访问用户全量记忆的能力。

o3模型先是访问记忆后,找出用户喜欢水肺潜水和弹奏音乐,然后利用搜索功能,找到了一条交叉两条兴趣的新闻:研究人员会录下健康珊瑚礁的声音,然后用水下扬声器在海里播放这些声音,以保护珊瑚。

最后o3模型使用了OpenAI的canvas工具和数据分析工具,生成了一个漂亮的博客界面,完成了任务。

可以看到,在OpenAI目前的布局当中,Agent能力更多的是调用OpenAI的内部工具。

不过,在基础的工具调用能力水平存在的情况下,如果想要接入其他工具,似乎也并不是很难。OpenAI今年3月刚刚宣布接入MCP协议,为之后使用其他工具打下了基础。

o4-mini 表现出色,RL的Scaling Law仍在起作用

虽然在去年12月OpenAI曾经预热过o3模型的具体能力,这次正式发布,官方表示因为进行了「对推理成本和实用性做了大量优化」,在评测结果上,OpenAI表示可能会有差别。

在发布会直播中,OpenAI展示了几组测试结果,o3模型和o4-mini模型在数学能力、代码能力和多模态能力上都表现出色:

值得注意的是,在多个维度上,o4-mini的表现并不逊色于o3。尤其是在高难度数学竞赛AMI中,o4-mini结合工具的准确率达到了99%,几乎逼近评测上限。这似乎意味着,o4模型在未来一定会有更加惊人的表现。

OpenAI 研究员姚顺雨近期在《The Second Half》一文中引用了研究员Jason Wei的图表,标注了过去几年AI能力的飞跃式增长:

AI 在过去五年里不断刷新各类基准测试的成绩。

姚顺雨表示,在突破了强化学习泛化的问题后,过去曾经对于AI十分困难的问题,正在土崩瓦解,AI能力的爬坡正在变得更加可预测。「下一个O系列模型无需明确针对该任务即可将其提升30%。」

OpenAI的直播也确认了这一点。

OpenAI表示,在o3模型上的训练计算量是o1模型的10 倍以上。随着OpenAI沿着「计算量」这条轴线不断扩展,像AMI这样的评测成绩也持续上升。

Scaling Law看起来没有尽头,而人类之前设计的基准线,已经快被用完了,甚至已经不一定有测评意义了。

OpenAI再一次确认,AI的发展不会停,顶尖模型的探索会让更强的 AI 能力不断下放给用户。在相同推理成本下,o4-mini的表现明显优于o3-mini,且o4-mini是多模态模型。相同的推理成本,o3模型的性能好于o1模型。

模型一代代迭代,AI 的这把科技之火的燃料不会断。

颠覆编程?

顶尖的模型,已经开始干人类顶级科研人员的活了。对于广众而言,更强的模型,能带来的更切实的能力是什么?OpenAI 这次似乎瞄准了编程这个场景。

OpenAI 在彩蛋中宣布,接下来将发布一系列产品,颠覆编程。

根据OpenAI CFO近期的发言,OpenAI似乎想结合目前模型的Agent能力,和极强的编程能力,做出一整套编程Agent,能够直接对软件进行编程甚至测试。

在演示中,OpenAI已经给了一个类似的案例,展示了一个模型在虚拟机里,调用工具进行编程的例子,这个案例的思路与之前爆火的Manus的思路接近。

OpenAI给了模型一个虚拟机的终端命令行权限,要求模型定位一个bug。当把这个bug报告输入给模型后,模型可以使用终端命令行访问整个代码库。先验证bug能否复现,确认问题存在后,模型开始代码里四处浏览,尝试理解整个仓库的结构,最后找到了bug,成功修复了问题。目前,这样的能力,仍然没有被开放出来。

OpenAI最新发布的编程agent,采取了调用本地终端命令行界面的方式,进行类似的操作。可以使用「建议模式」,也就是它每次想执行指令都会征求你的确认。也可以采用全自动模式,看起来则更有一种贾维斯的感觉。

如果说以往的Copilot更像是「代码自动补全」,那今年各家模型争夺的重点,很可能是「代码自动完成」。编程+ Agent,会不会成为第一个真正释放生产力的通用智能场景?起码现在看来,OpenAI是这么押注的。

(本文首发于《极客公园》微信公众号,作者为Li Yuan,原标题为《OpenAI深夜推出最强模型主打Agent功能,顺便又来尝试革程序员的命了》)

    责任编辑:宦艳红
    图片编辑:金洁
    澎湃新闻报料:021-962866
    澎湃新闻,未经授权不得转载

    http://news.dtcms.com/article/FKFCuDqdCn.shtml

    相关文章

    美联储主席:特朗普关税政策导致的通胀上升影响可能更加持久,不会干预美国股市

    美联储主席鲍威尔称特朗普政府关税政策影响可能“更为长久”,并表示不会干预股市。当地时间2025年4月16日,美国伊利诺伊州芝加哥,美联邦储备委员会主席鲍威尔在芝加哥经济俱乐部发表讲话。视觉中国 图央视新闻报道,当地时间4月16日,据《华盛顿邮报》报道,鲍威尔就美总统特…

    世界银行行长:不确定性将导致全球经济增长低于预期

    △世界银行行长班加(资料图)当地时间4月16日,世界银行行长班加表示,不确定性正在导致全球范围内更加谨慎的商业和经济环境,将导致全球经济增长低于几个月前的预期。各国需要就贸易问题进行协商和对话。班加还表示,必须营造合适的监管环境,以鼓励在发展中国家的私人投资并…

    世贸组织:美关税政策致全球贸易前景严重恶化

    当地时间16日,总部位于瑞士日内瓦的世界贸易组织发布最新《全球贸易展望和统计》报告。报告显示,美国关税政策导致全球贸易前景严重恶化。在当前关税形势下,2025年全球货物贸易量预计将下降0.2%,比“低关税”基准情形下的预测值低近3个百分点。北美地区货物贸易降幅尤为显著…

    亚马逊云:中国企业开始以“行业集群”的方式出海

    根据亚马逊云科技的观察,中国客户开始以集群形式出海,这对云供应商的本地扶持能力提出更高的要求。4月16日,在2025亚马逊云科技出海大会上,亚马逊云科技中国区行业集群总经理沈涛表示,2024年,公司见证了中国企业深度的供应链出海过程,面对地缘政治等方面不断加剧的挑战,…

    首批换药患者已出现,两大减肥药巨头比拼的是什么?

    澎湃新闻记者 蒋立冬 AI创意“三天瘦了四斤,不到一个月就瘦了8斤。”近日,30岁的上海白领小美(化名)向澎湃新闻记者讲述自己使用礼来GLP-1/GIP减肥药替尔泊肽的“战绩”。出于对瘦的追求,也叠加对新型减肥药的好奇,在替尔泊肽之前,小美以及身边同事还使用过诺和诺德的GL…

    体坛联播|阿森纳、国米晋级欧冠半决赛,王楚钦晋级16强

    多方悼念浙江外援布彭扎北京时间16日晚间,浙江队官方公告称,“我们怀着无比沉痛的心情发布此公告:外援阿隆布彭扎今日在住处不幸去世。目前,俱乐部正全力配合有关部门开展调查工作。俱乐部全体员工向其家人致以沉痛的哀悼!”当晚浙江队主场迎来和梅州客家的比赛,细心的球…

    女子称收养女婴10年仍是“黑户”,河北武安:待查明弃婴来源后按程序办理

    “我2015年捡到的女婴小丫(化名),现在已经10岁了,但至今无法上户口,还是黑户。”4月16日,河北邯郸武安市女子黄丽向澎湃新闻(www.thepaper.cn)反映说。黄丽自称是捡拾到小丫的,但也承认当初没有报警。根据民政部、国家发展和改革委员会等部门发布的《关于进一步做好弃…

    信心从何而来|楼市回稳的最新迹象

    “地王拍出当晚,我们门店就成交了两套。”二手房经纪人刘阳边说边戴起电瓶车头盔,准备出发带看。3月末,这家中介门店所在的上海静安区大宁板块,宅地拍出楼面价92659元/平方米,成为单价地王。地王拍出的首个周末,这家中介门店新增了28组带看预约。近200公里外的杭州,钱江…

    四川内江市市中区发生3.8级地震,震源深度10千米

    中国地震台网正式测定:4月17日6时46分在四川内江市市中区(北纬29.50度,东经104.85度)发生3.8级地震,震源深度10千米。责任编辑:王卉图片编辑:沈轲澎湃新闻报料:021-962866澎湃新闻,未经授权不得转载

    远洋渔船上的谋生

    在远洋渔船上谋生,要适应特殊的生存法则。2014年,阿环来到义乌劳务市场,通过招工中介,找到这份声称一年能赚18万到19万的工作。他登上一艘远洋渔船,每天下午醒来后,看着太阳降到海平面以下,大海由湛蓝变成黑压压的一片,在鱿鱼产量旺季,他一天只睡四五个小时。阿环上岸…

    场外口水淹没比赛,津门虎全华班大败引发巨大争议

    这是一场比赛未开打前就注定充满争议的比赛,从上一场做客大连最后时刻“洗牌”,到本场比赛全华班首发以及16日晚最终1比4的结果,津门虎主场和海港比赛充斥场外口水战,直至比赛结束后依然无法平息……于根伟赛前主动解释本场比赛的争议始于上一场津门虎做客和大连的比赛,津…

    工人日报刊文:首席技师当“博导”,激励技能人才更有作为

    赵增权(右一)和王方祥(左二)等创新团队成员在对“解决油管内壁除锈效率低的难题”攻关项目进行讨论。受访者供图研发人员拜技术工人为师,你信吗?据近日《工人日报》报道,中国石油渤海钻探公司井下技术服务分公司首席技师赵增权收了一个38岁的博士徒弟王方祥,成为公司首…

    纳指收跌超3%,英伟达重挫逾6%,鲍威尔发出强烈警告

    美东时间周三,美股三大指数集体下跌。截至收盘,道琼斯工业指数收跌699.57点,跌幅1.73%,报39669.39点;纳斯达克指数收跌516.01点,跌幅3.07%,报16307.16点;标普500指数收跌120.93点,跌幅2.24%,报5275.70点。来源:Wind据《华盛顿邮报》报道,美联储主席鲍威尔当日就美国…

    天津博物馆五一开展,八省文物呈现北朝风貌

    中国历史上的北朝,指自北魏统一北方(439年)开始到隋朝建立(581年)为止存在于中国北方的五个朝代的总称,包括北魏、东魏、西魏、北齐和北周。北朝,虽历经短暂岁月,却在中国历史上书写了浓墨重彩的一笔。澎湃新闻获悉,天津博物馆将于5月1日首次推出“同铸山河——北朝历…

    《宋缂丝富贵长春轴》领衔清宫旧藏缂绣特展

    清宫缂丝刺绣为台北故宫博物院典藏重要组成部分,其中既有宋代缂丝精品,也涵盖被当成宋代缂绣而进入清宫的明代仿古缂绣,更有依托书画名家书画风格为蓝本的缂丝作品。澎湃新闻获悉,“织造精彩——清宫缂丝刺绣展”将于4月19日在台北故宫博物院对外展出。展览遴选台北故宫博物…

    打捞一条文学传统的暗线

    诗人、学者戴潍娜在新书《学坏》中,她选取鲍勃迪伦、普希金、乔伊斯、波伏瓦、玛丽莲弗伦奇、伊藤诗织、林奕含、赫胥黎、泰戈尔九位作家,从一位诗人的视野出发,理解属于他们身上“反派又迷人”的部分,打捞出一条文学传统的暗线。日前,戴潍娜接受澎湃新闻专访,在她看来,…

    明查|特朗普停止向奥巴马发放250万年度医改版权费?

    速览- 网传“特朗普正式下令停止向前总统奥巴马发放250万美元的年度补助金”的说法最早由美国讽刺新闻网络ALLOD发布,这是一条虚构的讽刺新闻。- 美国版权法规定政府官员或雇员在职期间创作的作品不享有版权。截至目前,也没有任何证据表明奥巴马在离开白宫后曾因“平价医保法…

    ​COP30候任主席答澎湃:走自己的务实道路,不依赖发达国家“标准答案”

    在2024年全球升温首次突破1.5℃警戒线的背景下,第30届联合国气候变化框架公约缔约方大会(COP30)被视为实现《巴黎协定》目标的关键节点,本次大会将于11月在巴西贝伦举办。这是自1992年里约热内卢“地球峰会”后,气候大会再次回到巴西,赋予本次会议特殊的历史意义。然而,…

    文化中国行|从太公祭到刘基庙:何以文成,何以伯温

    承载着深厚历史文化底蕴的浙江文成县刘氏家族“祭祖活动(太公祭春祭)”是以文成本地名人、明朝开国元勋刘伯温(刘基)为祭祀对象的宗族祭祀活动,至今已延续500余年。去年底中国申报的“春节”列入联合国教科文组织人类非物质文化遗产代表作名录,太公祭春祭作为春节宗族祭礼…

    核观察|为核潜艇打造“安全堡垒”,印度系统性提升海基核威慑力

    建造核潜艇基地、建设核潜艇通信设施、开建攻击型核潜艇……印度正系统性地提升海基核力量的实战和威慑能力。环球网4月15日援引外媒体报道称,印度海军准备在南部的安得拉邦建造一个专用基地,为高度敏感的印度战略核潜艇部队提供“安全堡垒”。印度已经拥有两艘“歼敌者”级战…