摘要:OpenAI的o系列模型更聚焦推理能力,和GPT系列模型并列,是其另一条重要的产品线。其中,o3迷你型(mini)模型预计将于2025年1月上线,o3模型将在后续推出。OpenAI首席执行官山姆·奥特曼表示,跳过o2命名是为了避免和英国电信运营商O2冲突。
陈奇杰 任晓宁/文 12月21日,OpenAI的“马拉松”发布会来到最后一天,OpenAI推出了o1模型的下一代模型o3。
OpenAI的o系列模型更聚焦推理能力,和GPT系列模型并列,是其另一条重要的产品线。其中,o3迷你型(mini)模型预计将于2025年1月上线,o3模型将在后续推出。OpenAI首席执行官山姆·奥特曼表示,跳过o2命名是为了避免和英国电信运营商O2冲突。
自12月6日起,OpenAI开启了一场为期12天的直播发布会,每个工作日都会推出新的产品或功能。不过,每场直播的时间都仅有10分钟至25分钟。
o3模型的AGI评测突破人类水平门槛
今年9月,OpenAI发布了更擅长处理复杂推理任务的o1系列模型,其核心技术是“思维链”,它要求模型在回答复杂问题前,先生成一个内部的思考过程,类似于人类在处理复杂问题时一步步推理的过程。通过这种方式,o1模型能够将复杂问题分解成更简单的部分,并且识别并纠正错误。相比o1模型,o3模型的能力进步明显。
在为通用人工智能(AGI)准备的测试ARC-AGI中,o3模型在“低思考模式”和“高思考模式”两种设置里,分别获得了75.7和87.5的分数。ARC-AGI是一个由一系列任务构成的测试数据集,旨在测试参与者的推理能力和抽象思维。OpenAI的演示人员在直播中称,o3模型的这一项分数是一个重要的里程碑,因为人类在这项测试中达到的分数阈值为85,这说明o3模型的水平更接近AGI。
在OpenAI的直播演示中,o3模型在编程竞赛平台Codeforces上得分为2727,远高于o1模型的1891。OpenAI研究高级副总裁MarkChen在直播中表示,他本人的得分也只有2500,这意味着o3模型的编程能力已经能和专业程序员比肩。
在数学领域,o3模型在美国数学邀请赛(AIME 2024)测试中的准确率达到了96.7%,而o1模型的准确率是83.3%。
OpenAI在直播中还发布了o3模型的mini版本,mini版本的模型尺寸更小,使用成本会有所降低。o3 mini设置了低、中、高三种推理模式,用户能根据任务复杂度灵活调整模型的思考时间。
OpenAI预计o3 mini将于1月向所有用户推出,而完整版o3模型则将在后续发布。此外,OpenAI为安全研究人员开放了早期访问权限的申请,以此表示对AI安全性的重视。奥特曼也在社交媒体上呼吁,希望安全研究人员考虑申请帮助测试o3 mini和o3。
OpenAI的12天
在这12天的直播发布会里,OpenAI分别在首日和最后一天发布了o1系列模型的正式版以及o3模型的预览版,这说明OpenAI仍然更加重视模型能力升级。
除了首日和最后一天,第3天的发布也备受关注。当天OpenAI正式推出了AI视频生成模型Sora。此前,Sora已经预告了近300天时间。在此期间,国内外已有字节跳动、快手、生数科技和谷歌等超过20家公司推出了类似的文生视频模型及应用。
在直播活动的第5天和第11天,OpenAI主要展示了他们和苹果公司的合作,尤其是终端侧的AI应用。奥特曼表示,苹果正在将ChatGPT整合到手机(iPhone)、平板电脑(iPad)和苹果系统(iPad)上。
整合的内容包括:苹果的智能语音助手Siri能将复杂任务移交给ChatGPT处理;苹果用户可以使用ChatGPT撰写文档,还能进行文档细化和总结;iPhone 16手机的相机控制功能也进行更新,通过视觉智能让用户更深入地了解拍摄对象,例如利用搜索功能快速识别眼前物品,或借助ChatGPT深入了解识别的内容;ChatGPT已与苹果笔记本电脑实现了应用整合,支持与Warp(文件共享应用)、Xcode(编辑器)等应用联动,并可在语音模式下与苹果备忘录等应用协同工作。
余下几天的直播发布会,OpenAI主要发布与聊天机器人ChatGPT相关的新功能。
第2天,Open AI发布了面向企业用户的“强化微调”技术,用户使用极少的训练数据就能在特定领域创建专家模型,预计该功能将在明年正式上线。
第4天,OpenAI为ChatGPT推出了全新的并行设计界面Canvas。Canvas能让代码和文本处理更加高效,并提供了多种实用的写作工具。
第6天,OpenAI上线了和人类对话更加自然的高级语音模式和实时通话、理解屏幕等功能。在演示中,ChatGPT可以通过摄像头记住4位直播人员的名字,并能在被打断谈话后再自然地接话。
在第7天和第8天,OpenAI分别推出了Projects In ChatGPT功能以及ChatGPT搜索功能。前者能将ChatGPT的各种功能整合至一处,便于用户创建并管理各类项目文件夹,后者则是强化了联网检索能力。
第10天,OpenAI拓展了吸引新用户的渠道,推出了“热线”的互动方式,它允许新用户通过电话和通讯程序WhatsApp与ChatGPT互动。
此外,OpenAI在第9天的发布会上,集中宣布了定价及价格调整的相关策略。当天,OpenAI开放了o1模型的应用程序编程接口(API),并宣布了一系列定价:o1模型每分析约75万字收费15美元,每生成约75万字收费60美元,这一费用是其最新非推理模型GPT-4o的3—4倍。
OpenAI也宣布了将GPT-4o音频模型的API定价降低60%,降价后的价格为每100万输入Tokens(大模型数据的基本单元)收费40美元,每100万输出Tokens收费80美元。OpenAI即将正式上线的GPT-4o mini模型API定价更便宜,每100万输入和输出Tokens的价格分别为10美元和20美元。同时,GPT-4o mini的文本token费率也大幅下调,输入token的起步价为0.6美元,输出token起步价为2.4美元。
除了通过API推进商业化,OpenAI还在直播活动中推出了ChatGPT Pro这项月费200美元的新订阅服务。ChatGPT Pro主要针对需要高级AI能力的专业人士,允许他们无限制地使用包括o1在内的高级模型。
例如,所有ChatGPT付费用户均可通过ChatGPT选择切换至o1模型,而o1 pro版本则需要ChatGPT Pro用户才能直接访问。此外,现阶段Sora仅面向ChatGPT Plus和Pro两类会员用户开放,Plus用户每月享有50条视频生成配额,Pro用户则高达5000条。
来源:经济观察报