摘要:OpenAI CEO山姆·奥特曼刚刚宣布了两个重磅消息:一是ChatGPT用户将获得o3-mini的免费试用机会,Plus付费订阅会员享有更多使用额度;二是备受期待的首个智能体产品Operator研究预览版正式亮相。
Veryken前沿行业动态|AI·半导体·电子消费品|动力电池|储能|新能源汽车|光伏
【OpenAI发布首个AI智能体Operator,迈向AGI的重要一步】
OpenAI CEO山姆·奥特曼刚刚宣布了两个重磅消息:一是ChatGPT用户将获得o3-mini的免费试用机会,Plus付费订阅会员享有更多使用额度;二是备受期待的首个智能体产品Operator研究预览版正式亮相。
Operator是OpenAI首款真正模拟人类操作网页浏览器的AI助手,能自动完成预订旅行住宿、餐厅预约和在线购物等复杂任务。用户可以在多个类别中选择不同的自动化任务,涵盖购物、配送、餐饮和旅行等领域。这项功能将率先向订阅200美元Pro计划的美国用户开放,随后逐步扩展至Plus、Team和Enterprise级别用户。
技术层面,Operator采用远程云端浏览器执行任务,无需依赖网站API。它通过截图识别界面元素,规划后续动作,形成“观察-计划-执行”的闭环,直至完成任务。系统支持多任务并行处理,运行效率高,且能保持登录状态。
在安全与隐私保护方面,Operator采用了多层保护机制。首先,Operator在向浏览器输入敏感信息时会请求用户接管,不会收集或截取用户输入的信息。其次,Operator在完成任何重要操作前会征求用户批准,拒绝某些敏感任务,并在特别敏感的网站上要求密切监督其行为。此外,用户可以在ChatGPT设置中关闭“为所有人改进模型”,一键删除所有浏览数据并退出所有网站,确保数据隐私。
未来OpenAI计划通过API揭示驱动Operator的模型,以便开发者可以使用它来构建自己的computer use智能体。OpenAI还将继续提高Operator处理更长、更复杂工作流程的能力,并将其扩展到更多用户。一旦在安全性与大规模可用性方面建立信心后,OpenAI将把该功能直接集成到ChatGPT中,实现无缝的实时和异步任务执行。
【DeepSeek开源最强推理模型R1】
OpenAI的o1模型自发布以来一直以其卓越的性能和广泛的应用场景引领行业,然而幻方量化近日发布的国产大模型DeepSeek-R1向其发起挑战,在数学、代码、自然语言推理等任务上性能比肩OpenAI o1正式版。在AIME 2024、MATH-500和SWE-bench Verified测试中,DeepSeek-R1的比分均高于OpenAI o1。
DeepSeek-R1的特点在于其在后训练阶段大规模使用了强化学习技术。在仅有极少标注数据的情况下,该模型通过强化学习极大提升了推理能力。DeepSeek-R1遵循MIT License,允许用户通过蒸馏技术训练其他模型,这意味着开发者可以利用其模型权重,通过模型蒸馏等方式训练出更小但同样强大的模型,进一步推动AI技术的开放和共享。
与OpenAI o1的API定价相比,DeepSeek-R1的API服务定价具有高性价比。每百万输入tokens 1元(缓存命中)/4元(缓存未命中),每百万输出tokens 16元。
VeryKen智评:DeepSeek-R1的发布不仅展示了中国在AI领域的快速发展和竞争力,也预示着未来随着更多国产大模型的涌现,AI技术将在更多领域实现应用和创新,推动AI技术的开放和共享。(极客公园,机器之心,量子位,雷峰网,爱范儿)
【Kimi k1.5模型发布,追平满血版o1模型】
月之暗面刚刚推出多模态思考模型Kimi k1.5,该模型在数学、代码、多模态推理能力等方面全面对标OpenAI o1,成为OpenAI之外首个多模态o1模型。特别是在short-CoT模式下,Kimi k1.5大幅领先GPT-4o和Claude 3.5 Sonnet,提升幅度高达550%。
Kimi k1.5在训练中全面探索了强化训练技术、多模态数据配方和基础设施优化。提出了有效的Long2short技术,利用Long-CoT技术改进Short-CoT模型。设计了简单而有效的RL框架,包括长上下文scaling和改进的策略优化。这些技术突破使Kimi k1.5在处理复杂任务时不仅性能出色,而且在推理能力上也有显著提升。
Kimi技术团队同步发布了详细的技术报告,展示了他们在新技术范式下的模型训练技术探索之路。这种技术透明度在当前竞争激烈的大模型市场上并不多见。月之暗面表示,他们希望通过公开技术细节,吸引更多技术人才加入,共同推动AI技术的发展。
VeryKen智评: Kimi k1.5的发布标志着国产大模型在性能和技术创新上取得了重要突破。不仅为AI领域带来了新的竞争格局,也为开发者和企业提供了更强大的工具和更经济的选择。月之暗面表示,2025年将继续加速升级k系列强化学习模型,带来更多模态、更多领域的能力和更强的通用能力。(机器之心,爱范儿,财联社)
【豆包1.5 Pro发布,百万token仅需8毛,中文实时语音通话断崖式领先】
字节跳动旗下的豆包大模型近日发布1.5 Pro版,带来显著的性能提升和创新功能。豆包1.5 Pro采用MoE架构,仅用较小的激活参数就能达到世界一流模型的性能,性能杠杆达到7倍。这一技术突破使豆包在处理复杂任务时更加高效,同时保持了较低的推理成本。豆包1.5 Pro的数据生产体系高度自主,不使用任何其他模型的数据,确保了数据来源的独立性和可靠性。多模态能力也得到了全面提升,包括视觉和语音等方面。特别是豆包App更新了实时语音通话功能,在中文语音对话方面做到了断崖式领先,为终端用户带来了智商与情商双高的实时语音助手和聊天伙伴。
这一功能基于最新的豆包实时语音大模型,实现端到端的语音对话,语音表现力、控制力和情绪承接能力显著提升。用户对豆包此次上线的全新语音通话功能整体满意度为4.36/5,相比GPT-4o的3.18/5,豆包在语音语气自然度和情绪饱满度方面有明显优势。
豆包实时语音大模型采用创新的端到端框架,使用原生方法深度融合语音与文本模态进行统一建模,实现从多模态输入直接到多模态输出的效果。这一技术不仅提升了语音对话的自然度和流畅度,还赋予了AI语音对话“灵魂”。
在使用成本方面,豆包1.5 Pro表现出极高的性价比。32k上下文长度的Doubao-1.5-pro处理1000 token仅需0.0008元,换算下来,处理100万token仅需8毛钱。输出1000 token也只需0.002元。256k上下文长度的模型定价更高,但能支持更复杂的任务。即便在如此低的定价下,豆包大模型在火山引擎上以API形式提供Doubao-1.5-pro仍拥有高达50%的毛利率。
VeryKen智评:豆包1.5 Pro的更新和实时语音通话功能的上线,不仅提升了豆包的性能和用户体验,也为AI行业的发展树立了新的标杆,预示着未来AI技术将在更多领域实现应用和创新,推动人机交互方式的变革。(量子位,机器之心)
【字节跳动启动AGI长期研究计划】
字节跳动的豆包大模型团队组建了AGI长期研究团队“Seed Edge”,旨在探索具有长期性、不确定性和大胆创新的AGI研究课题。“Seed Edge”鼓励跨模态、跨团队合作,提供宽松研究环境与长周期考核方式,保障挑战颠覆性课题,并有单独算力资源保障。
该团队初步确定五大研究方向:推理与感知能力边界、软硬一体模型设计、下一代AI学习范式及scaling方向。字节跳动加码大模型底层研究,提供算力资源、网罗顶尖人才、打造长期主义研究环境。去年5月“Top Seed人才计划”启动,招募顶尖博士毕业生,团队成果丰硕,57篇论文入选顶会,与近20所高校合作成立联合实验室。字节跳动的战略决心与行动为AI预训练和基础研究注入新活力,有望推动AGI技术取得突破性进展。(机器之心)
【清华复旦斯坦福联手推出智能体开发框架,抢先OpenAI】
在人工智能领域,一场关于智能体开发的竞赛悄然拉开帷幕。OpenAI计划推出的“Operator”虚拟员工计划尚未落地,清华、复旦和斯坦福的研究者们便联合推出了名为“Eko”的Agent开发框架,抢先一步实现了让AI代理自主执行任务的目标。
“Eko”框架的核心技术创新在于其混合智能体表示,它巧妙结合了自然语言与程序语言,使开发者能用简洁的代码和自然语言快速构建可用于生产的“虚拟员工”。该框架的跨平台特性得益于其环境感知架构,能同时支持浏览器、电脑以及浏览器插件的使用,极大拓展了其应用场景。此外“Eko”还提供了显性的生产级干预机制,确保智能体工作流可以随时被中断和调整,从而保障人类对生产级智能体工作流的有效监管和治理。
“Eko”的环境感知架构由通用核心、环境特定工具和环境桥接三个关键层次构成。通用核心提供了与环境无关的基本功能,如工作流管理、工具注册管理、LLM集成和钩子系统。环境特定工具则为每种环境提供了优化的工具集,以满足不同场景下的需求。环境桥接负责环境的检测、工具注册、资源管理和安全控制,确保不同平台之间能顺利互动和通信。
层次化规划是“Eko”的另一大亮点。该框架将任务的拆解分为Planning layer和Execution layer两个层次。Planning layer负责将用户的需求和现有工具集拆解成一个有领域特定语言表示的任务图,而Execution layer则根据每个任务调用LLM来合成具体的执行行为和工具调用。
视觉-交互要素联合感知框架(VIEP)是“Eko”在浏览器感知方面的创新解决方案。它通过将视觉识别与元素上下文信息结合,显著提升了在复杂网页中的任务精度和效率。
生产级的可干预机制是“Eko”框架的又一重要特性。开发者可以在Workflow执行前后插入自己的逻辑,如验证输入、处理结果、重试失败的任务等。Eko提供了三种不同层级的钩子,包括工作流钩子、子任务钩子和工具钩子,这些钩子不仅可以帮助开发者实时优化工作流,提高自动化系统的精度和效率,还能支持更创新的使用场景,如在关键任务执行时暂停工作流等待人工审批,或在AI决策出现问题时进行人工干预。
VeryKen智评:“Eko”框架的出现为AI开发者和自动化使用者提供了一个灵活高效的工具,有助于将虚拟员工更便捷地部署到实际生产环境中,从而提升工作效率和质量。(机器之心,量子位)
【OpenAI发布AI Agent测试功能】
OpenAI近日推出名为“Tasks”的AI Agent测试功能,该功能使ChatGPT能自动处理各种任务,包括一次性提醒和重复性动作。用户只需向ChatGPT说明需求和时间,它就能实现自动化处理,例如每天早晨7点获取天气预报或定时提醒遛狗等日常事项。该功能的推出,让ChatGPT从一个对话式AI向具备行动执行能力的智能体转变。
要启用“Tasks”功能,用户需要在ChatGPT的模型选择器中选择“4o with scheduled tasks”。所有任务均可在对话界面或网页版个人档案的Tasks专区进行管理,任务完成后,系统会通过网页端、桌面端和移动端向用户推送提醒。每位用户可同时运行最多10个任务。目前Tasks功能已支持ChatGPT网页版、iOS、Android和MacOS平台,但Windows版本将于第一季度晚些时候推出。
用户对“Tasks”功能的反响不一。一些用户认为这是OpenAI Operator的雏形,推测其为向非技术型用户介绍Agent的开始。还有网友发现OpenAI可能在开发代号为“Caterpillar”的功能,与Tasks集成。(爱范儿,量子位)
【谷歌新架构“Titans”打破Transformer记忆瓶颈】
Transformer架构自2017年推出后对AI行业产生了深远影响。然而随着AI应用的不断拓展,Transformer在处理长上下文时的局限性逐渐显现。近日谷歌推出全新架构“Titans”,旨在突破这一瓶颈,将推理领域重要的测试时计算应用于记忆层面。
Titans架构的创新
Titans的核心创新在于其长期神经记忆模块。该模块能学习记忆历史上下文,帮助注意力机制在利用过去信息的同时处理当前上下文。与传统的注意力机制相比,长期神经记忆模块具有快速并行化训练的优势,同时还能保持快速推理。谷歌通过三种变体将记忆融合到系统架构中:记忆作为上下文(MAC)、记忆作为门(MAG)和记忆作为层(MAL)。这些变体有效地将记忆融入到深度学习架构中,显著提升了模型的性能。
性能表现
Titans架构在多项实验中展现了卓越的性能。在语言建模、常识推理、基因组学和时序预测任务上,Titans架构比Transformer和近年来的现代线性循环模型更有效。特别是在大海捞针任务中,Titans架构能有效扩展到超过200万tokens的上下文窗口,并且比基准模型实现了更高的准确性。此外,即使没有短期记忆(即注意力),长期记忆模块(LMM)本身也在多个任务上击败基线,证明了其独立学习的能力。
团队背景与影响
论文作者之一钟沛林为谷歌NYC算法与优化团队的研究科学家,本科毕业于清华姚班,博士毕业于哥伦比亚大学。Titans架构的推出不仅在技术上突破了Transformer的局限,也为未来的AI模型设计提供了新的思路和方向。这一创新有望推动AI行业在长上下文处理和记忆管理方面的发展,为更复杂的AI应用提供支持。(机器之心,量子位)
【OpenAI即将推出o3 mini推理AI模型】
OpenAI CEO山姆·奥特曼近日称o3 mini推理AI模型将在几周内发布。o3 mini是OpenAI即将推出的新一代推理AI模型的蒸馏版,旨在为用户提供更快、更高效的AI服务。根据奥特曼的透露,o3 mini将同时推出API和网页端版本,以满足不同用户的需求。此次发布将包括high、medium、low三个版本,以适应不同性能和成本效益的需求。尽管o3 mini的性能表现可能会逊于o1-pro,但速度更快,特别是在编程方面更具成本效益。
此外奥特曼透露了OpenAI的未来规划,希望在今年将GPT系列模型和o系列推理模型合并,从而为用户提供更统一、更强大的AI服务体验。而对于GPT-5,奥特曼仍未给出具体的时间表和性能指标。
值得注意的是,奥特曼还提到AGI(通用人工智能)的计算需求,称AGI需要872兆瓦的计算功率。这一数据引发行业对AGI进展的广泛猜测,暗示OpenAI可能已在AGI领域取得了重要进展。(机器之心,财联社)
【MiniMax开源新模型突破Transformer架构,支持400万超长上下文,性能比肩顶级模型】
2025年被多位AI业界重要人物预测为AI Agent(智能体)之年,在此背景下MiniMax近日开源其最新基础语言模型MiniMax-Text-01和视觉多模态模型MiniMax-VL-01。
MiniMax-Text-01和MiniMax-VL-01的最大亮点是首次大规模实现新的线性注意力机制Lightning Attention,使输入的上下文窗口大幅变长,一次可处理400万token,是其他模型的20-32倍。该机制将Transformer的计算复杂度从二次复杂度大幅下降到线性复杂度。MiniMax-Text-01拥有4560亿参数,每次推理激活459亿参数。在多个基准测试中表现优异,如在GPQA Diamond上获得54.4分,超越GPT-4o。在长上下文理解任务上,当上下文长度超过128k时,其优势明显显现。
MiniMax-VL-01采用“ViT-MLP-LLM”框架,具有动态分辨率功能,可根据预设网格调整输入图像的大小。其在多模态排行榜上的突出表现,证明了其在处理复杂多模态任务中的优势和可靠性。
MiniMax成立于2021年,已完成四轮融资,估值25亿美元,成为国内AI“六小龙”之一。其商业化形式包括开放平台和产品内广告机制。新模型的发布有望加速MiniMax在AI大模型商业化变现方面的进程。长上下文能力与多模态处理能力的提升,是AI Agent为各行业带来更丰富、高效、智能解决方案的必要条件,也是MiniMax 01系列模型的最大亮点。受益于架构创新和算力优化,MiniMax API服务的标准定价较低,输入token 1元/百万token,输出token 8元/百万token。(机器之心,量子位)
【特朗普联手奥特曼启动AI“星际之门”计划】
1月22日,特朗普在白宫新闻发布会上宣布与OpenAI CEO 山姆·奥特曼、软银CEO孙正义等联合启动名为“星际之门”(Stargate Project)的AI项目。该项目计划在未来四年内投资5000亿美元,首轮立即投入1000亿美元,旨在确保美国在AI领域的领导地位,创造数十万个就业机会,并为全球带来巨大的经济效益。
“星际之门”项目由OpenAI和软银牵头,软银负责财务,OpenAI负责运营。软银CEO孙正义将担任董事长。Arm、微软、英伟达、甲骨文等将作为关键技术合作伙伴,共同参与项目建设。建设工作率先在得克萨斯州启动,后续将扩展至美国其他州。甲骨文、英伟达和OpenAI将紧密合作,构建和运营这一计算系统。
微软在该项目中角色发生变化,调整与OpenAI合作条款,不再是其计算能力的独家提供商,但保留为OpenAI提供API的独家权利,并在OpenAI寻求额外计算能力时拥有优先合作权。这一变化标志着OpenAI在底层计算上试图掌握更多主动权。
VeryKen智评:“星际之门”计划的宣布不仅展示了OpenAI在AI领域的雄心壮志,也反映了美国在AI基础设施建设上的重大投入。这一项目如果顺利实施,将极大地推动AI技术的发展和应用,提升美国在全球AI竞争中的地位,然而其还需克服资金、技术和政策等多方面的挑战。马斯克和Anthropic CEO Dario Amodei也对星际之门计划的资金落实和清晰度提出质疑,认为项目“有点混乱”,不清楚实际涉及多少资金以及特朗普政府将以何种方式参与该项目。(机器之心,量子位,华尔街见闻)
【面壁智能开源端侧模型,8B参数实现音视听全SOTA】
在AI技术快速发展的今天,AI正从云端走向终端设备,成为产品力的基准线。面壁智能近日发布了新模型MiniCPM-o 2.6,仅用8B参数就实现了性能接近OpenAI GPT-4o的突破,在iPad上就能跑。作为全球首个达到GPT-4o水平的本地AI,MiniCPM-o 2.6展现了超越云端模型的全方位感知能力,能像人一样看视频、听声音、读文字,还能说会道,反应迅速无卡顿。在官方演示中,它能在观众提问前就追踪小球的位置,准确记住每张牌的图案和位置,展现了强大的实时流式视频理解能力。
MiniCPM-o 2.6的技术突破主要体现在三个方面:端到端全模态流式架构、低延迟模态并发技术、端到端全模态流式学习。基于语言行为理论,模型不只是简单处理信息,而是理解说话人的社会意图,通过多模态环境学习和角色扮演,实现更高级的语义理解。
在性能表现上,MiniCPM-o 2.6在多个榜单上取得了优异的成绩:
在实时流式视频理解能力的代表榜单StreamingBench上,MiniCPM-o 2.6性能比肩GPT-4o、Claude 3.5 Somnnet。
在语音理解方面,超越Qwen2-Audio 7B,实现通用模型开源SOTA。
在语音生成方面,MiniCPM-o 2.6超越GLM-4-Voice 9B,实现通用模型开源SOTA。
VeryKen智评:这一成果不仅展示了面壁智能在端侧AI技术上的领先地位,也为AI硬件的发展提供了新的思路和方向。随着端侧AI技术的不断进步,未来AI硬件将更加智能、便捷,为用户带来更好的体验。据IDC预测,2024年中国终端设备市场中将有超过半数的设备在硬件层面具备针对AI计算任务的算力基础,至2027年该比例将升至接近80%。面壁智能CEO李大海表示,MiniCPM-o 2.6将重点关注具身化属性较强的设备,公司已与多家企业建立合作关系,业务版图延伸至智能座舱、机器人、端云协同等多个领域。(爱范儿,机器之心,量子位)
机器人【宇树推G1足球机器人,专为机器人世界杯打造】
机器人世界杯(RoboCup)自1997年在日本举办第一届以来,已成为机器人领域的重要国际活动,其目标是到2050年开发出能赢得人类足球世界冠军队的完全自主机器人队伍。近日宇树科技推出G1人形机器人足球赛事应用方案Unitree G1-Comp,向这一目标的实现迈出了重要一步。
Unitree G1-Comp是宇树科技G1人形机器人的首个应用方案,被称作“为赛事打造的足球巨星”。G1-Comp身高130cm、体重35kg,续航约两小时,拥有25-45个关节电机。在技术上,G1-Comp在头部自由度和视觉能力上完成了较大升级,深度相机配合头部2自由度可实现180°视野覆盖,使其在足球场上的表现更加出色。G1-Comp不仅提供了强化学习框架,还提供了RoboCup SDK开发指南,包含三个API:视觉识别API、空间定位API、运动控制API。
在性能表现上,G1-Comp能在足球场地上做出奔跑、转身、转圈等基础动作,通过头部摄像头精准锁定目标足球完成推射。即使在与其他机器人相撞后,G1-Comp仍能保持较好的稳定性,并且在倒地后能够自主起身。
宇树G1自去年5月诞生以来进行了诸多升级,展示了中国功夫、做饭煎蛋、徒手砸核桃、一掌劈开瓶装可乐瓶等多种技能。今年8月北京将举办以人形机器人参赛为主的主体赛事,其在足球赛事中的应用方案进一步拓展了人形机器人的应用场景,为人形机器人的未来发展提供了更多可能性。(量子位,财联社)
来源:放牛班的秘密花园