智能周报｜模型公司的反扑

摘要：模型进步会为应用层创造更多可能，这些可能最初主要被新进入市场的小型创业团队捕捉，一旦验证可行，大公司或模型层公司就会迅速进入。这个模式一再得到验证，从最初的ChatBot到现在的Agent。

撰文 | 新皮层小组

编辑 | 吴洋洋

模型进步会为应用层创造更多可能，这些可能最初主要被新进入市场的小型创业团队捕捉，一旦验证可行，大公司或模型层公司就会迅速进入。这个模式一再得到验证，从最初的ChatBot到现在的Agent。

字节跳动旗下的AI原生应用豆包本周正式上线了AI播客功能，可以把用户上传的任何文章直接变成两人对谈的有声播客，并且音色和聊天氛围都自然得与真人相当。字节当然不是最先做AI播客的公司，在它这么做之前，市面上已经有不少把无声文章变成有声广播的应用了。字节用自己的技术改进了这一功能的用户体验，然后用它已有的用户规模收割了这一市场。

类似的例子还有MiniMax，它不是大公司的代表，但是典型的模型层公司。本周之前，它还潜伏在AI社交这个单一细分市场，随着刚刚过去一周的模型更新，它一下子端出了从通用Agent到视频Agent的一系列新应用，在应用场景和调用成本两个层面冲击已有不少玩家的Agent市场。

在DeepSeek之后，再投入训练基座模型的必要性一度被怀疑，一些公司也就此放弃了继续训练基座模型，转守应用领域。然而事实再次证明，模型即应用、模型即Agent，模型就是一切。

以下内容由「新皮层」团队制作，欢迎关注。

Key Points

模型与应用

Anthropic发布多智能体系统，Agent之间能相互协作；

豆包正式上线AI播客，声音自然到像真人聊天；

MiniMax发布多款模型，计划赴港IPO；

Midjourney推出首款图生视频模型V1；

Prada也要与Meta合作开发AI眼镜；

大公司动态

Google、xAI计划与Scale AI断绝关系；

Waymo申请在纽约曼哈顿测试自动驾驶出租车；

萝卜快跑计划进入新加坡和马来西亚。

模型与应用

Anthropic发布多智能体系统，Agent之间能相互协作

6月13日，Anthropic推出多智能体研究系统（multi-agent research system），它由多个Agent（或大语言模型）组成，能以循环的方式自主使用工具。系统采用「协调者-工作者」架构，主导agent（协调者）负责分析任务、制定策略，并根据任务生成不同的子agent（工作者），子agent负责筛选和收集信息。Anthropic称，多智能体系统适合解决复杂的研究型任务，尤其在广度优先的任务中表现出色，因为这些任务往往难以提前预测步骤、需要动态调整方向。Anthropic内部测评数据显示，以Claude Opus 4模型为「协调者」、Claude Sonnet 4模型为「工作者」的系统，相较于使用Claude Opus 4的单智能体，性能高出90.2%。

豆包正式上线AI播客

6月17日，豆包上线了一个叫AI播客的功能，用户只需上传文档或者输入文章的网页链接，即可一键生成一段由AI双人对话构成的播客类音频。与去年9月Google在NotebookLM中上线的AI播客中主播生硬的念稿感相比，豆包播客要自然得多，而且，连晦涩的英文技术论文它也能将其变成播客。例如，将字节跳动Seed-TTS团队一篇18页的英文技术论文发送给豆包或扣子，即可收获一段两人对谈讲解论文的中文播客，时长3分56秒。开头的前奏音乐也由播客模型自动生成，两位AI主播对话的过程中，男女声的音色与音调都比较自然，还会模仿人说「然后」「这个」等连接词，自然程度堪比OpenAI去年5月发布GPT-4o模型时展示的对话能力。

MiniMax发布多款模型，计划赴港IPO

6月18日，有报道称，MiniMax正考虑赴香港首次公开募股（IPO），目前仍处于初步筹备阶段。本周是MiniMax的新品发布周，6月17日，MiniMax发布其首个推理模型MiniMax-M1并宣布开源，接下来3天，它又陆续发布了视频生成模型Hailuo 02、通用智能体MiniMax Agent以及视频制作智能体Hailuo Video Agent。其中，MiniMax Agent可自动生成文本材料、制作带音频的学习教程、制作网页小游戏、为手机设计投放在电商平台的广告界面；Hailuo Video Agent可以直接将创意转化为视频，例如，用户想记录两个人的恋爱生活，只需上传一张清晰的情侣合照，并用文字简单描述两个人的故事，即可生成自己喜欢的风格的恋爱纪录片。

Midjourney推出首款图生视频模型V1

6月19日，Midjourney宣布推出图生视频模型V1，可直接将图片转为视频，图像可以由用户上传，也可以由Midjourney生成。V1单次可生成时长5秒的视频，用户可以通过点击「延长」来生成更长的视频，单次可延长4秒，最长可生成21秒的视频。目前，市面上很多AI图像和视频公司的目标是开发用于商业环境的更可控的模型，但Midjourney更关注创造力而非直接的商业应用。Midjourney称，公司的目标是构建能够实时模拟开放世界的模型，本次发布是该目标的一部分，未来还计划开发用于制作3D渲染的模型。

Prada也要与Meta合作开发AI眼镜

6月17日，有报道称，Meta将与奢侈品品牌Prada合作开发AI眼镜。有Meta前员工表示，Prada多款眼镜的镜框和镜腿的衔接部分都设计得较为厚重，这种设计有利于Meta在眼镜贴近太阳穴的部位塞进更多电子元器件。2023年，Meta曾与意大利眼镜厂商Essilor Luxottica旗下子品牌Ray-Ban合作推出AI眼镜Ray-Ban Meta，价格在250美元至550美元，这款眼镜支持拍照、录像、通话、音乐播放、实时翻译等功能。目前Ray-Ban Meta已售出超200万副，Meta希望到2026年年底其产量能达到1000万台以上。Meta当前还在为Ray-Ban策划高端AI眼镜型号「Hypernova」，定价1000美元以上。与Prada合作的消息曝出的前一天，Meta还宣布为Essilor Luxottica旗下的另一子品牌Oakley开发AI眼镜，目标售价360美元。

大公司动态

Google、xAI计划与Scale AI断绝关系

6月14日，有报道称，由于担心竞争对手、Scale AI的新晋大股东Meta窃取其数据机密，Google正在把其数据标注订单从Scale AI转移到其他公司。此前，Meta以143亿美元的价格收购了Scale AI 49%的股份，Scale AI的创始人Alexandr Wang还将辞去职务，加入Meta担任人工智能事业部的高管。Google是Scale AI的最大客户，后者2024年8.7亿美元的收入中，有1.5亿美元来自Google。出于与Google相同的考虑，微软和马斯克的xAI也在考虑将数据标注业务从Scale AI转移至其他公司。此前，OpenAI已经终止了其在Scale AI的多数订单。随着推理模型对示例类数据的标注需求的激增，后训练中一条复杂示例的标注成本甚至可能高达100美元。

Waymo申请在纽约曼哈顿测试自动驾驶出租车

6月18日，有报道称，Alphabet旗下的自动驾驶公司Waymo已向纽约市交通部申请许可，计划在曼哈顿地区开展自动驾驶车辆测试。由于目前纽约州的法律不允许车辆在无人驾驶的情况下行驶，Waymo在初期阶段并不会向公众开放完全的无人驾驶出租车服务。届时，经过培训的人类安全员将在驾驶座监督自动驾驶车辆的运行。Waymo还表示，它正在推动修改法律，希望纽约市能允许其出租车在曼哈顿自动驾驶，但司机座位上会有安全员。5月24日，Waymo宣布已完成1000万次无人驾驶行程，覆盖奥斯汀、洛杉矶、旧金山和凤凰城等美国城市。从500万次翻倍到1000万次，Waymo仅用了5个月的时间，并且这些行程均为付费行程。

萝卜快跑计划进入新加坡和马来西亚

6月20日，有报道称，百度旗下自动驾驶出租车部门萝卜快跑计划最早于2025年年底将业务拓展至东南亚市场，重点覆盖新加坡和马来西亚。萝卜快跑目前正与当地潜在合作方接洽，商讨最适合两国市场的运营模式。百度CEO李彦宏曾表示，萝卜快跑出海将推行轻资产策略，寻求与出行平台、本地出租车公司及第三方车队运营方合作，以加快项目落地与监管对接。目前，新加坡已经允许自动驾驶车辆在公共道路上测试，并且推出了相关监管体系（比如由陆路交通管理局LTA主导安全标准），以推动自动驾驶企业在新加坡顺利落地。根据萝卜快跑披露的数据，截至2025年第一季度，萝卜快跑累计服务行程达1100万次，覆盖了国内包括北京、上海、深圳在内的13座城市以及迪拜和阿布扎比两座海外城市。

来源：第一财经YiMagazine

标签：模型 meta 播客周报 agent

本文地址：https://news.43u.com.cn/a/2073456.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!