模态模型资讯

张一鸣重回一线？知情人士：说法不属实

近日，字节跳动创始人张一鸣经常往返北京和新加坡，尤为关注AI业务，从去年下半年开始，他每月会参加一次seed核心技术团队的复盘和讨论会。

模态张一鸣字节模态模型 bamboo 2025-06-20 17:23 4

火山引擎发布豆包大模型1.6，全模态模型矩阵助力企业智能化升级

今天，在FORCE原动力大会上，火山引擎正式发布豆包大模型1.6、豆包·视频生成模型 Seedance 1.0 pro、豆包·语音播客模型，豆包·实时语音模型在火山引擎全量上线，豆包大模型家族已成为拥有全模态、全尺寸、高性价比的领先模型。截至2025年5月底，

模型模态模态模型豆包火山 2025-06-12 03:41 5

OpenAI 提升o3多模态模型推理实力，微美全息加速引领产业新变革征程

据介绍，它不仅 “看图”，还能 “用图思考”，开启了视觉与文本推理深度融合的问题求解方式。这种 “Thinking with Images” 的能力，使 o3 在视觉推理基准测试 V* Bench 上准确率飙升至 95.7%，刷新了多模态模型的推理上限。

模型模态推理全息模态模型 2025-06-10 13:37 5

EOC-Bench团队：多模态模型能预测第一视角物体吗？

近日，由浙江大学、阿里巴巴达摩院和湖畔实验室联合研究团队发表了一项突破性研究，探讨了多模态大语言模型(MLLMs)在第一人称场景中对物体的认知能力。这篇题为《EOC-Bench: Can MLLMs Identify, Recall, and Forecast

模型模态预测视角模态模型 2025-06-09 15:51 6

SmolVLM2轻量级视频多模态模型，应用效果测评(风景、事故、仿真、统计、文字、识物)

SmolVLM2 是由 Hugging Face 开发的一系列紧凑型但功能强大的大型模型，旨在为资源受限的设备（如智能手机和嵌入式系统）带来先进的语言和视觉语言处理能力。这些模型以其小型化设计著称，适合在设备上运行，填补了大型模型与小型设备性能差距的空白。本文

模型模态模态模型 smolvlm2 smolvlm2轻量 2025-05-30 09:23 7

腾讯混元大模型战略加速：全球首个全模态模型将于年内发布

自研大模型混元将迎来重大升级，基于腾讯自研大模型混元的首个端到端语音通话模型Hunyuan-Voice，最快将于今年6月上线腾讯元宝App，与字节跳动旗下的豆包AI视频通话功能形成正面竞争。

模型模态腾讯模态模型腾讯混元 2025-05-26 17:17 7

有消息称，腾讯或将在年内发布首个全模态模型

继不久前在2025腾讯云AI产业应用峰会上，腾讯方面宣布全面升级混元大模型矩阵产品，其中包括发布基于混元打造的首个端到端语音通话模型Hunyuan-Voice后。日前有消息源透露，Hunyuan-Voice最快将于今年6月上线腾讯元宝App，或意在与字节跳动旗

模型模态腾讯王迪模态模型 2025-05-26 16:36 6

自回归+扩散！Salesforce开源统一多模态模型BLIP3-o

该混合架构将自回归与扩散模型的优势结合。 Salesforce Research、马里兰大学、弗吉尼亚理工、纽约大学、华盛顿大学的研究者在最新的研究（统一多模态模型 BLIP3-o）中也采用了自回归 + 扩散框架。

模型模态开源 salesforce 模态模型 2025-05-22 17:48 6

Salesforce开源统一多模态模型BLIP3-o，图像理解与生成全拿下

该混合架构将自回归与扩散模型的优势结合。Salesforce Research、马里兰大学、弗吉尼亚理工、纽约大学、华盛顿大学的研究者在最新的研究（统一多模态模型 BLIP3-o）中也采用了自回归 + 扩散框架。

模型模态开源 salesforce 模态模型 2025-05-22 17:16 6

AI日报：腾讯AI智能编程插件CodeBuddy；字节推Seed1.5-VL多模态模型；Manus母公司否认15亿美元融资传闻

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

模态字节插件模态模型 manus母公司 2025-05-15 00:37 17

对话阶跃星辰CEO姜大昕：两年发布16款多模态模型，DeepSeek证明投流模式不成立｜钛媒体AGI

阶跃星辰创始人、CEO姜大昕向钛媒体AGI等透露，预计未来两、三个月（7-8月），阶跃星辰会发布满血版推理模型Step R1。同时，未来几个月，阶跃星辰还将发布更先进的Step图片编辑模型。

模型模态星辰钛媒体模态模型 2025-05-08 16:28 9

福建紫讯申请基于 AI 生成个性化口播专利，降低用户时间成本

金融界 2025 年 4 月 26 日消息，国家知识产权局信息显示，福建紫讯信息科技有限公司申请一项名为“一种基于 AI 生成个性化口播的方法、装置、设备和介质”的专利，公开号 CN119864031A，申请日期为 2024 年 12 月。

模态福建专利个性化模态模型 2025-04-26 10:13 9

苹果发现原生多模态模型ScalingLaws：早融合优于后融合

目前我们见到的很多多模态大模型应用是「组合式」的：其中集成了数个单独预训练的组件，例如将视觉编码器连接到 LLM 上并继续进行多模态训练；而在谷歌 Gemin 2.0 推出之后，原生多模态模型（NMM）被认为是正确的方向。

模型模态模态模型模型scalinglaws nmm 2025-04-12 18:09 9

DeepSeek-R1“思维学”；苹果：原生多模态模型的Scaling Laws｜今日热门论文

实验表明，RFT 对特定任务的提升具有很高的数据效率。通过对样本有限的时空感知目标进行多任务 RFT，他们开发出了视频 MLLM——VideoChat-R1，其在不牺牲聊天能力的前提下，在时空感知任务上实现了 SOTA，同时展现了时空推理能力。与 Qwen2.

模态论文模态模型 laws scalinglaws 2025-04-12 13:41 10

欧阳良宜 | 外行视角看AI的发展从工具到未来

人工智能（AI）近年来取得了令人瞩目的进展，尤其是大语言模型（LLM，Large Language Model）的崛起，使其成为科技竞赛的核心领域。然而，对于外行而言，理解AI的发展往往伴随着误解与夸大。本文将从外行的视角分析大语言模型的本质、应用前景、技术瓶

模型模态 llm 视角模态模型 2025-03-28 01:08 12

美股异动｜阿里巴巴涨超2% 通义千问发布最新端到端多模态模型Qwen2.5-Omni

格隆汇3月27日｜阿里巴巴(BABA.US)涨超2%，报134.91美元。消息面上，北京时间周四凌晨，阿里巴巴发布通义千问系列的最新旗舰模型Qwen2.5-Omni。这款端到端多模态模型专为广泛的多模态感知设计，能够处理文本、图像、音频和视频等多种输入，同时能

模型模态模态模型阿里巴巴端到端 2025-03-27 21:50 11

阿里巴巴盘前涨超1% 发布通义千问系列的最新旗舰模型Qwen2.5-Omni

消息面上，北京时间周四凌晨，阿里巴巴发布通义千问系列的最新旗舰模型Qwen2.5-Omni。这款端到端多模态模型专为广泛的多模态感知设计，能够处理文本、图像、音频和视频等多种输入，同时能够通过生成文本和合成语音提供实时流式响应。模型性能方面，Qwen2.5-O

模型模态音频模态模型阿里巴巴 2025-03-27 18:58 11

大模型和具身智能究竟是什么关系？

具身智能与大模型频频被提及，但具身智能 = 机器人 + 大模型吗？本文摘自北京邮电大学人工智能学院副教授陈光（@爱可可-爱生活）的新书《走进具身智能》，作者很明确地表示，大模型虽然是实现具身智能的重要工具，但并不是其全部。当前，包括英伟达、智源、智元等多家机构

模型模态智能模态模型人机交互 2025-03-27 14:42 12

截胡OpenAI，谷歌全模态模型首次解禁！Gemini 2.0中文唠嗑式P图

OpenAI的全模态模型没来，谷歌的全模态图像生成器倒是抢先上线了！Gemini 2.0 Flash中上线的原生图像生成功能，动动嘴就能PS，还能轻松制作海报和表情包，动漫和漫画圈已经沸腾了。

模型 gemini 谷歌模态模态模型 2025-03-13 15:33 11

阿里开源全模态模型！能识别喜怒哀乐，还给出详细推理过程

R1-Omni能够更清楚地理解视觉和听觉信息如何促进情绪识别，能够明确展示哪些模态信息对特定情绪的判断起到了关键作用。与SFT（传统监督微调）相比，RLVR显著提高了情绪识别任务的性能，在同分布测试集（DFEW和MAFW）上，R1-Omni相较于原始基线模型平

模型模态推理开源模态模型 2025-03-12 16:01 13