张一鸣重回一线?知情人士:说法不属实
近日,字节跳动创始人张一鸣经常往返北京和新加坡,尤为关注AI业务,从去年下半年开始,他每月会参加一次seed核心技术团队的复盘和讨论会。
近日,字节跳动创始人张一鸣经常往返北京和新加坡,尤为关注AI业务,从去年下半年开始,他每月会参加一次seed核心技术团队的复盘和讨论会。
今天,在FORCE原动力大会上,火山引擎正式发布豆包大模型1.6、豆包·视频生成模型 Seedance 1.0 pro、豆包·语音播客模型,豆包·实时语音模型在火山引擎全量上线,豆包大模型家族已成为拥有全模态、全尺寸、高性价比的领先模型。截至2025年5月底,
据介绍,它不仅 “看图”,还能 “用图思考”,开启了视觉与文本推理深度融合的问题求解方式。这种 “Thinking with Images” 的能力,使 o3 在视觉推理基准测试 V* Bench 上准确率飙升至 95.7%,刷新了多模态模型的推理上限。
近日,由浙江大学、阿里巴巴达摩院和湖畔实验室联合研究团队发表了一项突破性研究,探讨了多模态大语言模型(MLLMs)在第一人称场景中对物体的认知能力。这篇题为《EOC-Bench: Can MLLMs Identify, Recall, and Forecast
SmolVLM2 是由 Hugging Face 开发的一系列紧凑型但功能强大的大型模型,旨在为资源受限的设备(如智能手机和嵌入式系统)带来先进的语言和视觉语言处理能力。这些模型以其小型化设计著称,适合在设备上运行,填补了大型模型与小型设备性能差距的空白。本文
模型 模态 模态模型 smolvlm2 smolvlm2轻量 2025-05-30 09:23 7
自研大模型混元将迎来重大升级,基于腾讯自研大模型混元的首个端到端语音通话模型Hunyuan-Voice,最快将于今年6月上线腾讯元宝App,与字节跳动旗下的豆包AI视频通话功能形成正面竞争。
继不久前在2025腾讯云AI产业应用峰会上,腾讯方面宣布全面升级混元大模型矩阵产品,其中包括发布基于混元打造的首个端到端语音通话模型Hunyuan-Voice后。日前有消息源透露,Hunyuan-Voice最快将于今年6月上线腾讯元宝App,或意在与字节跳动旗
该混合架构将自回归与扩散模型的优势结合。 Salesforce Research、马里兰大学、弗吉尼亚理工、纽约大学、华盛顿大学的研究者在最新的研究(统一多模态模型 BLIP3-o)中也采用了自回归 + 扩散框架 。
模型 模态 开源 salesforce 模态模型 2025-05-22 17:48 6
该混合架构将自回归与扩散模型的优势结合。Salesforce Research、马里兰大学、弗吉尼亚理工、纽约大学、华盛顿大学的研究者在最新的研究(统一多模态模型 BLIP3-o)中也采用了自回归 + 扩散框架。
模型 模态 开源 salesforce 模态模型 2025-05-22 17:16 6
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
阶跃星辰创始人、CEO姜大昕向钛媒体AGI等透露,预计未来两、三个月(7-8月),阶跃星辰会发布满血版推理模型Step R1。同时,未来几个月,阶跃星辰还将发布更先进的Step图片编辑模型。
金融界 2025 年 4 月 26 日消息,国家知识产权局信息显示,福建紫讯信息科技有限公司申请一项名为“一种基于 AI 生成个性化口播的方法、装置、设备和介质”的专利,公开号 CN119864031A,申请日期为 2024 年 12 月。
目前我们见到的很多多模态大模型应用是「组合式」的:其中集成了数个单独预训练的组件,例如将视觉编码器连接到 LLM 上并继续进行多模态训练;而在谷歌 Gemin 2.0 推出之后,原生多模态模型(NMM)被认为是正确的方向。
模型 模态 模态模型 模型scalinglaws nmm 2025-04-12 18:09 9
实验表明,RFT 对特定任务的提升具有很高的数据效率。通过对样本有限的时空感知目标进行多任务 RFT,他们开发出了视频 MLLM——VideoChat-R1,其在不牺牲聊天能力的前提下,在时空感知任务上实现了 SOTA,同时展现了时空推理能力。与 Qwen2.
模态 论文 模态模型 laws scalinglaws 2025-04-12 13:41 10
人工智能(AI)近年来取得了令人瞩目的进展,尤其是大语言模型(LLM,Large Language Model)的崛起,使其成为科技竞赛的核心领域。然而,对于外行而言,理解AI的发展往往伴随着误解与夸大。本文将从外行的视角分析大语言模型的本质、应用前景、技术瓶
格隆汇3月27日|阿里巴巴(BABA.US)涨超2%,报134.91美元。消息面上,北京时间周四凌晨,阿里巴巴发布通义千问系列的最新旗舰模型Qwen2.5-Omni。这款端到端多模态模型专为广泛的多模态感知设计,能够处理文本、图像、音频和视频等多种输入,同时能
消息面上,北京时间周四凌晨,阿里巴巴发布通义千问系列的最新旗舰模型Qwen2.5-Omni。这款端到端多模态模型专为广泛的多模态感知设计,能够处理文本、图像、音频和视频等多种输入,同时能够通过生成文本和合成语音提供实时流式响应。模型性能方面,Qwen2.5-O
具身智能与大模型频频被提及,但具身智能 = 机器人 + 大模型吗?本文摘自北京邮电大学人工智能学院副教授陈光(@爱可可-爱生活)的新书《走进具身智能》,作者很明确地表示,大模型虽然是实现具身智能的重要工具,但并不是其全部。当前,包括英伟达、智源、智元等多家机构
OpenAI的全模态模型没来,谷歌的全模态图像生成器倒是抢先上线了!Gemini 2.0 Flash中上线的原生图像生成功能,动动嘴就能PS,还能轻松制作海报和表情包,动漫和漫画圈已经沸腾了。
R1-Omni能够更清楚地理解视觉和听觉信息如何促进情绪识别,能够明确展示哪些模态信息对特定情绪的判断起到了关键作用。与SFT(传统监督微调)相比,RLVR显著提高了情绪识别任务的性能,在同分布测试集(DFEW和MAFW)上,R1-Omni相较于原始基线模型平