AI日报:腾讯AI智能编程插件CodeBuddy;字节推Seed1.5-VL多模态模型;Manus母公司否认15亿美元融资传闻
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
阶跃星辰创始人、CEO姜大昕向钛媒体AGI等透露,预计未来两、三个月(7-8月),阶跃星辰会发布满血版推理模型Step R1。同时,未来几个月,阶跃星辰还将发布更先进的Step图片编辑模型。
金融界 2025 年 4 月 26 日消息,国家知识产权局信息显示,福建紫讯信息科技有限公司申请一项名为“一种基于 AI 生成个性化口播的方法、装置、设备和介质”的专利,公开号 CN119864031A,申请日期为 2024 年 12 月。
目前我们见到的很多多模态大模型应用是「组合式」的:其中集成了数个单独预训练的组件,例如将视觉编码器连接到 LLM 上并继续进行多模态训练;而在谷歌 Gemin 2.0 推出之后,原生多模态模型(NMM)被认为是正确的方向。
模型 模态 模态模型 模型scalinglaws nmm 2025-04-12 18:09 5
实验表明,RFT 对特定任务的提升具有很高的数据效率。通过对样本有限的时空感知目标进行多任务 RFT,他们开发出了视频 MLLM——VideoChat-R1,其在不牺牲聊天能力的前提下,在时空感知任务上实现了 SOTA,同时展现了时空推理能力。与 Qwen2.
模态 论文 模态模型 laws scalinglaws 2025-04-12 13:41 5
人工智能(AI)近年来取得了令人瞩目的进展,尤其是大语言模型(LLM,Large Language Model)的崛起,使其成为科技竞赛的核心领域。然而,对于外行而言,理解AI的发展往往伴随着误解与夸大。本文将从外行的视角分析大语言模型的本质、应用前景、技术瓶
格隆汇3月27日|阿里巴巴(BABA.US)涨超2%,报134.91美元。消息面上,北京时间周四凌晨,阿里巴巴发布通义千问系列的最新旗舰模型Qwen2.5-Omni。这款端到端多模态模型专为广泛的多模态感知设计,能够处理文本、图像、音频和视频等多种输入,同时能
消息面上,北京时间周四凌晨,阿里巴巴发布通义千问系列的最新旗舰模型Qwen2.5-Omni。这款端到端多模态模型专为广泛的多模态感知设计,能够处理文本、图像、音频和视频等多种输入,同时能够通过生成文本和合成语音提供实时流式响应。模型性能方面,Qwen2.5-O
具身智能与大模型频频被提及,但具身智能 = 机器人 + 大模型吗?本文摘自北京邮电大学人工智能学院副教授陈光(@爱可可-爱生活)的新书《走进具身智能》,作者很明确地表示,大模型虽然是实现具身智能的重要工具,但并不是其全部。当前,包括英伟达、智源、智元等多家机构
OpenAI的全模态模型没来,谷歌的全模态图像生成器倒是抢先上线了!Gemini 2.0 Flash中上线的原生图像生成功能,动动嘴就能PS,还能轻松制作海报和表情包,动漫和漫画圈已经沸腾了。
R1-Omni能够更清楚地理解视觉和听觉信息如何促进情绪识别,能够明确展示哪些模态信息对特定情绪的判断起到了关键作用。与SFT(传统监督微调)相比,RLVR显著提高了情绪识别任务的性能,在同分布测试集(DFEW和MAFW)上,R1-Omni相较于原始基线模型平
昨天还看到有人拉踩 deepseek v3 的时候说 deepseekv3 缺少多模态能力,除夕 deepseek 就发了 Janus-Pro, 一个7B 的多模态模型,可以进行多模态理解和生成。
DeepSeek深夜再放大招,将其在AI相关基准测试中击败了包括Open AI在内多个统一的多模态大语言模型的7B参数人人可用的视觉多模态模型Janus-Pro-7B开源。据官方介绍JanusFlow引入了一种极简架构,它将一种最先进的生成模型方法相集成。
模态 模态模型 deepseek深夜 2025-01-29 00:10 15
这一全模态模型不仅能同时支持文本、图像、音视频全模态理解,还支持文本、音频双模态生成。与此同时,百川还开源了两个评测集,助力国内全模态模型研发生态蓬勃发展。
距离国产大模型做考研数学题“过线”刚过两个月,月之暗面在春节前一周,又扔出了一个分量十足的“王炸”——这一次,他们拿出了能媲美Open AI 满血版 o1(Full Version,而非 preview)的K1.5多模态模型,在文字和视觉两大领域实现了“超英赶
春节前最后一周,能媲美 Open AI 满血版 o1(Full Version,而非 preview)的模型终于出现了!刚刚,月之暗面公布了他们的 Kimi k 系列模型最新版本 ——k1.5 多模态思考模型。新模型在数学、代码、多模态推理能力等方面全面对标
随着人工智能(AI)技术的快速发展,一个长期存在的挑战愈发凸显:如何在模型规模、效率和性能之间找到平衡。传统上,模型越大,性能往往越强,但这也意味着对计算资源的要求更高,使得AI技术在广泛应用时面临障碍,尤其对于缺乏高端计算设备的组织和个人来说更是如此。而多模
在 2024 年的 NeurIPS 会议上,Ilya Sutskever 提出了一系列关于人工智能发展的挑战性观点,尤其集中于 Scaling Law 的观点:「现有的预训练方法将会结束」,这不仅是一次技术的自然演进,也可能标志着对当前「大力出奇迹」方法的根本
在 2024 年的 NeurIPS 会议上,Ilya Sutskever 提出了一系列关于人工智能发展的挑战性观点,尤其集中于 Scaling Law 的观点:「现有的预训练方法将会结束」,这不仅是一次技术的自然演进,也可能标志着对当前「大力出奇迹」方法的根本
近日,智源研究院发布并解读国内外100余个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果。