OpenAI发布o3模型,首创图像思维;豆包模型升级,能进行视觉推理

360影视 国产动漫 2025-04-23 13:25 3

摘要:OpenAI近期发布了新款AI模型o3和o4-mini,这标志着AI推理能力迈入了一个新阶段。新模型不仅能进行更长时间的思考以解决复杂问题,还首次将图像直接融入思维链,开启了视觉与文本推理相结合的新方式。它们能独立使用ChatGPT中的所有工具,包括网页搜索、

Veryken前沿行业动态|AI·半导体·电子消费品|动力电池|储能|新能源汽车|光伏

OpenAI近期发布了新款AI模型o3和o4-mini,这标志着AI推理能力迈入了一个新阶段。新模型不仅能进行更长时间的思考以解决复杂问题,还首次将图像直接融入思维链,开启了视觉与文本推理相结合的新方式。它们能独立使用ChatGPT中的所有工具,包括网页搜索、Python代码执行、图像理解和生成等,为解决多步骤复杂问题提供了更高效的方案。

核心亮点

推理能力大幅提升:o3和o4-mini是o系列迄今最智能的模型,推理能力显著增强,更适合处理复杂的多步骤问题。

图像融入思维链:模型首次实现“图像思维”,能将视觉信息直接整合进推理过程,支持图像处理功能如裁剪、旋转和缩放等。

工具使用更智能:新模型不仅知道如何使用工具,还能判断何时使用,以快速生成可靠答案。

性能与成本优化:o3和o4-mini在性能和成本效率上优于前代模型,提供了更经济高效的推理解决方案。

多模态推理:在多项基准测试中,新模型展现了卓越的视觉推理能力,准确率显著提升。

市场竞争影响

面对来自DeepSeek、Anthropic等公司的竞争压力,OpenAI通过不断提升模型性能和引入创新功能来巩固其市场地位。OpenAI的o3和o4-mini模型的推出,不仅代表了AI技术的又一次飞跃,也为创业者和投资者带来了新的机遇和挑战。

创业和投资机遇

对创业和行业投资者来说,OpenAI新模型的发布意味着AI应用开发的门槛进一步降低,同时拓展了AI技术的应用场景。o3和o4-mini的强大推理和视觉处理能力为开发者提供了更为强大的工具,可以更轻松地创建复杂的应用程序。无论是用于数据分析、内容生成还是自动化任务,这些模型都能显著提升应用的智能化水平和用户体验。

随着AI模型不断进化和应用场景的拓展,投资者可以关注那些能有效利用这些新技术的初创企业,尤其是在教育、医疗、金融和客服等领域。同时,随着AI技术的普及,相关的人才培养和教育项目也可能成为投资热点。(爱范儿,机器之心,华尔街见闻)

字节跳动旗下的豆包大模型近期迎来重大升级,推出豆包1.5深度思考模型及其视觉版,正式加入了多模态推理的赛道。豆包1.5具备强大的推理能力和多模态理解能力,能模拟人类的思考方式,结合视觉信息进行深度分析,为企业和开发者提供更高效的AI解决方案。这一新模型不仅在推理能力上达到了全球第一梯队,更通过创新的“边想边搜”和“视觉推理”功能,为AI 应用开发和创业投资带来了新的机遇。

豆包1.5深度思考模型的核心亮点

强大的推理能力:豆包1.5深度思考模型在数学推理、编程竞赛和科学推理等专业领域表现出色,分别在AIME 2024测试、Codeforces pass@8测试和GPQA测试中接近或追平了OpenAI的o3系列模型,达到全球第一梯队的水平。这使它能处理复杂的多步骤问题,为用户提供更准确、更深入的解决方案。

低延迟与高并发:采用MoE 架构,总参数200B 但激活参数仅20B,在保证强大性能的同时,实现了20毫秒的极低延迟,同时具备高并发承载能力,能够更好地支持实时交互场景,满足企业对快速响应的需求。

多模态理解:支持“边想边搜”和“视觉推理”,模型可以结合文本和图像信息进行综合分析。这使豆包1.5在处理需要空间、形态或动态变化的任务时具有显著优势。

丰富的应用场景:豆包1.5能应用于购物推荐、金融分析、旅游规划、医疗诊断辅助等多个领域,为企业提供了广泛的应用可能性。

创业和投资的新机遇

对于创业者而言,豆包深度思考模型提供了强大的技术支持,可以更轻松地开发出具有竞争力的AI 应用。其低延迟和多模态能力使其在教育、医疗、金融等多个领域具有广泛的应用前景。例如,在教育领域,可以开发个性化的学习辅导工具;在医疗领域,辅助医生进行诊断和治疗方案制定;在金融领域,用于风险评估和投资决策分析。

结合同时正式升级的豆包文生图3.0的能力,企业和创作者可以更高效地生成高质量的图像和设计内容,提升内容创作的效率和质量。

对于行业投资者来说,豆包深度思考模型的推出意味着AI 技术的进一步成熟和市场潜力的扩大。投资于相关的创业项目和技术研发,有望获得显著的回报。同时,随着AI 技术的不断发展,那些能够有效利用这些新技术的企业也将更具投资价值。

豆包1.5深度思考模型的发布,标志着AI技术在推理和多模态理解方面迈入了一个新阶段。其强大的推理能力和多模态理解能力,使AI应用可以更深入地融入各个行业,为用户创造更大的价值。投资者可以密切关注那些能有效利用这些新技术的初创企业,尤其是在需要复杂推理和多模态理解的领域。(爱范儿,机器之心)

可灵AI近日正式推出其精心打磨的可灵2.0视频生成模型及可图2.0图像生成模型,并在AI Agent领域推出国内首个AI IDE—Trae。这不仅是技术的一次迭代升级,更是对整个行业生态的一次重塑。

可灵2.0视频生成模型在语义响应、动态质量、画面美学等方面实现了质的飞跃。其对动作、表情、运镜的响应更为精准,支持描述时序更复杂的镜头,生成的运动幅度更大、速度更流畅,画面美感大幅提升。而可图2.0图像生成模型则在指令遵循、电影质感及艺术风格表现等方面显著升级,支持近百种风格响应,为创作者提供了更为丰富的艺术表达形式。

可灵AI 2.0的推出为创业和行业投资者注入了一剂强心针。其在语义响应、动态质量和画面美学上的显著提升,为创业者提供了更强大的工具,能以更低的成本、更高的效率创造出更具吸引力和商业价值的内容。无论是短视频创作、广告营销,还是影视制作、游戏开发等领域,可灵AI 2.0都能大显身手。

可灵AI 2.0的发布不仅代表着技术的突破,更预示着AI生成内容产业的进一步成熟和扩展。随着技术的不断进步和应用场景的不断拓展,可灵AI有望在全球市场中继续保持领先地位。(机器之心,钛媒体,华尔街见闻)

OpenAI正式发布了GPT-4.1系列模型,包括GPT-4.1、GPT-4.1 mini和GPT-4.1 nano,通过API调用向所有开发者开放。这一新系列在关键功能上提供了类似或更强的性能,同时成本和延迟更低,OpenAI未来将弃用GPT-4.5预览版。

性能提升与成本降低

GPT-4.1系列全面超越了GPT-4o和GPT-4.5,在编程、指令遵循和长上下文理解等方面均有显著提升。例如在SWE-bench Verified编程测试中,GPT-4.1得分为54.6%,比GPT-4o提升21.4%;在Scale的MultiChallenge指令遵循基准测试中得分38.3%,比GPT-4o提升10.5%;在Video-MME长上下文理解基准测试中得分72.0%,比GPT-4o提升6.7%。GPT-4.1系列支持高达100万个上下文token,为处理大型代码库或长文档提供了强大的能力。

高性价比优势

GPT-4.1系列以更低的成本提供了卓越的性能。GPT-4.1 mini在多项基准测试中超越了GPT-4o,同时延迟降低近一半,成本降低83%。GPT-4.1 nano则是OpenAI目前速度最快、成本最低的模型,适合分类或自动补全等任务。GPT-4.1的中等规模查询成本比GPT-4o低26%,而GPT-4.1 nano是迄今为止最便宜、速度最快的模型。

创业和投资机遇

GPT-4.1系列的性能提升和成本降低使AI应用的开发和部署更加经济高效,有助于降低创业门槛和投资风险。投资者可以关注那些利用GPT-4.1系列模型开发创新应用的企业,尤其是在编程、内容创作、智能体开发等领域。GPT-4.1系列在长上下文理解和指令遵循方面的改进,为构建更智能、更可靠的AI助手提供了技术基础,有望推动AI在多个行业的应用落地。(机器之心,量子位)

OpenAI近期对ChatGPT进行了重大更新,使其能引用用户所有的历史对话,这标志着AI助手向个性化和长期交互迈出了重要一步。

记忆功能升级:

ChatGPT现在可以访问用户的所有历史对话,而不仅仅是之前会话中明确要求记住的信息。这让AI能更全面地了解用户的喜好、习惯和需求,从而提供更加精准、个性化的回复。

新增的“参考聊天记录”功能,与旧版“参考已保存记忆”功能不同,聊天历史记录保存的信息无法被用户直接访问或修改,只能选择开启或关闭。

隐私与选择:

用户可以选择开启或关闭记忆功能,还可以通过“临时聊天”模式来避免AI记住对话内容。这一设置确保了用户在隐私保护方面的自主权。

技术与应用:

从技术角度来看,ChatGPT的长期记忆功能很可能采用了检索增强生成(RAG)技术,这使AI能在生成响应之前引用外部知识库,而无需重新训练模型。这种技术不仅提高了AI的实用性,也降低了模型训练的成本和时间。

VeryKen智评:对创业和行业投资者来说,这一更新预示着AI助手市场的巨大潜力。AI助手能通过长期记忆更好地理解用户需求,提供个性化服务,这将极大地提升用户体验和满意度。同时这也为AI助手的未来发展方向提供了启示。随着AI助手越来越智能、个性化,它们将更深入地融入人们的日常生活,成为不可或缺的工具。(极客公园,机器之心)

近期Meta的Llama 4开源模型系列经历了一场“过山车”。发布初期,凭借首次采用混合专家(MoE)架构、千万token上下文处理能力等先进特性,Llama 4一度被视为开源AI领域的“王者”,在大模型竞技场(Arena)中,Llama 4 Maverick总排名第二,成为第四个突破1400分的大模型,开放模型中排名第一,超越DeepSeek等强劲对手。

然而短短36小时后,风向骤变,用户实测反馈与官方排名严重不符。在Kscores编程基准测试中表现远不及多个模型;在EQBench长文写作中垫底。更有匿名员工爆料,Meta为满足发布deadline,将测试集混入后训练数据,引发“作弊”质疑。虽有内部员工及官方澄清,称未在测试集上训练,但大模型竞技场指出Meta提供的参测模型是经人类偏好优化的特供版,导致排名虚高。这一系列事件让Llama 4的口碑急转直下,也让行业投资者和创业者看到,开源大模型的竞争不仅是技术参数的比拼,更涉及模型实际性能、训练方法透明度等多方面。Meta此次的挫折也为整个行业敲响了警钟,在追求技术突破和市场份额时,必须确保模型的真实性能与宣传相匹配。(机器之心,量子位)

李飞飞联合领导的斯坦福大学以人为本人工智能研究所(HAI)发布了2025 AI Index,这份456页的重磅报告揭示了全球AI行业多个关键趋势,为创业和行业投资者提供了极具价值的风向标。

中美AI模型差距缩小,中国赶超势头强劲:报告显示,2024年美国开发了40个值得关注的AI模型,中国有15个,尽管数量上仍有差距,但质量上中国正快速追赶。在MMLU和HumanEval等基准测试上,中美AI模型的性能差异已由2023年的两位数缩小到接近相等,顶尖模型之间的竞争愈发激烈。

AI推理成本暴跌280倍,性价比革命来临:对于性能达到GPT-3.5水平的系统,其推理成本在2022年11月至2024年10月间下降了280倍。这一巨大降幅使AI技术更加经济实惠,大幅降低了创业公司和企业部署AI的门槛,也为行业投资者带来了更具性价比的投资标的。

开源模型崛起,与闭源模型差距快速缩小:开源模型在某些基准测试中的性能差距从8%降至1.7%,开源AI生态正加速发展。这意味着创业者有更多机会利用开源模型打造差异化产品,投资者也可关注开源AI领域的创新企业和技术突破。

AI基准测试成绩飙升,接近人类水平:AI模型在MMMU、GPQA和SWE-bench等基准测试中的得分大幅提升,性能逐渐接近人类。这表明AI技术在多个领域正迈向成熟,为创业公司提供了更多应用场景和商业机会。

AI加速融入生活,企业投资持续增长:2024年,78%的组织报告正在使用AI,同比增长55%。美国对AI的投资高达1091亿美元,生成式AI吸引全球私营投资339亿美元,同比增长18.7%。AI正从实验室走向医疗、交通等日常生活领域,为创业者和投资者提供了广阔的市场空间。(量子位)

Kimi近期推出开源轻量级视觉语言模型Kimi-VL及其推理版Kimi-VL-Thinking。

模型亮点

高效架构:基于MoE架构,总参数16B,推理时仅激活2.8B,兼具性能与效率。

强大的多模态推理能力:在多项基准测试中表现优异,媲美甚至超越参数大10倍的模型,如在重要基准测试中超越了GPT-4o等规模更大的模型。

支持128K上下文窗口:能处理更长的上下文信息,有助于理解复杂的多模态数据。

宽松的MIT许可证:方便开发者在商业项目中使用和二次开发。

应用场景与能力展示

视觉理解与推理:能准确分析手稿、识别城市地标建筑、解答高难度几何数学题等,通过视觉信息进行推理和判断。

OCR与文本处理:在OCRBench基准测试中得分867,能识别数学公式、金融表格和手写作文等,并从视频课程中捕捉关键细节。

智能体任务与交互:在多轮Agent交互任务中表现出色,如在Chrome浏览器中自动启用“Do Not Track”功能,保护用户隐私。

技术原理与训练过程

模型架构:由MoE专家混合语言模型、原生分辨率视觉编码器和一个多层感知机投影器三部分组成。

数据准备:构建了预训练数据、指令数据和推理数据三大类别数据集,确保数据的高质量和多样性。

预训练与后训练:预训练主要提升多模态理解能力,消耗4.4T tokens;后训练则通过联合监督微调和强化学习,增强模型的长期思考能力。

Kimi-VL系列模型高效的架构和强大的多模态推理能力,使其在多个领域具有广泛的应用前景,如智能办公、教育、医疗等。(量子位)

智谱近期开源了六款新一代GLM模型,包括基座模型、推理模型和沉思模型,分为32B和9B两种尺寸,均遵循MIT许可协议。

模型性能亮点:

GLM-4-32B-0414:320亿参数量,预训练加入更多代码和推理数据,优化智能体能力,在工具调用、联网搜索、代码任务上表现出色,支持对话中实时展示和运行代码。

GLM-Z1-32B-0414:320亿参数量,推理性能媲美6710亿参数的DeepSeek-R1,在多个基准测试中展现强大数理推理能力,成本仅为DeepSeek-R1的1/30,推理速度达200 tokens/秒,比常规快8倍,是目前国内商业模型中速度最快的之一。

GLM-Z1-Rumination-32B-0414:沉思模型,能主动联网搜索、深度分析和自我验证,形成完整思考闭环,适合处理开放性问题,在学术写作和深度研究任务上优势显著。

GLM-Z1-9B-0414:虽仅有9B参数量,但在数学推理和通用任务上表现优秀,处于同尺寸开源模型领先水平,适合资源受限场景,平衡效率与效果。

智谱此次开源的模型凭借高性能和低成本为创业和行业投资者带来新机遇。其推出的MaaS服务满足企业多快好省的需求,覆盖多个细分场景和头部企业,助力企业高效部署AI应用。智谱不同版本的高性能推理模型和基座模型满足了多样化业务场景需求。(机器之心,量子位)

阿里通义实验室近期推出全新数字人视频生成大模型OmniTalker,该模型仅需用户上传一段参考视频,便能学会视频中人物的表情、声音以及说话风格,并生成同步的语音和数字人视频。这一创新技术相比传统数字人生产流程大幅降低了制作成本,提升了生成内容的真实感与互动体验,有望满足更广泛的应用需求。目前该项目已在魔搭社区和HuggingFace开放体验入口,并提供了十多个模板供所有人免费使用。

OmniTalker的核心优势在于其采用的双分支DiT架构与新颖的视听融合模块。音频分支可从文本合成梅尔频谱图,视觉分支则能预测精细的头部姿态和面部动态,确保音频和视觉输出在时间上的同步性与风格上的一致性。上下文参考学习模块能从单个参考视频中有效捕捉语音和面部风格特征,无需额外引入风格提取模块。在实验结果方面,OmniTalker 在文本转语音(TTS)技术和音频驱动的数字人生成(THG)技术的比较分析中均展现出卓越性能,多个核心指标达到业界领先水平。

VeryKen智评:对创业和行业投资者而言,OmniTalker 的推出意味着数字人生成领域的技术门槛进一步降低,商业应用前景广阔。其在虚拟主播、虚拟助手、在线教育、娱乐内容创作等场景中具有巨大潜力,可助力相关企业快速开发和部署高质量的数字人应用,提升用户体验和竞争力。阿里通义实验室的HumanAIGC团队在2D数字人和人物视频生成领域的深厚技术积累,也为该模型的持续优化和拓展提供了有力保障。(机器之心)

来源:放牛班的秘密花园一点号

相关推荐