o3、Gemini 2硬抗AI推理;kimi、豆包发力视觉思考;英伟达推B300

360影视 2024-12-30 16:04 4

摘要:OpenAI刚刚推出o1模型系列的继任者o3,能深入思考并提高回答的准确率,更在理解复杂问题和提供解决方案方面展现出前所未有的能力。其在ARC-AGI基准测试中取得了突破性成绩,最低性能可达75.7%,高计算模式下可达87.5%。

Veryken前沿行业动态|AI·半导体·电子消费品|动力电池|储能|新能源汽车|光伏

【OpenAI重磅推出o3模型:AI推理能力的新高度】

OpenAI刚刚推出o1模型系列的继任者o3,能深入思考并提高回答的准确率,更在理解复杂问题和提供解决方案方面展现出前所未有的能力。其在ARC-AGI基准测试中取得了突破性成绩,最低性能可达75.7%,高计算模式下可达87.5%。

性能亮点:o3在编程、数学和科学问题解答方面展现出色的表现。在CodeForces平台上,o3的得分高达2727,超越了全球前200名人类程序员。在ARC-AGI基准测试中,o3的表现从32%跃升至75.7%至87.5%,显示出其在图形逻辑推理方面的强大能力。

o3的技术突破在于其能适应以前从未遇到过的任务,并在ARC-AGI领域接近人类水平的表现。尽管如此,o3在一些简单任务上仍然失败,表明其与人类智能存在根本差异,AGI的实现仍需时日。

安全与伦理考量:OpenAI在o3的安全测试和伦理考量方面做出了努力。o3采用了全新的安全评估方法——审议式对齐,这种方法直接教授模型安全规范,并可训练模型在回答之前明确回忆规范并准确地执行推理。

Veryken智评:o3的发布是AI产业发展的一个新里程碑,以在AI推理能力上的显著提升为行业树立了新标杆。它展示了AI在处理复杂问题时的巨大潜力,同时也为AI的商业化和应用提供了新的可能性,会改变AI领域的竞争格局,促使其他公司在推理速度和透明度上进行竞争和创新。然而o3的高计算成本和对资源的大量需求也表明,实现真正的AGI仍面临诸多挑战,还有很长的路要走。(机器之心,爱范儿,量子位,华尔街见闻)

【谷歌Gemini 2.0 Flash Thinking推理速度远超现有模型】

谷歌近日发布最新大模型Gemini 2.0 Flash Thinking,该模型不仅在解决问题的速度上远超o1-preview等现有模型,还能展示其思考过程,为AI的透明度和可解释性开辟了新天地。

产品特性和性能表现:Gemini 2.0 Flash Thinking基于Gemini 2.0 Flash,经过专门训练以增强推理能力,并明确展示其思考过程。该模型在数学、编程、创意写作等多个综合类别指标中均排名第一,表现出色。在实测中,Gemini 2.0 Flash Thinking在几秒内解决了复杂的物理问题,比其它模型快5倍,并给出了思考过程。它还能解析摩斯密码,解决视觉类谜题,并在数学物理问题上表现出色。尽管存在一些局限性,如对某些物理因素考虑不周,但其整体表现令人印象深刻。Gemini 2.0 Flash Thinking目前仅支持32k上下文窗口,不支持联网。主创团队表示将在新的一年里提供更长的token和更多的工具支持。

VeryKen智评:Gemini 2.0 Flash Thinking展示了AI在处理复杂问题时的巨大潜力,同时也强调了模型透明度的重要性。它不仅提升了AI模型的推理速度,也为AI的可解释性和透明度设定了新的标杆,这对于提升用户信任和模型的可解释性至关重要。随着AI技术的不断发展,这种类型的模型可能会成为新的行业标准,加速智能解决方案在各行各业的应用,为AI的未来开辟新的可能性。(机器之心,量子位)

【两大国产模型同时升级视觉思考与理解能力,性能超全球标杆】

两大国产AI模型巨头月之暗面的Kimi和字节跳动的豆包近日在视觉模型领域同时发力,前者推出视觉思考模型k1,后者推出视觉理解模型Doubao-vision-pro-32k。

Kimi的视觉思考模型k1基于强化学习技术,支持端到端图像理解和思维链技术,扩展能力至数学之外的基础科学领域。k1在图像理解能力上也有显著提升,能解决复杂的几何图形问题。其图像理解能力可以识别各种真实的拍题场景,处理复杂状况如照片图像不清晰、多题一起拍、手写字迹干扰,甚至纯手写的题目。

豆包的视觉理解模型Doubao-vision-pro-32k则展现了强大的内容识别能力和理解推理能力。它不仅支持OCR、图像知识、动作情绪、位置状态等,还特别强化了对中国传统文化的理解。Doubao-vision-pro-32k能在不到30秒内生成代码,克隆一个APP界面,展现了其在视觉描述和创作方面的细腻能力。

性能对比:在多个基础科学学科的基准能力测试中,k1的表现超过了全球标杆模型如OpenAI o1和GPT-4o,在真实应用场景中的性能显著高于OpenAI和Anthropic的视觉模型。特别是在仿真环境中的初级和高级的数学、物理、化学题目上,k1的最低正确度分数(38.7 / 高级物理)也显著高于OpenAI和Anthropic的视觉模型的最高分数(32.0 / 高级化学)。Doubao-vision-pro-32k在内容识别和理解推理方面也展现出了比肩甚至超越国际顶尖模型的实力。如在复杂、生僻物体识别和数学竞赛题目解答中均展现出较高的准确率和推理能力。

应用场景:Kimi的k1和豆包的视觉理解模型在教育、娱乐、设计等多个领域都有广泛的应用潜力。随着AI视频生成工具的持续迭代,预计其向多种应用场景的渗透将加速,推动相关行业的创新和发展。

VeryKen智评:Kimi的视觉思考模型k1和豆包的视觉理解模型Doubao-vision-pro-32k不仅在技术上具有国际竞争力,而且在实际应用中展现出广泛的市场潜力,标志着国产AI视频模型在全球竞争中的地位日益提升。国产AI视频模型以其高性价比和强大的技术性能,正在成为全球AI技术竞赛中的重要力量。(机器之心,量子位)

【谷歌AI视频模型升级,支持4K分辨率,突破先进物理引擎】

谷歌新发布的AI视频模型Veo 2获重大突破,其生成的视频质量显著超越当前业界领先的Sora。该模型支持高达4K的视频分辨率和长达2分钟的视频输出,在理解物理世界和镜头控制方面展现出惊人的能力。它能更准确地模拟现实世界的物理规律,理解复杂的提示词中的相机控制指令,如广角镜头、POV和无人机镜头等。它不仅能生成逼真的水下波纹、光影和协调的动物动作,还能精确控制镜头移动,确保画面中的物体位置和运动协调一致。此外,Veo 2生成的人类动作和表情更加真实自然,处理复杂的细节如蜜蜂群体飞行时的自然协调感和光影对接也表现得恰到好处。除此之外,还增强了其图像生成模型Imagen 3。

在性能评估中,Veo 2超越了包括Sora Turbo在内的多个海内外AI视频生成模型。在Meta基准数据集MovieGenBench上,Veo 2在整体偏好和Prompt指令准确遵循方面均表现最佳,展现了其在视频生成领域的领先地位。

VeryKen智评:Veo 2以其4K分辨率和先进的物理引擎,不仅提升了视频生成的质量标准,也为视频创作和多种应用场景带来新的可能性,可能改变行业竞争格局。尽管目前仅提供720p、8秒的视频生成服务,Veo 2的高分辨率和逼真动作模拟能力将加速AI视频生成工具在从创意设计到教育等不同领域的应用渗透,推动行业创新。(量子位,财联社)

【OpenAI新品:ChatGPT搜索、o1开放、GPT-4o API集成等】

除o3发布会以外,OpenAI最新几场发布会也连续推出新产品和功能,不仅提升了用户体验,也为AI技术的发展开辟了新的道路,以下为亮点汇总:

ChatGPT搜索功能:该功能通过先进的自然语言处理技术,提供了更为精准和直观的搜索体验。这项功能强化了AI在信息检索中的应用,使用户能更快捷地获取所需信息。

开放满血o1模型:这一开放举措为研究人员和开发者提供了强大的AI工具,进一步推动了AI技术的研究和应用,预计将加速AI技术的商业化和普及化进程。

新版GPT-4o集成至API:新版GPT-4o模型的API集成为开发者提供了更便捷、更高效的AI服务,简化了AI技术的接入流程,使企业能快速将AI技术融入自己的产品和服务中。

ChatGPT进驻手机:OpenAI将ChatGPT功能扩展至手机平台,允许用户通过拨打免费号码与机器人直接通话,这一创新功能进一步拓宽了AI技术的应用场景,为通信行业带来了新的变革机遇。(华尔街见闻)

【OpenAI宣布重大结构转型,旨在筹资推进AGI使命】

OpenAI近日宣布重大结构转型,从单一的非营利性机构转变为包含营利性公共利益公司(PBC)和非营利组织两部分的组织结构,以解决公司在快速发展和资本需求增加背景下的营利与非营利矛盾,从而更好地推进其通用人工智能(AGI)使命。具体而言,OpenAI计划将现有的营利性公司转变为特拉华州的公共利益公司(PBC)并发行普通股,PBC的公共利益即为OpenAI的使命。非营利组织则将持有营利性公司的重要股权,以股份形式出现,从而获得资金支持。OpenAI表示,为实现AGI使命,未来需要的筹资规模将超出预期,新结构将使其非营利组织获得充足的资金支持,成为历史上资源最丰富的非营利组织之一。 (机器之心)

【国产模型DeepSeek-V3开源:性能匹敌顶流,性价比最高】

幻方量化近日开源了其最新的混合专家(MoE)语言模型DeepSeek-V3,这款拥有671B参数的模型以其卓越的性能和成本效益引起业界的热烈反应,技术大牛Andrej Karpathy称赞其在有限算力预算上进行模型预训练的能力,Meta科学家田渊栋则惊叹其训练效率。

性能表现与核心优势:DeepSeek-V3在多项基准测试中表现突出,特别是在数学能力测试中大幅领先,与GPT-4o和Claude-3.5-Sonnet等顶尖闭源模型性能相当。其FP8混合精度训练框架和创新的负载均衡策略等优化措施使模型在14.8万亿token上预训练,且生成速度提升至每秒60个tokens。成本效益分析显示,DeepSeek-V3的训练成本仅为557.6万美元,显著低于行业平均水平,展现了其在资源利用上的高效性。

应用前景与市场定位:DeepSeek-V3的应用前景广阔,包括聊天、编码、多语言自动翻译和图像生成等场景。其开源和成本效益的特点,预计将为开发者、企业和研究人员提供强大的工具和资源,同时推动AI技术的普及和应用。

VeryKen智评:DeepSeek-V3不仅提供了与顶尖闭源模型相匹敌的性能,还大幅降低了训练成本,随着进一步应用和优化,未来预计将在推动开源AI模型的发展和降低行业进入门槛方面产生深远影响。(机器之心,量子位,财联社)

【阶跃星辰融资数亿美元,加速布局超级模型与应用】

国产AI大模型新星阶跃星辰宣布完成数亿美元B轮融资,投资方包括上海国有资本投资有限公司及其旗下基金,以及腾讯投资、五源资本、启明创投等。本轮融资将用于加强基础模型研发,提升多模态和复杂推理能力,并拓展C端应用场景。在大模型投资趋紧的背景下,阶跃星辰凭借其实力和潜力,持续获得资本市场青睐。

阶跃星辰去年4月成立,7月开始研发,至今发布11个自研基座模型,包括万亿参数MoE语言大模型Step-2以及多模态大模型Step-1V等,其Step系列模型在数理逻辑、编程、中文知识等方面全面逼近GPT-4。公司还积极布局C端应用,推出智能助手“跃问”,并探索金融财经、内容创作和智能终端等领域的创新性应用。

VeryKen智评:在AI大模型技术落地初期,阶跃星辰通过自研to C应用和生态合作,加速技术向产品的转化,构建起从技术到应用的完整生态链。这种模式为AI大模型的商业化提供了新思路,也为公司在竞争激烈的AI领域中赢得了战略先机。(钛媒体,量子位)

半导体

【英伟达将推B300及GB300超级芯片:AI算力新跃升,产业链新机遇】

英伟达近日宣布将推出B300 AI GPU和GB300 AI服务器平台,标志着AI硬件领域的又一次重大飞跃,将为大模型推理和训练带来显著的性能提升。

技术升级:B300采用台积电4NP工艺,全新流片,功率提升至1.4KW,架构微创新如CPU和GPU间动态分配功率。显存升级至12层堆叠的HBM3E,保持8TB/s带宽。

产品亮点:B300 GPU在FLOPS上比前代B200提高50%,显存从192GB翻倍至288GB。GB300平台包含72块GB300,被认为能在高batch size下将OpenAI o1/o3模型的思维链长度扩展至10万tokens。新产品允许72个GPU共享显存,极低延迟处理问题,增强智能,降低成本,提升模型性能。在AI大模型应用中,B300和GB300通过提升交互性降低延迟,实现更长的思维链,优化推理成本,并在处理同一问题时搜索更多样本,提高准确性。

VeryKen智评:英伟达B300和GB300的推出不仅是技术层面的突破,更是产业链层面的一次重新洗牌。它们将为AI领域带来更高的性能和更低的成本,推动AI技术的商业化进程,预示着AI硬件未来发展的新方向。供应链上的OEM和ODM制造商将迎来新机遇,客户需自行采购LPCAMM内存模块等组件,为市场带来更多竞争和创新。此外,英伟达通过NVLink技术巩固了其在AI硬件领域的领导地位,进一步控制了大厂模型训练的命运。(量子位,雷峰网,华尔街见闻)

【博通市值突破万亿,ASIC定制芯片挑战英伟达GPU霸主地位】

在AI芯片产业,凭借在定制芯片(ASIC)领域的深耕,博通(Broadcom)发布最新财报后股价飙升,市值达1.17万亿美元,成为全球第九家市值超万亿美元的公司,同时也是全球第三家市值超万亿的半导体公司。博通CEO陈福阳表示,公司正与三大客户合作开发ASIC AI芯片,预计到2027年市场对定制款AI芯片ASIC的需求规模将达600亿到900亿美元。

与此同时,英伟达股价自12月以来累计下跌约4.5%,正式进入回调区间。市场分析认为,大型科技公司对ASIC的需求增加可能是导致英伟达股票下跌的原因之一。ASIC芯片以其针对特定应用的优化性能,正在成为英伟达GPU的有力竞争者。

ASIC芯片相较于传统的CPU、GPU等通用芯片,具有更明确的计算指向性。在性能、功耗和成本上为特定用途提供定制化设计,使ASIC在AI应用中展现出更高的性价比和更低的功耗。摩根士丹利预计,AI ASIC市场规模将从2024年的120亿美元增长至2027年的300亿美元,年复合增长率达34%。随着AI技术的发展,ASIC芯片将以其在特定应用中的高性能和低功耗对英伟达GPU的霸主地位构成挑战。

VeryKen智评:博通市值的增长和ASIC的发展预示着AI芯片行业的竞争格局正在发生变化。随着谷歌、亚马逊、Meta、苹果等科技巨头极力摆脱对英伟达GPU的依赖,ASIC芯片的市场需求正迅速增长。未来随着ASIC技术的进一步成熟和应用拓展,AI芯片市场的竞争将更趋激烈,行业格局可能会发生重大变化。

然而博通的局限性也不容忽视。ASIC的专用性质限制了其拓展广泛的应用生态,与英伟达围绕CUDA构建的生态系统相比,难以形成类似的生态壁垒。博通对谷歌、苹果等大客户的高依赖度为其业务带来不确定性。竞争对手如Marvell也在AI定制芯片上迅速布局,加剧了市场竞争。博通市盈率高达177倍,高估值需要业绩支撑,随着AI芯片行业的竞争加剧,博通能否持续保持领先地位仍需市场和时间的检验。(钛媒体,华尔街见闻,财联社)

来源:放牛班的秘密花园一点号

相关推荐