腾讯研究院AI速递 20241223

摘要:OpenAI发布o3模型,数学、编程等多项测试超越前代o1,刷新多项AI记录;

生成式AI

一、 OpenAI Day 12,下一代推理模型o3,AGI评测基准达87.5%

1. OpenAI发布o3模型,数学、编程等多项测试超越前代o1,刷新多项AI记录;

2. o3-mini具备三种推理模式,低成本高效表现优秀,尤其在代码生成和数学测试中表现出色;

3. 虽然o3在通用性和性能上接近人类水平,但其高成本和简单任务上的局限性表明仍未达到AGI标准。

二、 OpenAI Day 11,Mac版ChatGPT接入从代码到文案大量应用

1. Mac版ChatGPT支持与多款应用协作,覆盖编码和写作工具,提供快捷键调用及实时优化功能;

2. 新功能Canvas引入主动任务处理,桌面版增强生产力,支持跨应用操作如代码生成和数据可视化;

3. 桌面版轻量化设计,运行流畅,新增高级语音模式与IDE、写作工具无缝衔接。

三、 OpenAI 推出 Realtime Embedded SDK 专门用在小型硬件设备

1. OpenAI推出Realtime Embedded SDK,使微控制器(如ESP32)实现实时AI功能,支持语音交互与自然语言处理;

2. 应用场景覆盖智能家居、物联网与机器人,增强设备智能交互与环境理解能力;

3. SDK提供便捷工具链,支持快速部署与云端AI连接,或激发相关硬件市场需求。

四、 谷歌发布Gemini 2.0 Flash Thinking,对标OpenAI o1系列

1. Gemini 2.0 Flash Thinking通过训练增强推理能力,能清晰展示推理过程,表现出色;

2. 在数学、编程等任务上表现卓越,推理速度是o1-mini的两倍,且正确率高;

3. 虽然速度和准确度都很强,但偶尔会犯错,如无法正确计算重复字母数量和解答某些常见问题。

五、 英伟达AI 3D建模新阶段,从点云到高精建模打通3D全流程

1. 英伟达推出Meshtron,实现AI一键生成高达64K面数的高保真3D网格,媲美专业艺术家水平;

2. Meshtron采用Hourglass架构和滑动窗口注意力机制,支持高分辨率复杂网格生成,提升效率和质量;

3. 支持动画、游戏和虚拟环境等多种应用场景,显著改变3D建模流程,推动行业革命。

六、 全球首个AI圣彼得大教堂上线,40万照片毫米级3D还原

1. 梵蒂冈与Iconem、微软合作,利用40万张照片和AI技术,成功复刻圣彼得大教堂的3D数字双胞胎;

2. AI和数字孪生技术使得教堂的细节达到毫米级精度,提供沉浸式互动网站和虚拟参观体验;

3. 这一项目为2025年圣年禧年提供数字平台,全球信徒和游客可在线探索难以接触的教堂区域。

七、 统一视觉理解与生成,MetaMorph模型问世,LeCun等参与

1. MetaMorph模型通过视觉预测指令调整(VPiT)实现了统一的视觉理解与生成,优化了多模态学习;

2. 研究发现视觉理解与生成能力密切相关,增加理解数据对两者性能有显著提升;

3. MetaMorph能够高效利用LLM预训练知识,并在多模态推理中展现强大生成能力。

前沿科技

八、 Apptronik与DeepMind合作,用AI推进人形机器人发展

1. Apptronik与Google DeepMind合作,将AI与人形机器人硬件结合,提升机器人在动态环境中助人能力;

2. Apptronik的Apollo机器人凭借定制执行器和高保真3D建模,获2024年RBR50机器人创新奖并进入商业测试;

3. DeepMind开发Gemini等先进AI模型,通过机器学习和物理模拟增强机器人推理与行动,推动人形机器人技术发展。

九、 AI能传递气味了!能定制个性化气味,谷歌前研究员新技术

1. Osmo公司利用AI和气味数据库成功生成李子等气味,并可定制新香料;

2. AI通过“气味地图”和机器学习技术分析、预测分子气味,提供定制化服务;

3. Osmo的目标包括气味传输技术和应用于疾病检测,未来可能用于医疗、毒品检测等领域。

报告观点

十、 Claude 官方发布《Agent 构建指南》,智能体的反直觉法则

1. 构建智能体时应优先采用简单方案,复杂系统仅在简单方案无法满足需求时使用;

2. 智能体分为工作流和自主决策两类,工作流适合明确任务,智能体适用于灵活应对复杂任务;

3. Anthropic 强调简洁、透明、精心设计的重要性,建议开发者从增强型 LLM 开始,逐步引入复杂度。

来源:腾讯研究院

相关推荐