腾讯研究院AI速递 20241204

摘要:李飞飞的World Labs推出首个“空间智能”模型,实现从一张图生成3D世界;

生成式AI

一、 李飞飞World Labs「空间智能」模型!一张图生成3D世界

1. 李飞飞的World Labs推出首个“空间智能”模型,实现从一张图生成3D世界;

2. 该技术可用于实时渲染、生成可互动的虚拟环境,改变游戏、电影和VR的发展;

3. 该模型结合了生成式AI与3D技术,为创作者提供全新的创意工作流,并推进空间智能的应用。

二、 腾讯正式发布混元版「Sora」,权重、代码、算法全开源

1. 腾讯开源了其混元视频生成模型,具备超强的真实质感和高水平的语义理解;

2. 模型能够精准理解复杂的文本提示,写实风格上表现突出,特别是人物面部识别和细节处理;

3. 支持镜头切换,提升视频的视觉张力和一致性,是目前少数具备此功能的AI视频生成工具之一。

三、 谷歌爆火产品NotebookLM核心团队集体离职,另起炉灶创业

1. 谷歌NotebookLM团队核心成员集体离职创业,团队包括负责人Raiza Martin、设计师Jason Spielman和工程师Stephen Hughes;

2. NotebookLM是谷歌Labs的实验性AI产品,因音频概述功能爆火,团队最初仅有几人,依靠Google Labs的支持快速发展;

3. 离职成员拥有丰富的创业和产品开发经验,计划继续探索大模型的新应用,NotebookLM将继续更新。

四、 即梦灰测2.1模型,新模型解决AI图像生成中文字体的问题

1. 字节即梦AI发布2.1模型,重点解决AI图像生成中文字体问题;

2. 用户可通过简单描述生成带有中文字体的海报和素材,提升设计师效率;

3. 模型支持多种应用场景,如个性化海报、小说封面、社交媒体配图等,目前处于灰度测试阶段。

五、 Arc浏览器团队预告了新AI浏览器Dia,他们想重新设计光标

1. Arc 浏览器开发公司预告推出AI浏览器Dia,聚焦AI工具集成,计划2025年初发布;

2. Dia浏览器将通过光标和地址栏等功能,帮助用户自动执行任务,如获取信息、发送邮件和安排会议;

3. 该浏览器还将展示自动操作功能,如自主浏览电商网站并添加购物车项目,目标是构建无缝的AI助手体验。

六、 告别声音克隆侵权!Hume AI推出Voice Control可编辑语音

1. Hume AI推出“Voice Control”功能,允许用户无编程经验创建个性化AI语音;

2. 用户可在10个维度上调整语音特性,如性别、自信度、热情等,轻松定制语音;

3. 该功能结合情感智能语音接口,适用于客服机器人、虚拟助手等应用,未来计划扩展能力和优化音质。

前沿科技

七、 新一轮,美国加强对光刻、蚀刻和 HBM 存储器的出口管制

1. 美国加强对24种半导体制造设备和3种软件工具的出口管制,涵盖蚀刻、光刻等关键技术;

2. 对高带宽存储器(HBM)实施新管制,限制美国及外国生产的HBM出口;

3. 新增140个实体名单,扩大外国生产的半导体设备管制范围,强化对中国先进芯片生产的制约。

报告观点

八、 YC圆桌:垂直AI智能体的规模可能是SaaS的十倍,全文

1. 垂直AI智能体市场潜力巨大,可能是SaaS市场的十倍,因其能替代大量人工操作,降低成本并提升效率;

2. 与SaaS相似,垂直AI智能体将从通用工具逐渐向垂直领域专注发展,但具备深度集成人工操作的优势;

3. YC建议创业者专注于经验丰富的领域,并挖掘重复性行政任务以寻求市场机会,AI智能体将改变企业规模与运营方式。

九、 MIT 76页深度报告:AI加速创新马太效应,科学家分化加剧

1. AI提高了科学研究效率,但其效益主要集中在顶尖科学家,导致产出差异加剧;

2. AI加速创意生成,减少科学家工作中的乐趣,且可能剥夺创造性任务;

3. 判断力在科研中起关键作用,缺乏判断力的科学家可能会被淘汰。

来源:腾讯研究院

相关推荐