腾讯研究院AI速递 20241127

摘要:Dream Machine平台基于Luma的Photon模型,支持通过文本生成高质量静态图像,并能嵌入文本;

生成式AI

一、 打破LLM数据孤岛!Anthropic革命性开源「模型上下文协议」

1. MCP协议实现了LLM应用与外部数据源、工具的无缝集成,打破了数据孤岛问题;

2. 通过客户端-服务器架构,MCP支持本地和远程数据源的集成,增强LLM的功能性;

3. MCP的开源协议可标准化不同应用的集成方式,推动AI与各种工具和平台的深度互联。

二、 Runway推出图像生成模型Frames,定制你想象的「视觉世界」

1. Frames模型在风格控制和视觉保真度上取得了显著提升,支持精确的创意定制;

2. 允许用户创建具有特定美学和氛围的视觉世界,灵活调整外观、感觉及氛围;

3. 逐步开放访问,支持广泛的创意探索,适用于电影、摄影、艺术等多个领域的视觉创作。

三、 太卷了!Luma全新Dream Machine,文、图与视频一条龙

1. Dream Machine平台基于Luma的Photon模型,支持通过文本生成高质量静态图像,并能嵌入文本;

2. 平台提供直观的交互设计,允许用户用自然语言或上传参考图像生成创作,无需复杂的提示工程;

3. 引入创新的视频创作功能,如角色一致性和动态视频编辑工具,支持用户从单一图像制作动画故事情节。

四、 吴恩达开源Python包aisuite,一个接口调用OpenAI等模型

1. aisuite是吴恩达开源的Python包,提供统一接口来调用多个大模型,如OpenAI、Anthropic、Google等;

2. 通过简单修改字符串,用户可轻松切换不同提供商的模型,并进行对比测试;

3. aisuite支持多个AI平台,简化了开发者集成工作,并允许通过API密钥与不同服务提供商进行交互。

五、 吴佳俊团队推出大型多模态数据集,教机器人组装宜家家具

1. 斯坦福团队提出IKEA Video Manuals数据集,涵盖6类IKEA家具,包含3D模型、安装说明书和组装视频,数据集细分为1120个子步骤;

2. 该数据集实现了组装指令与实际视频的4D对齐,提供了空间智能领域的重要研究基准;

3. 实验展示了当前AI模型在视频理解和空间推理中的局限,特别是在遮挡、相似部件识别及复杂拍摄角度下的表现不足。

六、 成本降低1000倍!微软将开源超强RAG— LazyGraphRAG

1. LazyGraphRAG通过采用NLP名词短语提取与图统计优化,降低了数据索引成本至GraphRAG的0.1%,实现成本降低1000倍;

2. 查询处理方面,LazyGraphRAG结合最佳优先搜索与广度优先搜索,采用迭代加深方式,提升查询效率与准确度;

3. LazyGraphRAG适用于本地和全局查询,尤其在资源有限的场景下(如中小企业),提供更高的查询质量与成本效益。

七、 英伟达发布音频模型 Fugatto:用文字操控声音的“瑞士军刀”

1. Fugatto 通过文本提示创建音乐片段、移除或添加乐器、改变声音中的口音或情感,甚至生成人们从未听过的声音;

2. Fugatto 应用于音乐制作、广告代理、语言学习和视频游戏开发,提供多地区、多情境的目标定位和个性化声音;

3. Fugatto 使用25亿参数的基础生成性 Transformer 模型,结合 ComposableART 技术,实现对文本指令的细粒度控制,并在 NVIDIA DGX 系统上训练。

八、 SDC24 Korea开发者大会,三星发布多模态大模型Gauss2

1. 三星发布多模态大模型Gauss2,包含Compact、Balanced和Supreme三种版本,分别针对不同计算资源环境和任务需求;

2. ompact模型为计算资源有限的环境设计,适用于手机、平板等设备,提供较小的计算开销;

3. Gauss2已广泛应用于三星内部,提供编码助手、办公任务支持,并扩展至海外子公司,未来将进一步覆盖更多应用场景。

前沿科技

九、 6.85亿次模拟,分析2万种材料,Meta催化剂数据集OCx24

1. Meta与多伦多大学合作发布OCx24数据集,包含572个催化剂样品,支持新催化剂的发现;

2. 采用6.85亿次AI加速模拟分析了20,000种材料,推动催化剂的计算和实验验证;

3. 结合实验与计算结果,OCx24帮助识别出潜在低成本催化剂,适用于碳捕获、氢气生产等绿色能源领域。

报告观点

十、 Sam Altman:让 AI 和每个人对话,可深入理解数十亿人共识

1. Altman 解释了 OpenAI 转型为营利性机构的原因,强调了技术突破需要的巨大资本支持;

2. 他展望 AI 在加速科学发现、尤其是物理学领域的潜力,认为这能推动世界的可持续发展;

3. Altman 提出 AI 可以与人类深入对话,达成全球共识,推动社会和治理的进步。

来源:腾讯研究院

相关推荐