腾讯中文通用视频模型—Hunyuan-Video,已开源

360影视 2024-12-11 19:13 2

摘要:今日精选了5篇LLM领域的优秀论文,为了方便大家阅读,只列出了论文标题、AMiner AI综述等信息,如果感兴趣可点击查看原文,PC端数据同步(收藏即可在PC端查看),每日新论文也可登录小程序查看。如果想要对某篇论文进行深入对话,可以直接复制论文链接到浏览器上

想把握最新的科技进展和研究成果,却发现自己的阅读速度根本赶不上文献产出的速度?
别担心,AMiner AI会帮助你高效检索和阅读文献!

AMiner AI,一款集发现论文、分析论文、理解论文、写作论文于一体的科研小助手。它会帮助你更加游刃有余地穿梭在学术海洋中,让科研变得更加有趣和高效!

今日精选了5篇LLM领域的优秀论文,为了方便大家阅读,只列出了论文标题、AMiner AI综述等信息,如果感兴趣可点击查看原文,PC端数据同步(收藏即可在PC端查看),每日新论文也可登录小程序查看。
如果想要对某篇论文进行深入对话,可以直接复制论文链接到浏览器上或者直达AMiner AI页面:「链接」

2024年12月11日精选新论文列表:

1.HunyuanVideo: A Systematic Framework for Large Video Generative Models
本文介绍了一种名为HunyuanVideo的开源视频生成基础模型,其性能可以媲美或超越业界领先的闭源模型。HunyuanVideo包含数据筛选、高级架构设计、渐进式模型扩展与训练,以及针对大规模模型训练和推断的效率化基础设施等关键要素。研究者成功训练了一个拥有超过130亿参数的视频生成模型,成为所有开源模型中规模最大的一个。通过一系列实验和针对性设计,HunyuanVideo确保了高视觉质量、运动动态、文本-视频对齐和高级拍摄技术。经专业人士评估,HunyuanVideo超越了包括Runway Gen-3、Luma 1.6在内的先前最先进的模型,以及三个表现最佳的中文视频生成模型。研究者通过公开基础模型及其应用代码,旨在缩小闭源与开源社区之间的差距,并激发社区成员的创意实验,推动视频生成生态系统的活跃发展。相关代码已在GitHub公开。

链接:HunyuanVideo: A Systematic Framework for Large Video Generative Models - AMiner VIP

2.LiFT: Leveraging Human Feedback for Text-to-Video Model Alignment
本文提出了一种新的微调方法LiFT,通过利用人工反馈来优化文本到视频生成模型的匹配度。研究团队首先构建了一个包含大约1万个由人工评分及其理由组成的人类评分注释数据集LiFT-HRA。基于此数据集,训练了一个奖励模型LiFT-Critic,该模型可以有效地学习奖励函数,作为人类判断的代理,衡量给定视频与人类期望之间的匹配度。最后,利用学到的奖励函数通过最大化奖励加权的似然性来调整T2V模型。以CogVideoX-2B为案例,研究结果显示经过微调的模型在所有16项指标上均优于CogVideoX-5B,证明了人类反馈在提高生成视频的匹配度和质量方面的潜力。

链接:LiFT: Leveraging Human Feedback for Text-to-Video Model Alignment - AMiner VIP

3.Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
该研究提出了一种先进的开放式多模态大型语言模型系列InternVL 2.5,在保持InternVL 2.0核心模型架构的基础上,对训练和测试策略以及数据质量进行了重大改进。文章深入探讨了模型规模与性能之间的关系,系统分析了视觉编码器、语言模型、数据集规模和测试时配置的性能趋势。通过在多个基准测试中的广泛评估,InternVL 2.5展现出竞争力,性能媲美GPT-4o和Claude-3.5-Sonnet等领先商业模型。特别值得一提的是,该模型是首个超越70个3.7点改进的开放式多模态大型语言模型,通过链式思维(CoT)推理展示了测试时扩展的强大潜力。研究者希望该模型能为开源社区树立新的多模态AI系统开发和应用的标杆。

链接:Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling - AMiner VIP

4.MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale
这篇论文提出了一种构建大规模多模态指令微调数据集的新方法,旨在增强多模态大型语言模型的推理能力。作者指出,现有的指令微调数据集多由学术数据集改编而来,这些数据集通常针对简单任务,并且只提供短语级别的答案,缺乏中间推理过程。为了解决这个问题,论文中介绍了一种可扩展且成本效益高的方法,构建了一个包含12M指令-响应对的数据集,这些对涵盖了多种需要复杂推理的任务,并提供了详细且准确的推理过程。实验表明,在这种数据集上训练的多模态大型语言模型在多个基准测试中表现显著提高,包括MathVerse和MMMU-Pro等。研究还强调了数据构建过程中的关键组成部分,如重写和自我过滤,对于模型性能提升的重要性。

链接:MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale - AMiner VIP

5.APOLLO: SGD-like Memory, AdamW-level Performance
本文论文介绍了一种名为APOLLO的优化器,旨在解决大型语言模型训练过程中内存占用过大的问题,尤其是在使用AdamW优化器时。APOLLO通过近似学习率缩放,使用辅助的低秩优化器状态,有效降低了优化器的内存使用,同时保持了与AdamW相当的性能。该优化器的简化版本APOLLO-Mini,在保持SGD级别的内存成本的同时,还能提供优于AdamW的预训练性能。研究表明,APOLLO系列优化器在性能上与AdamW相当或更优,并能大幅节省内存,几乎消除了AdamW的优化器状态。这些改进带来了系统级别的优势,包括提高了吞吐量、改进了模型的可扩展性,以及对低端GPU更友好的预训练方案。

链接:APOLLO: SGD-like Memory, AdamW-level Performance - AMiner VIP

AMiner AI使用入口:「链接」

来源:AMiner科研好助手

相关推荐