多模态视频模型Vidu1.5:智能涌现,Scaling Law新起点?

摘要:在自然语言处理领域,一个显著的转折点正在显现:单纯的模型规模和数据量增加,似乎已触及性能提升的瓶颈。业界开始质疑,Scaling Law是否已走到尽头,低精度训练与推理是否正导致模型性能提升的边际效益不断递减。然而,这一挑战也为新的探索开辟了道路。

【ITBEAR】在自然语言处理领域,一个显著的转折点正在显现:单纯的模型规模和数据量增加,似乎已触及性能提升的瓶颈。业界开始质疑,Scaling Law是否已走到尽头,低精度训练与推理是否正导致模型性能提升的边际效益不断递减。然而,这一挑战也为新的探索开辟了道路。

尽管Scaling Law在自然语言处理中显露出“力不从心”的迹象,但在多模态模型领域,它还未被真正验证。多模态数据因其复杂性,在训练规模上难以达到与自然语言处理相当的水平。然而,清华系大模型公司生数科技最新发布的Vidu 1.5,却为这一领域带来了新曙光。

Vidu 1.5通过持续的规模扩展(Scaling Up),在多模态领域实现了突破性的“奇点”时刻。它涌现出了“上下文能力”,能够理解和记忆输入的多主体信息,并展现出对复杂主体更精准的控制。无论是细节丰富的角色还是复杂的物体,通过上传不同角度的三张图片,Vidu 1.5都能确保单主体形象的高度一致。

不仅如此,Vidu 1.5还实现了多主体之间的一致性。用户可上传包含人物角色、道具物体、环境背景等多种元素的图像,Vidu能够将这些元素无缝融合,并实现自然交互。这一成就不仅彰显了Scaling Law在多模态领域的潜力,更体现了生数科技所采用的无微调、大一统技术架构的优越性。

回顾大语言模型的发展历程,从GPT-2到GPT-3.5的质变,同样实现了从预训练+特定任务微调方式到整体统一框架的突破。Vidu 1.5的推出,标志着多模态大模型也迎来了类似的GPT-3.5时刻。生数科技CTO鲍凡表示,他们从一开始就瞄准了通用多模态大模型的目标,并未在Sora等已有方案上亦步亦趋。

生数科技不仅在技术路线上具有先发优势,更具备持续突破的能力。Vidu与业界其他视频生成模型相比,已初步形成技术代差。这得益于其重新设计的底层架构,该架构将问题统一为视觉输入、视觉输出的patches,并采用单个网络统一建模变长的输入和输出。

实现主体一致性,是视频模型领域的一大难题。鲍凡比喻道,这好比制造一台性能卓越的发动机,虽然知道其重要性,但实现起来却困难重重。Vidu在主体一致性方面的成果,并非一蹴而就。从Vidu上线之初主打解决一致性问题,到逐步拓展到单主体及多主体控制的全面能力,每一步都凝聚了团队的智慧与汗水。

与其他仍采用预训练+LoRA微调方案的模型不同,Vidu采用的大一统架构,无需单独进行数据收集、标注和微调,仅需1到3张图就能输出高质量视频。这一架构不仅提高了效率,还避免了过拟合和特征不精准等问题。

随着高质量数据的持续投入和模型规模的扩大,Vidu 1.5在底层视频生成模型上也展现出了类似于大语言模型的智能涌现。例如,它能够融合不同主体,创造出全新的角色,这是之前未曾预料到的能力。Vidu 1.5在上下文能力和记忆能力方面也取得了显著提升,能够生成一致、连贯且有逻辑的视频内容。

生数科技接下来将继续沿着上下文能力这一主线进行迭代。鲍凡表示,随着模型上下文能力的提升,将为用户带来更大的想象空间。例如,通过输入电影切片,可以生成具有相似摄影技巧的视频片段;通过输入经典打斗动作的视频,可以生成打斗技巧精妙、画面精良的视频。

Vidu在上下文能力方面的迭代有着自己的节奏和规划。从初期仅能参考单一主体的面部特征,到现在能参考多个主体,未来还将实现参考拍摄技巧、运镜、调度等更多因素。这一过程中,参考对象从具体到抽象,要求和难度逐渐提升,但Vidu正稳步前行。

来源:ITBear科技资讯

相关推荐