摘要:去年11月,腾讯开源的混元3D 1.0版本,作为业界首个同时支持文字、图像生成3D的开源大模型,能力固然够让人感到新奇。但是这才过去2个月,他们居然就折腾出了2.0?这么短的时间内,他们到底能有多大进步?
文/九莲宝灯
AI生成3D模型,似乎即将进入一个新阶段。
就在这周二(1月21日),腾讯混元宣布开源3D生成大模型2.0版本。
去年11月,腾讯开源的混元3D 1.0版本,作为业界首个同时支持文字、图像生成3D的开源大模型,能力固然够让人感到新奇。但是这才过去2个月,他们居然就折腾出了2.0?这么短的时间内,他们到底能有多大进步?
葡萄君很快就去体验了一下。结果真挺令人惊讶:这模型,完全是冲着当实用工具来的。
根据我个人的体验,就目前这款模型所制作的资产质量而言,说它能直接用于很多小游戏和休闲游戏,并不夸张。如果人工介入对这些模型做一些修改,或许还可以用于更大的项目。再结合它分钟级别的出图速度……细思极恐。
空口评价没什么意思,我们不妨一边体验一边聊。01
混元3D有多实用?
在我看来,一款工具是否实用,分为两个点:一个是能力达标;另一个则是功能齐全,可以接入实际工作流。
目前,混元3D模型可以在GitHub、Hugging Face等平台上直接下载并使用,也可以通过他们发布的一站式3D内容AI创作平台「混元3D AI创作引擎」体验它的功能。
官网地址:http://3d.hunyuan.tencent.com
而通过混元3D AI创作引擎,我们可以看到,混元3D生成大模型的核心能力是「文生模」和「图生模」。
从体验来看,用户只需要输入中/英文提示词,提供对模型主题的描述、特征、风格等Prompt,就能快速同时生成4个3D模型,葡萄君自己实际体验的感受是,如果仅对模型做最基础的要求,那么基本上只要30秒左右,4个模型就能全部生成。
在混元3D AI创作引擎的Prompt输入框下方,还提供了多个更加细化的功能。这些功能几乎都在告诉你,混元3D不打算只当个玩具,而是真想要介入生产。
比如用户可以选择低多边形模型生成,据官方介绍,它可以根据物体复杂程度,自适应生成几百至数千面的三角mesh,拓扑布线更符合美术标准,更适用于游戏引擎模型渲染;
再比如用户可以选择不同纹理风格。混元3D还同时支持PBR贴图,可以通过模拟物理特性生成更具真实感的材质贴图效果。
混元3D在生成的过程中,也会考虑用户需求。比如生成一个3D角色,其他模型可能会把3000面平均分布在这个角色身上。而混元3D会考虑到在开发中,角色的动作和表现力主要来自与面部和动作,所以他会按照头部最多,上身其次,下肢最少的逻辑分配3D模型的面数。
如果用户采用图生模,制作出来的模型质量明显会更高。不过目前,混元3D AI创作引擎还仅支持单图生成模型,腾讯混元3D负责人郭春超表示,他们在近期还会推出多个视图生成3D模型的功能,可控性会有比较好的提升,更适合制作游戏资产。
混元3D 2.0的「实用」不仅在于让用户可以直接拿来用,同样也在于它可以让用户定制更多流程上的细节。
观察它的模型生成过程,我们不难发现,这个流程可以分为几何和纹理生成两部分。
官方表示,这实际上是因为混元3D实际上由多种模型组合。几何大模型由Hunyuan3D-DiT模型和Hunyuan ShapeVAE组成,专注于捕捉物体的形状、结构和空间关系,能实现超高精度的白模生成。
而纹理大模型Hunyuan3D-Paint则采用多视图扩散生成的方案,专注于颜色、细节和表面特征,可以基于用户输入的参考图像对生成的几何白模进行纹理贴图。它可以单独使用,用户只需要用文本或图像引导混元3D,它就可以给输入的几何模型生成纹理。
这种二者分开的模式,可以让每个模型能在其领域内进行更深入的学习和优化,同时,几何与纹理解耦生成,也能让模型生成更精细和真实的3D结果。
通用风格PBR纹理下生成的汉堡
这个解耦的设计,也让混元3D AI创作引擎可以自主设计更细致的3D生成工作流。用户除了可以根据个人需求输入提示词或上传图片,还能调整节点生成参数,生成更加定制化、更具可控性的3D资产。
它还有更多有趣或实用的功能。在混元3D AI创作引擎上,我们除了能生成和编辑模型,以及刚才提到的单独使用纹理模型功能外,还能用草图生成3D、头像照片转3D人物、制作一些简单的3D人物动画,甚至直接创作3D小游戏等。
其中,最令我注意的还是3D动画生成。无论是用户用混元3D制作的模型,还是本地上传的模型,它都可以自主进行骨骼绑定,并按照预设的多种常用动作模板运动。对于游戏开发和动画制作而言,这个功能或许能节省不少时间。
总的来说,在我看来,对于小游戏或者休闲品类,目前混元3D基本上已经能够胜任角色和道具类等常用模型的生成工作。
当然,它依然还没有脱离那种早期的「稚气」。在文生模的条件下,对于一些讲究对称的工业产品,或者一些细节较多的道具,混元3D的表现还不尽如人意。
比如要是想用混元3D建一个正比例的、细致的人物模型,尤其是二次元风格,不论使用文生模还是图生模,多半情况下还是只能产生一些「邪神」:
再比如让它生成一辆汽车的模型,结果往往看起来会像是一块融化的蛋糕;
不过在图生模情况下,这个问题还是能得到比较好的改善。这是我采用图生模、低多边形和PBR贴图后产生的结果:
角色建模方面,如果是头像或胸像,或者是一些Q版风格的角色全身像,结果也挺不错:
根据腾讯混元自己从定量和定性两个维度所做的评估,不论是端到端最终3D资产的质量,还是几何结构以及生成纹理的质量,混元3D 2.0均优于包括闭源模型在内的当前最先进模型。
而从整体满意度、3D 物体质量和指令遵循三个维度进行用户主观评估,混元3D在生成质量上也优于当前最先进的开源模型。
只能说3D生成大模型这个领域,目前还有比较长的路要走。不过就混元3D目前所能取得的成果而言,或许已经能够帮助开发者在一些细枝末节的资产上节省不少时间。02
3D生成模型,比赛还在上半场
实际上,混元3D早就已经开始在腾讯内部的一些业务和场景中开始应用,例如UGC 3D创作、商品素材合成、游戏3D资产生成等。
比如腾讯地图,他们基于腾讯混元3D大模型,发布了自定义3D导航车标功能,支持用户创作个性化的 3D 导航车标。据内部统计,这种方式相比传统的3D车标重建方案速度提升了91%。
腾讯内部游戏业务也开始使用混元3D生成能力,混元官方称,他们生成3D的质量在几何布线合理性、贴图准确性与骨骼蒙皮合理性等方面,已能满足部分游戏3D资产标准。
腾讯某在研游戏研发制作人王智刚也分享了他的感受:「3D环节的成本之前是以天计算,现在分钟来计算。这个东西拿出来之后,不是100%用,但是花一两天,把AI做得不够的部分做一下修补,性价比提升非常显著。」
但腾讯混元3D负责人郭春超认为,目前的混元3D还有很大的进步空间。这主要是因为相比于对话和生图大模型,目前3D和视频大模型的成熟度还没有到充分的拐点。
「如果说对话模型的合格率可以达到95%,生图模型达到90%以上,那么3D生成模型的成熟度、可用性大概在60%,仍处于比赛的前半场。」
他表示,目前这类模型面临的最大挑战,一是数据的不足,只有千万量级的数据,并且没有被充分的利用;二是3D模型本身相对于别的模态约束比较少,比如视频虽然也是横向在时间轴上拓展,但是很少有突变,上一帧和下一帧只有部分的像素改变,但3D模型做任何动作,上一个切片和下一个切片可能有很多数不清的图片,所以模型本身的挑战比较大,无论从数据而言还是从技术特点本身而言,要解决的问题都很多。
因此,当下混元3D计划继续在提高生成单体3D质量的同时,进一步扩展管线和功能上的应用,争取从量变引发拐点级的质变。
3D生成大模型一旦产生质变,会发生什么?
或许很多人第一时间想到的,可能是会导致建模行业的萎缩。不过往好处看,这实际上或许更能推动不少中小团队的成长。
对于不少小游戏或者休闲赛道产品来说,比拼的不仅是出点子的能力,有时候更关键的是落地速度和质量。有了3D生成大模型的加持,对于很多原创团队来说,也就能够将自己的点子更快更好地呈现出来,具备更强的竞争力。对于一些独立游戏团队来说,也是同理。
另外,从生图大模型的发展历程来看,无论模型产出的图片品质有多高,仍然需要有专业人士来挑选和修改。郭春超也表示,「我们的目标并不是替代设计师,而是成为他们的好帮手,如果加了一些引导可以生成质量比较高的,之后再稍微的修一修,相辅相成,结伴前行,最终这件事能更好的推广起来」。
此前,米哈游蔡浩宇对AIGC时代游戏行业的发展预测,曾引发了不少争议。不过在我看来,相比于如今中小团队的生存困局,AI或许反而能够成为他们翻盘的胜负手。或许在未来,无论何种规模的团队,都会因此站在同一起跑线,通过更纯粹的创意品质,而非资金投入来一决高下。这样一来,产业会变得更好吗?我们难以预测,但我希望事情最终会偏向那一美好的可能性。
游戏葡萄招聘内容编辑,
来源:历史独具魅力