图像生成技术新突破:小米大模型团队联合北大信科提出对角蛇形自回归图像生成方式,超越此前所有自回归方法

360影视 欧美动漫 2025-04-19 01:17 2

摘要:小米大模型团队与北大信科提出了一种具有方向感知的对角蛇形扫描自回归图像生成框架(DAR,diagonal snake-likeorder),有效地确保相邻索引的 token 在空间上紧密相邻。

IT之家 4 月 18 日消息,小米大模型团队与北大信科提出了一种具有方向感知的对角蛇形扫描自回归图像生成框架(DAR,diagonal snake-likeorder),有效地确保相邻索引的 token 在空间上紧密相邻。

相对于传统的逐行生成方式,它可以沿着图像的对角线、像蛇一样灵活地生成每个像素,比传统方法更自然,也更接近人类绘画时的直觉。

小米大模型团队表示,DAR 在 256×256 的 ImageNet 基准测试中取得了 1.37 的 FID 分数,刷新了当前同类技术的最好成绩(SoTA)。

小米官方表示将进一步支持更灵活的多种分辨率图像生成。鉴于本方法与 LLM 的训练和推理方式高度兼容,小米大模型团队还将持续探索更加统一的多模态理解与生成技术方案。

目前,相关的论文、训练代码、模型权重已经开源,IT之家附官方地址:

训练代码:https://github.com/xiaomi-research/dar

模型参数:https://huggingface.co/wbh123/dar

论文 arxiv 地址:https://arxiv.org/abs/2503.11129

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

来源:乔布斯北京分斯

相关推荐