生成式模型在飞行器技术中的应用研究进展与未来展望
摘要在数字化与智能化转型的浪潮中,生成式模型凭借其在自然语言处理与计算机视觉领域的突破性应用,已崛起为新一代智能技术基础设施,并逐步成为推动飞行器技术智能化升级的核心驱动力。本文系统梳理了生成式模型赋能飞行器技术的研究进展。首先,从技术演进视角回顾了生成式模型
模型 transformer 飞行器 vae 流场 2025-05-25 13:21 5
摘要在数字化与智能化转型的浪潮中,生成式模型凭借其在自然语言处理与计算机视觉领域的突破性应用,已崛起为新一代智能技术基础设施,并逐步成为推动飞行器技术智能化升级的核心驱动力。本文系统梳理了生成式模型赋能飞行器技术的研究进展。首先,从技术演进视角回顾了生成式模型
模型 transformer 飞行器 vae 流场 2025-05-25 13:21 5
BLIP3-o是一个全开源统一多模态模型,结合自回归与扩散架构,采用「先理解后生成」策略,创新地使用CLIP特征与Flow Matching训练,显著提升生成图像质量与多样性。BLIP3-o不仅在多个评测中表现领先,也正拓展至图像编辑和视觉对话等多模态任务。
BLIP3-o是一个全开源统一多模态模型,结合自回归与扩散架构,采用「先理解后生成」策略,创新地使用CLIP特征与Flow Matching训练,显著提升生成图像质量与多样性。BLIP3-o不仅在多个评测中表现领先,也正拓展至图像编辑和视觉对话等多模态任务。
开年以来,从科技巨头到创业公司再到研究机构,都在发力 TTS 模型。2 月,字节跳动海外实验室推出一款轻量级 TTS 模型 MegaTTS3-Global;3 月,出门问问联合香港科技大学、上海交通大学、南洋理工大学、西北工业大学等顶尖学术机构,共同开源新一代
“AI幻觉”是指人工智能模型在训练或推理时,因不完整、有偏差或虚假的数据,学到错误模式或特征,致使输出与真实情况严重不符的现象。它能出现在多种数据驱动的AI系统中,像生成模型(GAN、VAE等)、大语言模型(GPT、BERT等)、计算机视觉模型、强化学习模型等
最近的研究强调了扩散模型与表征学习之间的相互作用。扩散模型的中间表征可用于下游视觉任务,同时视觉模型表征能够提升扩散模型的收敛速度和生成质量。然而,由于输入不匹配和 VAE 潜在空间的使用,将视觉模型的预训练权重迁移到扩散模型中仍然具有挑战性。
DiffRhythm是一款新型AI音乐生成模型,能在10秒内生成长达4分45秒的完整歌曲,包含人声和伴奏。它采用简单高效的全diffusion架构,仅需歌词和风格提示即可创作,还支持本地部署,最低只需8G显存。
音乐 显存 vae huggingface 8gb显存 2025-03-12 11:25 11
兰宇时,MMLab@NTU博士生,导师为 Chen Change Loy。本科毕业于北京邮电大学,目前主要研究兴趣为基于神经渲染的 3D 生成模型、3D 重建与编辑。
iclr vae sota gaussiananything 2025-03-11 13:50 11
在人工智能的浪潮中,语言模型已经取得了令人瞩目的成就,但视觉智能,尤其是生成和模拟我们所看到的世界的视频生成技术,却远远落后。想象一下,如果每个人都能轻松生成高质量的视频内容,那将会是怎样的场景?由HPC-AI Tech研发团队开发的Open-Sora正是为此
据介绍,通义万相此次全面升级了模型整体性能,尤其是在处理复杂运动、还原真实物理规律、提升电影质感及优化指令遵循方面取得了显著进展,为 AI 的艺术创作打开了新的大门。
除了大家熟知的生成对抗网络(GAN)外,还有一些简单、强大且容易让人眼前一亮的技术。