谢赛宁SFR等新作,统一多模态BLIP3-o登场!先理解后生成
BLIP3-o是一个全开源统一多模态模型,结合自回归与扩散架构,采用「先理解后生成」策略,创新地使用CLIP特征与Flow Matching训练,显著提升生成图像质量与多样性。BLIP3-o不仅在多个评测中表现领先,也正拓展至图像编辑和视觉对话等多模态任务。
BLIP3-o是一个全开源统一多模态模型,结合自回归与扩散架构,采用「先理解后生成」策略,创新地使用CLIP特征与Flow Matching训练,显著提升生成图像质量与多样性。BLIP3-o不仅在多个评测中表现领先,也正拓展至图像编辑和视觉对话等多模态任务。
BLIP3-o是一个全开源统一多模态模型,结合自回归与扩散架构,采用「先理解后生成」策略,创新地使用CLIP特征与Flow Matching训练,显著提升生成图像质量与多样性。BLIP3-o不仅在多个评测中表现领先,也正拓展至图像编辑和视觉对话等多模态任务。