摘要:大模型时代,数据极为关键。而开源、高质量、大规模的视频数据以及对应的视频描述是稀缺的。本次SPP分享将围绕两大创新成果展开深入探讨。其一是将介绍一个面向高质量视频生成的数据集OpenVid-1M,它不仅是百万级的高质量文生视频数据集,最高支持1080p视频生成
大模型时代,数据极为关键。而开源、高质量、大规模的视频数据以及对应的视频描述是稀缺的。本次SPP分享将围绕两大创新成果展开深入探讨。其一是将介绍一个面向高质量视频生成的数据集OpenVid-1M,它不仅是百万级的高质量文生视频数据集,最高支持1080p视频生成,还提出了一种多模态视频DiT模型结构(MVDiT),该数据集与模型已成功应用于视频生成、复原、插帧以及3D/4D生成等多个相关任务。其二是介绍一个实例级精细视频描述方法 InstanceCap,作为首个用于文本到视频生成的实例感知结构化描述方法,InstanceCap 通过将全局视频转化为实例,提升了对局部实例的准确描述能力;同时构建的InstanceVid数据集,涵盖2.2万个视频,有效增强了描述与视频之间的保真度。欢迎关注本期SPP:5月7日(本周三)19:30—21:00。
本期直播你将收获哪些
1、了解一个面向高质量视频生成的百万规模数据集OpenVid-1M(ICLR 2025)
2、了解一个实例级精细视频描述的方法InstanceCap(CVPR 2025)
演讲嘉宾
邰颖
CCF专业会员,南京大学智能科学与技术学院副教授
邰颖,南京大学智能科学与技术学院副教授,博导。入选姑苏创新创业领军人才计划项目(2024),南京大学紫金学者(2023)。主持国家自然科学青年基金、江苏省自然科学青年基金、南京大学-中国移动联合研究院生成方向项目(150万/年)、南京大学AI4S项目。课题组与字节、腾讯、阿里、中国移动、VIVO、Liblib AI等国内知名公司合作紧密。曾任腾讯优图实验室专家研究员(T12)及研究组长。主要研究方向为生成式计算机视觉技术,包括多模态图像/视频视觉生成、以人为中心的视觉感知和生成、以及高保真图像/视频修复等。目前在模式识别和计算机视觉国际权威会议、期刊(CCF-A类/JCR一区论文)已发表论文70余篇。谷歌学术被引用逾14,000次,两篇代表性一作论文分别被引用逾2,700次、2,000次;授权专利40余项。
开课时间
2025年5月7日(本周三)19:30-21:00
如何报名
来源:CCFvoice