摘要:中国电信人工智能研究院(TeleAI)在3日举行的“TeleAI 开发者大会”上发布首款基于星辰大模型的视频生成大模型,目标通过语义、语音、文生图等多模态能力打通短剧及影视制作各个环节,覆盖文字脚本撰写、分镜脚本绘制、视频拍摄及剪辑、配音及音效合成等全流程,实
(图片来源:林志佳拍摄)
随着Sora爆火,国内运营商企业也开始与快手等公司一起“卷”AI 视频赛道了。
12月5日消息,钛媒体AGI获悉,中国电信人工智能研究院(TeleAI)在3日举行的“TeleAI 开发者大会”上发布首款基于星辰大模型的视频生成大模型,目标通过语义、语音、文生图等多模态能力打通短剧及影视制作各个环节,覆盖文字脚本撰写、分镜脚本绘制、视频拍摄及剪辑、配音及音效合成等全流程,实现降本增效。
这是国内首个央企全自研的 AI 视频生成模型。
上述动图是此次中国电信大会上展示的3分钟AI视频生成的部分信息。
TeleAI团队通过支持主体目标时空一致性,个体复杂动作精准控制,音视频同步生成,多目标复杂动作精准控制,不仅能从容驾驭多个主角,还能流畅切换多个场景。
这是继星辰语义大模型、星辰语音大模型之后,TeleAI展示的视频生成大模型技术。中国电信负责人向钛媒体App透露,这款产品主要应用于高质量可控短剧生成,赋能文宣产业创新发展。
中国电信CTO、首席科学家、人工智能研究院(TeleAI)院长李学龙表示,TeleAI已完成国内首个全国产化万卡万参大模型。随着本次视频生成大模型和视觉大模型的发布,星辰大模型系列将进一步完成了其全模态能力的构建,从而完成1(星辰大模型基础底座)+1(数据底座)+1(算力底座)+M(自用内部大模型)+N(外部行业大模型)的人工智能布局。
事实上,2024年2月,美国OpenAI公司发布视频生成模型Sora,首次由 AI 生成了长达1分钟的多镜头长视频,输入寥寥数语便能生成效果炸裂视频,镜头感堪比电影,震惊全球。
随后,全球掀起了一场关于Sora的讨论风暴,犹如两年前的ChatGPT爆火,有大量 AI 公司以做“中国版 Sora”为目标,众多企业和教授下场参与其中。
随着美国Sora模型demo惊艳全球近300天,但迟迟未公开使用,而国内 AI 视频生成赛道却加速“内卷”,快手可灵、腾讯混元、字节即梦等互联网大厂模型,生数、爱诗、HiDream等初创公司都加入其中,直接与全球“类Sora”们展开竞争。
所谓生成式 AI 视频生成,就是通过计算机视觉、机器学习、ViT架构等多种AI技术手段,可实现视频内容生成过程的自动化。
无论是文生视频,还是图生视频、视频生视频,AI 驱动的视频生成工具的使用不断增加,将有助于增强视频制作工作流程,为影视、游戏、培训与教育、营销与广告、社交媒体等领域发展提供更多增长空间。
据Fortunebusinessinsights数据,2024年,全球 AI 视频生成市场规模预计达6.148亿美元,预计到2032年,整个市场规模将超过180亿元,增至25.629亿美元(约合人民币186.36亿元)年复合增长率19.5%,市场前景广阔。
随着 AI+视频的技术和产品升级迭代,诸如电影、广告、视频剪辑、视频流媒体平台、UGC 创作平台、短视频综合平台等众多行业有望受益。
事实上,TeleAI中国电信人工智能研究院挂牌至今仅5个月。
李学龙透露,早在2022年7月,中国电信就开展了多模态认知计算;2023年,TeleAI发布并开源了千亿参数“星辰”大模型,中国电信成为最早布局并首先开源大模型的央企机构。
今年2月,TeleAI自主研发的星辰大模型首次通过了“境内深度合成服务算法备案”;5月,星辰大模型再次通过产品备案;7月,TeleAI正式挂牌运营。
作为12月1日最新上榜的模型,TeleAI视频生成大模型已经在权威视频生成评测榜单VBench中排名第一。
据悉,VBench 是一个全面的“视频生成模型的评测框架”,它将“视频生成质量”细分为16个评分维度,从人物形象一致性、动作流畅度、画面稳定性到空间关系等方面对模型进行细致、客观的评估。而TeleAI 视频生成大模型在 VBench 的16个评分项目中,一举夺得9项第一,覆盖了模型的画面稳定性(时序闪烁)、语义一致性(物体分类、多物体、人体动作)、空间场景(空间关系、场景),以及视觉风格(颜色、外观、时序风格)等几个核心能力。其中,有5项得分超过99%。
同时,TeleAI还发布视频生成大模型、视觉大模型产用一体化平台、具身智能、智传网等一系列创新技术、产品及科研成果,构建星海AI中台、天翼AI开放平台、星辰智能体平台等开放体系,构建低成本、高效率的创新开发生态,推动中国电信在 AI 领域持续落地。
大会期间,TeleAI 宣布与包括华为、中兴、亚信科技、中科曙光等共19家合作伙伴发布中国电信人工智能开发者产业联盟计划,旨在聚合各方力量,加快推动 AI 产业发展,提升技术能力与应用水平,并为全球开发者赋能。
“中国电信将推动数智化应用深度融入行业生产场景,重点打造80多个行业大模型和20个行业智能体,持续完善MaaS服务能力,为客户提供“算力+平台+数据+模型+应用”的一体化服务。在工业质检方面,星辰大模型具备通过文本检索缺陷图像的能力,在检测场景中精准度超过99.4%。”中国电信董事长柯瑞文表示,科技成果只有通过规模应用,才能促进技术不断迭代完善,形成成熟的商业模式,实现技术和市场双轮驱动产业发展,并进一步反哺科技创新。
柯瑞文强调,生成式 AI 以前所未有的速度进行迭代和创新,大模型能力得到快速提升。从近期实践来看,AI手机、AI PC等智能终端逐步走进日常生活,行业大模型在金融、工业、医疗等领域加快落地,借助大模型解决生产实际问题逐步形成共识。
最新消息是,12月4日晚,OpenAI宣布,将连续12天内发布包括文生视频模型Sora在内的一系列新技术产品。
来 源 | 钛媒体APP
来源:电子技术应用