快速、低成本的数字人方案

360影视 国产动漫 2025-03-10 17:44 2

摘要:数字人生成为固定视频,可以做到很精细,适合录播,缺点是无法实时交互。而实时交互在教学中可以很好吸引学生的注意力,这点很重要。

需求

真人形象,具备语音、动作、表情

结合PPT内容进行讲解

可以根据用户提问和回答内容,准实时交互

需求痛点

数字人生成为固定视频,可以做到很精细,适合录播,缺点是无法实时交互。
而实时交互在教学中可以很好吸引学生的注意力,这点很重要。

但是实时生成视频的话,成本又高。云服务商的市场价格:数字人方案,批发价4块钱1分钟(采购量1000分钟起)。ppt+声音合成视频,零售价1块钱1分钟。

所以这时候,在浏览器层面进行动作交互的数字人是个有潜力的方案,比如live2d。
本方案的成本估算:

Dify部署,这是AI项目固定成本,可忽略。

Python 后端,Node前端部署,占用内存不超过100M,成本可忽略。

数字人模型生成:采用Textoon框架,通过文字可生成卡通形象,成本应该很低。

方案1:浏览器端数字人

采用Live2d方案的数字人,用AI为每个教师生成一个固定的卡通形象。
甚至将卡通形象的生成交由学生,让学生用自己喜爱的形象来授课,这是真正的个性化教学。

下面以教育培训行业为例,进行场景构想。

第一步:为每位老师生成个性化数字人

形象模仿

采用阿里的 Textoon 框架。
阿里文生卡通新方法Textoon:一分钟内生成丰富多彩、可交互的Live2D格式角色。

论文:http://arxiv.org/abs/2501.10020v1

主页:https://human3daigc.github.io/Textoon_webpage/

视频:https://youtu.be/cA0yNZwyGTo

Dify工作流:
教师上传照片 → 视觉大模型生成文字描述 → Textoon 生成卡通形象和动作 → 教师调整文字描述 → 重新生成形象

第二步:搭建TTS服务

方案比较多,比如 Spark-TTS 。

Spark-TTS 核心能力

零样本语音克隆:只需提供几秒钟的语音样本,便能克隆目标说话人的声音

细粒度语音控制:粗粒度控制(性别、说话风格等);细粒度调整(音高、语速等)

跨语言语音生成:支持跨语言语音合成,支持中文和英文,并保持自然度和准确性

高质量自然语音:结合 Qwen-2.5 思维链技术,增强语音表达逻辑,自动调整语气、停顿、强调等语音表达

音质 & 语音控制能力:采用 BiCodec 单流语音编解码器,将语音分解为语义信息和说话人属性

Web界面支持: 提供了使用 Web UI 进行语音克隆和语音创建的界面

产品界面上,需要老师上传一段音频用于克隆。
暴露TTS接口供Dify调用。

第三步:PPT演示前端组件

考虑用 reveal.js
如果要对图表解读,也可以用 ECharts、AntV

前端组件需要能够把当前页面的内容和数值,在PPT页面切换时自动传回大模型,大模型通过聊天界面和语音答复。

第四步:部署智能体工作流

部署Dify,建立教师智能体,智能体需要对接:

Prompt:授课逻辑、教学方法

对话入参:当前PPT页内容

RAG:教案、教材

输出内容:对当前PPT页,结合教学方案和教案,进行讲解。

输入输出转换:对接ASR、TTS接口

第五步:前端整合Live2D数字人

开源项目如 awesome-digital-human-live2d 是个很好的示例。
将模型与ASR(语音识别)、LLM(对话模型)结合,实现语音互动和情感反馈(如脸红、皱眉)。 既能够实现对PPT的讲解,又能够和学生语音交互,进行实时互动答疑。
互动性体现在:表情、动作可以控制;人物和鼠标、点击有反馈。

方案2:直接生成视频

Omnihuman https://omnihuman.design/

Live Portrait https://liveportrait.org/

未完待续…

来源:智流AIFlow

相关推荐