摘要:数字人生成为固定视频,可以做到很精细,适合录播,缺点是无法实时交互。而实时交互在教学中可以很好吸引学生的注意力,这点很重要。
需求
真人形象,具备语音、动作、表情
结合PPT内容进行讲解
可以根据用户提问和回答内容,准实时交互
需求痛点
数字人生成为固定视频,可以做到很精细,适合录播,缺点是无法实时交互。
而实时交互在教学中可以很好吸引学生的注意力,这点很重要。
但是实时生成视频的话,成本又高。云服务商的市场价格:数字人方案,批发价4块钱1分钟(采购量1000分钟起)。ppt+声音合成视频,零售价1块钱1分钟。
所以这时候,在浏览器层面进行动作交互的数字人是个有潜力的方案,比如live2d。
本方案的成本估算:
Dify部署,这是AI项目固定成本,可忽略。
Python 后端,Node前端部署,占用内存不超过100M,成本可忽略。
数字人模型生成:采用Textoon框架,通过文字可生成卡通形象,成本应该很低。
方案1:浏览器端数字人
采用Live2d方案的数字人,用AI为每个教师生成一个固定的卡通形象。
甚至将卡通形象的生成交由学生,让学生用自己喜爱的形象来授课,这是真正的个性化教学。
下面以教育培训行业为例,进行场景构想。
第一步:为每位老师生成个性化数字人
形象模仿
采用阿里的 Textoon 框架。
阿里文生卡通新方法Textoon:一分钟内生成丰富多彩、可交互的Live2D格式角色。
论文:http://arxiv.org/abs/2501.10020v1
主页:https://human3daigc.github.io/Textoon_webpage/
视频:https://youtu.be/cA0yNZwyGTo
Dify工作流:
教师上传照片 → 视觉大模型生成文字描述 → Textoon 生成卡通形象和动作 → 教师调整文字描述 → 重新生成形象
第二步:搭建TTS服务
方案比较多,比如 Spark-TTS 。
Spark-TTS 核心能力
零样本语音克隆:只需提供几秒钟的语音样本,便能克隆目标说话人的声音
细粒度语音控制:粗粒度控制(性别、说话风格等);细粒度调整(音高、语速等)
跨语言语音生成:支持跨语言语音合成,支持中文和英文,并保持自然度和准确性
高质量自然语音:结合 Qwen-2.5 思维链技术,增强语音表达逻辑,自动调整语气、停顿、强调等语音表达
音质 & 语音控制能力:采用 BiCodec 单流语音编解码器,将语音分解为语义信息和说话人属性
Web界面支持: 提供了使用 Web UI 进行语音克隆和语音创建的界面
产品界面上,需要老师上传一段音频用于克隆。
暴露TTS接口供Dify调用。
第三步:PPT演示前端组件
考虑用 reveal.js
如果要对图表解读,也可以用 ECharts、AntV
前端组件需要能够把当前页面的内容和数值,在PPT页面切换时自动传回大模型,大模型通过聊天界面和语音答复。
第四步:部署智能体工作流
部署Dify,建立教师智能体,智能体需要对接:
Prompt:授课逻辑、教学方法
对话入参:当前PPT页内容
RAG:教案、教材
输出内容:对当前PPT页,结合教学方案和教案,进行讲解。
输入输出转换:对接ASR、TTS接口
第五步:前端整合Live2D数字人
开源项目如 awesome-digital-human-live2d 是个很好的示例。
将模型与ASR(语音识别)、LLM(对话模型)结合,实现语音互动和情感反馈(如脸红、皱眉)。 既能够实现对PPT的讲解,又能够和学生语音交互,进行实时互动答疑。
互动性体现在:表情、动作可以控制;人物和鼠标、点击有反馈。
方案2:直接生成视频
Omnihuman https://omnihuman.design/
Live Portrait https://liveportrait.org/
未完待续…
来源:智流AIFlow