快速、低成本的数字人方案

摘要：数字人生成为固定视频，可以做到很精细，适合录播，缺点是无法实时交互。而实时交互在教学中可以很好吸引学生的注意力，这点很重要。

需求

真人形象，具备语音、动作、表情

结合PPT内容进行讲解

可以根据用户提问和回答内容，准实时交互

需求痛点

数字人生成为固定视频，可以做到很精细，适合录播，缺点是无法实时交互。
而实时交互在教学中可以很好吸引学生的注意力，这点很重要。

但是实时生成视频的话，成本又高。云服务商的市场价格：数字人方案，批发价4块钱1分钟（采购量1000分钟起）。ppt+声音合成视频，零售价1块钱1分钟。

所以这时候，在浏览器层面进行动作交互的数字人是个有潜力的方案，比如live2d。
本方案的成本估算：

Dify部署，这是AI项目固定成本，可忽略。

Python 后端，Node前端部署，占用内存不超过100M，成本可忽略。

数字人模型生成：采用Textoon框架，通过文字可生成卡通形象，成本应该很低。

方案1：浏览器端数字人

采用Live2d方案的数字人，用AI为每个教师生成一个固定的卡通形象。
甚至将卡通形象的生成交由学生，让学生用自己喜爱的形象来授课，这是真正的个性化教学。

下面以教育培训行业为例，进行场景构想。

第一步：为每位老师生成个性化数字人

形象模仿

采用阿里的 Textoon 框架。
阿里文生卡通新方法Textoon：一分钟内生成丰富多彩、可交互的Live2D格式角色。

论文：http://arxiv.org/abs/2501.10020v1

主页：https://human3daigc.github.io/Textoon_webpage/

视频：https://youtu.be/cA0yNZwyGTo

Dify工作流：
教师上传照片 → 视觉大模型生成文字描述 → Textoon 生成卡通形象和动作 → 教师调整文字描述 → 重新生成形象

第二步：搭建TTS服务

方案比较多，比如 Spark-TTS 。

Spark-TTS 核心能力

零样本语音克隆：只需提供几秒钟的语音样本，便能克隆目标说话人的声音

细粒度语音控制：粗粒度控制（性别、说话风格等）；细粒度调整（音高、语速等）

跨语言语音生成：支持跨语言语音合成，支持中文和英文，并保持自然度和准确性

高质量自然语音：结合 Qwen-2.5 思维链技术，增强语音表达逻辑，自动调整语气、停顿、强调等语音表达

音质 & 语音控制能力：采用 BiCodec 单流语音编解码器，将语音分解为语义信息和说话人属性

Web界面支持：提供了使用 Web UI 进行语音克隆和语音创建的界面

产品界面上，需要老师上传一段音频用于克隆。
暴露TTS接口供Dify调用。

第三步：PPT演示前端组件

考虑用 reveal.js
如果要对图表解读，也可以用 ECharts、AntV

前端组件需要能够把当前页面的内容和数值，在PPT页面切换时自动传回大模型，大模型通过聊天界面和语音答复。

第四步：部署智能体工作流

部署Dify，建立教师智能体，智能体需要对接：

Prompt：授课逻辑、教学方法

对话入参：当前PPT页内容

RAG：教案、教材

输出内容：对当前PPT页，结合教学方案和教案，进行讲解。

输入输出转换：对接ASR、TTS接口

第五步：前端整合Live2D数字人

开源项目如 awesome-digital-human-live2d 是个很好的示例。
将模型与ASR（语音识别）、LLM（对话模型）结合，实现语音互动和情感反馈（如脸红、皱眉）。既能够实现对PPT的讲解，又能够和学生语音交互，进行实时互动答疑。
互动性体现在：表情、动作可以控制；人物和鼠标、点击有反馈。