这是什么
AWESOME-DIGITAL-HUMAN 是一个基于 Dify 的开源 AI 数字人项目,把"对话 AI + 语音合成 + 2D 人物模型 + 唇形同步"打包成一个开箱即用的方案。最大特点:配置极低、能在 2 核 2G 的小服务器上跑起来,Docker 一行命令部署。

跟传统数字人项目对比:
- 不需要 GPU(可选,有更好但不强求)
- 不需要 24GB 显存跑生成模型 —— 用 ASR / TTS 服务接口,Live2D 模型动画驱动唇形
- 易于扩展:Dify / FastGPT 编排,你想接什么大模型都行
核心特性
- Docker 快速部署:一行
docker-compose up跑起来 - 轻量级:2 核 2G 起步,小机器友好
- 接入 Dify / FastGPT:不需要自己写 prompt + 模型调度
- 模块化 ASR / LLM / TTS / Agent:每个模块都能换成你喜欢的服务商
- Live2D 人物模型:多种风格的 2D 卡通角色,可定制
- PC / 移动 Web 端访问,跨平台
架构示意
用户(Web 浏览器)
↕ WebSocket
[数字人 Web 前端 - Live2D 渲染]
↕ HTTP
[数字人后端服务]
├── ASR 模块(语音识别)
│ └── 用户麦克风 → 文字
├── LLM 模块(对话核心)
│ └── Dify / FastGPT / 直连 OpenAI / Kimi 等
├── TTS 模块(语音合成)
│ └── AI 回答文字 → 语音流
└── Live2D 驱动
└── 音素 → 嘴形动作
实际用法
项目地址:github.com/wan-h/awesome-digital-human-live2d
部署步骤(假设你已经有 Docker):
# 1. 克隆仓库
git clone https://github.com/wan-h/awesome-digital-human-live2d.git
cd awesome-digital-human-live2d
# 2. 配置环境变量
cp .env.example .env
# 编辑 .env 填入你的 Dify API key、TTS / ASR 配置
# 3. 启动
docker-compose up -d
# 4. 访问
# http://your-server-ip:8080
配置 Dify(对话核心)
Dify 是开源的 LLM 应用编排平台,可以可视化拖拽搭建对话工作流。这个项目用 Dify 来:
- 管理 prompt 模板
- 切换底层模型(GPT / Claude / Kimi / DeepSeek 等)
- 接知识库(数字人"懂"你的资料)
- 调用外部工具(查天气、查数据库等)
在 Dify 里新建一个"对话应用",拿到 API key,填进 .env:
DIFY_API_KEY=app-xxxxxxxxxxxxx
DIFY_API_URL=https://your-dify.example.com/v1
TTS / ASR 选哪家
这俩模块每家都能接。免费 / 低成本的选择:
| 模块 | 服务商 | 备注 |
|---|---|---|
| ASR(语音→文字) | Edge ASR(微软免费) | 免费,中文识别准 |
| 阿里云 / 腾讯云 ASR | 付费,但便宜 | |
| TTS(文字→语音) | Edge TTS(微软免费) | 音色多,免费,质量高 |
| Coqui TTS(本地) | 本地跑,自由度高 |
Live2D 模型
项目自带几个默认 2D 人物模型(可爱风、御姐风、男性等)。要换其他模型:
- 到 Live2D 官方 下载 / 购买
- 开源社区:Live2d-model 仓库
- 自己用 Live2D Cubism Editor 做
模型文件放到 web/public/models/ 目录,配置文件指向就行。
能做什么
- 客服 / 助理:接公司知识库,做带语音对话的客服
- 个人陪伴 / 学习伙伴:配 ChatGPT,做你的 24 小时 AI 朋友
- 嵌入 H5 营销页:产品页放个数字人,讲解功能
- 直播间:数字人当主播,7×24 直播
相关项目
- AWESOME-DIGITAL-HUMAN —— 本文主角,2D 路线
- SadTalker —— 单张照片 + 音频 → 视频,3D 风格但需要 GPU
- VTube Studio —— Live2D 模型驱动平台,主要给 VTuber 用
- NVIDIA Audio2Face —— 音频驱动 3D 脸部表情,适合游戏 / 影视制作,需要 RTX 显卡
限制
- Live2D 是 2D —— 卡通风格,如果你想要写实人脸,这不是答案
- 唇形同步是预设 —— 不是基于音素的精确同步,只是"开嘴-闭嘴"循环
- 实时性 —— TTS 延迟 1-3 秒,看不到"立即说话",但对话流程能用
对于个人项目 / 实验性场景,这套方案的性价比极高。生产环境需要更精致的体验,可以接付费 TTS(微软专业版 / ElevenLabs)+ 自定义 Live2D 模型,效果能比开源版本好不少。