基于Dify的开源AI数字人工具

这是什么

AWESOME-DIGITAL-HUMAN 是一个基于 Dify 的开源 AI 数字人项目,把"对话 AI + 语音合成 + 2D 人物模型 + 唇形同步"打包成一个开箱即用的方案。最大特点:配置极低、能在 2 核 2G 的小服务器上跑起来,Docker 一行命令部署。

基于Dify的开源AI数字人工具

跟传统数字人项目对比:

  • 不需要 GPU(可选,有更好但不强求)
  • 不需要 24GB 显存跑生成模型 —— 用 ASR / TTS 服务接口,Live2D 模型动画驱动唇形
  • 易于扩展:Dify / FastGPT 编排,你想接什么大模型都行

核心特性

  • Docker 快速部署:一行 docker-compose up 跑起来
  • 轻量级:2 核 2G 起步,小机器友好
  • 接入 Dify / FastGPT:不需要自己写 prompt + 模型调度
  • 模块化 ASR / LLM / TTS / Agent:每个模块都能换成你喜欢的服务商
  • Live2D 人物模型:多种风格的 2D 卡通角色,可定制
  • PC / 移动 Web 端访问,跨平台

架构示意

用户(Web 浏览器)
    ↕ WebSocket
[数字人 Web 前端 - Live2D 渲染]
    ↕ HTTP
[数字人后端服务]
    ├── ASR 模块(语音识别)
    │   └── 用户麦克风 → 文字
    ├── LLM 模块(对话核心)
    │   └── Dify / FastGPT / 直连 OpenAI / Kimi 等
    ├── TTS 模块(语音合成)
    │   └── AI 回答文字 → 语音流
    └── Live2D 驱动
        └── 音素 → 嘴形动作

实际用法

项目地址:github.com/wan-h/awesome-digital-human-live2d

部署步骤(假设你已经有 Docker):

# 1. 克隆仓库
git clone https://github.com/wan-h/awesome-digital-human-live2d.git
cd awesome-digital-human-live2d

# 2. 配置环境变量
cp .env.example .env
# 编辑 .env 填入你的 Dify API key、TTS / ASR 配置

# 3. 启动
docker-compose up -d

# 4. 访问
# http://your-server-ip:8080

配置 Dify(对话核心)

Dify 是开源的 LLM 应用编排平台,可以可视化拖拽搭建对话工作流。这个项目用 Dify 来:

  • 管理 prompt 模板
  • 切换底层模型(GPT / Claude / Kimi / DeepSeek 等)
  • 接知识库(数字人"懂"你的资料)
  • 调用外部工具(查天气、查数据库等)

在 Dify 里新建一个"对话应用",拿到 API key,填进 .env:

DIFY_API_KEY=app-xxxxxxxxxxxxx
DIFY_API_URL=https://your-dify.example.com/v1

TTS / ASR 选哪家

这俩模块每家都能接。免费 / 低成本的选择:

模块 服务商 备注
ASR(语音→文字) Edge ASR(微软免费) 免费,中文识别准
阿里云 / 腾讯云 ASR 付费,但便宜
TTS(文字→语音) Edge TTS(微软免费) 音色多,免费,质量高
Coqui TTS(本地) 本地跑,自由度高

Live2D 模型

项目自带几个默认 2D 人物模型(可爱风、御姐风、男性等)。要换其他模型:

模型文件放到 web/public/models/ 目录,配置文件指向就行。

能做什么

  • 客服 / 助理:接公司知识库,做带语音对话的客服
  • 个人陪伴 / 学习伙伴:配 ChatGPT,做你的 24 小时 AI 朋友
  • 嵌入 H5 营销页:产品页放个数字人,讲解功能
  • 直播间:数字人当主播,7×24 直播

相关项目

  • AWESOME-DIGITAL-HUMAN —— 本文主角,2D 路线
  • SadTalker —— 单张照片 + 音频 → 视频,3D 风格但需要 GPU
  • VTube Studio —— Live2D 模型驱动平台,主要给 VTuber 用
  • NVIDIA Audio2Face —— 音频驱动 3D 脸部表情,适合游戏 / 影视制作,需要 RTX 显卡

限制

  • Live2D 是 2D —— 卡通风格,如果你想要写实人脸,这不是答案
  • 唇形同步是预设 —— 不是基于音素的精确同步,只是"开嘴-闭嘴"循环
  • 实时性 —— TTS 延迟 1-3 秒,看不到"立即说话",但对话流程能用

对于个人项目 / 实验性场景,这套方案的性价比极高。生产环境需要更精致的体验,可以接付费 TTS(微软专业版 / ElevenLabs)+ 自定义 Live2D 模型,效果能比开源版本好不少。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理 邮箱1846861578@qq.com。
技术教程

规避笔记陷阱 [译]

2024-7-4 16:56:47

技术教程

伪造X-Forwarded-For绕过服务器IP地址过滤

2024-9-11 14:38:58

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索