AI音视频工具 Dari Labs
一款超逼真的文本转语音生成模型,号称超越 ElevenLabs 和 Sesame。
Nari Labs 是由两名韩国研究者组建的工作室3。其开发的主要模型是 Dia,这是一款开源的文本转语音模型,在相关领域引起了广泛关注1。以下是对 Dia 模型的具体介绍1:
- 技术背景:Nari Labs 的联合创始人 Toby Kim 表示,他们最初因对 NotebookLM 的播客功能感兴趣,在尝试市面上所有 TTS API 后,发现效果不够自然,于是决定自行开发模型。该模型基于 Transformer 架构,采用 Descript Audio Codec 进行音频编码,拥有 16 亿参数,能处理长文本序列并生成高质量语音输出。
- 核心功能
- 自然对话生成:能直接从包含多说话者标记的文本脚本生成完整对话场景,避免了传统拼接方式,保证了对话节奏自然流畅和语音风格一致,在自然度和连贯性上优于部分知名模型。
- 情感与语调控制:用户可通过上传参考音频或设置随机种子精确控制生成语音的情感表达,适合影视配音、有声读物等场景。
- 非语言声音生成:模型能够识别并生成文本中标注的非语言声音,如笑、咳嗽、清嗓子等,增强了生成对话的真实感和生动性。
- 零样本语音克隆:用户无需对新说话者进行模型微调,上传约 25 秒的参考音频片段,模型就能复制其语音风格,降低了定制化语音生成门槛。
- 实时语音合成:通过优化推理管道,Dia 在消费级设备上能实现实时语音生成,在企业级 GPU 上甚至能超实时速度生成音频。
- 性能表现:目前 Dia 仅支持英文文本生成,需 PyTorch 2.0 + 和 CUDA 12.6 环境运行,完整版本约需 10GB 显存,要求用户至少配置一张 NVIDIA RTX3080 及以上显卡才能在本地桌面上进行部署。不过,用户也可通过 Hugging Face Spaces 平台在线体验。在 A4000 GPU 上每秒能生成约 40 个 token(86 个 token 相当于 1 秒音频)。
- 应用前景:在影视行业后期制作中可降低配音成本和时间;在语言学习应用中能生成各种口音、语速和情感表达的对话素材;在客户服务领域可提升 IVR 系统的自然度。Nari Labs 计划将 Dia 发展为 B2C 应用,包括面向播客主、视频创作者的创作者工具,允许普通用户创建自定义语音内容并与他人分享的娱乐应用,以及为开发者提供高质量 TTS 接口的企业 API 服务。
- 开源与许可:模型代码和权重已在 Hugging Face 和 GitHub 上完全开源,采用 Apache 2.0 许可证,允许商业用途,但团队强调禁止将其用于不道德的场景。
领先的AI视频本地化和配音工具