Real-Time-Voice-Cloning 声音克隆

萧大人 发表于 2024-10-17 14:51:42

实时语音克隆

此存储库是使用实时工作的声码器实现从说话人验证到多说话人文本到语音合成 (SV2TTS)的迁移学习的实现。
SV2TTS 是一个分为三个阶段的深度学习框架。在第一阶段，人们从几秒钟的音频中创建语音的数字表示。在第二和第三阶段，该表示被用作参考，根据任意文本生成语音。

coolsakura 发表于 2024-10-19 12:14:09