名称: LatentSync 一键启动(整合包)
软体版本:V.1.0(简易操作,N卡6G以上较适合)
软体语言:多语(网页翻译)
档案大小:7.31GB



字节跳动开源LatentSync-基于扩散模型的高精度口型同步技术
字节跳动近日在GitHub上开源了一款创新的口型同步工具——LatentSync。
这是一个基于音频条件潜空间扩散模型的端到端口型同步框架,不仅能实现高精度的音画同步,
还解决了传统方法中常见的画面跳动问题。
技术创新
LatentSync的主要技术创新包括:
1.端到端的潜空间扩散模型
◦ 无需中间动作表示
◦ 直接在潜空间中建模复杂的音视频关联
◦ 充分利用StableDiffusion的强大性能
2.时序一致性优化
◦ 提出创新的时序表示对齐(TREPA)技术
◦ 使用大规模自监督视频模型提取时序特征
◦有效提升生成视频的时序连贯性
LatentSync的发布为视频制作领域带来新的可能:
• 视频后期制作
• 多语言配音本地化
• 虚拟主播内容生成
• 教育视频制作
页:
[1]