目标说话人提取 (Target Speaker Extraction) 开源工具包
首个开源的目标说话人提取工具包 | 面向真实可用的目标说话人提取任务
WeSep 是一个专门用于目标说话人提取(Target Speaker Extraction, TSE)的开源工具包。在多人对话场景中,WeSep 能够根据给定的目标说话人参考语音,从混合语音中提取出目标说话人的语音,同时抑制其他说话人和背景噪声。
基于深度学习的目标说话人提取,能够准确识别和分离目标说话人语音
提供简洁的API接口,支持快速部署和集成到现有系统中
经过大规模数据在线模拟,是真实可用的系统的必备条件
完全开源,支持学术研究和商业应用
以下演示展示了WeSep预训练模型在真实音频上的目标说话人提取效果:
原始混合语音,包含多个说话人
WeSep提取出的Trump说话人语音,清晰度显著提升
WeSep提取出的泽连斯基语音,成功分离目标说话人
如果您在研究中使用了WeSep,请引用以下论文: