🎯 WeSep

目标说话人提取 (Target Speaker Extraction) 开源工具包

WeSep: The First Open-Source Target Speaker Extraction Toolkit

首个开源的目标说话人提取工具包 | 面向真实可用的目标说话人提取任务

📖 项目介绍

WeSep 是一个专门用于目标说话人提取(Target Speaker Extraction, TSE)的开源工具包。在多人对话场景中,WeSep 能够根据给定的目标说话人参考语音,从混合语音中提取出目标说话人的语音,同时抑制其他说话人和背景噪声。

🎯 精准提取

基于深度学习的目标说话人提取,能够准确识别和分离目标说话人语音

🔧 易于使用

提供简洁的API接口,支持快速部署和集成到现有系统中

📊 大数据支持

经过大规模数据在线模拟,是真实可用的系统的必备条件

🌐 开源免费

完全开源,支持学术研究和商业应用

🛠️ 技术栈

Python PyTorch Deep Learning Speech Processing Speaker Extration

🎬 演示视频

以下演示展示了WeSep预训练模型在真实音频上的目标说话人提取效果:

🎤 混合语音输入

原始混合语音,包含多个说话人

👨‍💼 Trump 提取结果

WeSep提取出的Trump说话人语音,清晰度显著提升

👨‍💼 泽连斯基提取结果

WeSep提取出的泽连斯基语音,成功分离目标说话人

🔗 相关链接

了解更多关于WeSep的信息:

📁 GitHub 仓库

📚 论文引用

如果您在研究中使用了WeSep,请引用以下论文:

@inproceedings{wang24fa_interspeech,
  title     = {WeSep: A Scalable and Flexible Toolkit Towards Generalizable Target Speaker Extraction},
  author    = {Shuai Wang and Ke Zhang and Shaoxiong Lin and Junjie Li and Xuefei Wang and Meng Ge and Jianwei Yu and Yanmin Qian and Haizhou Li},
  year       = {2024},
  booktitle = {Interspeech 2024},
  pages     = {4273--4277},
  doi       = {10.21437/Interspeech.2024-1840},
}