WeSep - 目标说话人提取演示

WeSep: The First Open-Source Target Speaker Extraction Toolkit

首个开源的目标说话人提取工具包 | 面向真实可用的目标说话人提取任务

📖 项目介绍

WeSep 是一个专门用于目标说话人提取（Target Speaker Extraction, TSE）的开源工具包。在多人对话场景中，WeSep 能够根据给定的目标说话人参考语音，从混合语音中提取出目标说话人的语音，同时抑制其他说话人和背景噪声。

🎯 精准提取

基于深度学习的目标说话人提取，能够准确识别和分离目标说话人语音

🔧 易于使用

提供简洁的API接口，支持快速部署和集成到现有系统中

📊 大数据支持

经过大规模数据在线模拟，是真实可用的系统的必备条件

🌐 开源免费

完全开源，支持学术研究和商业应用

🛠️ 技术栈

Python PyTorch Deep Learning Speech Processing Speaker Extration

🎬 演示视频

以下演示展示了WeSep预训练模型在真实音频上的目标说话人提取效果：

🎤 混合语音输入

原始混合语音，包含多个说话人

👨‍💼 Trump 提取结果

WeSep提取出的Trump说话人语音，清晰度显著提升

👨‍💼 泽连斯基提取结果

WeSep提取出的泽连斯基语音，成功分离目标说话人

📚 论文引用

如果您在研究中使用了WeSep，请引用以下论文：

                @inproceedings{wang24fa_interspeech,

                  title     = {WeSep: A Scalable and Flexible Toolkit Towards Generalizable Target Speaker Extraction},

                  author    = {Shuai Wang and Ke Zhang and Shaoxiong Lin and Junjie Li and Xuefei Wang and Meng Ge and Jianwei Yu and Yanmin Qian and Haizhou Li},

                  year       = {2024},

                  booktitle = {Interspeech 2024},

                  pages     = {4273--4277},

                  doi       = {10.21437/Interspeech.2024-1840},

                }

🎯 WeSep