王帅博士现任南京大学智能科学与技术学院准聘副教授。2014 年在谢磊教授指导下于西北工业大学获得学士学位，2020 年在俞凯教授与钱彦旻教授指导下于上海交通大学获得博士学位。

加入南京大学之前，他曾在香港中文大学（深圳）李海洲教授团队任研究科学家（目前仍兼任），并在腾讯光子工作室担任高级研究科学家，负责面向游戏场景的语音技术研发与团队管理。研究方向包括说话人建模、目标说话人处理、语音合成、语音转换与音乐生成等，在语音领域顶级会议和期刊发表论文 60 余篇。

研究方向与招生课题

欢迎对以下研究方向感兴趣的同学联系申请。当前开放 2027 年秋季研究生（博士/硕士）名额，同时长期招收科研助理（RA）。

说话人建模（Speaker Modeling）
目标说话人处理（Target Speaker Processing）
语音、音频与音乐理解（Speech, Audio, and Music Understanding）
语音、音频与音乐生成（Speech, Audio, and Music Generation）
类脑语音处理（Brain-inspired speech processing）
端到端语音大模型（End-to-End Speech Large Language Models）

招生信息

2027 级硕士/博士研究生招生

招生方向

说话人建模 / Speaker Modeling
目标说话人处理 / Target Speaker Processing
语音、音频、音乐理解 / Speech, Audio, and Music Understanding
语音、音频、音乐生成 / Speech, Audio, and Music Generation
类脑语音处理 / Brain-inspired Speech Processing
端到端语音大模型 / End-to-End Speech Large Language Models

申请要求

主动性强，有较强的自我驱动力
具备扎实的数学与编程基础（Python/C++）
计算机科学、电子工程或相关专业背景
对语音处理、机器学习或生成模型有浓厚兴趣
英语读写能力良好

申请方式

邮箱：点击显示邮箱
请附上：简历、成绩单（本科/硕士）、研究兴趣说明（可含代表性项目）
邮件标题建议格式：申请类型-姓名-学校-年级

南大智科学生特别说明

欢迎大二大三学生进组实习
南大智科学生可到南雍楼西536办公室面聊
实习期间可参与实际科研项目

科研助理（RA）招聘

常年招收：欢迎本科生、研究生申请科研助理岗位
工作地点：
- 南京大学苏州校区
- 深圳河套学院
- 香港中文大学（深圳）
- 远程工作
发展机会：
- 表现优秀者可推荐大厂实习
- 可推荐到知名高校深造
- 参与前沿科研项目
- 可与李海洲教授联合指导

教学

智能语音技术，2025 秋季

学生

南京大学指导学生

Haoyu Li，博士生，研究方向：以说话人为中心的语音理解。2026年秋季入学。曾在阿里巴巴与华为实习。
Ziyi Chen，博士生，研究方向：说话人日志（Speaker Diarization）。2026年秋季入学。曾在华为实习。
Qituan Shangguan，硕士生，研究方向：说话人识别。2026年秋季入学。曾在 Soul AI Lab 实习。
Ye Tao，硕士生，研究方向：音视觉语音与音频生成。2026年秋季入学，曾在上海浦江实验室，video rebirth 实习。
Shengfan Shen，硕士生，研究方向：语音合成。2026年秋季入学。曾在小米实习。
Zihan Qian，本科生。曾在腾讯实习，将入职腾讯。

密切合作学生

Jing Peng, 上海交大, 2025 秋季, 语音识别，语音理解.
Chenyu Yang，2024年秋季，港中深，研究方向：音乐生成。曾在腾讯 AI Lab（犀牛鸟人才计划）、微软亚洲研究院及字节跳动实习。
Zhijun Liu，港中深，2023年秋季，研究方向：语音合成。曾在网易及字节跳动（TopSeed计划）实习。
Qibing Bai，港中深，2023年秋季，研究方向：口音转换。曾在腾讯 TEA-Lab 实习。
Sho Inoue，港中深，2022年秋季，研究方向：语音合成。曾在网易及 Meta FAIR 实习。
Wenxuan Wu，港中文，2022年秋季，研究方向：目标语音提取。

往届学生

Wupeng Wang，新加坡国立大学 (NUS)，研究方向：语音分离。（已毕业，现就职于阿里巴巴，南京大学联合培养博士后）
Yi Ma，新加坡国立大学 (NUS)，研究方向：说话人识别。（已毕业，现就职于新加坡 A*STAR）
Junjie Li，现为香港理工大学博士生。
Shaole Li（现为香港理工大学博士生）。

论文

最新论文请见 Google Scholar。

开源项目

WeSpeaker：说话人嵌入学习工具包，支持工业规模训练。
WeSep：首个开源目标说话人提取工具包演示
DiffRhythm：基于扩散的节奏音乐生成，快速高效。
SongBloom：自回归扩散音乐生成，高质量、高保真、高多样性。
Real-T：面向目标说话人提取的真实对话场景基准数据集。
MSU-Bench：面向大语音语言模型评测的多层次、多说话人、多语言、多场景、多任务基准。

荣誉与奖励

2024 ISCSLP 2024 最佳论文奖
2024 ISCSLP 2024 最佳学生论文奖
2019 VoxSRC 2019：两个赛道均第 1 名
2019 DIHARD 2019：四个赛道均第 1 名
2018 IEEE Ganesh N. Ramaswamy Memorial Student Grant

学术服务

担任多个会议与期刊的常规审稿人，包括 ICASSP、Interspeech、ASRU、SLT、T-ASLP、Computer Speech & Language、Speech Communication；以及 ICML、Neurips、AAAI、ACM MM 等。

曾任 APSIPA 2025 Special Session Chair、ICASSP 2025 苏州卫星会 Operation Chair、SLT 2024 Publication Chair。

邀请报告

2024.09，Speaker Representation Learning: Theories, Applications and Practice，布尔诺理工大学。[[视频](https://www.youtube.com/live/FMY5_smgrYY)
2025.08，One Embedding Doesn’t Fit All — Rethinking Speaker Modeling for Various Speech Applications，Interspeech 2025 MLC Workshop。幻灯片
2025.08，The Real-T Dataset（面向目标说话人提取的真实对话混合数据），Interspeech 2025。幻灯片
2025.10，深度说话人表示学习，教程，NCMMSC 2025。中文幻灯片
2025.10，深度说话人表示学习，教程，APSIPA 2025。英文幻灯片

Shuai Wang