王帅博士现任南京大学智能科学与技术学院准聘副教授。2014 年在谢磊教授指导下于西北工业大学获得学士学位,2020 年在俞凯教授与钱彦旻教授指导下于上海交通大学获得博士学位。
加入南京大学之前,他曾在香港中文大学(深圳)李海洲教授团队任研究科学家(目前仍兼任),并在腾讯光子工作室担任高级研究科学家,负责面向游戏场景的语音技术研发与团队管理。研究方向包括说话人建模、目标说话人处理、语音合成、语音转换与音乐生成等,在语音领域顶级会议和期刊发表论文 60 余篇。
研究方向与招生课题
欢迎对以下研究方向感兴趣的同学联系申请。当前开放 2027 年秋季研究生(博士/硕士)名额,同时长期招收科研助理(RA)。
- 说话人建模(Speaker Modeling)
- 目标说话人处理(Target Speaker Processing)
- 语音、音频与音乐理解(Speech, Audio, and Music Understanding)
- 语音、音频与音乐生成(Speech, Audio, and Music Generation)
- 类脑语音处理(Brain-inspired speech processing)
- 端到端语音大模型(End-to-End Speech Large Language Models)
招生信息
2027 级硕士/博士研究生招生
招生方向
- 说话人建模 / Speaker Modeling
- 目标说话人处理 / Target Speaker Processing
- 语音、音频、音乐理解 / Speech, Audio, and Music Understanding
- 语音、音频、音乐生成 / Speech, Audio, and Music Generation
- 类脑语音处理 / Brain-inspired Speech Processing
- 端到端语音大模型 / End-to-End Speech Large Language Models
申请要求
- 主动性强,有较强的自我驱动力
- 具备扎实的数学与编程基础(Python/C++)
- 计算机科学、电子工程或相关专业背景
- 对语音处理、机器学习或生成模型有浓厚兴趣
- 英语读写能力良好
申请方式
- 邮箱:点击显示邮箱
- 请附上:简历、成绩单(本科/硕士)、研究兴趣说明(可含代表性项目)
- 邮件标题建议格式:申请类型-姓名-学校-年级
南大智科学生特别说明
- 欢迎大二大三学生进组实习
- 南大智科学生可到南雍楼西536办公室面聊
- 实习期间可参与实际科研项目
科研助理(RA)招聘
- 常年招收:欢迎本科生、研究生申请科研助理岗位
- 工作地点:
- 南京大学苏州校区
- 深圳河套学院
- 香港中文大学(深圳)
- 远程工作
- 发展机会:
- 表现优秀者可推荐大厂实习
- 可推荐到知名高校深造
- 参与前沿科研项目
- 可与李海洲教授联合指导
教学
学生
南京大学指导学生
- Haoyu Li,博士生,研究方向:以说话人为中心的语音理解。2026年秋季入学。曾在阿里巴巴与华为实习。
- Ziyi Chen,博士生,研究方向:说话人日志(Speaker Diarization)。2026年秋季入学。曾在华为实习。
- Qituan Shangguan,硕士生,研究方向:说话人识别。2026年秋季入学。曾在 Soul AI Lab 实习。
- Ye Tao,硕士生,研究方向:音视觉语音与音频生成。2026年秋季入学,曾在上海浦江实验室,video rebirth 实习。
- Shengfan Shen,硕士生,研究方向:语音合成。2026年秋季入学。曾在小米实习。
- Zihan Qian,本科生。曾在腾讯实习,将入职腾讯。
密切合作学生
- Jing Peng, 上海交大, 2025 秋季, 语音识别,语音理解.
- Chenyu Yang,2024年秋季,港中深,研究方向:音乐生成。曾在腾讯 AI Lab(犀牛鸟人才计划)、微软亚洲研究院及字节跳动实习。
- Zhijun Liu,港中深,2023年秋季,研究方向:语音合成。曾在网易及字节跳动(TopSeed计划)实习。
- Qibing Bai,港中深,2023年秋季,研究方向:口音转换。曾在腾讯 TEA-Lab 实习。
- Sho Inoue,港中深,2022年秋季,研究方向:语音合成。曾在网易及 Meta FAIR 实习。
- Wenxuan Wu,港中文,2022年秋季,研究方向:目标语音提取。
往届学生
- Wupeng Wang,新加坡国立大学 (NUS),研究方向:语音分离。(已毕业,现就职于阿里巴巴,南京大学联合培养博士后)
- Yi Ma,新加坡国立大学 (NUS),研究方向:说话人识别。(已毕业,现就职于新加坡 A*STAR)
- Junjie Li,现为香港理工大学博士生。
- Shaole Li(现为香港理工大学博士生)。
论文
最新论文请见 Google Scholar。
开源项目
- WeSpeaker:说话人嵌入学习工具包,支持工业规模训练。
- WeSep:首个开源目标说话人提取工具包 演示
- DiffRhythm:基于扩散的节奏音乐生成,快速高效。
- SongBloom:自回归扩散音乐生成,高质量、高保真、高多样性。
- Real-T:面向目标说话人提取的真实对话场景基准数据集。
- MSU-Bench:面向大语音语言模型评测的多层次、多说话人、多语言、多场景、多任务基准。
荣誉与奖励
- 2024 ISCSLP 2024 最佳论文奖
- 2024 ISCSLP 2024 最佳学生论文奖
- 2019 VoxSRC 2019:两个赛道均第 1 名
- 2019 DIHARD 2019:四个赛道均第 1 名
- 2018 IEEE Ganesh N. Ramaswamy Memorial Student Grant
学术服务
担任多个会议与期刊的常规审稿人,包括 ICASSP、Interspeech、ASRU、SLT、T-ASLP、Computer Speech & Language、Speech Communication;以及 ICML、Neurips、AAAI、ACM MM 等。
曾任 APSIPA 2025 Special Session Chair、ICASSP 2025 苏州卫星会 Operation Chair、SLT 2024 Publication Chair。
邀请报告
- 2024.09,Speaker Representation Learning: Theories, Applications and Practice,布尔诺理工大学。[[视频](https://www.youtube.com/live/FMY5_smgrYY)
- 2025.08,One Embedding Doesn’t Fit All — Rethinking Speaker Modeling for Various Speech Applications,Interspeech 2025 MLC Workshop。幻灯片
- 2025.08,The Real-T Dataset(面向目标说话人提取的真实对话混合数据),Interspeech 2025。幻灯片
- 2025.10,深度说话人表示学习,教程,NCMMSC 2025。中文幻灯片
- 2025.10,深度说话人表示学习,教程,APSIPA 2025。英文幻灯片