王帅博士现任南京大学智能科学与技术学院准聘副教授。2014年在谢磊教授指导下于西北工业大学获学士学位,2020年在俞凯教授与钱彦旻教授指导下于上海交通大学获博士学位。加入南京大学之前,他在香港中文大学(深圳)李海洲教授团队任研究科学家(目前仍兼任)。此外,曾在腾讯光子工作室任高级研究科学家,负责面向游戏的语音技术研发与团队管理。
研究方向包括说话人建模、目标说话人处理、语音合成、语音转换与音乐生成等,在语音领域顶级会议/期刊发表论文60余篇。
🔥 招生课题
本人正在招收2027年秋季入学的研究生(含博士与硕士),以及科研助理;若你对以下方向感兴趣,欢迎附简历发邮件联系:
- 说话人建模(Speaker Modeling)
- 目标说话人处理(Target Speaker Processing)
- 语音、音频与音乐理解(Speech, Audio, and Music Understanding)
- 语音、音频与音乐生成(Speech, Audio, and Music Generation)
- 类脑语音处理(Brain-inspired speech processing)
- 端到端语音大模型(End-to-End Speech Large Language Models)
🎓 招生信息
基于论文 SongBloom 生成的欢迎演示
🔥 2027级硕士、博士研究生招生
招生方向
- 说话人建模 / Speaker Modeling
- 目标说话人处理 / Target Speaker Processing
- 语音、音频、音乐理解 / Speech, Audio, and Music Understanding
- 语音、音频、音乐生成 / Speech, Audio, and Music Generation
- 类脑语音处理 / Brain-inspired Speech Processing
- 端到端语音大模型 / End-to-End Speech Large Language Models
申请要求
- 主动性强,有较强的自我驱动力
- 好奇心强,对新技术有强烈探索欲望
- 计算机科学、电子工程或相关专业背景
- 对语音处理、机器学习有浓厚兴趣
- 良好的编程能力(Python/C++)
- 英语读写能力良好
联系方式
- 邮箱:点击显示邮箱
- 请附上简历、成绩单和研究兴趣陈述
南大智科学生特别说明
- 欢迎大二大三学生进组实习
- 南大智科学生可到南雍楼西536办公室面聊
- 实习期间可参与实际科研项目
🔬 科研助理(RA)招聘
- 常年招收:欢迎本科生、研究生申请科研助理岗位
- 工作地点:
- 南京大学苏州校区
- 深圳河套学院
- 香港中文大学(深圳)
- 远程工作
- 发展机会:
- 表现优秀者可推荐大厂实习
- 可推荐到知名高校深造
- 参与前沿科研项目
- 可与李海洲教授联合指导
📚 教学
👨🎓 学生
南京大学
- Haoyu Li,博士生,以说话人为中心的理解,2026 秋入学。阿里巴巴、华为实习。
- Ziyi Chen,博士生,说话人分割,2026 秋入学。华为实习。
- Qituan Shangguan,硕士生,说话人识别,2026 秋入学。 Soul AI Lab 实习。
- Ye Tao,硕士生,视听语音与音频生成,2026 秋入学。
- Shengfan Shen,硕士生,语音合成,2026 秋入学。小米实习。
- Zihan Qian,本科生,曾在腾讯实习。
与李海洲教授联合指导的博士生
- Sixiang Lyu,2026 秋,目标说话人处理、语音合成,深圳河套学院。曾在小米实习。
- Duojia Li,2025 秋,目标说话人处理,深圳河套学院。
- Shuhan Zhang,2025 秋,视听目标说话人处理,深圳河套学院。
- Chenyu Yang,2024 秋,港中深,音乐生成,曾在腾讯 AILab(犀牛鸟人才计划)、微软亚洲研究院实习。
- Zhijun Liu,2023 秋,港中深,语音合成,曾在网易、字节跳动(TopSeed)实习。
- Qibing Bai,2023 秋,港中深,口音转换,曾在腾讯 TEA-Lab 实习。
- Sho Inoue,2022 秋,港中深,语音合成,曾在网易、Meta FAIR 实习。
- Wenxuan Wu,2022 秋,港中大,目标语音提取。
- Wupeng Wang,新加坡国立大学,语音分离(已毕业,现于阿里巴巴)。
- Yi Ma,新加坡国立大学,说话人识别(已毕业,现于新加坡 ASTAR)。
往届学生
- Junjie Li,现为香港理工大学博士生。
- Shaole Li(现为香港理工大学博士生)。
📝 论文
最新论文请见 Google Scholar。
🪜 开源项目
- WeSpeaker:说话人嵌入学习工具包,支持工业规模训练。
- WeSep:首个开源目标说话人提取工具包 [演示]
- DiffRhythm:基于扩散的节奏音乐生成,快速高效。
- SongBloom:自回归扩散音乐生成,高质量、高保真、高多样性。
- Real-T:面向目标说话人提取的真实对话场景基准数据集。
- MSU-Bench:面向大语音语言模型评测的多层次、多说话人、多语言、多场景、多任务基准。
🎖 荣誉与奖励
- 2024 ISCSLP 2024 最佳论文奖
- 2024 ISCSLP 2024 最佳学生论文奖
- 2019 VoxSRC 2019:两个赛道均第 1 名
- 2019 DIHARD 2019:四个赛道均第 1 名
- 2018 IEEE Ganesh N. Ramaswamy Memorial Student Grant
🌅 学术服务
担任多个会议与期刊的常规审稿人,包括 ICASSP、Interspeech、ASRU、SLT、T-ASLP、Computer Speech & Language、Speech Communication;以及 ICML、Neurips、AAAI、ACM MM 等。
曾任 APSIPA 2025 Special Session Chair、ICASSP 2025 苏州卫星会 Operation Chair、SLT 2024 Publication Chair。
💬 邀请报告
- 2024.09,Speaker Representation Learning: Theories, Applications and Practice,布尔诺理工大学。[视频]
- 2025.08,One Embedding Doesn’t Fit All — Rethinking Speaker Modeling for Various Speech Applications,Interspeech 2025 MLC Workshop。[幻灯片]
- 2025.08,The Real-T Dataset(面向目标说话人提取的真实对话混合数据),Interspeech 2025。[幻灯片]
- 2025.10,深度说话人表示学习,教程,NCMMSC 2025。[中文幻灯片]
- 2025.10,深度说话人表示学习,教程,APSIPA 2025。[英文幻灯片]