王帅博士现任南京大学智能科学与技术学院准聘副教授。2014 年在谢磊教授指导下于西北工业大学获得学士学位,2020 年在俞凯教授钱彦旻教授指导下于上海交通大学获得博士学位。

加入南京大学之前,他曾在香港中文大学(深圳)李海洲教授团队任研究科学家(目前仍兼任),并在腾讯光子工作室担任高级研究科学家,负责面向游戏场景的语音技术研发与团队管理。研究方向包括说话人建模、目标说话人处理、语音合成、语音转换与音乐生成等,在语音领域顶级会议和期刊发表论文 60 余篇。

研究方向与招生课题

欢迎对以下研究方向感兴趣的同学联系申请。当前开放 2027 年秋季研究生(博士/硕士)名额,同时长期招收科研助理(RA)。

  • 说话人建模(Speaker Modeling)
  • 目标说话人处理(Target Speaker Processing)
  • 语音、音频与音乐理解(Speech, Audio, and Music Understanding)
  • 语音、音频与音乐生成(Speech, Audio, and Music Generation)
  • 类脑语音处理(Brain-inspired speech processing)
  • 端到端语音大模型(End-to-End Speech Large Language Models)

招生信息

2027 级硕士/博士研究生招生

招生方向

  • 说话人建模 / Speaker Modeling
  • 目标说话人处理 / Target Speaker Processing
  • 语音、音频、音乐理解 / Speech, Audio, and Music Understanding
  • 语音、音频、音乐生成 / Speech, Audio, and Music Generation
  • 类脑语音处理 / Brain-inspired Speech Processing
  • 端到端语音大模型 / End-to-End Speech Large Language Models

申请要求

  • 主动性强,有较强的自我驱动力
  • 具备扎实的数学与编程基础(Python/C++)
  • 计算机科学、电子工程或相关专业背景
  • 对语音处理、机器学习或生成模型有浓厚兴趣
  • 英语读写能力良好

申请方式

  • 邮箱:点击显示邮箱
  • 请附上:简历、成绩单(本科/硕士)、研究兴趣说明(可含代表性项目)
  • 邮件标题建议格式:申请类型-姓名-学校-年级

南大智科学生特别说明

  • 欢迎大二大三学生进组实习
  • 南大智科学生可到南雍楼西536办公室面聊
  • 实习期间可参与实际科研项目

科研助理(RA)招聘

  • 常年招收:欢迎本科生、研究生申请科研助理岗位
  • 工作地点:
    • 南京大学苏州校区
    • 深圳河套学院
    • 香港中文大学(深圳)
    • 远程工作
  • 发展机会:
    • 表现优秀者可推荐大厂实习
    • 可推荐到知名高校深造
    • 参与前沿科研项目
    • 可与李海洲教授联合指导

教学


学生

南京大学指导学生

  • Haoyu Li,博士生,研究方向:以说话人为中心的语音理解。2026年秋季入学。曾在阿里巴巴与华为实习。
  • Ziyi Chen,博士生,研究方向:说话人日志(Speaker Diarization)。2026年秋季入学。曾在华为实习。
  • Qituan Shangguan,硕士生,研究方向:说话人识别。2026年秋季入学。曾在 Soul AI Lab 实习。
  • Ye Tao,硕士生,研究方向:音视觉语音与音频生成。2026年秋季入学,曾在上海浦江实验室,video rebirth 实习。
  • Shengfan Shen,硕士生,研究方向:语音合成。2026年秋季入学。曾在小米实习。
  • Zihan Qian,本科生。曾在腾讯实习,将入职腾讯。

密切合作学生

  • Jing Peng, 上海交大, 2025 秋季, 语音识别,语音理解.
  • Chenyu Yang,2024年秋季,港中深,研究方向:音乐生成。曾在腾讯 AI Lab(犀牛鸟人才计划)、微软亚洲研究院及字节跳动实习。
  • Zhijun Liu,港中深,2023年秋季,研究方向:语音合成。曾在网易及字节跳动(TopSeed计划)实习。
  • Qibing Bai,港中深,2023年秋季,研究方向:口音转换。曾在腾讯 TEA-Lab 实习。
  • Sho Inoue,港中深,2022年秋季,研究方向:语音合成。曾在网易及 Meta FAIR 实习。
  • Wenxuan Wu,港中文,2022年秋季,研究方向:目标语音提取。

往届学生

  • Wupeng Wang,新加坡国立大学 (NUS),研究方向:语音分离。(已毕业,现就职于阿里巴巴,南京大学联合培养博士后)
  • Yi Ma,新加坡国立大学 (NUS),研究方向:说话人识别。(已毕业,现就职于新加坡 A*STAR)
  • Junjie Li,现为香港理工大学博士生。
  • Shaole Li(现为香港理工大学博士生)。

论文

最新论文请见 Google Scholar

开源项目

  • WeSpeaker:说话人嵌入学习工具包,支持工业规模训练。
  • WeSep:首个开源目标说话人提取工具包 演示
  • DiffRhythm:基于扩散的节奏音乐生成,快速高效。
  • SongBloom:自回归扩散音乐生成,高质量、高保真、高多样性。
  • Real-T:面向目标说话人提取的真实对话场景基准数据集。
  • MSU-Bench:面向大语音语言模型评测的多层次、多说话人、多语言、多场景、多任务基准。

荣誉与奖励

  • 2024 ISCSLP 2024 最佳论文奖
  • 2024 ISCSLP 2024 最佳学生论文奖
  • 2019 VoxSRC 2019:两个赛道均第 1 名
  • 2019 DIHARD 2019:四个赛道均第 1 名
  • 2018 IEEE Ganesh N. Ramaswamy Memorial Student Grant

学术服务

担任多个会议与期刊的常规审稿人,包括 ICASSP、Interspeech、ASRU、SLT、T-ASLP、Computer Speech & Language、Speech Communication;以及 ICML、Neurips、AAAI、ACM MM 等。

曾任 APSIPA 2025 Special Session Chair、ICASSP 2025 苏州卫星会 Operation Chair、SLT 2024 Publication Chair。

邀请报告