王帅博士现任南京大学智能科学与技术学院准聘副教授。2014年在谢磊教授指导下于西北工业大学获学士学位,2020年在俞凯教授钱彦旻教授指导下于上海交通大学获博士学位。加入南京大学之前,他在香港中文大学(深圳)李海洲教授团队任研究科学家(目前仍兼任)。此外,曾在腾讯光子工作室任高级研究科学家,负责面向游戏的语音技术研发与团队管理。

研究方向包括说话人建模、目标说话人处理、语音合成、语音转换与音乐生成等,在语音领域顶级会议/期刊发表论文60余篇。

🔥 招生课题

本人正在招收2027年秋季入学的研究生(含博士与硕士),以及科研助理;若你对以下方向感兴趣,欢迎附简历发邮件联系:

  • 说话人建模(Speaker Modeling)
  • 目标说话人处理(Target Speaker Processing)
  • 语音、音频与音乐理解(Speech, Audio, and Music Understanding)
  • 语音、音频与音乐生成(Speech, Audio, and Music Generation)
  • 类脑语音处理(Brain-inspired speech processing)
  • 端到端语音大模型(End-to-End Speech Large Language Models)

🎓 招生信息

基于论文 SongBloom 生成的欢迎演示

🔥 2027级硕士、博士研究生招生

招生方向

  • 说话人建模 / Speaker Modeling
  • 目标说话人处理 / Target Speaker Processing
  • 语音、音频、音乐理解 / Speech, Audio, and Music Understanding
  • 语音、音频、音乐生成 / Speech, Audio, and Music Generation
  • 类脑语音处理 / Brain-inspired Speech Processing
  • 端到端语音大模型 / End-to-End Speech Large Language Models

申请要求

  • 主动性强,有较强的自我驱动力
  • 好奇心强,对新技术有强烈探索欲望
  • 计算机科学、电子工程或相关专业背景
  • 对语音处理、机器学习有浓厚兴趣
  • 良好的编程能力(Python/C++)
  • 英语读写能力良好

联系方式

  • 邮箱:点击显示邮箱
  • 请附上简历、成绩单和研究兴趣陈述

南大智科学生特别说明

  • 欢迎大二大三学生进组实习
  • 南大智科学生可到南雍楼西536办公室面聊
  • 实习期间可参与实际科研项目

🔬 科研助理(RA)招聘

  • 常年招收:欢迎本科生、研究生申请科研助理岗位
  • 工作地点:
    • 南京大学苏州校区
    • 深圳河套学院
    • 香港中文大学(深圳)
    • 远程工作
  • 发展机会:
    • 表现优秀者可推荐大厂实习
    • 可推荐到知名高校深造
    • 参与前沿科研项目
    • 可与李海洲教授联合指导

📚 教学


👨‍🎓 学生

南京大学

  • Haoyu Li,博士生,以说话人为中心的理解,2026 秋入学。阿里巴巴、华为实习。
  • Ziyi Chen,博士生,说话人分割,2026 秋入学。华为实习。
  • Qituan Shangguan,硕士生,说话人识别,2026 秋入学。 Soul AI Lab 实习。
  • Ye Tao,硕士生,视听语音与音频生成,2026 秋入学。
  • Shengfan Shen,硕士生,语音合成,2026 秋入学。小米实习。
  • Zihan Qian,本科生,曾在腾讯实习。

与李海洲教授联合指导的博士生

  • Sixiang Lyu,2026 秋,目标说话人处理、语音合成,深圳河套学院。曾在小米实习。
  • Duojia Li,2025 秋,目标说话人处理,深圳河套学院。
  • Shuhan Zhang,2025 秋,视听目标说话人处理,深圳河套学院。
  • Chenyu Yang,2024 秋,港中深,音乐生成,曾在腾讯 AILab(犀牛鸟人才计划)、微软亚洲研究院实习。
  • Zhijun Liu,2023 秋,港中深,语音合成,曾在网易、字节跳动(TopSeed)实习。
  • Qibing Bai,2023 秋,港中深,口音转换,曾在腾讯 TEA-Lab 实习。
  • Sho Inoue,2022 秋,港中深,语音合成,曾在网易、Meta FAIR 实习。
  • Wenxuan Wu,2022 秋,港中大,目标语音提取。
  • Wupeng Wang,新加坡国立大学,语音分离(已毕业,现于阿里巴巴)。
  • Yi Ma,新加坡国立大学,说话人识别(已毕业,现于新加坡 ASTAR)。

往届学生

  • Junjie Li,现为香港理工大学博士生。
  • Shaole Li(现为香港理工大学博士生)。

📝 论文

最新论文请见 Google Scholar

🪜 开源项目

  • WeSpeaker:说话人嵌入学习工具包,支持工业规模训练。
  • WeSep:首个开源目标说话人提取工具包 [演示]
  • DiffRhythm:基于扩散的节奏音乐生成,快速高效。
  • SongBloom:自回归扩散音乐生成,高质量、高保真、高多样性。
  • Real-T:面向目标说话人提取的真实对话场景基准数据集。
  • MSU-Bench:面向大语音语言模型评测的多层次、多说话人、多语言、多场景、多任务基准。

🎖 荣誉与奖励

  • 2024 ISCSLP 2024 最佳论文奖
  • 2024 ISCSLP 2024 最佳学生论文奖
  • 2019 VoxSRC 2019:两个赛道均第 1 名
  • 2019 DIHARD 2019:四个赛道均第 1 名
  • 2018 IEEE Ganesh N. Ramaswamy Memorial Student Grant

🌅 学术服务

担任多个会议与期刊的常规审稿人,包括 ICASSP、Interspeech、ASRU、SLT、T-ASLP、Computer Speech & Language、Speech Communication;以及 ICML、Neurips、AAAI、ACM MM 等。

曾任 APSIPA 2025 Special Session Chair、ICASSP 2025 苏州卫星会 Operation Chair、SLT 2024 Publication Chair。

💬 邀请报告