AI新星系列报道之五|武执政:打造有情商的语音大模型
在科幻电影《Her》《非诚勿扰3》中,AI或机器人能够像真人一样理解人类的情感、情绪、察言观色,也能像人一样自然交流。这些场景正在逐步从银幕走向现实,而背后的关键技术正是语音交互的人工智能大模型。开元985棋牌最新官网(深圳)武执政教授团队,正在通过构建“有情商”的语音大模型,让这一切变成现实。武执政教授,由人工智能“黄埔军校”微软亚洲研究院进入人工智能语音处理领域后,多年来一直深耕该领域,连续多年入选斯坦福大学“全球前2%顶尖科学家”,发布了多项具有世界影响力的开源系统和数据集,被全球超过700多家机构(包括OpenAI、英伟达、斯坦福大学、卡内基梅隆大学等)采用。硅谷知名投资人Jason Calacanis给武教授的开源系统Amphion打出了“A+++”的最高评价!同时,武教授的科研成果已经落地到iPhone、Meta Quest等知名产品中。这与武教授给团队设立的价值观密不可分:“Be a leader, not a follower(成为引领者而非追随者)”,“Be bold and fight for excellence(勇于追求卓越)”。
?
硅谷知名投资人Jason Calacanis给武教授的开源系统Amphion打出了“A+++”的最高评价!
?
学术有影响、产业有落地
打造百万浏览量的MaskGCT语音大模型
武执政教授团队联合微软、中科大推出了Natural Speech 3大模型,是语音生成大模型领域第一个将数据量提升到10万小时级、参数量超过10亿的大模型。武教授团队也联手趣丸科技联合推出了新一代大规模声音克隆TTS模型——MaskGCT。相较于现有的TTS大模型,MaskGCT在语音的相似度、质量和稳定性上进一步突破,尤其在语音相似度方面处于绝对领先地位。MaskGCT可以实现秒级超逼真的声音克隆:提供3-5秒音频样本即可复刻人类、动漫、“耳边细语”等任意音色,且能完整复刻语调、风格和情感;同时,MaskGCT是更精细可控的语音生成:可灵活调整生成语音的长度、语速和情绪,支持通过编辑文本编辑语音,并保持韵律、音色等方面的极度一致;该模型展现出超自然的语音克隆、风格迁移以及跨语言生成能力,同时保持了较强的稳定性。目前,MaskGCT在短剧出海、数字人、智能助手、有声读物、辅助教育等领域拥有丰富的应用场景,将加速国产短剧“走出去”,进一步推动中华文化在全球不同语境下的传播。HuggingFace成员指出:“从来没见过像MaskGCT这么让人印象深刻的语音克隆模型”。目前,MaskGCT已经落地到趣丸科技的千音(海外版名为All Voice)平台?https://www.all-voice.com/?。
HuggingFace成员指出:“从来没见过像MaskGCT这么让人印象深刻的语音克隆模型”
武教授指出:“我们要做顶天立地的研究。顶天是学术上要有影响力,立地是让科研能解决实际问题,每篇文章的出发点都是要解决一个产业中面临的难题。”武执政教授团队与趣丸科技联合建立了实验室,推动语音技术在娱乐、教育等领域的应用,也与华为、字节跳动等企业建立了深度合作。
点击图片观看MaskGCT联合直播(突破2w+播放量)
?
从科幻到现实:让AI有情商
武执政教授团队的研究,不仅重新定义了语音交互技术的边界,更为AI技术在人类生活中的应用打开了无限可能。“未来的AI不再只是工具,而是能够理解我们、陪伴我们的‘伙伴’。我们希望通过技术的创新,让AI真正融入人类社会,成为每个人的得力助手和知心朋友。”
2024年,武教授团队与字节跳动豆包大模型团队联合研发的语音大模型Solla和全球首个语音情商评测基准SD-Eval发布。语音大模型Solla专注于提升AI对人类情感和语境的理解能力,让AI能够像一个知心伴侣般与人交流。SD-Eval是全球首个专注于语音大模型情商评测的基准,聚焦情绪、口音、年龄和背景声四个维度,SD-Eval的发布填补了语音AI领域在情商评测方面的空白,为未来的语音AI研究提供了重要工具。SD-Eval的发布甚至早于OpenAI的ChatGPT-4o,成为语音大模型领域的重要里程碑。
武教授指出:“AI不仅需要完成任务,还需要更懂你,能听出言外之意,也就是‘情商’。我们的目标是让AI不仅听懂人类的语言,还能体会我们的情绪,与我们一起倾听这个世界。”
?
全球语音AI的开源推动者与学术引领者
武教授及其团队高度重视开源社区贡献及国际学术交流,积极参与和组织全球性学术活动。
Amphion开源系统:引领音频生成的开源平台
Amphion是一个由武执政教授团队开发的开源音频生成框架,自2023年底发布以来,其创新性和多功能性迅速引起了全球瞩目。被誉为“未来音频生成技术的标杆”,主要表现为:
技术创新:Amphion开源系统架构先进,该系统在音频生成领域取得了突破性进展,支持多种音频生成任务,包括文字转语音(TTS)、歌声合成(SVS)、语音转换(VC)及文本到音乐(TTM)等多种音频生成任务,尤其在歌声合成和转换方面展现出卓越性能,支持生成高质量的音频和个性化音色,最新研究成果FACodec(与微软、中科大合作)进一步推动了语音生成技术发展。
全球认可:首次发布alpha版本,未经任何公开宣传便多次登上GitHub Trending榜单,收获8500+星标,展现出强大的技术吸引力;技术报告发布首日即登上Huggingface Daily Paper榜首,获得Huggingface联合创始人兼CTO Julien Chaumond的关注,硅谷著名投资人Jason Calacanis(Uber第三位天使投资人)给予“A+++,这是未来”的高度评价,获得Geeky Gadgets、MarkTechPost等国际媒体广泛报道。

Emilia:被700多家单位采用的全球最大开源语音数据集
武执政教授敏锐地捕捉到语音大模型的发展趋势,阻碍语音大模型发展的最重要瓶颈在于数据。因此,其团队开发了最大的开源数据集Emilia,为全球语音大模型研究者提供了宝贵资源。Emilia是一个多样化和高质量的语音生成数据集,覆盖了超过10万小时的语音数据,支持六种语言(中文、英语、德语、法语、日语和韩语),语音数据涵盖脱口秀、访谈、辩论、体育解说等多种自然场景。Emilia已被全球700多家机构采用,包括OpenAI、英伟达、斯坦福大学、卡内基梅隆大学等。Emilia成为HuggingFace音频类排行榜最受喜爱榜(most liked)第一名和趋势榜(trending)第一名。
全球语音AI的学术引领者
武教授发起并组织了第一届声纹识别欺骗检测国际评测、第一届语音转换国际评测,组织了2019年语音合成国际评测(Blizzard Challenge 2019)。多次获得最佳(学生)论文奖,广东省人工智能产业协会科技进步二等奖等奖项。武教授现为IEEE语音与语言处理技术委员会委员,语音领域权威期刊IEEE/ACM Transactions on Audio, Speech and Language Processing的Associate Editor,IEEE Signal Processing Letters的Associate Editor,IEEE Spoken Language Technology Workshop 2024的大会主席。他曾受邀在ICASSP、IJCAI 2023 DADA Workshop等权威学术会议做特邀报告,也在OpenMMLab、语音之家、智源社区等平台进行技术分享,团队成员受邀至多所高校进行学术交流,持续推动开源社区建设,促进技术创新与知识共享。
?
培养未来的AI领军人才:
成为引领者而不是追随者、勇于追求卓越
作为一名杰出的学术导师,武执政教授不仅在科研领域取得了卓越成就,还通过高水准的科研指导,为国际AI领域培养人才。武教授给团队设立了价值观:“Be a leader, not a follower(成为引领者而不是追随者)”,“Be bold and fight for excellence(勇于追求卓越)”,激励同学们做出有影响力的研究。武教授的学生在全球竞争中屡获殊荣,多人进入国际顶级实验室和企业实习与工作,在学术研究、行业实践和国际化交流中表现出色,成为推动人工智能发展的新生力量。
武教授注重为学生提供广阔的国际交流平台,通过合作和学术访问帮助学生扩展视野,提升科研能力,学生们受邀参加国际顶会ICML、ICASSP、INTERSPEECH等,发表高水平论文,并与来自全球的顶尖学者进行学术探讨。
武教授说:“开元985棋牌最新官网(深圳)之所以能够培养出在国际舞台发光的新生力量,主要是学校的老师都是在科研一线亲自指导;同学们可以直接参与到与一线前沿企业的合作项目中,起点高;同时,同学们有机会与国际上的实验室和研究者进行交流;此外,港中大(深圳)的课程是没有规定必须按照固定的教材上课,这样老师可以把最新的研究成果和前沿信息带到课堂中来。”
?
走进中小学,普及人工智能
武教授除了教学、科研、产学研转化,他也抽出时间面向中小学生科普。武教授指出:“人工智能非常贴近我们的生活,应该成为我们生活中的一部分。所以我们在做让中小学生们感受到的人工智能技术时,也应该让他们能够听懂,能够启发他们更多的‘稀奇古怪’的想法。”
武教授也受聘为彩田学校科学副校长,在彩田学校、中山纪念中学、天津振华中学等知名学校进行了科普讲座,也在图书城等地方面向更广泛的群体科普人工智能。武教授也正在策划一套面向中小学生的绘本读物,让我们一起期待吧。
武教授受聘为彩田学校科学副校长
武教授团队参展中山纪念中学科技节,让学生体验语音克隆大模型
?
青年教授简介
武执政博士现任开元985棋牌最新官网(深圳)副教授、博导,港中大(深圳)-趣丸科技联合实验室主任。入选国家级青年人才,连续多次入选斯坦福大学“全球前2%顶尖科学家”、爱思唯尔“中国高被引学者”榜单。
他于南洋理工大学获得博士学位,并在Meta(原Facebook)、苹果、微软亚洲研究院等机构从事学术研究和技术领导工作,参与创立多家公司(吸引超过6亿人民币投资)。武博士带领开发了开源系统Merlin、Amphion及开源数据库Emilia,被超过700多家单位(包括OpenAI、英伟达、斯坦福大学、卡内基梅隆大学等)采用。他发起并组织了第一届声纹识别欺骗检测国际评测、第一届语音转换国际评测,组织了2019年语音合成国际评测(Blizzard Challenge 2019)。多次获得最佳(学生)论文奖,广东省人工智能产业协会科技进步二等奖等奖项。武博士现为IEEE语音与语言处理技术委员会委员,语音领域权威期刊IEEE/ACM Transactions on Audio, Speech and Language Processing的Associate Editor,IEEE Signal Processing Letters的Associate Editor,IEEE Spoken Language Technology Workshop 2024的大会主席。
他曾受邀在ICASSP、IJCAI 2023 DADA Workshop等权威学术会议做特邀报告。
粤公网安备 44030702004458号