开户即送58体验金-湖北盐业集团

在科幻电影《Her》《非诚勿扰3》中，AI或机器人能够像真人一样理解人类的情感、情绪、察言观色，也能像人一样自然交流。这些场景正在逐步从银幕走向现实，而背后的关键技术正是语音交互的人工智能大模型。开元985棋牌最新官网（深圳）武执政教授团队，正在通过构建“有情商”的语音大模型，让这一切变成现实。武执政教授，由人工智能“黄埔军校”微软亚洲研究院进入人工智能语音处理领域后，多年来一直深耕该领域，连续多年入选斯坦福大学“全球前2％顶尖科学家”，发布了多项具有世界影响力的开源系统和数据集，被全球超过700多家机构（包括OpenAI、英伟达、斯坦福大学、卡内基梅隆大学等）采用。硅谷知名投资人Jason Calacanis给武教授的开源系统Amphion打出了“A+++”的最高评价！同时，武教授的科研成果已经落地到iPhone、Meta Quest等知名产品中。这与武教授给团队设立的价值观密不可分：“Be a leader, not a follower（成为引领者而非追随者）”，“Be bold and fight for excellence（勇于追求卓越）”。

硅谷知名投资人Jason Calacanis给武教授的开源系统Amphion打出了“A+++”的最高评价！

学术有影响、产业有落地

打造百万浏览量的MaskGCT语音大模型

武执政教授团队联合微软、中科大推出了Natural Speech 3大模型，是语音生成大模型领域第一个将数据量提升到10万小时级、参数量超过10亿的大模型。武教授团队也联手趣丸科技联合推出了新一代大规模声音克隆TTS模型——MaskGCT。相较于现有的TTS大模型，MaskGCT在语音的相似度、质量和稳定性上进一步突破，尤其在语音相似度方面处于绝对领先地位。MaskGCT可以实现秒级超逼真的声音克隆：提供3-5秒音频样本即可复刻人类、动漫、“耳边细语”等任意音色，且能完整复刻语调、风格和情感；同时，MaskGCT是更精细可控的语音生成：可灵活调整生成语音的长度、语速和情绪，支持通过编辑文本编辑语音，并保持韵律、音色等方面的极度一致；该模型展现出超自然的语音克隆、风格迁移以及跨语言生成能力，同时保持了较强的稳定性。目前，MaskGCT在短剧出海、数字人、智能助手、有声读物、辅助教育等领域拥有丰富的应用场景，将加速国产短剧“走出去”，进一步推动中华文化在全球不同语境下的传播。HuggingFace成员指出：“从来没见过像MaskGCT这么让人印象深刻的语音克隆模型”。目前，MaskGCT已经落地到趣丸科技的千音（海外版名为All Voice）平台?https://www.all-voice.com/?。

HuggingFace成员指出：“从来没见过像MaskGCT这么让人印象深刻的语音克隆模型”

武教授指出：“我们要做顶天立地的研究。顶天是学术上要有影响力，立地是让科研能解决实际问题，每篇文章的出发点都是要解决一个产业中面临的难题。”武执政教授团队与趣丸科技联合建立了实验室，推动语音技术在娱乐、教育等领域的应用，也与华为、字节跳动等企业建立了深度合作。

点击图片观看MaskGCT联合直播（突破2w+播放量）

从科幻到现实：让AI有情商

武执政教授团队的研究，不仅重新定义了语音交互技术的边界，更为AI技术在人类生活中的应用打开了无限可能。“未来的AI不再只是工具，而是能够理解我们、陪伴我们的‘伙伴’。我们希望通过技术的创新，让AI真正融入人类社会，成为每个人的得力助手和知心朋友。”

2024年，武教授团队与字节跳动豆包大模型团队联合研发的语音大模型Solla和全球首个语音情商评测基准SD-Eval发布。语音大模型Solla专注于提升AI对人类情感和语境的理解能力，让AI能够像一个知心伴侣般与人交流。SD-Eval是全球首个专注于语音大模型情商评测的基准，聚焦情绪、口音、年龄和背景声四个维度，SD-Eval的发布填补了语音AI领域在情商评测方面的空白，为未来的语音AI研究提供了重要工具。SD-Eval的发布甚至早于OpenAI的ChatGPT-4o，成为语音大模型领域的重要里程碑。

武教授指出：“AI不仅需要完成任务，还需要更懂你，能听出言外之意，也就是‘情商’。我们的目标是让AI不仅听懂人类的语言，还能体会我们的情绪，与我们一起倾听这个世界。”

全球语音AI的开源推动者与学术引领者

武教授及其团队高度重视开源社区贡献及国际学术交流，积极参与和组织全球性学术活动。

Amphion开源系统：引领音频生成的开源平台

Amphion是一个由武执政教授团队开发的开源音频生成框架，自2023年底发布以来，其创新性和多功能性迅速引起了全球瞩目。被誉为“未来音频生成技术的标杆”，主要表现为：

技术创新：Amphion开源系统架构先进，该系统在音频生成领域取得了突破性进展，支持多种音频生成任务，包括文字转语音（TTS）、歌声合成（SVS）、语音转换（VC）及文本到音乐（TTM）等多种音频生成任务，尤其在歌声合成和转换方面展现出卓越性能，支持生成高质量的音频和个性化音色，最新研究成果FACodec（与微软、中科大合作）进一步推动了语音生成技术发展。

全球认可：首次发布alpha版本，未经任何公开宣传便多次登上GitHub Trending榜单，收获8500+星标，展现出强大的技术吸引力；技术报告发布首日即登上Huggingface Daily Paper榜首，获得Huggingface联合创始人兼CTO Julien Chaumond的关注，硅谷著名投资人Jason Calacanis（Uber第三位天使投资人）给予“A+++，这是未来”的高度评价，获得Geeky Gadgets、MarkTechPost等国际媒体广泛报道。

Emilia：被700多家单位采用的全球最大开源语音数据集

武执政教授敏锐地捕捉到语音大模型的发展趋势，阻碍语音大模型发展的最重要瓶颈在于数据。因此，其团队开发了最大的开源数据集Emilia，为全球语音大模型研究者提供了宝贵资源。Emilia是一个多样化和高质量的语音生成数据集，覆盖了超过10万小时的语音数据，支持六种语言（中文、英语、德语、法语、日语和韩语），语音数据涵盖脱口秀、访谈、辩论、体育解说等多种自然场景。Emilia已被全球700多家机构采用，包括OpenAI、英伟达、斯坦福大学、卡内基梅隆大学等。Emilia成为HuggingFace音频类排行榜最受喜爱榜（most liked）第一名和趋势榜（trending）第一名。

全球语音AI的学术引领者

武教授发起并组织了第一届声纹识别欺骗检测国际评测、第一届语音转换国际评测，组织了2019年语音合成国际评测（Blizzard Challenge 2019）。多次获得最佳（学生）论文奖，广东省人工智能产业协会科技进步二等奖等奖项。武教授现为IEEE语音与语言处理技术委员会委员，语音领域权威期刊IEEE/ACM Transactions on Audio, Speech and Language Processing的Associate Editor，IEEE Signal Processing Letters的Associate Editor，IEEE Spoken Language Technology Workshop 2024的大会主席。他曾受邀在ICASSP、IJCAI 2023 DADA Workshop等权威学术会议做特邀报告，也在OpenMMLab、语音之家、智源社区等平台进行技术分享，团队成员受邀至多所高校进行学术交流，持续推动开源社区建设，促进技术创新与知识共享。

培养未来的AI领军人才：

成为引领者而不是追随者、勇于追求卓越

作为一名杰出的学术导师，武执政教授不仅在科研领域取得了卓越成就，还通过高水准的科研指导，为国际AI领域培养人才。武教授给团队设立了价值观：“Be a leader, not a follower（成为引领者而不是追随者）”，“Be bold and fight for excellence（勇于追求卓越）”，激励同学们做出有影响力的研究。武教授的学生在全球竞争中屡获殊荣，多人进入国际顶级实验室和企业实习与工作，在学术研究、行业实践和国际化交流中表现出色，成为推动人工智能发展的新生力量。

武教授注重为学生提供广阔的国际交流平台，通过合作和学术访问帮助学生扩展视野，提升科研能力，学生们受邀参加国际顶会ICML、ICASSP、INTERSPEECH等，发表高水平论文，并与来自全球的顶尖学者进行学术探讨。

武教授说：“开元985棋牌最新官网（深圳）之所以能够培养出在国际舞台发光的新生力量，主要是学校的老师都是在科研一线亲自指导；同学们可以直接参与到与一线前沿企业的合作项目中，起点高；同时，同学们有机会与国际上的实验室和研究者进行交流；此外，港中大（深圳）的课程是没有规定必须按照固定的教材上课，这样老师可以把最新的研究成果和前沿信息带到课堂中来。”

走进中小学，普及人工智能

武教授除了教学、科研、产学研转化，他也抽出时间面向中小学生科普。武教授指出：“人工智能非常贴近我们的生活，应该成为我们生活中的一部分。所以我们在做让中小学生们感受到的人工智能技术时，也应该让他们能够听懂，能够启发他们更多的‘稀奇古怪’的想法。”

武教授也受聘为彩田学校科学副校长，在彩田学校、中山纪念中学、天津振华中学等知名学校进行了科普讲座，也在图书城等地方面向更广泛的群体科普人工智能。武教授也正在策划一套面向中小学生的绘本读物，让我们一起期待吧。

武教授受聘为彩田学校科学副校长

武教授团队参展中山纪念中学科技节，让学生体验语音克隆大模型

青年教授简介

武执政博士现任开元985棋牌最新官网（深圳）副教授、博导，港中大（深圳）-趣丸科技联合实验室主任。入选国家级青年人才，连续多次入选斯坦福大学“全球前2％顶尖科学家”、爱思唯尔“中国高被引学者”榜单。

他于南洋理工大学获得博士学位，并在Meta（原Facebook）、苹果、微软亚洲研究院等机构从事学术研究和技术领导工作，参与创立多家公司（吸引超过6亿人民币投资）。武博士带领开发了开源系统Merlin、Amphion及开源数据库Emilia，被超过700多家单位（包括OpenAI、英伟达、斯坦福大学、卡内基梅隆大学等）采用。他发起并组织了第一届声纹识别欺骗检测国际评测、第一届语音转换国际评测，组织了2019年语音合成国际评测（Blizzard Challenge 2019）。多次获得最佳（学生）论文奖，广东省人工智能产业协会科技进步二等奖等奖项。武博士现为IEEE语音与语言处理技术委员会委员，语音领域权威期刊IEEE/ACM Transactions on Audio, Speech and Language Processing的Associate Editor，IEEE Signal Processing Letters的Associate Editor，IEEE Spoken Language Technology Workshop 2024的大会主席。

他曾受邀在ICASSP、IJCAI 2023 DADA Workshop等权威学术会议做特邀报告。

开户即送58体验金

开元935棋盘app下载我们

开元588棋app下载资讯

教学

书院

科研

招生

就业

开元588棋app下载生活

开元935棋盘app下载我们

开元588棋app下载资讯

教学

书院

科研

招生

就业

开元588棋app下载生活

AI新星系列报道之五｜武执政：打造有情商的语音大模型

相关推荐

AI新星系列报道之十六 | 吴均峰：为水下机器人装上感知的“AI之眼”