研究人员提出了新的更有效的自动语音识别模型
Siri和AmazonAlexa等流行的语音助手已经向更广泛的公众推出了自动语音识别(ASR)。尽管已有数十年的历史,但ASR模型仍难以保持一致性和可靠性,尤其是在嘈杂的环境中。中国研究人员开发了一种框架,可有效提高ASR针对日常声学环境混乱的性能。
香港科技大学和微众银行的研究人员提出了一个新的框架——语音语义预训练(PSP),并展示了他们的新模型对合成高噪声语音数据集的鲁棒性。
他们的研究于8月28日发表在CAAI人工智能研究上。
“鲁棒性是ASR长期面临的挑战,”香港科技大学计算机科学与工程系的XueyangWu说。“我们希望以低成本提高中国ASR系统的稳健性。”
ASR使用机器学习和其他人工智能技术将语音自动翻译成文本,用于语音激活系统和转录软件等用途。但新的以消费者为中心的应用程序越来越多地要求语音识别更好地工作——处理更多的语言和口音,并在视频会议和现场采访等现实生活中更可靠地执行。
传统上,训练包含ASR的声学和语言模型需要大量特定于噪声的数据,这可能会耗费时间和成本。
声学模型(AM)将单词变成“音素”,它们是基本声音的序列。语言模型(LM)将音素解码为自然语言句子,通常有两个步骤:一个快速但相对较弱的LM生成一组候选句子,而一个强大但计算量大的LM从候选句子中选择最佳句子。
“传统的学习模型对嘈杂的声学模型输出并不稳健,尤其是对于具有相同发音的中文和弦词,”吴说。“如果第一遍学习模型解码不正确,第二遍就很难弥补。”
新提出的框架PSP可以更容易地恢复错误分类的单词。通过预训练将AM输出与完整上下文信息一起直接转换为句子的模型,研究人员可以帮助LM从AM的嘈杂输出中有效地恢复。
PSP框架允许模型通过称为噪声感知课程的预训练机制进行改进,该机制逐渐引入新技能,从简单开始并逐渐转向更复杂的任务。
“我们提出的方法中最关键的部分,即噪声感知课程学习,模拟了人类如何从嘈杂的语音中识别句子的机制,”吴说。
预热是第一阶段,研究人员在干净的音素序列上预训练音素转换器,该音素序列仅从未标记的文本数据转换而来,以减少注释时间。这个阶段“预热”模型,初始化基本参数以将音素序列映射到单词。
在第二阶段,自我监督学习中,传感器从自我监督训练技术和功能生成的更复杂的数据中学习。最后,生成的语音到单词转换器使用真实世界的语音数据进行微调。
研究人员通过实验证明了他们的框架在从工业场景和合成噪声中收集的两个真实数据集上的有效性。结果表明,PSP框架有效地改进了传统的ASR流水线,将第一个数据集的相对字符错误率降低了28.63%,第二个数据集降低了26.38%。
在接下来的步骤中,研究人员将使用更大的未配对数据集研究更有效的PSP预训练方法,以最大限度地提高抗噪LM预训练的有效性。
免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!
-
安徽淮南长安猎手K50作为一款备受关注的皮卡车型,其2025款在配置和性能上都有所升级。对于想要购买这款车的消...浏览全文>>
-
安徽阜阳的大众高尔夫GTI作为一款备受年轻消费者喜爱的性能车型,其价格和配置一直是大家关注的重点。高尔夫GT...浏览全文>>
-
近年来,新能源汽车市场发展迅猛,大众品牌凭借其深厚的技术积累和可靠的产品品质,在国内市场上占据了重要地...浏览全文>>
-
QQ多米作为一款备受关注的小型车,凭借其时尚的外观设计和实用的配置,吸引了众多消费者的关注。为了帮助大家...浏览全文>>
-
随着新能源汽车市场的持续升温,上汽大众ID 6 X凭借其宽敞的7座空间和出色的续航能力,成为不少家庭用户的关...浏览全文>>
-
淮南途锐新能源2024款车型以其卓越的性能和环保特性吸引了众多消费者的关注。作为一款高端插电式混合动力SUV,...浏览全文>>
-
近年来,随着新能源汽车的普及和政策支持的不断加大,越来越多消费者将目光投向了插电混动车型。作为一款备受...浏览全文>>
-
2025款生活家PHEV作为一款备受关注的新能源车型,凭借其出色的性能和环保特性,吸引了众多消费者的目光。在购...浏览全文>>
-
长安汽车旗下高端新能源品牌——启源,在2024款新车的推出中再次吸引了广泛关注。作为该品牌的旗舰车型之一,...浏览全文>>
-
近年来,新能源汽车市场持续火热,各大品牌纷纷推出新款车型以满足消费者需求。在众多选择中,2025款安徽池州I...浏览全文>>
- iPhone用户现在可以通过iOS18.1更新更改其Apple帐户的主要电子邮件地址
- 当你看到T-Mobile用户赢得手机手表和耳机时你会羡慕不已
- Ubuntu24.10OracularOriole推出最新内核工具链GNOME47和增强的安全性
- 搭载M4的MacBookPro在Cinebench上击败了CoreUltra9288V和Ryzen9AI370HX
- EarFun推出功能强大的159美元UBoomX便携式扬声器
- iPhone16Pro iPhone16ProMax表现优于基本机型扭转了之前的趋势
- Waze迎来魔兽世界改版
- SquareEnix将心爱的RPG移植到MetaQuest3
- 苹果正在设计全新操作系统瞄准新类别的产品
- 小米RedmiA27U显示器采用4K面板和90WUSBC端口
- 苹果将为iPhone17系列采用新电池技术
- Adobe推出PhotoshopElements和PremiereElements2025取消Elements软件的永久许可
- AppleiPhoneSE4将配备更新的OLED显示屏
- InfinixZeroFlip首次亮相作为新款可折叠Android智能手机其价格低于摩托罗拉Razr2024
- OnePlus13型号 充电规格在最新泄漏中被登记
- Insta360AcePro2主要规格终于泄露GoPro和DJI运动相机竞争对手将配备50MP传感器5nm和2倍数码变焦
- XboxElite无线控制器系列2通过Xbox设计实验室获得透明面板
- 索尼INZONEM10S华硕ROGSwiftOLEDPG27AQDP新品上市但售价更高
- 谷歌终止PixelBuds的点击通知功能
- 谷歌正在努力完善iOS中缺少的RCS支持重要功能
- 对AppleIntelligence功能的评价从一般到还可以
- GalaxyS25Plus看起来很时髦但三星是否选择像iPhone一样的通用设计
- 优质48英寸三星S90DOLED电视在亚马逊上降至历史最低价同时赠送100美元Xbox礼品卡和1年保护计划
- AOC推出四款新型游戏显示器具有快速刷新率和低价格
- Valve出售部分SteamDeck型号-GBLCD型号售价296.65美元512GBLCD型号售价336.75美元
- Beats在其产品线中增加了手机保护壳推出适用于iPhone16系列的MagSafe保护壳
- 三星在IFA2024上展示AI产品
- 新的AIPlaygroundDesign工具你可以简单地与之交谈就像ChatGPT一样
- 极简主义Linux发行版Peropesis2.7附带存档和ISO管理工具
- GAMEBABY控制器和外壳混合套装现已接受预订