脑记录产生的合成语音
加州大学旧金山分校的神经科学家创建的最先进的脑机界面可以通过使用大脑活动来控制虚拟声道来生成听起来自然的合成语音-解剖学上详细的计算机模拟,包括嘴唇,下巴,舌头和喉头。这项研究是在研究参与者的完整讲话中进行的,但是这项技术有一天可以恢复由于瘫痪和其他形式的神经损伤而丧失发言能力的人们的声音。
中风,外伤性脑损伤和神经退行性疾病(例如帕金森氏病,多发性硬化症和肌萎缩性侧索硬化症(ALS或Lou Gehrig病))通常会导致语言能力不可逆转地丧失。一些患有严重语言障碍的人会学会使用跟踪很小的眼睛或面部肌肉运动的辅助设备逐字逐句地阐明自己的想法。但是,用这种设备产生文本或合成语音很费力,容易出错且痛苦地缓慢,与自然语音每分钟100到150个单词相比,通常每分钟最多10个单词。
在马里兰州爱德华·张(Edward Chang)实验室正在开发的新系统 (在《自然》中有描述) 证明,可以创建一个人的声音的合成版本,该声音可以通过其大脑的语音中心的活动来控制。作者说,在将来,这种方法不仅可以恢复与严重言语障碍者的流畅交流,而且还可以再现人的声音的音乐性,传达出说话者的情感和个性。
UCSF威尔神经科学研究所成员,神经外科教授Chang表示:“这项研究首次证明我们可以根据个人的大脑活动生成完整的口头表达 。” “这是令人振奋的原则证明,借助已经可以实现的技术,我们应该能够制造出一种在语言障碍患者中具有临床可行性的设备。”
该研究由语音科学家Gopala Anumanchipalli博士和Chang实验室的生物工程研究生Josh Chartier 领导 。它建立在最近的一项研究的基础上 ,该对研究首次描述了人脑的言语中心如何编排嘴唇,下巴,舌头和其他声道成分的运动以产生流畅的言语。
从这项工作中,Anumanchipalli和Chartier意识到,以前直接从大脑活动中解码语音的尝试可能取得了有限的成功,因为这些大脑区域并不直接代表语音的声学特性,而是协调声音运动的指令。讲话时的嘴巴和喉咙。
“声道的运动与所产生的语音之间的关系是一个复杂的关系,” Anumanchipalli说。“我们认为,如果大脑中的这些语音中心是在编码运动而不是声音,那么我们应该在解码这些信号时尝试这样做。”
在他们的新研究中,Anumancipali和Chartier要求五名在UCSF癫痫中心接受治疗的志愿者 -说话完好无缺的患者,他们的脑中临时植入了电极,以绘制癫痫发作的来源,为神经外科手术做准备-朗读数百句话。研究人员记录了已知参与语言产生的大脑区域的活动。
根据参与者声音的音频记录,研究人员使用语言学原理对产生这些声音所需的声道运动进行逆向工程:在此处将嘴唇压在一起,在此处收紧声带,将舌尖移到顶部嘴,然后放松一下,依此类推。
声音到解剖结构的详细映射使科学家能够为每个参与者创建一个可以由其大脑活动控制的逼真的虚拟声道。这包括两种“神经网络”机器学习算法:将语音过程中产生的大脑活动模式转换为虚拟声道运动的解码器,以及将这些声道运动转换为参与者语音的合成近似值的合成器。
研究人员发现,通过这些算法产生的合成语音明显优于直接从参与者的大脑活动中解码的合成语音,而没有包括说话人的声道模拟。该算法产生的句子在Amazon Mechanical Turk平台上进行的众包转录测试中为数百名听众所理解。
就像自然语言一样,当向转录者提供较短的单词列表供他们选择时,转录者会更成功,对于照料者来说,这些词素或词组要求患者可能会说出话来。记录员从25个替代词的列表中准确地识别出69%的合成词,并以完美的准确性转录了43%的句子。尽管可以选择更具挑战性的50个单词,但尽管他们仍然能够完美地理解21%的合成句子,但他们的整体准确性下降到47%。
查蒂尔承认:“我们仍然有一种方法可以完美地模仿口头语言。” “我们非常擅长合成“ sh”和“ z”等较慢的语音,并保持语音的节奏和语调以及说话者的性别和身份,但有些更突然的声音如“ b”和“ p”有点模糊。不过,与目前可用的水平相比,我们在此处产生的准确性水平将是实时通信方面的惊人改进。”
人工智能,语言学和神经科学推动了进步
研究人员目前正在尝试使用更高密度的电极阵列和更高级的机器学习算法,他们希望这些算法可以进一步改善合成语音。该技术的下一个主要测试是确定不会说话的人是否可以在不使用自己的语音训练的情况下学会使用该系统,并将其推广到他们想说的任何事情。
研究人员还发现,参与者的声带运动神经代码部分重叠,并且一个研究对象的声道模拟可以适应其他参与者大脑记录的神经指令。总之,这些发现表明,由于神经功能缺损而导致言语丧失的人可能能够学习控制以完整言语者的声音为模型的言语假体。
查蒂尔说:“无法动动手臂和腿的人们已经学会了用大脑来控制机器人肢体。” “我们希望有一天语言障碍者能够使用这种大脑控制的人工声道再次学习说话。”
Anumanchipalli补充说:“我很荣幸我们能够汇集神经科学,语言学和机器学习方面的专业知识,这是帮助神经失能患者这一重要里程碑的一部分。”
免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!
-
安徽淮南长安猎手K50作为一款备受关注的皮卡车型,其2025款在配置和性能上都有所升级。对于想要购买这款车的消...浏览全文>>
-
安徽阜阳的大众高尔夫GTI作为一款备受年轻消费者喜爱的性能车型,其价格和配置一直是大家关注的重点。高尔夫GT...浏览全文>>
-
近年来,新能源汽车市场发展迅猛,大众品牌凭借其深厚的技术积累和可靠的产品品质,在国内市场上占据了重要地...浏览全文>>
-
QQ多米作为一款备受关注的小型车,凭借其时尚的外观设计和实用的配置,吸引了众多消费者的关注。为了帮助大家...浏览全文>>
-
随着新能源汽车市场的持续升温,上汽大众ID 6 X凭借其宽敞的7座空间和出色的续航能力,成为不少家庭用户的关...浏览全文>>
-
淮南途锐新能源2024款车型以其卓越的性能和环保特性吸引了众多消费者的关注。作为一款高端插电式混合动力SUV,...浏览全文>>
-
近年来,随着新能源汽车的普及和政策支持的不断加大,越来越多消费者将目光投向了插电混动车型。作为一款备受...浏览全文>>
-
2025款生活家PHEV作为一款备受关注的新能源车型,凭借其出色的性能和环保特性,吸引了众多消费者的目光。在购...浏览全文>>
-
长安汽车旗下高端新能源品牌——启源,在2024款新车的推出中再次吸引了广泛关注。作为该品牌的旗舰车型之一,...浏览全文>>
-
近年来,新能源汽车市场持续火热,各大品牌纷纷推出新款车型以满足消费者需求。在众多选择中,2025款安徽池州I...浏览全文>>
- iPhone用户现在可以通过iOS18.1更新更改其Apple帐户的主要电子邮件地址
- 当你看到T-Mobile用户赢得手机手表和耳机时你会羡慕不已
- Ubuntu24.10OracularOriole推出最新内核工具链GNOME47和增强的安全性
- 搭载M4的MacBookPro在Cinebench上击败了CoreUltra9288V和Ryzen9AI370HX
- EarFun推出功能强大的159美元UBoomX便携式扬声器
- iPhone16Pro iPhone16ProMax表现优于基本机型扭转了之前的趋势
- Waze迎来魔兽世界改版
- SquareEnix将心爱的RPG移植到MetaQuest3
- 苹果正在设计全新操作系统瞄准新类别的产品
- 小米RedmiA27U显示器采用4K面板和90WUSBC端口
- 苹果将为iPhone17系列采用新电池技术
- Adobe推出PhotoshopElements和PremiereElements2025取消Elements软件的永久许可
- AppleiPhoneSE4将配备更新的OLED显示屏
- InfinixZeroFlip首次亮相作为新款可折叠Android智能手机其价格低于摩托罗拉Razr2024
- OnePlus13型号 充电规格在最新泄漏中被登记
- Insta360AcePro2主要规格终于泄露GoPro和DJI运动相机竞争对手将配备50MP传感器5nm和2倍数码变焦
- XboxElite无线控制器系列2通过Xbox设计实验室获得透明面板
- 索尼INZONEM10S华硕ROGSwiftOLEDPG27AQDP新品上市但售价更高
- 谷歌终止PixelBuds的点击通知功能
- 谷歌正在努力完善iOS中缺少的RCS支持重要功能
- 对AppleIntelligence功能的评价从一般到还可以
- GalaxyS25Plus看起来很时髦但三星是否选择像iPhone一样的通用设计
- 优质48英寸三星S90DOLED电视在亚马逊上降至历史最低价同时赠送100美元Xbox礼品卡和1年保护计划
- AOC推出四款新型游戏显示器具有快速刷新率和低价格
- Valve出售部分SteamDeck型号-GBLCD型号售价296.65美元512GBLCD型号售价336.75美元
- Beats在其产品线中增加了手机保护壳推出适用于iPhone16系列的MagSafe保护壳
- 三星在IFA2024上展示AI产品
- 新的AIPlaygroundDesign工具你可以简单地与之交谈就像ChatGPT一样
- 极简主义Linux发行版Peropesis2.7附带存档和ISO管理工具
- GAMEBABY控制器和外壳混合套装现已接受预订