人工智能系统学习跨视频音频和文本共享的概念
机器学习模型可以在没有人类帮助的情况下识别视频剪辑中的动作并对其进行标记。人类通过不同方式的组合来观察世界,例如视觉、听觉和我们对语言的理解。另一方面,机器通过算法可以处理的数据来解释世界。
因此,当机器“看到”一张照片时,它必须将该照片编码为可用于执行图像分类等任务的数据。当输入有多种格式(如视频、音频剪辑和图像)时,此过程会变得更加复杂。
麻省理工学院的研究人员开发了一种机器学习技术,该技术学习以一种捕获在视觉和音频模式之间共享的概念的方式来表示数据。他们的模型可以识别视频中某些动作发生的位置并对其进行标记。麻省理工学院新闻插图
“这里的主要挑战是,机器如何调整这些不同的模式?作为人类,这对我们来说很容易。我们看到一辆汽车,然后听到汽车驶过的声音,我们知道这些是一回事。但对于机器学习来说,这并不是那么简单,”计算机科学与人工智能实验室 (CSAIL) 的研究生、解决这个问题的论文的第一作者 Alexander Liu 说。
Liu 和他的合作者开发了一种人工智能技术,该技术学习以捕捉视觉和音频模式之间共享的概念的方式来表示数据。例如,他们的方法可以了解到视频中婴儿哭泣的动作与音频剪辑中的口语“哭泣”有关。
利用这些知识,他们的机器学习模型可以识别视频中某个动作发生的位置并对其进行标记。
在跨模态检索任务中,它比其他机器学习方法表现更好,这些任务涉及查找一段数据,如视频,与以另一种形式(如口语)给出的用户查询相匹配。他们的模型还使用户更容易了解为什么机器认为它检索到的视频与他们的查询匹配。
有朝一日,这种技术可以用来帮助机器人通过感知来了解世界上的概念,就像人类一样。
与刘一起参与论文的是 CSAIL 博士后 SouYoung Jin;研究生 Cheng-I Jeff Lai 和 Andrew Rouditchenko;Aude Oliva,CSAIL 高级研究科学家,MIT-IBM Watson AI 实验室主任;和资深作者詹姆斯格拉斯,高级研究科学家和 CSAIL 口语系统小组的负责人。该研究将在计算语言学协会年会上发表。
学习表征
研究人员将他们的工作重点放在表示学习上,这是一种机器学习形式,旨在转换输入数据以使其更容易执行分类或预测等任务。
表示学习模型获取原始数据,例如视频及其相应的文本字幕,并通过提取特征或对视频中对象和动作的观察来对它们进行编码。然后它将这些数据点映射到一个网格中,称为嵌入空间。该模型将相似的数据聚集在一起作为网格中的单个点。这些数据点或向量中的每一个都由一个单独的单词表示。
例如,一个人杂耍的视频剪辑可能会映射到一个标有“杂耍”的向量。
研究人员对模型进行了限制,使其只能使用 1000 个单词来标记向量。该模型可以决定要将哪些动作或概念编码到单个向量中,但它只能使用 1,000 个向量。模型选择它认为最能代表数据的词。
他们的方法不是将来自不同模态的数据编码到单独的网格上,而是采用共享的嵌入空间,其中两个模态可以一起编码。这使模型能够从两种模式中学习表示之间的关系,例如显示一个人杂耍的视频和一个人说“杂耍”的录音。
为了帮助系统处理来自多种模式的数据,他们设计了一种算法,引导机器将相似的概念编码到同一个向量中。
“如果有一个关于猪的视频,模型可能会将‘猪’这个词分配给 1000 个向量中的一个。然后,如果模型听到有人在音频剪辑中说出“猪”这个词,它仍应使用相同的向量对其进行编码,”刘解释道。
更好的猎犬
他们使用三个数据集在跨模态检索任务中测试了该模型:一个包含视频剪辑和文本字幕的视频-文本数据集,一个包含视频剪辑和语音音频字幕的视频-音频数据集,以及一个包含图像和语音音频的图像-音频数据集字幕。
例如,在视频-音频数据集中,模型选择了 1000 个单词来表示视频中的动作。然后,当研究人员向其提供音频查询时,该模型试图找到与这些口语最匹配的剪辑。
“就像谷歌搜索一样,你输入一些文本,机器会尝试告诉你正在搜索的最相关的内容。只有我们在向量空间中这样做,”刘说。
与他们比较的模型相比,他们的技术不仅更有可能找到更好的匹配,而且更容易理解。
因为该模型只能使用总共 1,000 个单词来标记向量,所以用户可以更容易地看到机器用来推断视频和口语单词相似的单词。刘说,这可以使模型更容易应用于现实世界的情况,在这种情况下,用户了解它如何做出决策至关重要。
该模型仍有一些限制,他们希望在未来的工作中解决。一方面,他们的研究一次集中在两种模式的数据上,但在现实世界中,人类会同时遇到许多数据模式,刘说。
“我们知道 1,000 个单词在这种数据集上有效,但我们不知道它是否可以推广到现实世界的问题,”他补充道。
此外,他们数据集中的图像和视频包含简单的对象或直接的动作;现实世界的数据要混乱得多。他们还想确定当输入的多样性更广泛时,他们的方法扩大规模的效果如何。
免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!
-
安徽淮南长安猎手K50作为一款备受关注的皮卡车型,其2025款在配置和性能上都有所升级。对于想要购买这款车的消...浏览全文>>
-
安徽阜阳的大众高尔夫GTI作为一款备受年轻消费者喜爱的性能车型,其价格和配置一直是大家关注的重点。高尔夫GT...浏览全文>>
-
近年来,新能源汽车市场发展迅猛,大众品牌凭借其深厚的技术积累和可靠的产品品质,在国内市场上占据了重要地...浏览全文>>
-
QQ多米作为一款备受关注的小型车,凭借其时尚的外观设计和实用的配置,吸引了众多消费者的关注。为了帮助大家...浏览全文>>
-
随着新能源汽车市场的持续升温,上汽大众ID 6 X凭借其宽敞的7座空间和出色的续航能力,成为不少家庭用户的关...浏览全文>>
-
淮南途锐新能源2024款车型以其卓越的性能和环保特性吸引了众多消费者的关注。作为一款高端插电式混合动力SUV,...浏览全文>>
-
近年来,随着新能源汽车的普及和政策支持的不断加大,越来越多消费者将目光投向了插电混动车型。作为一款备受...浏览全文>>
-
2025款生活家PHEV作为一款备受关注的新能源车型,凭借其出色的性能和环保特性,吸引了众多消费者的目光。在购...浏览全文>>
-
长安汽车旗下高端新能源品牌——启源,在2024款新车的推出中再次吸引了广泛关注。作为该品牌的旗舰车型之一,...浏览全文>>
-
近年来,新能源汽车市场持续火热,各大品牌纷纷推出新款车型以满足消费者需求。在众多选择中,2025款安徽池州I...浏览全文>>
- iPhone用户现在可以通过iOS18.1更新更改其Apple帐户的主要电子邮件地址
- 当你看到T-Mobile用户赢得手机手表和耳机时你会羡慕不已
- Ubuntu24.10OracularOriole推出最新内核工具链GNOME47和增强的安全性
- 搭载M4的MacBookPro在Cinebench上击败了CoreUltra9288V和Ryzen9AI370HX
- EarFun推出功能强大的159美元UBoomX便携式扬声器
- iPhone16Pro iPhone16ProMax表现优于基本机型扭转了之前的趋势
- Waze迎来魔兽世界改版
- SquareEnix将心爱的RPG移植到MetaQuest3
- 苹果正在设计全新操作系统瞄准新类别的产品
- 小米RedmiA27U显示器采用4K面板和90WUSBC端口
- 苹果将为iPhone17系列采用新电池技术
- Adobe推出PhotoshopElements和PremiereElements2025取消Elements软件的永久许可
- AppleiPhoneSE4将配备更新的OLED显示屏
- InfinixZeroFlip首次亮相作为新款可折叠Android智能手机其价格低于摩托罗拉Razr2024
- OnePlus13型号 充电规格在最新泄漏中被登记
- Insta360AcePro2主要规格终于泄露GoPro和DJI运动相机竞争对手将配备50MP传感器5nm和2倍数码变焦
- XboxElite无线控制器系列2通过Xbox设计实验室获得透明面板
- 索尼INZONEM10S华硕ROGSwiftOLEDPG27AQDP新品上市但售价更高
- 谷歌终止PixelBuds的点击通知功能
- 谷歌正在努力完善iOS中缺少的RCS支持重要功能
- 对AppleIntelligence功能的评价从一般到还可以
- GalaxyS25Plus看起来很时髦但三星是否选择像iPhone一样的通用设计
- 优质48英寸三星S90DOLED电视在亚马逊上降至历史最低价同时赠送100美元Xbox礼品卡和1年保护计划
- AOC推出四款新型游戏显示器具有快速刷新率和低价格
- Valve出售部分SteamDeck型号-GBLCD型号售价296.65美元512GBLCD型号售价336.75美元
- Beats在其产品线中增加了手机保护壳推出适用于iPhone16系列的MagSafe保护壳
- 三星在IFA2024上展示AI产品
- 新的AIPlaygroundDesign工具你可以简单地与之交谈就像ChatGPT一样
- 极简主义Linux发行版Peropesis2.7附带存档和ISO管理工具
- GAMEBABY控制器和外壳混合套装现已接受预订