方法强制机器学习模型在学习任务时专注于更多数据
如果您的优步司机走捷径,您可能会更快到达目的地。但是如果机器学习模型走捷径,它可能会以意想不到的方式失败。在机器学习中,当模型依赖数据集的简单特征来做出决策,而不是学习数据的真正本质时,就会出现捷径解决方案,这会导致预测不准确。例如,模型可能会通过关注照片中出现的绿草,而不是更复杂的奶牛形状和图案来学习识别奶牛的图像。
麻省理工学院研究人员的一项新研究探索了一种流行的机器学习方法中的捷径问题,并提出了一种解决方案,该解决方案可以通过强制模型在其决策中使用更多数据来防止捷径。
通过移除模型关注的更简单的特征,研究人员迫使它专注于它没有考虑过的更复杂的数据特征。然后,通过要求模型以两种方式解决相同的任务——使用那些更简单的特征,然后使用它现在学会识别的复杂特征——它们减少了捷径解决方案的趋势并提高了模型的性能。
这项工作的一个潜在应用是提高用于识别医学图像中疾病的机器学习模型的有效性。这种情况下的捷径解决方案可能会导致错误诊断并对患者产生危险的影响。
“仍然很难说为什么深层网络会做出他们所做的决定,特别是这些网络在做出决定时选择关注哪些数据部分。如果我们能更详细地了解捷径是如何工作的,我们就可以更进一步回答一些基本但非常实用的问题,这些问题对于尝试部署这些网络的人来说非常重要,”博士JoshuaRobinson说。计算机科学与人工智能实验室(CSAIL)的学生和论文的第一作者。
Robinson与他的顾问、资深作者SuvritSra、电气工程与计算机科学系(EECS)的Esther和HaroldE.Edgerton职业发展副教授以及数据、系统和社会研究所的核心成员共同撰写了这篇论文(IDSS)和信息与决策系统实验室;和StefanieJegelka,EECSX-Consortium职业发展副教授,CSAIL和IDSS成员;以及匹兹堡大学助理教授KayhanBatmanghelich和博士。学生李孙和柯宇。该研究将在12月的神经信息处理系统会议上发表。
理解捷径的漫长道路
研究人员将他们的研究重点放在对比学习上,这是一种强大的自我监督机器学习形式。在自监督机器学习中,使用没有人类标签描述的原始数据训练模型。因此,它可以成功地用于更多种类的数据。
自监督学习模型学习有用的数据表示,这些表示用作不同任务(如图像分类)的输入。但如果模型走捷径而未能捕获重要信息,这些任务也将无法使用该信息。
例如,如果一个自监督学习模型被训练来对来自多家医院的X光片中的进行分类,但它学习根据识别扫描来自的医院的标签进行预测(因为一些医院有更多的比其他案例),当给它来自新医院的数据时,该模型将不会表现良好。
对于对比学习模型,训练编码器算法以区分相似输入对和不同输入对。此过程以对比学习模型可以解释的方式对丰富而复杂的数据(如图像)进行编码。
研究人员用一系列图像测试了对比学习编码器,发现在这个训练过程中,它们也成为捷径解决方案的牺牲品。编码器倾向于关注图像的最简单特征,以决定哪些输入对相似,哪些不相似。Jegelka说,理想情况下,编码器在做出决策时应该关注数据的所有有用特征。
因此,该团队使区分相似和不同对之间的区别变得更加困难,并发现编码器将查看哪些特征来做出决定的这种变化。
“如果你让区分相似和不同项目的任务变得越来越困难,那么你的系统将被迫从数据中学习更有意义的信息,因为如果不了解它就无法解决任务,”她说。
但是增加这个难度会导致权衡——编码器在关注数据的某些特征方面变得更好,但在关注其他特征方面变得更糟。罗宾逊说,它似乎几乎忘记了更简单的功能。
为了避免这种权衡,研究人员要求编码器以与最初相同的方式区分对,使用更简单的特征,并且在研究人员删除它已经学到的信息之后。同时以两种方式解决任务导致编码器在所有功能上都得到改进。
他们的方法称为隐式特征修改,自适应地修改样本以去除编码器用来区分对的更简单的特征。Sra解释说,该技术不依赖于人工输入,这很重要,因为现实世界的数据集可能有数百种不同的特征,这些特征可以以复杂的方式组合在一起。
从汽车到慢阻肺
研究人员使用车辆图像对这种方法进行了一项测试。他们使用隐式特征修改来调整颜色、方向和车辆类型,使编码器更难区分相似和不同的图像对。编码器同时提高了所有三个特征(纹理、形状和颜色)的准确性。
为了查看该方法是否能够承受更复杂的数据,研究人员还使用来自慢性阻塞性肺病(COPD)医学图像数据库的样本对其进行了测试。同样,该方法导致他们评估的所有功能同时改进。
虽然这项工作在理解捷径解决方案的原因并努力解决它们方面向前迈进了一些重要步骤,但研究人员表示,继续改进这些方法并将它们应用于其他类型的自监督学习将是未来进步的关键。
“这与深度学习系统的一些最大问题有关,比如“它们为什么会失败?”和“我们能否提前知道你的模型会失败的情况?”如果你想,还有很多路要走全面了解快捷学习,”罗宾逊说。
免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!
-
安徽淮南长安猎手K50作为一款备受关注的皮卡车型,其2025款在配置和性能上都有所升级。对于想要购买这款车的消...浏览全文>>
-
安徽阜阳的大众高尔夫GTI作为一款备受年轻消费者喜爱的性能车型,其价格和配置一直是大家关注的重点。高尔夫GT...浏览全文>>
-
近年来,新能源汽车市场发展迅猛,大众品牌凭借其深厚的技术积累和可靠的产品品质,在国内市场上占据了重要地...浏览全文>>
-
QQ多米作为一款备受关注的小型车,凭借其时尚的外观设计和实用的配置,吸引了众多消费者的关注。为了帮助大家...浏览全文>>
-
随着新能源汽车市场的持续升温,上汽大众ID 6 X凭借其宽敞的7座空间和出色的续航能力,成为不少家庭用户的关...浏览全文>>
-
淮南途锐新能源2024款车型以其卓越的性能和环保特性吸引了众多消费者的关注。作为一款高端插电式混合动力SUV,...浏览全文>>
-
近年来,随着新能源汽车的普及和政策支持的不断加大,越来越多消费者将目光投向了插电混动车型。作为一款备受...浏览全文>>
-
2025款生活家PHEV作为一款备受关注的新能源车型,凭借其出色的性能和环保特性,吸引了众多消费者的目光。在购...浏览全文>>
-
长安汽车旗下高端新能源品牌——启源,在2024款新车的推出中再次吸引了广泛关注。作为该品牌的旗舰车型之一,...浏览全文>>
-
近年来,新能源汽车市场持续火热,各大品牌纷纷推出新款车型以满足消费者需求。在众多选择中,2025款安徽池州I...浏览全文>>
- iPhone用户现在可以通过iOS18.1更新更改其Apple帐户的主要电子邮件地址
- 当你看到T-Mobile用户赢得手机手表和耳机时你会羡慕不已
- Ubuntu24.10OracularOriole推出最新内核工具链GNOME47和增强的安全性
- 搭载M4的MacBookPro在Cinebench上击败了CoreUltra9288V和Ryzen9AI370HX
- EarFun推出功能强大的159美元UBoomX便携式扬声器
- iPhone16Pro iPhone16ProMax表现优于基本机型扭转了之前的趋势
- Waze迎来魔兽世界改版
- SquareEnix将心爱的RPG移植到MetaQuest3
- 苹果正在设计全新操作系统瞄准新类别的产品
- 小米RedmiA27U显示器采用4K面板和90WUSBC端口
- 苹果将为iPhone17系列采用新电池技术
- Adobe推出PhotoshopElements和PremiereElements2025取消Elements软件的永久许可
- AppleiPhoneSE4将配备更新的OLED显示屏
- InfinixZeroFlip首次亮相作为新款可折叠Android智能手机其价格低于摩托罗拉Razr2024
- OnePlus13型号 充电规格在最新泄漏中被登记
- Insta360AcePro2主要规格终于泄露GoPro和DJI运动相机竞争对手将配备50MP传感器5nm和2倍数码变焦
- XboxElite无线控制器系列2通过Xbox设计实验室获得透明面板
- 索尼INZONEM10S华硕ROGSwiftOLEDPG27AQDP新品上市但售价更高
- 谷歌终止PixelBuds的点击通知功能
- 谷歌正在努力完善iOS中缺少的RCS支持重要功能
- 对AppleIntelligence功能的评价从一般到还可以
- GalaxyS25Plus看起来很时髦但三星是否选择像iPhone一样的通用设计
- 优质48英寸三星S90DOLED电视在亚马逊上降至历史最低价同时赠送100美元Xbox礼品卡和1年保护计划
- AOC推出四款新型游戏显示器具有快速刷新率和低价格
- Valve出售部分SteamDeck型号-GBLCD型号售价296.65美元512GBLCD型号售价336.75美元
- Beats在其产品线中增加了手机保护壳推出适用于iPhone16系列的MagSafe保护壳
- 三星在IFA2024上展示AI产品
- 新的AIPlaygroundDesign工具你可以简单地与之交谈就像ChatGPT一样
- 极简主义Linux发行版Peropesis2.7附带存档和ISO管理工具
- GAMEBABY控制器和外壳混合套装现已接受预订