新的深度学习技术导致材料成像突破
超级计算机帮助研究人员研究复杂现象的原因和影响——通常是按照这个顺序。然而,科学家有时需要根据可观察的结果来推断科学现象的起源。众所周知,这些所谓的逆问题很难解决,尤其是当必须分析的数据量超过了传统的机器学习工具时。
为了更好地理解逆问题,来自美国能源部 (DOE) 橡树岭国家实验室 (ORNL)、NVIDIA 和 Uber Technologies 的团队在一个广泛使用的名为 Horovod 的通信库中开发并展示了两种新技术。
该平台由 Uber 开发,训练深度神经网络(DNN),使用算法模仿和利用人脑的决策能力进行科学应用。由于 Horovod 依靠单个协调器向许多不同的工作人员(即本例中的 GPU)提供指令以完成此过程,因此大规模深度学习应用程序在训练期间经常会遇到明显的减速。
研究人员的方法从传统的协调员 - 工作人员流程中删除了重复步骤,以提高速度并超越现有方法,从而使他们能够发现材料成像领域中古老逆问题的第一个近似解决方案。他们的研究结果发表在第 19 届 USENIX 网络系统设计与实施研讨会论文集上。
“据我们所知,这是卷积神经网络分布式训练中每秒最多的浮点运算,”ORNL Scale 组分析和 AI 方法的计算科学家 Junqi Yin 说。“我们计划使用生成的代码 STEMDL 来对未来几代超级计算机进行基准测试。”
一起更强大
为了减少协调员与工作人员之间的通信,这通常涉及多次重复相同的请求,该团队引入了一个响应缓存,该缓存存储来自 Horovod 中每个请求的元数据。科学家们的第一个新策略是这种缓存方法,它允许 Horovod 立即识别并自动计算熟悉的请求,而不会延迟 DNN 训练。
他们的第二项新技术涉及对多个 DNN 模型的数学运算进行分组,通过利用每个模型计算中的相似性,简化任务并提高缩放效率(每个训练步骤处理的图像总数) 。这个过程也导致了电力使用的显着改善。
通过战略性地对这些模型进行分组,该团队的目标是最终在多个 GPU 上训练一个模型,并达到与每个 GPU 训练一个模型相同的效率。
NVIDIA 的开发技术工程师 Josh Romero 将新策略整合到 Horovod 中,使用户能够在任何规模的高性能计算机上更有效地训练 DNN。
罗梅罗说:“所有工人必须就操作顺序以及在任何给定时间分发的信息达成一致。” “我们找到了改善这一物流流程的方法。”
这两种方法单独提高了 Horovod 的性能,但将它们结合起来几乎使扩展效率翻了一番,该团队通过在 IBM AC922 Summit 系统的所有 27,600 个 GPU 上运行 STEMDL 代码来衡量这一点。美国最快的超级计算机 Summit 位于 ORNL 的橡树岭领导计算设施,这是美国能源部科学办公室用户设施。
“这些能力使我们能够训练分布在整个峰会上的单个神经网络,其扩展效率和计算性能比以前在大规模上可能实现的要高得多,”ORNL 前计算科学家兼首席研究员 Nouamane Laanait 说。该团队的峰会分配,这是通过创新和新颖的计算对理论和实验的影响计划授予的。
STEMDL 等卷积神经网络是图像分析的理想 DNN。该团队专门设计了这个应用程序来解决长期存在的材料成像逆问题,该问题需要对扫描透射电子显微镜数据进行精确分析。
“使用神经网络模型的一个优点是,你可以将许多难以在数学方法中编码的因素结合起来,以解决逆问题,”Laanait 说。“通过在数据集上训练这些模型,你可以教它们忽略噪音和其他缺陷。”
包罗万象的架构
Summit 的独特组件使这项研究成为可能。例如,在超级计算机的 GPU 之间分配 DNN 训练揭示了传统 Horovod 计算中存在的性能瓶颈。这些障碍在整个训练过程中累积起来,然后才变得明显,因为它们开始阻碍计算时间,这使得它们很难或不可能在较小的系统上看到。
“在一小时内,您就知道解决方案的精确度,这使您可以比在较小的系统上更快地调整原型,这可能需要数天或数周才能确定模型的精确程度或将问题映射到模型的程度, ”拉奈特说。
此外,Summit 具有高带宽通信路径,可以将数据从一个地方移动到另一个地方,其本地存储系统(称为突发缓冲区)具有足够的内存,允许研究人员在每个节点上模拟和存储超过 1 TB 的数据。最后,NVIDIA 张量核心(适用于深度学习应用程序的专用处理单元)加快了团队的代码速度,并帮助他们达到了比传统处理器更高的性能水平。
该团队的研究结果可以应用于现有的深度学习应用程序和以前未解决的逆问题,以回答基础科学问题。展望未来,研究人员希望使用更少的计算能力重新创建他们的结果,并根据实验设施生成的不断增加的数据量训练更大的模型。
“将更大的数据集和模型与更多的计算能力相结合通常会提高 DNN 的有效性,”Laanait 说。“我们不知道这些改进的上限是多少,所以找出答案的唯一方法是继续试验。”
免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!
-
安徽淮南长安猎手K50作为一款备受关注的皮卡车型,其2025款在配置和性能上都有所升级。对于想要购买这款车的消...浏览全文>>
-
安徽阜阳的大众高尔夫GTI作为一款备受年轻消费者喜爱的性能车型,其价格和配置一直是大家关注的重点。高尔夫GT...浏览全文>>
-
近年来,新能源汽车市场发展迅猛,大众品牌凭借其深厚的技术积累和可靠的产品品质,在国内市场上占据了重要地...浏览全文>>
-
QQ多米作为一款备受关注的小型车,凭借其时尚的外观设计和实用的配置,吸引了众多消费者的关注。为了帮助大家...浏览全文>>
-
随着新能源汽车市场的持续升温,上汽大众ID 6 X凭借其宽敞的7座空间和出色的续航能力,成为不少家庭用户的关...浏览全文>>
-
淮南途锐新能源2024款车型以其卓越的性能和环保特性吸引了众多消费者的关注。作为一款高端插电式混合动力SUV,...浏览全文>>
-
近年来,随着新能源汽车的普及和政策支持的不断加大,越来越多消费者将目光投向了插电混动车型。作为一款备受...浏览全文>>
-
2025款生活家PHEV作为一款备受关注的新能源车型,凭借其出色的性能和环保特性,吸引了众多消费者的目光。在购...浏览全文>>
-
长安汽车旗下高端新能源品牌——启源,在2024款新车的推出中再次吸引了广泛关注。作为该品牌的旗舰车型之一,...浏览全文>>
-
近年来,新能源汽车市场持续火热,各大品牌纷纷推出新款车型以满足消费者需求。在众多选择中,2025款安徽池州I...浏览全文>>
- iPhone用户现在可以通过iOS18.1更新更改其Apple帐户的主要电子邮件地址
- 当你看到T-Mobile用户赢得手机手表和耳机时你会羡慕不已
- Ubuntu24.10OracularOriole推出最新内核工具链GNOME47和增强的安全性
- 搭载M4的MacBookPro在Cinebench上击败了CoreUltra9288V和Ryzen9AI370HX
- EarFun推出功能强大的159美元UBoomX便携式扬声器
- iPhone16Pro iPhone16ProMax表现优于基本机型扭转了之前的趋势
- Waze迎来魔兽世界改版
- SquareEnix将心爱的RPG移植到MetaQuest3
- 苹果正在设计全新操作系统瞄准新类别的产品
- 小米RedmiA27U显示器采用4K面板和90WUSBC端口
- 苹果将为iPhone17系列采用新电池技术
- Adobe推出PhotoshopElements和PremiereElements2025取消Elements软件的永久许可
- AppleiPhoneSE4将配备更新的OLED显示屏
- InfinixZeroFlip首次亮相作为新款可折叠Android智能手机其价格低于摩托罗拉Razr2024
- OnePlus13型号 充电规格在最新泄漏中被登记
- Insta360AcePro2主要规格终于泄露GoPro和DJI运动相机竞争对手将配备50MP传感器5nm和2倍数码变焦
- XboxElite无线控制器系列2通过Xbox设计实验室获得透明面板
- 索尼INZONEM10S华硕ROGSwiftOLEDPG27AQDP新品上市但售价更高
- 谷歌终止PixelBuds的点击通知功能
- 谷歌正在努力完善iOS中缺少的RCS支持重要功能
- 对AppleIntelligence功能的评价从一般到还可以
- GalaxyS25Plus看起来很时髦但三星是否选择像iPhone一样的通用设计
- 优质48英寸三星S90DOLED电视在亚马逊上降至历史最低价同时赠送100美元Xbox礼品卡和1年保护计划
- AOC推出四款新型游戏显示器具有快速刷新率和低价格
- Valve出售部分SteamDeck型号-GBLCD型号售价296.65美元512GBLCD型号售价336.75美元
- Beats在其产品线中增加了手机保护壳推出适用于iPhone16系列的MagSafe保护壳
- 三星在IFA2024上展示AI产品
- 新的AIPlaygroundDesign工具你可以简单地与之交谈就像ChatGPT一样
- 极简主义Linux发行版Peropesis2.7附带存档和ISO管理工具
- GAMEBABY控制器和外壳混合套装现已接受预订