AWS-and-NVIDIA-Collaborate-on-Next-Generation-Infrastructure-for-Training-Large-Machine-Learning-Models-and-Building-Generative-AI-Applications

新的Amazon EC2 P5实例部署到EC2 UltraClusters完全优化利用NVIDIA料斗gpu加速生成的人工智能训练和大规模的推理

西雅图和圣克拉拉,加州——(业务线)GTC——亚马逊网络服务公司(AWS),一个Amazon.com Inc .公司(纳斯达克:Amazon)和英伟达(纳斯达克:NVDA)今天宣布一个多方合作侧重于建立世界上最可伸缩的、随需应变的人工智能(AI)基础设施优化培训日益复杂的大型语言模型(llm)和开发生成人工智能应用程序。

联合工作特性下一代Amazon Elastic Compute Cloud (EC2) P5实例由NVIDIA H100张量核心gpu和AWS的最先进的网络和可扩展性,将20 exaflop构建和训练的计算性能的最大深度学习模型。P5实例将第一个基于gpu实例利用AWS的第二代弹性织物适配器(脂肪酸)网络,提供3200 Gbps的低延迟、高带宽的网络吞吐量,使客户规模高达20000 H100 gpu在EC2 UltraClusters以按需访问supercomputer-class AI的性能。

“AWS和英伟达12多年合作提供大规模、有效的基于gpu的解决方案等各种应用程序的需求AI /毫升,图形,游戏,和HPC,“说无关”,主管Adam Selipsky说首席执行官在AWS。“AWS无与伦比的经验提供了基于gpu的实例,使每一代的可伸缩性信封,与许多客户扩展机器学习培训工作负载超过10000今天gpu。与第二代脂肪酸,客户将能够扩展P5 20000 NVIDIA H100 gpu实例,将超级计算机能力要求客户从创业到大型企业。”

“加速计算和人工智能已经到达,。加速计算提供了阶跃函数加速的同时降低成本和电力企业努力用较少的资源做更多的事。生成AI唤醒企业重新定义他们的产品和商业模式和破坏者,而不是中断,”詹森说道,NVIDIA的创始人兼首席执行官。“AWS是长期合作伙伴,是第一个云服务提供商提供NVIDIA gpu。我们兴奋地结合专业知识,规模,达到帮助客户利用加速计算和生成人工智能的巨大机会。”

新超级计算集群

新的P5实例之间的合作是建立在十多年AWS和英伟达AI和HPC基础设施和建立在四个以前合作在P2, P3, P3dn, P4d (e)实例。P5实例的第五代AWS产品由NVIDIA gpu, 13年后NVIDIA gpu的初始部署,开始CG1实例。

P5实例是理想的培训和运行推理越来越复杂llm和计算机视觉模型背后的要求最高,计算密集型生成人工智能应用程序,包括问答、代码生成、视频和图像生成、语音识别等。

专为企业和初创企业竞相把AI-fueled创新市场在一个可伸缩的和安全的方法,P5实例特征八英伟达H100 gpu 16次的能力mixed-precision性能,的高带宽640 GB内存和3200 Gbps网络连通性(比上一代多8 x)在一个EC2实例。P5实例的提高性能加速的时间训练机器学习(ML)模型6 x(减少训练时间从几天到小时),和额外的GPU内存帮助客户培养更大,更复杂的模型。P5实例将降低训练成本毫升模型40%在过去的一代,为客户提供更高的效率不太灵活的云产品或昂贵的本地系统。

Amazon EC2 P5实例部署在超大型集群称为EC2 UltraClusters由最高的性能计算、网络和存储在云端。每个EC2 UltraCluster是一个世界上最强大的超级计算机,使客户运行最复杂的多节点毫升培训和分布式高性能计算工作负载。他们功能petabit-scale阻塞网络,由AWS电弧炉,一个Amazon EC2实例的网络接口,使客户能够运行应用程序要求高水平的节点间通信在AWS上规模。电弧炉的定制的操作系统(OS)旁路与NVIDIA硬件接口和集成GPUDirect RDMA增强inter-instance通信的性能通过降低延迟,提高带宽利用率,这是至关重要的扩展训练的深度学习在数以百计的P5节点模型。P5实例和电弧炉,毫升应用程序可以使用NVIDIA集体通信库(NCCL)规模20000 H100 gpu。因此,客户获得本地HPC集群的应用程序的性能与AWS的随需应变的弹性和灵活性。这些先进的计算功能,客户可以使用该行业的投资组合最为广泛和深刻的服务,比如Amazon S3对象存储,亚马逊FSx高性能文件系统,和亚马逊SageMaker构建,培训,和部署深度学习应用程序。P5实例将在未来几周在有限的预览。请求访问,访问https://pages.awscloud.com/EC2-P5-Interest.html。

EC2 P5实例,与新客户喜欢人为,凝聚,拥抱的脸,Pinterest,稳定AI将能够构建和训练最大的ML模型规模。协作通过额外的一代又一代的EC2实例将帮助初创公司,企业,研究人员无缝地扩展到满足其毫升需求。

人为构建可靠、可翻译的和可操纵的AI系统,将有很多机会创造价值商业和公共利益。“在人为,我们正在努力构建可靠的,可判断的,和可操纵的人工智能系统。今天虽然大,一般的AI系统可以有显著的好处,他们也可以是不可预知的,不可靠,不透明。我们的目标是要在这些问题上取得进展和部署系统,人们发现有用,”汤姆·布朗说,人为的创始人之一。“我们的组织是世界上为数不多的构建基础模型的深度学习研究。这些模型非常复杂,发展和培训这些尖端的模型,我们需要分发他们有效地跨大型集群gpu。我们今天广泛使用Amazon EC2 P4实例,我们兴奋即将推出的P5实例。我们希望他们实现实质性的性价比优势P4d实例,并且他们会在所需的大规模建造新一代大型语言模型和相关产品。”

连贯,语言的先驱AI,赋予每个开发人员和企业建立令人难以置信的产品世界领先的自然语言处理(NLP)私人和安全技术,同时保持他们的数据。“凝聚导致电荷在帮助每一个企业都利用人工智能语言探索,生成、搜索,和行动的信息在自然、直观的方式,部署在多个云平台最适合每个客户的数据环境,”艾登·戈麦斯说,首席执行官在凝聚。“英伟达H100-powered Amazon EC2 P5实例将引发企业创造的能力,成长,和规模更快的计算能力结合凝聚最先进的LLM和生成人工智能能力。”

拥抱面临的使命是民主化好的机器学习。“作为机器学习的发展最快的开源社区,我们现在提供超过150000 pre-trained NLP模型和25000数据集在我们平台,计算机视觉,生物学,强化学习,,”朱利安Chaumond说,首席技术官兼联合创始人在拥抱的脸。“重要的大型语言模型和生成人工智能的进步,我们正在与AWS开源模型的构建和贡献的明天。我们期待使用Amazon EC2 P5实例通过亚马逊SageMaker在规模与电弧炉UltraClusters加快交付新的基础AI模型适合每个人。”

今天,全世界有超过4.5亿人使用Pinterest作为视觉灵感平台购物产品个性化他们的味道,发现想法做离线,并发现最鼓舞人心的创造者。“我们大量使用深度学习在我们的平台用例标识和分类等数十亿的照片上传到我们的平台,并提供用户的视觉搜索能力从灵感到行动,”David时表示,在Pinterest首席架构师。“我们已经构建并部署这些用例利用AWS GPU实例等P3和最新P4d实例。我们期待使用Amazon EC2 P5实例H100 gpu、电弧炉和Ultraclusters加快产品开发和为我们的客户带来新的善解人意基于ai的经历。”

多通道的领导者,开源的人工智能模型的开发和部署,稳定AI与公共和私营部门的伙伴给全球观众带来这下一代的基础设施。“在稳定的人工智能,我们的目标是最大化现代人工智能的可访问性激发全球创造力和创新,“Emad Mostaque说,首席执行官稳定的人工智能。“我们最初在2021年与AWS建立稳定的扩散,潜伏text-to-image扩散模型,我们在使用Amazon EC2 P4d实例规模加速模型训练时间从几个月到周。当我们致力于开源生成下一代的人工智能模型和扩展到新的模式,我们兴奋在第二代EC2 UltraClusters使用Amazon EC2 P5实例。我们预计P5实例将进一步提升我们的模型训练时间4 x,使我们能够提供突破性的AI更快、成本更低。”

新服务器设计可伸缩的、高效的人工智能

释放H100, NVIDIA和AWS工程热的专家组,电气、机械领域合作设计服务器利用gpu实现人工智能在规模,专注于能源效率在AWS基础设施。gpu通常比cpu 20 x更节能对于某些人工智能工作负载,与H100 300 x效率llm比cpu。

联合工作包括开发一个系统热设计,综合安全、系统管理、安全与AWS硝基硬件加速程序,和英伟达GPUDirect™AWS custom-EFA网络结构的优化。

基于AWS和英伟达的工作集中在服务器优化,公司开始合作在未来服务器设计增加扩展效率与下一代的系统设计,冷却技术和网络可伸缩性。

关于亚马逊网络服务

自2006年以来,亚马逊网络服务一直是世界上最全面和广泛采用云。AWS一直不断扩大其服务,以支持任何工作量,现在有200多个功能齐全的服务计算,存储,数据库,网络,分析,机器学习和人工智能(AI)、物联网(物联网),移动安全、混合、虚拟和增强现实(VR和AR),媒体,和应用程序开发、部署和管理从99年31个地理区域内可用性区域,与计划15日宣布更多的可用性区域和五个AWS地区在加拿大、以色列、马来西亚、新西兰、泰国。数以百万计的客户包括增长最快的初创企业,最大的企业,政府和领导agencies-trust AWS电力基础设施,变得更加敏捷,并降低成本。了解更多关于AWS访问aws.amazon.com。

关于英伟达

自1993年成立以来,英伟达(纳斯达克:NVDA)已经成为加速计算。公司发明了GPU在1999年引发了电脑游戏市场的发展,重新定义了计算机图形学中,点燃现代人工智能的时代,引发metaverse的创建。NVIDIA现在是一个完整的计算公司data-center-scale重塑行业产品。更多的信息在https://nvidianews.nvidia.com/。

本新闻稿中的某些语句,包括但不限于,语句为:收益,影响,性能,可用性和功能的NVIDIA的协作与AWS和Amazon EC2 P5实例;好处,影响、性能、功能和可用性的NVIDIA的产品和技术,包括NVIDIA gpu料斗,NVIDIA gpu核心H100张量,NVIDIA GPUDirect RDMA, NVIDIA集体通信库和NVIDIA GPUDirect优化;好处,影响和性能的Amazon EC2 P5实例使用的第三方,包括Pinterest、稳定AI,凝聚和拥抱的脸;英伟达和AWS合作未来的服务器设计提高扩展效率与下一代的系统设计,冷却技术和网络可伸缩性是前瞻性陈述受风险和不确定性,可能导致结果比预期明显不同。重要的因素,可能导致实际结果不同物质包括:全球经济条件;我们依赖第三方制造、装配、包装和测试我们的产品;技术发展和竞争的影响;开发新产品和技术或改进我们现有的产品和技术;市场的接受我们的产品或我们的合作伙伴的产品;设计、制造或软件缺陷; changes in consumer preferences or demands; changes in industry standards and interfaces; unexpected loss of performance of our products or technologies when integrated into systems; as well as other factors detailed from time to time in the most recent reports NVIDIA files with the Securities and Exchange Commission, or SEC, including, but not limited to, its annual report on Form 10-K and quarterly reports on Form 10-Q. Copies of reports filed with the SEC are posted on the company’s website and are available from NVIDIA without charge. These forward-looking statements are not guarantees of future performance and speak only as of the date hereof, and, except as required by law, NVIDIA disclaims any obligation to update these forward-looking statements to reflect future events or circumstances.

Amazon.com Inc .)
媒体热线
Amazon-pr@amazon.com
www.amazon.com/pr

艾莉考特尼
英伟达公司
+ 1-408-706-8995
acourtney@nvidia.com

来源:Amazon.com Inc .。

AWS和英伟达合作培训新一代基础设施大机器学习模型和构建生成人工智能应用程序