如何让云上工作负载的算力性价比提升两位数百分比

即便是以“烧钱”著称的一级方程式比赛(F1),也要为算力性价比做打算,作为全球最负盛名的赛车比赛之一, F1在计算流体力学(CFD)模拟的支持下实现那些令赛车迷血脉贲张的“地表最快赛车”和数百公里时速下的轮对轮对决。

几年前,F1将其CFD模拟迁移至亚马逊云科技的高性能计算(HPC)平台,并引入基于Amazon Graviton2处理器的Amazon EC2 C6gn实例。这不仅使CFD模拟时间大幅缩短,还使成本降低了30%。随着基于新一代Amazon Graviton3处理器的Amazon EC2 C7g实例的推出,F1又成为该实例首批使用的用户之一。F1首席技术官Pat Symonds表示“在同样的模拟中,基于Graviton3的C7g实例比C6gn实例快了40%。我们期待Graviton3成为运行所有CFD工作负载的最佳选择。”

这代表了众多涉及算力需求的企业与机构用户的诉求——在算力作为基本资源的数字经济时代,其性能与成本对其业务的影响与日俱增。高性价比的算力,往往是用户选择云计算的根本出发点之一。人工智能(AI)、机器学习(ML)等应用不断加剧算力供需和成本之间的矛盾。在云端获得更加高性价比的算力不仅是用户永恒不变的追求,也成了云计算供应商的核心要务。

深入底层,Amazon Nitro变革云计算的性价比

亚马逊云科技首席执行官 Adam Selipsky 曾表示:“如果希望针对所有可能的工作负载彻底变革计算的性价比,还需要彻底重新思考实例。为了实现这个目标,我们需要深入底层技术直达芯片。”

为了打破传统底层架构的性价比桎梏,亚马逊云科技早在十年前就走上了“自研芯片”之路,开始在基础设施底层针对云环境进行“量体裁衣”的技术创新。亚马逊云科技在2013年推出云服务器虚拟化引擎Amazon Nitro系统,并于2015年收购Annapurna Labs之后便驶入“自研芯片”的快车道,逐渐形成由Amazon Nitro系统、云原生处理器Amazon Graviton、机器学习训练Amazon Trainium芯片和机器学习推理Amazon Inferentia芯片组成的几大路径,并进行快速迭代。

Nitro创新的将网络、存储、管理、安全和监控的功能卸载到专用的硬件来完成,从底层变革了云计算的性价比。作为Amazon EC2实例的基础平台,Nitro不但将硬件的几乎所有计算资源都提供给实例,其模块化的设计在加快实例设计与交付的同时,还能与Graviton结合,进一步为客户工作负载提供更加性价比。例如,基于Gravtion2的Amazon EC2 I4g实例,在Nitro SSD 作为 NVMe 高性能存储的加持下,与上一代存储优化型实例相比I/O 延迟降低多达 60%,延迟抖动降低多达 75%,与类似的基于x86的存储优化型实例相比,计算性能提高达 15%。

更进一步,Amazon Graviton持续突破云计算性价比

Nitro拉开了亚马逊云科技定制芯片的大幕,随后的云原生处理器Amazon Graviton则更进一步,打破原有的云计算算力成本规则。Graviton处理器基于ARM架构,相比X86架构,其在架构与设计理念上完全为适应多用户的公有云环境而生,具有成本低和核心密度高等特性。例如在性能分配上,与x86在单物理核心运行多个虚拟处理器(vCPU)不同,Graviton处理器的每个vCPU都独占一个物理核心,这样的设计从硬件层面就避免了云端高并发任务时争夺vCPU性能的情况,使不同用户都能获得稳定且一致的vCPU算力。

从2018年问世至今,Graviton处理器进行了三次重大迭代,每一代Graviton都保持着大幅度的性能提升。其中,2020年推出的Graviton2与第一代Graviton相比,处理器性能提升7倍、计算核心数量多达4倍、缓存达到2倍、内存速度达到5倍。2021年推出的Graviton3,单核性能比Graviton2又提升25%,浮点性能提升2倍,并首次在云计算芯片中采用性能更强、功耗更低的DDR5内存;Graviton3的能效也更高,在相同性能下,与同类型EC2实例对比,可节省高达60%的能源消耗。

去年年底,亚马逊云科技又发布了专门对浮点和向量指令运算进行了优化的Graviton3E,聚焦于为CFD、天气模拟、基因组学和分子动力学等高性能计算工作负载提供性能优化与更优性价比。Graviton3的推出又一次刷新前代产品的性价比表现,很多获益于Graviton2的客户都表示愿意积极尝试。在基于Graviton3的Amazon EC2 C7g实例尚处在预览阶段时,Twitter就对其进行了多项工作负载基准测试,最终发现C7g实例相较于基于Graviton2的C6g有着20%-80%的性能提升,同时还将尾部延迟降低了35%。

Graviton3 以及Graviton3E处理器的推出,进一步体现了亚马逊云科技自研芯片与传统架构不同的算力升级理念。Graviton3在并未大幅改变处理器主频的前提下,转而依托高效的数据并行和指令并行,可在单位时间内执行两倍于前代产品的指令和数据处理,还采用了更具性价比的Chiplet封装,不但大幅提升了执行效率,并保持了良好的能效比。

Amazon Graviton规模化应用带来广泛的系统及软件支持

基于Graviton处理器的Amazon EC2实例在Graviton2推出后快速增加,目前基于Graviton2的实例就有100多个,涵盖通用、计算优化型、内存优化型、存储优化型、加速计算型等10多个种类,为客户广泛的工作负载提供极佳的算力性价比,成为众多客户在亚马逊云科技获得大规模云端算力的全新可选项。

为了让客户更轻松、方便的获得Graviton带来的算力性价比优势,亚马逊云科技进一步将客户常用的托管服务运行在Graviton2之上,包括Amazon Relational Database Service、Amazon Aurora、Amazon ElastiCache、Amazon MemoryDB for Redis、Amazon OpenSearch、Amazon EMR、Amazon Elastic Kubernetes Service和Amazon Lambda等。目前运行在Graviton2之上的亚马逊云科技托管服务已有20多种,这一数字还在基于客户需求持续增加。托管服务大幅降低了客户将应用迁移到 Graviton的复杂度,时间可以从几天降低到几分钟,而且转移到Graviton实例上即可实现高达40%的性价比提升。

同时,Graviton处理器的规模化应用为全行业带来如涟漪扩散般的连锁效应——越来越多的系统与软件,如大多数流行的 Linux 操作系统(包括 Amazon Linux 2、Red Hat Enterprise Linux、SUSE 和 Ubuntu 等)都支持Graviton;由亚马逊云科技和第三方软件供应商提供的,适用于安全、监控与管理、容器以及持续集成和交付 (CI/CD) 的很多热门应用程序和服务也支持基于Graviton处理器的实例。广泛的系统及软件对Graviton的支持,让客户可根据业务所需进行自由灵活的选择,让其更广泛的工作负载受益。

不止芯片创新,亚马逊云科技整体硬件创新为客户带来可持续的算力

从初代Graviton处理器问世至今仅五年,亚马逊云科技针对Graviton可用性及其软硬件支持体系开启了 “正向螺旋式上升”。如今,使用Graviton处理器获得更优性价比的企业和机构已覆盖几乎所有涉及云计算的主流行业。亚马逊云科技的持续创新,远不局限于基于ARM架构的Graviton处理器,还包括实现虚拟化平台底座的Nitro系统、机器学习加速处理芯片、服务器硬件以及数据中心基础设施在内的整体创新。未来,随着Graviton处理器的不断升级,亚马逊云科技将进一步让客户简单、快捷地获得更佳性能、更优成本以及可持续的算力。