几年前,某云服务商高性能计算平台还处在对外公测期间,就有上百家用户找到该厂商申请使用并排起长队。据称,当时每周新增排队用户比测完用户的数量还要多。

不难理解这些排队用户对高性能计算如饥似渴的心情,我国高性能或超算中心在总规模、可用规模,短时最大可调用规模上相比云计算,还存在相当大的差距。虽然高性能算开始走下神坛,对外开放了一些商用的入口,但这远远满足不了市场需求。

用安迪比尔定律来说,算力提升与应用能力的提升互为促进,应用爆发对算力产生更多需求。5G、边缘计算、人工智能应用场景的逐渐落地,也使得越来越多的企业需要应对日益复杂的互联网场景,各行各业不仅仅在上云的意愿和行动上越来越坚定和迅速,对强大算力的需求也在持续升温。

正如19世纪70年代电力成为驱动全球经济发展的强大动力一样,在当前这个数字经济时代,随着规模空前的新基建的展开,算力正在成为新一代数据中心的核心,所以高性能计算与云计算的融合已成为这一时代的显著特征。

中国科学院计算技术研究所高级工程师贾海鹏,从事多年的高性能计算、面向多核/众核计算平台的编程与优化方法研究,他认为高性能云计算平台已经成为算力输送的互联网化的新模式。

中国科学院计算技术研究所高级工程师  贾海鹏

中国信息通信研究院发布的“2021云计算十大关键词”里也提到,我国的数字经济也逐步向人工智能、智能芯片、物联网、大数据、云计算等“算力依赖型”产业聚焦。云上算力从计算资源、网络资源、存储资源三个维度不断丰富增强,云端高性能算力的大规模调度更为便捷、提供的算力形式更加多样化、运行任务透明、触达更多的应用。在此形势下,云端高性能市场逆势上涨。

高性能计算的灵魂——从“芯“开始的服务器算力提升

当对高性能计算有需求的企业类型已经不仅限于那些深度学习、科研、金融以及国家超算用户时,算力投资将成为数据中心领域需求的最新变量。

云计算服务提供商可提供的服务分为存储和计算两大类。过去,存储服务占据很大比例,现在这一状况将会随着算力的旺盛需求和各行各业务类型、应用场景的不断丰富,向高性能计算服务倾斜。

要想提升数据中心的算力,通常情况下,一是扩充服务器集群数量,二是提升单台服务器算力,而CPU又是决定服务器算力的关键。因此很显然,“芯片“和”服务器“作为高性能系统的灵魂组成部分,在实现高性能计算中起着决定性的作用。

既然说到服务器的“芯”,就不得不提AMD的EPYC霄龙服务器处理器。

应该说,算力经济时代终于又给了在数据中心市场沉寂多年的AMD绝地反击的绝佳机遇。2017年,AMD以“Zen”架构的EPYC霄龙服务器处理器回归服务器市场,为现代数据中心的高性能X86服务器注入了强大动力,高调重返数据中心高性能计算赛道。时隔两年,AMD又以“Zen 2”架构的第二代霄龙(代号“罗马”)首次将7nm先进制程带入数据中心市场。2021年3月,AMD发布采用“Zen3”架构的第三代EPYC霄龙服务器处理器,代号“米兰”。

从第一代到第三代,AMD在微架构、制程工艺、核心数等方面,为业界带来了渴望已久的、堪称及时雨的高性能解决方案,因为它已经突破了x86性能和计算能力的界限。

作为AMD中国区商用事业部系统的架构师,石汝磊认为,实现高性能计算的三大关键要素:一是线程数要足够多,二是内存带宽足够大,三是3D缓存。

AMD中国区商用事业部系统架构师 石汝磊

AMD EPYC处理器在这三方面都有着突破性的创新。它能够提供超高的核心数量和内存带宽,包括PCIe 4.0接口。比如一颗芯片里64个核,在一台标准的服务器已经可以做到128个核心,超线程下可以达到256个,每一颗芯片可以支持8个内存通道,随之而来的就是一台服务器可以有16个内存通道。而AMD Zen 3架构的处理器均拥有容量高达256MB的三级缓存。

服务器承载的关键任务

“如何把如此强大的CPU的能力在服务器上发挥出来?这不是一个简单的集成问题。”戴尔科技集团大中华区服务器产品高级经理秦建丰如此说。

戴尔科技集团大中华区服务器产品高级经理  秦建丰

为了将AMD 打造的前所未有的“芯”速度完全发挥出来,戴尔科技集团为此进行了全新的服务器架构和主板设计,目的就是要把霄龙处理器的高性能发挥到极致。比如,利用AMD EPYC处理器提供的供创纪录的浮点性能,在戴尔易安信PowerEdge 系列服务器上实现更强的计算速度和性能,并且提高结构分析性能。由于PowerEdge平台上使用最新EPYC(霄龙)处理器,支持最新的PCIe Gen4.0,对于高性能计算的GPU/FPGA等关键部件,PowerEdge系列服务器可以提供比同类产品更高的内存速度和I/O带宽,以实现超强的HPC负载。

戴尔易安信PowerEdge 系列服务器不仅发挥了AMD EPYC 处理器的全部潜力,更优化了在虚拟化、软件定义存储、数据分析、高性能计算等工作负载方面的性价比,从而降低企业客户总体拥有成本。更重要的它可以与云平台无缝接入,满足了企业在多云方面的需求。Dell服务器的强大管理特性是PowerEdge服务器三大优势之一。

戴尔科技集团的HPC/HPDA基础架构,则可以提供管理节点/登录节点、计算节点、管理网络/IO网络、存储、集群管理软件/任务调度软件等等。

戴尔科技集团为北京超级云计算中心打造的携弹性超算云服务平台,就使用了搭载AMD第二代霄龙处理器的服务器。三方携手打造出了中国HPC TOP100排名第三,通用算力超过10PFlops,通用CPU算力市场排名第一的超级云计算平台。

“即服务模式”让你离高性能云计算更近一步

如文章前面所说,虽然高性能计算的云服务商对外开放了一些商用入口,但是这项服务要想如通用云计算一样普惠大众,还受到一些条件的限制和影响。

贾海鹏认为异构重核会成为未来高性能计算的主流,但同时异构也带来了相应的问题,比如在异构平台上如何编程,如何优化,这对应用是一个巨大挑战。所以,高性能云计算服务要想普惠大众,有三方面的问题噬待解决:一、算力使用的标准接口,让用户能够屏蔽掉底层架构的差异,通过计算平台把不同的任务自动部署到不同的处理器上;二是,算力是否能有更友好的的量化方法,就如同使用电力一样让用户只关心使用量;三是降低算力的成本。

对此,石汝磊也谈到,AMD也在积极开拓创新前沿阵地来提升性能并降低对新技术的学习难度。比如采用“chiplet”方法设计CPU解决异构问题,用3D堆叠技术在一颗CPU上不断叠加核心数量等等。

我们知道,通常服务器必须达到两路才可以克服资源不平衡的难题,现在,搭载 AMD EPYC霄龙处理器的戴尔易安信PowerEdge 系列服务器单路服务器也可以满足之前需要选用二路服务器才能完成的多项工作负载需求。PowerEdge 服务器采用了PCIe Gen 4.0的,服务器I/O吞吐性能更加强劲,每台服务器最多可配六个GPU加速器,可支持最具挑战性的数据密集型工作负载,成为低成本高算力的上佳之选。

我们再以戴尔联手AMD为北京超级云计算中心打造的超算云服务平台为例,来看看如何降低算力的成本问题。

北京超级云计算有限责任公司总经理吴迪认为,对于通用超算市场的用户来说,整体计算规模相对较小,更多的是在万核以下的中小企业用户。他们对性价比、整体服务质量,以及使用的灵活度要求较高,这就需要市场化、商业化的超算服务为其提供高性价比、高质量的云化能力。

北京超级云计算中心的这个超算云服务平台,就是要满足中小科研企业对超算的需求。对戴尔科技集团这样的服务器提供商来说,如何在保障算力的前提下降低采购成本和管理成本亦是关键。

因此,戴尔科技集团为其提供了搭戴AMD EPYC霄龙处理器、具备高度可扩展特性的戴尔易安信PowerEdge 系列服务器,针对不同的应用需求进行灵活配置。比如,Dell EMC PowerEdge R6525是一种高度可配置的双插槽1U机架式服务器,可为高密度计算环境提供卓越的平衡性能和创新功能,非常适合传统和新兴的工作负载和应用程序,如高性能计算(HPC)、高密度CDI和虚拟化等。而Dell EMC PowerEdge R6525则是为计算密集型需求而生,帮助提高数据中心性能,轻松应对各种高性能计算(HPC)工作负载和应用程序,如数字制造、研究、Web技术等。

除此之外,通过Dell EMC OpenManage Enterprise,PowerEdge服务器和系统管理平均可节省高达85%的时间,并通过自动化消除几十个步骤。

通过戴尔科技集团的多类型服务器和统一管理软件这种均衡的性价比配置,让北京超级云计算中心降低了服务器的固定成本及运维成本,可以为广大有超算需求的中小企业用户持续提供高性价比的计算资源。

此外,现在戴尔科技集团还提供了服务器、存储、数据保护和超融合基础架构的APEX“即服务”模式,也就是说,客户可选择自己想要的产品和服务,并仅需为其使用量付费,同时还可以随需扩大和缩小资源的使用。

如贾海鹏在谈到当前高性能计算应用趋势时所说,当算力可以成为一种可以量化的计算资源时,算力经济将会登上历史的舞台。相信在多方力量的联合和共同推动下,高性能计算云服务也会如今天的通用云计算一般触手可及。