在上一篇《一次无需调优的测试:SMT多线程对存储服务器IOPS的贡献》结尾处,我提到了IBM Storage Scale System 6000,和VAST Data EBox这两款高性能全闪存文件存储系统。
当今是AI大模型火爆的时代,春节期间的IT新闻几乎被DeepSeek给刷了屏。为了配合那些可扩展至千卡、万卡级别的GPU/加速器集群,关于大模型应用中的存储负载特点,我在《AI的存储需求:训练和Checkpoint》中介绍过一些。该领域有代表性的文件存储厂商,我还在关注的还有国际上知名的DDN,Weka.io等。
最近正好看到一份来自Weka的性能对比数据,引起了我的兴趣。我想先分享给大家,然后再验证下其准确性和比较的合理性,看看是否能作为公平的参考:)

上面图表对比的4项性能指标,分别为读带宽、写带宽、读IOPS和写IOPS。按照平均每Rack Unit即单位空间贡献的性能来比较,我觉得也还好,毕竟机箱大小与能容纳多少个SSD,以及CPU算力/功率密度都有关。
具体的4款存储型号,WEKApod是1U机箱;IBM ESS 3500和DDN AI400X2是2U机箱;VAST虽然也是1U机箱,但Ceres DF30xx本质上只是个JBOF盘框,其Shared-Everything文件系统架构在这里相对特别,我在下文中会进一步解释。
IBM的Storage Scale System基于GPFS(通用并行文件系统),DDN EXAScaler系列应该是由Lustre开源文件系统改进而来。这两家老牌存储厂商,都是每节点机箱双控冗余(Active/Active)的设计,也可以理解为per RU的性能相当于2U里面1个控制器的水平。
可以看出,Weka在读带宽和读IOPS方面领先,IBM ESS 3500和DDN AI400X2大致持平,VAST读带宽尚可而IOPS较低;写带宽和IOPS DDN表现最好,VAST相对垫底,IBM写带宽介于DDN和Weka之间(IBM未公布写IOPS指标)。
从机箱/节点性能,推算per Rack Unit性能
我之前提到过IBM SSS 6000是目前该系列中性能最高的型号,所以下表中我就把ESS 3500换掉了。另外,下面我先直接对比每节点(机箱)的性能,然后再结合Rack Units占用机架高度进行讨论。
WEKA | IBM jbo竞博官网登录 | DDN | VAST | |
型号 (Rack Units) | WEKApod (1U) | SSS 6000 (4U) | AI400X2T (2U) | Ceres DF30xx (1U JBOF) |
(节点) 控制器CPU | 1x AMD EPYC 9454P 48-Core | 双控,双插槽AMD EPYC™ Genoa 48 cores | 双控 | |
SSD数量 | 14 x E3.S NVMe | 48 x 2.5" NVMe | 24 x NVMe | 22x QLC NVMe + 8x SCM SSD |
读带宽 (每节点) | 90 GBps | 310 GBps | 115 GBps | 64 GBps |
写带宽 (每节点) | 23.3 GBps | 155 GBps | 75 GB/s | 10 GBps |
读IOPS (每节点) | 2,280 kIOPS | 13,000 kIOPS | 3,000 kIOPS | 590 kIOPS |
写IOPS (每节点) | 535 kIOPS | 2,000 kIOPS ? | 135 kIOPS |
注1:DDN在官网公开资料中未公布其控制器(服务器节点)使用的CPU,甚至都不强调使用了多少块盘。
注2:本次参与对比的VAST系统为Cbox(计算)+Dbox(存储)集群架构,Ceres DF30xx的硬件来自VAST合作的OEM/ODM伙伴之一,该1U单元本质上是个Dbox(JBOF),没有传统意义上的CPU。
从每节点/机箱的性能来看,4U的IBM SSS 6000明显处于优势,当然它配置的48个NVMe SSD盘、控制器CPU算力(共4颗AMD EPYC 9004 48核)应该也都是最高。
这个表格与前面Weka自己的对比,主要就是我替换了IBM的型号,所以可以再估一下SSS 6000每Rack U的性能:读带宽为77.5GB/s(更接近Weka),写带宽38.75GB/s(略微超过DDN AI400X2T),读IOPS 3,250 k也算超过Weka了吧。
总体来看,从性能角度上Weka、IBM Storage Scale和DDN应该算是各有所长吧。在AI训练和推理应用中,文件存储的带宽性能更重要。而VAST的特点可能不是绝对性能,不知他们在易用性和性价比方面是否有优势?特别是新发布的Ebox“超融合”形态对称节点架构。
WEKApod:使用了Dell R6615服务器硬件
前面谈到的4家厂商,除了DDN之外应该都可以单独卖(分布式/并行)文件系统。比如在Weka网站上直接就可以看到搭配的服务器配置和型号。
https://docs.weka.io/wekapod/server-overview
与另外几家的产品类似,IBM这份资料里给出的只是单系统(双控制器)的最高性能,SSS 6000支持扩展到1000节点,理论上性能是可以倍增的。但如果在分布式存储中,配置为跨节点多副本或者纠删码保护,整个集群的性能(特别是写性能)就要另算了。
就像上面DDN资料里写的“GPU-optimized”,还有“WEKApod”这样的命名,各家都想好了这类高性能文件存储系统的应用场景——就是搭配基于GPU等加速器的AI集群。
VAST:Cbox、Dbox架构及SCM SSD的应用
这张图来自一张较早的VAST架构,上半部分的“Server”是Cbox,属于无状态的文件协议访问节点;后端的“HA Enclosure”则是Dbox,其中除了QLC SSD之外,早期还使用Optane SSD做为写缓存。后来3D XPoint Memory停掉了,VAST应该是换成采用SLC NAND一类的高写入性能/寿命的SSD。
在Cbox和Dbox前后端节点之间,采用以太网NVMe over Fabric连接,以共享全部SSD。
上图引用自https://www.storagereview.com/review/vast-data-ceres-data-nodes-launched-with-bluefield-e1-l-and-scm-on-board
我从网上找到了一张3年前的VAST Data Ceres Data Nodes(Dbox)示意图,其中除了22个E1.L SSD和8个NVRAM盘(就是SCM SSD)之外,2个HA的Canister连接控制部分,主要就是用PCIe Switch加上DPU(这里是NV的BF系列)。
扩展阅读:《NVMe-oF存储扩展:EBOF、FBOF、EBOD生态详解》
由于VAST合作的硬件厂商不只一家,下面给大家出示下HPE GreenLake for File Storage MP的配置情况:
从这个图表中,我们可以看到与前面列出的VAST型号性能较为接近,也是1U Dbox(JBOF)22+8盘的配置。
VAST前端的Cbox文件访问节点也可能会影响性能,比如上表中的2U 4节点Cbox大致可以匹配1个Dbox的读写带宽。该型号中Cbox机箱最多配置8个,那么集群最大性能大家也可以算出来了。Dbox最多可以加到58个,不过当前端存在瓶颈时就只是增加容量了。
以上是我有限的理解,本文中除了VAST之外的另外3家,理论上单集群性能扩展能力更强。但实际应用中,具体的需求、网络拓扑设计等也是要考虑的因素。有些情况下,也可能会配置2到多个存储集群。
GPU集群参考架构中的存储推荐
作为AI Ready的文件存储系统,支持NVIDIA GPUDirect访问也算是门槛之一吧。当然,现在符合该要求的还有Dell PowerScale等,应该也包括几家国内存储品牌,这块我了解有限就先不多聊了。
下图引用自《AMD Instinct™ MI300 Series Cluster Reference Architecture Guide》文档,其中推荐给GPU集群的存储系统如下:
WEKAIO和IBM SSS 6000获得了AMD GPU集群的推荐,一方面是因为他们在性能等方面的表现;另外他们两家最新、最高端的存储机型(本文针对“全闪存集群NAS”)也是优选了AMD EPYC CPU。
注:本文只代表作者个人观点,与任何组织机构无关,如有错误和不足之处欢迎在留言中批评指正。如果您想在这个公众号上分享自己的技术干货,也欢迎联系我:)
尊重知识,转载时请保留全文。感谢您的阅读和支持!