地址: 铜陵市岂轿之涧352号 邮箱: hallowed@mac.com 工作时间:上午9点-下午8点

公司动态

  • 首页
  • Our News
  • AI时代的高端文件存储系统:IBM、DDN、Weka 和 VAST

AI时代的高端文件存储系统:IBM、DDN、Weka 和 VAST

2025-03-31 20:01:44


在上一篇《一次无需调优的测试:SMT多线程对存储服务器IOPS的贡献》结尾处,我提到了IBM Storage Scale System 6000,和VAST Data EBox这两款高性能全闪存文件存储系统。

当今是AI大模型火爆的时代,春节期间的IT新闻几乎被DeepSeek给刷了屏。为了配合那些可扩展至千卡、万卡级别的GPU/加速器集群,关于大模型应用中的存储负载特点,我在《AI的存储需求:训练和Checkpoint》中介绍过一些。该领域有代表性的文件存储厂商,我还在关注的还有国际上知名的DDN,Weka.io等。

最近正好看到一份来自Weka的性能对比数据,引起了我的兴趣。我想先分享给大家,然后再验证下其准确性和比较的合理性,看看是否能作为公平的参考:)

上面图表对比的4项性能指标,分别为读带宽、写带宽、读IOPS和写IOPS。按照平均每Rack Unit即单位空间贡献的性能来比较,我觉得也还好,毕竟机箱大小与能容纳多少个SSD,以及CPU算力/功率密度都有关。

具体的4款存储型号,WEKApod是1U机箱;IBM ESS 3500和DDN AI400X2是2U机箱;VAST虽然也是1U机箱,但Ceres DF30xx本质上只是个JBOF盘框,其Shared-Everything文件系统架构在这里相对特别,我在下文中会进一步解释。

IBM的Storage Scale System基于GPFS(通用并行文件系统),DDN EXAScaler系列应该是由Lustre开源文件系统改进而来。这两家老牌存储厂商,都是每节点机箱双控冗余(Active/Active)的设计,也可以理解为per RU的性能相当于2U里面1个控制器的水平。

可以看出,Weka在读带宽和读IOPS方面领先,IBM ESS 3500和DDN AI400X2大致持平,VAST读带宽尚可而IOPS较低;写带宽和IOPS DDN表现最好,VAST相对垫底,IBM写带宽介于DDN和Weka之间(IBM未公布写IOPS指标)。

从机箱/节点性能,推算per Rack Unit性能

我之前提到过IBM SSS 6000是目前该系列中性能最高的型号,所以下表中我就把ESS 3500换掉了。另外,下面我先直接对比每节点(机箱)的性能,然后再结合Rack Units占用机架高度进行讨论。


WEKA

IBM

jbo竞博官网登录

DDN

VAST

型号 (Rack Units)

WEKApod (1U)

SSS 6000 (4U)

AI400X2T (2U)

Ceres DF30xx (1U JBOF)

(节点) 控制器CPU

1x AMD EPYC 9454P 48-Core

双控,双插槽AMD EPYC™ Genoa 48 cores

双控


SSD数量

14 x E3.S NVMe

48 x 2.5" NVMe

24 x NVMe

22x QLC NVMe + 8x SCM SSD






读带宽 (每节点)

90 GBps

310 GBps

115 GBps

64 GBps

写带宽 (每节点)

23.3 GBps

155 GBps

75 GB/s

10 GBps

AI时代的高端文件存储系统:IBM、DDN、Weka 和 VAST

读IOPS (每节点)

2,280 kIOPS

13,000 kIOPS

3,000 kIOPS

590 kIOPS

写IOPS (每节点)

535 kIOPS


2,000 kIOPS ?

135 kIOPS

注1:DDN在官网公开资料中未公布其控制器(服务器节点)使用的CPU,甚至都不强调使用了多少块盘。

注2:本次参与对比的VAST系统为Cbox(计算)+Dbox(存储)集群架构,Ceres DF30xx的硬件来自VAST合作的OEM/ODM伙伴之一,该1U单元本质上是个Dbox(JBOF),没有传统意义上的CPU。

从每节点/机箱的性能来看,4U的IBM SSS 6000明显处于优势,当然它配置的48个NVMe SSD盘、控制器CPU算力(共4颗AMD EPYC 9004 48核)应该也都是最高。

这个表格与前面Weka自己的对比,主要就是我替换了IBM的型号,所以可以再估一下SSS 6000每Rack U的性能:读带宽为77.5GB/s(更接近Weka),写带宽38.75GB/s(略微超过DDN AI400X2T),读IOPS 3,250 k也算超过Weka了吧。

总体来看,从性能角度上Weka、IBM Storage Scale和DDN应该算是各有所长吧。在AI训练和推理应用中,文件存储的带宽性能更重要。而VAST的特点可能不是绝对性能,不知他们在易用性和性价比方面是否有优势?特别是新发布的Ebox“超融合”形态对称节点架构。

WEKApod:使用了Dell R6615服务器硬件

前面谈到的4家厂商,除了DDN之外应该都可以单独卖(分布式/并行)文件系统。比如在Weka网站上直接就可以看到搭配的服务器配置和型号。

https://docs.weka.io/wekapod/server-overview

与另外几家的产品类似,IBM这份资料里给出的只是单系统(双控制器)的最高性能,SSS 6000支持扩展到1000节点,理论上性能是可以倍增的。但如果在分布式存储中,配置为跨节点多副本或者纠删码保护,整个集群的性能(特别是写性能)就要另算了。

就像上面DDN资料里写的“GPU-optimized”,还有“WEKApod”这样的命名,各家都想好了这类高性能文件存储系统的应用场景——就是搭配基于GPU等加速器的AI集群

VAST:Cbox、Dbox架构及SCM SSD的应用

这张图来自一张较早的VAST架构,上半部分的“Server”是Cbox,属于无状态的文件协议访问节点;后端的“HA Enclosure”则是Dbox,其中除了QLC SSD之外,早期还使用Optane SSD做为写缓存。后来3D XPoint Memory停掉了,VAST应该是换成采用SLC NAND一类的高写入性能/寿命的SSD。

在Cbox和Dbox前后端节点之间,采用以太网NVMe over Fabric连接,以共享全部SSD。

上图引用自https://www.storagereview.com/review/vast-data-ceres-data-nodes-launched-with-bluefield-e1-l-and-scm-on-board

我从网上找到了一张3年前的VAST Data Ceres Data Nodes(Dbox)示意图,其中除了22个E1.L SSD和8个NVRAM盘(就是SCM SSD)之外,2个HA的Canister连接控制部分,主要就是用PCIe Switch加上DPU(这里是NV的BF系列)。

扩展阅读:《NVMe-oF存储扩展:EBOF、FBOF、EBOD生态详解

由于VAST合作的硬件厂商不只一家,下面给大家出示下HPE GreenLake for File Storage MP的配置情况:

从这个图表中,我们可以看到与前面列出的VAST型号性能较为接近,也是1U Dbox(JBOF)22+8盘的配置。

VAST前端的Cbox文件访问节点也可能会影响性能,比如上表中的2U 4节点Cbox大致可以匹配1个Dbox的读写带宽。该型号中Cbox机箱最多配置8个,那么集群最大性能大家也可以算出来了。Dbox最多可以加到58个,不过当前端存在瓶颈时就只是增加容量了。

以上是我有限的理解,本文中除了VAST之外的另外3家,理论上单集群性能扩展能力更强。但实际应用中,具体的需求、网络拓扑设计等也是要考虑的因素。有些情况下,也可能会配置2到多个存储集群。

GPU集群参考架构中的存储推荐

作为AI Ready的文件存储系统,支持NVIDIA GPUDirect访问也算是门槛之一吧。当然,现在符合该要求的还有Dell PowerScale等,应该也包括几家国内存储品牌,这块我了解有限就先不多聊了。

下图引用自《AMD Instinct™ MI300 Series Cluster Reference Architecture Guide》文档,其中推荐给GPU集群的存储系统如下:

WEKAIO和IBM SSS 6000获得了AMD GPU集群的推荐,一方面是因为他们在性能等方面的表现;另外他们两家最新、最高端的存储机型(本文针对“全闪存集群NAS”)也是优选了AMD EPYC CPU。


注:本文只代表作者个人观点,与任何组织机构无关,如有错误和不足之处欢迎在留言中批评指正。如果您想在这个公众号上分享自己的技术干货,也欢迎联系我:)

尊重知识,转载时请保留全文。感谢您的阅读和支持!

订阅我们的时事通讯并获取最新消息