plusz 2018-06-05
NetApp和Nvidia合作推出了结合AI参考架构的系统,来与Pure Storage-Nvidia AIRI系统竞争。
该系统旨在深度学习,并且与思科和NetApp的融合基础架构FlexPod不同,它没有品牌名称。而且与AIRI也不同,因为它也没有自己的硬件盒子。
根据NetApp和Nvidia提供的技术白皮书,它是针对实际深度学习用例的可扩展AI基础设施设计:为NetApp A800全闪存存储阵列和Nvidia DGX-1 GPU服务器系统定义参考架构(reference architecture,简称RA)。
白皮书地址:https://www.netapp.com/us/media/wp-7267.pdf
topline RA支持单个A800阵列(高可用性配对配置),5 x DGX-1 GPU服务器连接2个Cisco Nexus 100GE交换机。而较慢的A700全闪存阵列RA支持40GE的4个DGX-1。
A800系统使用连接到DGX-1的100GE链路,该设备支持RDMA作为集群互连。A800可扩展到24节点集群和74.8PB。
据悉,它具有25GB/秒的读取带宽和500微秒以下的延迟。
NetApp Nvidia DL RA配置图
网络端口连接图
Pure Storage和Nvidia的AIRI有一个支持4个DGX-1的FlashBlade阵列。它的FlashBlade阵列提供17GB/秒的速度,提供超过3毫秒的延迟。这与NetApp/Nvidia RA系统相比似乎较慢,但A800是NetApp最快的全闪存阵列,而Pure的FlashBlade则更多地是容量优化的闪存阵列。
像Pure的AIRI Mini一样,NetApp Nvidia DL RA的规模从一台DGX-1开始扩展到五台。A800的原始容量通常为364.8TB。Pure的AIRI拥有533TB的原始闪存。
这里有一个AIRI RA文件,其配置图如下所示:
Pure Storage与Nvidia AIRI配置图
NetApp和Pure都运行其两个系统的基准测试,并且都包括使用合成数据NFS和批量64的Res-152和ResNet-50。
NetApp提供了图表和数字,而Pure只提供了图表,使得二者的比较变得困难。不过,我们可以通过将这些图表放在一起来做一个粗略的估计。由此产生的总体图表并不漂亮,但确实提供了一种比较方式:
NetApp和Pure Resnet性能对比
至少从这些图表可以看出,NetApp Nvidia RA的性能优于AIRI。