大规模存储基础设施对人工智能的要求（大规模存储基础设施对人工智能的要求是什么）-人工智能-知优网

存储基础设施采用人工智能技术提高了容量和性能方面的要求。对于采用人工智能或机器学习的存储环境来说，存储容量增长到几十TB甚至数百TB的情况并不少见。

存储基础设施选用人工智能技能进步了容量和功能方面的要求。关于选用人工智能或机器学习的存储环境来说，存储容量增长到几十TB乃至数百TB的状况并不罕见。虽然供给全闪存阵列产品的供货商宣称，这么巨大的数据无法悉数存储在全闪存阵列上，但由于它们具有的并行性质，大多数存储环境从硬盘取得的服务简直与从闪存取得的服务相同好。

要求1：高功能网络

关于人工智能/机器学习环境来说，创立运用内部布置或直接衔接存储(DAS)的核算服务器集群的状况并不罕见。即便同享存储在运用容量和将作业负载更均匀地分配给核算节点方面功率更高，许多安排依然乐意献身这些功率来消除核算节点与同享存储之间创立的网络推迟。

NVMe光纤网络(NVMe-oF)是专门为根据内存的存储设备(如闪存和非易失性内存)规划的下一代网络。它供给的推迟简直与DAS NVMe相同。NVMe的深度指令和行列深度使其也十分合适高度并行化的作业负载，并且人工智能/机器学习或许是一切作业负载中最为并行的技能。NVMe-oF是专门为内存存储而规划的，但它也是为人工智能/机器学习量身定制的。

要求2：同享存储

假如NVMe-oF可以处理核算与存储之间的推迟问题，那么它将启用第二个要求，即同享存储。经过NVMe-oF衔接的同享存储处理方案，作业负载可以获益于同享存储的一切天然特点。首要，一切节点都可以拜访一切数据，这意味着作业负载可以更均匀地分配其核算负载，这也意味着具有图形处理单元(GPU)的节点可以拜访一切数据。由于GPU的价格比CPU贵得多，因而让GPU处理更多的负载是燃眉之急，而同享存储则使这一作业变得愈加简单。

在衡量数十个乃至几百PB的作业负载容量需求时，存储功率的进步都可以节约很多本钱。在具有用于每个核算节点的专用硬盘的集群中，IT团队无法轻松地将可用存储容量从头分配给集群中的其他节点。直接衔接存储(DAS)模型中缺少资源池，这也意味着安排无法有用运用制造商推向市场的大容量硬盘。现在，具有两层用处的节点(核算和存储)或许会装置12个或更多的16TB的闪存或18TB的硬盘，而单个节点或许无法有用运用。假如人工智能/机器学习存储体系结构从专用服务器中集中运用这些硬盘，则可以对其进行更精密的分配。人工智能/机器学习作业负载不只需求扩展以满意容量需求，并且还有必要可以直接拜访存储节点以满意功能需求。

要求3：分层存储

鉴于人工智能/机器学习数据集的规划，分层存储简直是有必要的办法，由于装备数十PB的闪存设备太昂贵了。事实上，某些人工智能作业负载并不遵从80/20规矩，在任何给定时刻，80%的数据都是不活泼的。这些作业负载可以从100%休眠状况变为100%活泼状况。虽然如此，它们仍是高度并行的，并且数百个功能较低的机械硬盘都可以一起满意作业负载的需求，因而应该可以供给这些作业负载所需的功能。假如没有，他们可以在当时网络技能答应的范围内赶快传送数据。

要求4：并行拜访

并行拜访意味着存储基础设施中的每个节点为人工智能/机器学习集群中的每个核算节点供给对其所需数据的直接拜访。单个操控节点不会成为瓶颈。高档其他并行性关于人工智能/机器学习至关重要，由于或许需求一起拜访存储池的核算节点数量很多。正是这种并行性使吞吐量可以使硬盘在人工智能/机器学习存储基础设施中成为一个组件。并行文件体系简直总是需求客户端或署理，可是该署理除了供给并行拜访之外，还常常需求比典型NFS协议更少的开支。

要求5 ：多种协议

虽然需求并行拜访进行处理，但另一个要求是多协议拜访，这关于将数据提取到存储基础设施中特别有协助。许多人工智能和机器学习项目都从物联网(IoT)设备接纳数据，这些设备一般需求与其顺便的协议进行通讯。许多设备经过服务器音讯块(SMB)或网络文件体系(NFS)进行通讯，少量设备运用S3存储桶。更重要的是，简直没有人运用原生并行文件体系客户端。

要求6 ：高档元数据处理

人工智能/机器学习的作业负载是元数据深重的负载，虽然一般不是由于它们像媒体和文娱的作业负载那样运用丰厚的元数据。元数据在人工智能/机器学习作业负载中的重要性来自其通用文件的数量。在大多数状况下，数十亿至数百PB的人工智能作业负载由数十亿个文件组成。这些文件中的每个文件都有元数据，就像其他作业负载相同，大部分IO业务都来自元数据。人工智能/机器学习存储基础设施有必要办理元数据，以便即便文件数量添加，它也可以保持体系的功能。元数据需求在整个存储集群中进行分配，以便一切节点都可以参与其办理。供货商或许还会检查每个存储节点中闪存上的存储元数据，以保证体系一直可以呼应。

定论

人工智能/机器学习作业负载与安排曩昔或许运转的其他作业负载有着底子的不同。前期的人工智能/机器学习项目现已依托直接衔接存储(DAS)进行数据存储。问题在于直接衔接存储(DAS)无法平均分配负载，这关于每个人工智能作业负载的GPU数量添加至关重要。并且，直接衔接存储(DAS)功率很低，仿制和移动数据所花费的容量和时刻上的糟蹋将会消除机械硬盘的价格优势。