首页>>新闻资讯>>行业动态

专注百亿算力市场,这家存储厂商已为多个千卡智算中心降本增效

2025-04-18 11:31:39 7

01

存储产品对智算中心精细化运营起到重要作用

从 2023 年开始,政策支持和生成式 AI 需求驱动整个智算中心市场迎来爆发式增长。根据市场调研数据,2023 年中国智算服务市场整体规模达到 194.2 亿元,其中 2023 年下半年整体规模达到 114.1 亿元,同比增长 85.8%。

从 2024 年下半年开始,不少智算中心已完成投资建设工作,进入到运营阶段,如何精细化运营,最大化发挥算力资产价值,降低运营成本是每个智算中心关注的问题,存储产品选型是一项重要但又容易被忽视的工作。

在智算中心建设阶段,存储占整体预算在 5-10%,远低于占比 60-70% 的 GPU 投入,但在运营阶段,存储产品对提升算力利用率、降低运营成本起到了重要作用。

首先,英伟达等 GPU 产品算力持续不断提升,2023 年多数智算中心采购的是 A100 GPU,2024 年普遍换成了 H100,算力带宽从 200G 提升至 400G,对存储软硬件架构提出新的要求。如果存储产品无法匹配 400G 带宽要求,这对智算中心运营商来说是算力的巨大浪费。

其次,通过数据自由流动、冷热分离等方式降低存储成本,是智算中心运营商都希望实现的功能,特别是在 2024 年闪存售价上涨 15% 的背景下。同时,智算中心希望尽可能降低运维成本,整个数据流动过程最好是业务无感知、自动化完成,对存储产品功能提出更高要求。

再次,很多智算中心为了满足当前信创要求,同时会购买华为、寒武纪等国产厂商的算力集群,每套算力集群单独搭配一个存储设备有些浪费,智算中心运营商希望通过统一存储来适配异构算力,这样可以节省空间和资源。

02

基于 NVMe over RDMA 架构的存储产品成为行业共识

相比传统数据中心,智算中心对存储产品提出更高要求,新一代存储产品必须在存储介质、存储网络等方面有适配 AI 场景的技术特点。

存储介质方面,目前全闪已经成为行业共识,混闪介质更多是服务于数据流动场景,用于冷数据存储等。在全闪阵列中,存储技术 NVMe(Nonvolatile Memory Express)已经全面取代 SATA(Serial Advanced Technology Attachment)成为主流,NVMe 利用服务器中的 PCIe 高速总线,将其直连服务器,从而减少了 CPU 开销,降低延迟,提升 IOPS 和吞吐量。

存储网络方面,越来越多用户开始接受 RDMA(Remote Direct Memory Access)协议,替代传统 TCP/IP 协议。RDMA 协议的特点是允许两台服务器直接读写对方的内存,而无需经过任何一台服务器,这带来两方面好处。一方面,基于 RDMA 协议能够实现高速传输数据,这在 AI 模型训练场景是至关重要的影响因素。另一方面,基于 RDMA 协议可以释放 CPU,考虑到国产 CPU 产品的性能略逊于海外产品,这让 CPU 的性能劣势不会影响到存储产品性能。

03  

AI 存储厂商选型:性能、稳定可靠、功能

智算中心等企业用户在选型存储产品时,重点考量三个方面:性能、稳定可靠和功能。

性能层面,正如前文所言,智算中心的 GPU 硬件已经升级至 400G 带宽,未来甚至会迭代至 800G 带宽,存储产品性能必须能跟上 GPU 性能提升,否则对智算中心而言是硬件上很大的浪费和损失。

稳定可靠对于智算中心越来越重要,整个智算中心市场逐步进入到运营阶段,加上现阶段有大量算力需求的主要集中在头部互联网公司和 AI 大模型厂商,智算中心之间的竞争势必越来越激烈。作为基础设施服务,稳定可靠一定是企业用户关注重点,存储又直接影响到企业用户最核心的训练数据,智算中心在采购存储产品时一定会关注稳定可靠性,看重厂商过往服务案例和经验。

冷热数据流动、数据安全、额度分配等功能是智算中心所需要的,存储厂商的产品需要能够支持上述功能,同时,这些功能最好是集成到产品中自动化实现,不需要太多人工干预。

04  

AI 存储代表厂商:极客天成

国内市场提供 AI 存储产品的原厂主要分成国际大厂和本土厂商。国际大厂包含 IBM(GPFS)、DDN、VAST Data 等,本土厂商一类是华为、中科曙光等 IT 综合服务商,另一类是以极客天成、焱融科技、XSKY 为代表的专注存储产品厂商,极客天成作为一家 2016 年成立的基于 RDMA 技术的存储厂商值得关注。

极客天成的主要产品是极客追光全闪一体机,提供 100% 的 NVMe 存储介质和多种高速连接主机接口选项。2U NVMe 平台是业界最快的存储解决方案之一,速度达 120GB/s,并且以最小的外形尺寸交付多达 24 块 NVMe 固态硬盘(SSD),主要应用数据实时分析、深度学习、AI 药物研发、大模型训练等场景。

相比其他存储厂商,极客天成在成立之初就确定了 RDMA 技术方向,分布式并行文件存储 NVFile、分布式块存储 NVMatrix、分布式对象存储 NVObject 都是基于 RDMA 技术底座。

极客天成的文件存储产品采取全内核态的软件架构,这使得数据流动可以在内核态进行,不需要传到用户空间,数据交换效率最高。全内核态软件架构的存储产品对用户有两方面好处,第一,内核态存储产品能够跟上 NVME 技术提升带来的硬件升级,使得存储产品能够持续利用到硬件迭代带来的性能提升;第二,内核态存储产品在部署上更加灵活,极客天成的产品支持纯软件部署和软硬一体方案,能够适配到不同场景。

面向国内企业用户,极客天成的产品还具备两点优势。一方面,顺应国产化替代趋势,极客天成产品已完成对鲲鹏、海光、飞腾等国产 CPU 和华为昇腾、寒武纪等国产 GPU 芯片的适配。另一方面,极客天成没有盲目跟踪 Share Everything 架构,而是采取 Share Nothing 架构,主要是考虑到需要适配不同客户的硬件设备,ShareEverything 架构尽管在性能上可以做到更强,但需要客户购买一体化硬件设备,在中国是比较难落地的。

产品功能上,极客天成能够实现数据冷热自动分级,降低智算中心运营维护成本。整个数据流动方案可以自动化执行,不需要由太多运维人员操作,降低操作风险。

尽管相较 IT 大厂,极客天成公司存续时间不长,但已经在金融证券、医疗、电信等领域有诸多客户案例,面向 AIGC、量化投研等场景部署了千卡 GPU 训练集群,是专注存储产品厂商中落地部署千卡集群数量最多的厂商之一,产品的稳定可靠性得到初步验证。

相关标签:

发表评论:

评论记录:

未查询到任何数据!