智算基础设施发展研究报告(2024年)-中国信通院

  行业动态     |      2024-11-22 14:58

  智算,即人工智能算力,是用于支撑加速人工智能算法模型训练与推理的算力,其部署层级分为芯片级、单服务器节点级、多服务器集群级。在芯片级,依托GPU、NPU、FPGA和ASIC等加速芯片用于AI模型训练与推理加速,当前GPU在国内市场中占据主导地位。华为、天数、海光、寒武纪等本土企业在该领域积极研发布局,如华为已经推出了昇腾系列全栈自主、性能优良的产品,能够实现对智能计算的良好支撑。在单服务器节点级,以“CPU+XPU”异构计算范式为主的AI异构服务器,加强CPU与XPU协同,主流服务器产品相对更丰富,浪潮、戴尔等传统服务器厂家基于英特尔CPU+英伟达GPU的组合推出了AI服务器产品,华为及生态伙伴基于其自主研发的AI芯片推出了国产系列AI服务器产品。在多服务器集群级,AI应用中数据、模型的大型化趋势对智能算力的扩展性提出高要求,资源需要以集群模式部署以提供并行计算能力,高性能无损网络+高性能存储为单服务器节点级和多服务器集群级的算力突破提供了重要支撑。

  智算基础设施,即人工智能算力基础kaiyun体育全站 Kaiyun登录网页设施,是基于人工智能专用算力芯片及加速芯片等组成异构计算架构,以智能计算设施为核心设施,以智能算力集群为核心载体,面向人工智能应用场景,提供所需算力服务、数据服务和算法服务的公共算力基础设施。智算基础设施需要统筹协同计算、网络、存储等核心技术。大模型参数量和训练数据复杂性快速增长,对AI算力平台的建设提出了新的要求,即需要从数据中心规模化算力部署的角度,统筹考虑大模型分布式训练对于计算、网络和存储的需求特点,并集成平台软件、结合应用实践,充分关注数据传输、任务调度、并行优化、资源利用率等,设计和构建高性能、高速互联、存算平衡可扩展集群系统,以满足AI大模型的训练需求。首先,大模型的训练推理需要大量的加速卡并行计算,并且需要使用分布式训练和推理来提高效率。同时,大模型对存储的需求也很高,因为模型需要存储大量的参数和梯度信息。此外,大型对网络的需求也很高,因为需要快速传输数据和同步梯度信息。整体来看,智算基础设施的部署涉及计算、网络、存储三大维度的横向协同,也需要兼顾软件平台与硬件资源的纵向协同。

  各方主体积极推进布局智算基础设施。以提供公共普惠的智能算力服务为基本原则,地方政府(地方国投产投平台投资)、央国企(电信运营商投资)、AI云厂商(阿里云、华为云、百度智能云等投资)是我国智算基础设施的投建主体。从总体定位看,智算基础设施成为地方发展人工智能产业、发展产业数字化的重要创新载体,具有重要价值。从落地运营看,智算基础设施是加快AI产业化和产业AI化的重要战略支撑。智算中心与 AI云,是当前智算基础设施的两种主要形态。智算中心一般由地方政府或电信运营商主导建设,定位于服务区域层面的产业创新与科研创新。据团队不完全统计,截止2024年7月底,纳入监测的智算中心(含已建和在建)已达87个。AI云般由公有云计算厂商进行区域范围的建设布局,并提供统筹的调度运营,依托云计算模式,将AI部署能力开放给用户,为其不同场景所需要的 AI算力、算法以及数据,提供规模化、高效率、低成本的支撑能力。目前,华为云、百度智能云、阿里云、腾讯云等厂商占据国内AI公有云市场份额近94%,平台效应凸显。