2022阿里云峰会只有半天时间的云上跨时空连线,时间虽短,但发布的信息令人震撼。
最重磅的消息,当属阿里云智能总裁张建锋发布的全新“处理器”:CIPU(Cloud infrastructure Processing Units 云基础设施处理器)。他介绍说,以CIPU为中心的体系架构是一个全新的架构体系,“将替代CPU成为云时代IDC的处理核心”。
众所周知,无论是个人计算机还是数据中心、超算集群等基础设施,CPU的核心地位都牢不可破。为何在阿里云的话语体系里,这个只比CPU多个“I”的新名词,一举成了在云计算架构中取代CPU“C位”的存在?
CIPU意即云基础设施处理器。从字面上看,CIPU专门用于云计算,定位是云数据中心的管理中枢。在张建锋的介绍中,CIPU的功能定位也很专一:“专门用于连接服务器内硬件和云上虚拟化资源”。
阿里云给出的 CIPU 架构图显示,通过“飞天”云计算操作系统,CIPU能够长出“三头六臂”,分别接入计算加速单元、存储加速单元和网络加速单元。可以看出,CIPU扮演了统筹协调各类计算硬件的角色,并实现计算、存储、网络的加速。过程中,它以中心管理者的姿态,取代了传统数据中心中CPU的位置。
CPU和GPU等计算单元,是服务器中最昂贵的部分。而云计算要体现出弹性特征,需要做好资源池化、虚拟化以及网络分发等各项工作。在传统的数据中心,这些“杂活儿”,都要身价不菲的CPU来承载。也就是说,CPU不仅要充当计算核心,还要负责网络管控、安全、访问协议等“琐事”,不仅大材小用,还严重透支着服务器的计算资源。
而对于云计算服务商来说,云计算的核心卖点是随时随地的弹性计算,但厂商不能为了提供弹性计算服务,就放任计算性能有一定的损失。相反,只有把服务器的计算资源“吃干榨净”尽量多地将CPU用于提供计算能力,用户才能用上更便宜好用的云服务。
换言之,要说服更多用户上云,云服务商就不仅要提供更好弹性的云,还要提供性能更好、成本更低、安全性佳的云。
那么云服务商必然要面对这样的难题:对服务器物理机的虚拟化、计算存储分离都会造成性能损耗、提高延迟,云服务本身还会承受许多攻击,需要强调云上隐私保护的重要性。这些问题已经不是简单地软件迭代就能解决得了的,探索更加云化的体系结构是完全合理的方向。
事实上,阿里云早就注意到了虚拟化等给 CPU 带来的额外消耗,并致力于解决问题。2017 年,阿里云代表云数据中心虚拟化技术变革、致力于以软硬协同设计提升虚拟化效率的“神龙架构”问世。历经多轮迭代,神龙架构逐渐加入了编排调度、硬件加速等更多能力,最终诞生了CIPU的雏形。
第一阶段是分布式和虚拟化技术替代了大型机、小型机,满足了当时企业业务扩展带来的算力弹性需求;第二阶段出现了资源池化技术,把计算和存储资源分离,再规模化编排和调度,提供了超大规模的计算和存储资源池。
“这两个阶段的演进推动了云计算发展,但都是基于传统的以CPU为中心的体系架构去做优化,已经触及瓶颈。”阿里云认为,近年来云上的需求发生了很大变化,数据密集型的计算越来越多,提高了对云计算提供的低时延、高带宽的需求,这些需求“很难通过传统体系结构去满足”。
这已经成为云计算的下一战场。以英特尔、英伟达为代表的硬件厂商,和以亚马逊为代表的头部云厂商,都纷纷推出了IPU、DPU,来应对愈加棘手的数据吞吐、网络时延和带宽的问题。但他们仍然在旧有的计算体系架构上做文章,尚未真正实现突破和大规模落地。
这也是阿里云构建以 CIPU 为基构建一个全新架构体系的初衷。张建锋介绍,从最底层的数据中心核心部件到最上层云原生软件,阿里云建立了完整的自研技术体系,做到了软硬件无缝结合,形成了“飞天+CIPU”支撑的云计算技术体系。
张建锋介绍说,CIPU替代CPU成为云计算的加速和管控中心,CIPU向下接入数据中心的计算、存储、网络资源,快速云化并进行硬件加速;向上接入飞天云操作系统,管控阿里云全球数百万台服务器,让算力“零”损耗对用户服务,并通过规模化应用RDMA网络技术,让访问云端比访问本地硬盘更快,网络时延最低可达二十万分之一秒。
目前,阿里云在全球云计算的市场和技术水平均处于领先地位,在权威机构Gartner发布的年度报告里,阿里云的IaaS基础设施能力、产品能力获得了全球最高分。其中,在网络技术上,阿里云被权威机构AMiner评为全球十大最具影响力的网络研究机构。
“云计算越来越接近进入下一个时代了全新的架构定义、全新的软件界面、硬件加速。”张建锋表示:“我们错过了PC时代,但云这个时代大家起步是一样的。大家在重新定义云的结构的窗口期,如果我们定义好了,中国就可以在下一代的技术时代有自己的一席之地。”
他认为,新一代的技术架构,会催生新一代的云原生应用,也是中国软件和企业数字化的巨大机会。所以,阿里云一方面会向下深耕技术,另一方面,也会加大气力推动生态的建设。
中国工程院院士、清华大学计算机科学与技术系教授郑纬民也认为,这是中国争夺云计算定义权的重要机会。
郑纬民提出:“这几年的云计算已经进入一个关键的转换期。过去这些年,我国在云计算领域主要在软件层面有创新,发展了一些开源生态,但还是在传统IT的格局下追赶。现在,阿里云提出了CIPU技术,把上一代计算架构的中心完全打破了,在基础技术上实现了世界领先,和国际IT巨头站在同一个起跑线上。他们提出了CIPU,使得中国正在争取云Kaiyun平台 开云体育官方入口计算的定义权中处于有利的位置,改变了原本由西方技术制定的游戏规则,让我国IT产业建立了全球领导力。基于这一点改变格局的事情,我对中国在下一个技术时代拥有自己的一席之地表示乐观。”
自创立以来,阿里云坚持深耕核心技术。12年前,阿里云大力投入自研云操作系统“飞天”,立志打破国外在云计算底层技术上的垄断。飞天是阿里云底层的核心技术,也是国内唯一自研的云计算操作系统。十多年来,飞天经受“双11”、12306春运购票等极限并发场景挑战,解决了全球技术行业面临的典型技术难题,并获得2017年中国电子学会科技进步奖特等奖,这是该奖项设立15年来首次颁发的特等奖。
阿里自研的数据库起源于“去IOE”浪潮。过去数据库市场一直是Oracle等传统数据库巨头的天下,阿里云十年来始终坚持在数据库领域投入,已经突破了外国数据库公司的封锁。2020年,阿里云代表中国科技厂商,挺进Gartner全球数据库魔力象限领导者象限,成为基础软件领域首次进入领导者象限的中国企业。从阿里巴巴自身“去IOE”,到全行业去IOE,阿里云94%以上的头部用户都购买了云数据库产品。
在云存储技术方面,使用阿里云自研的盘古分布式系统,协同CIPU、高密存储服务器和Solar-RDMA网络,可以让延迟降低到30微秒,这意味着访问存储在远端的数据,延迟比访问本地的硬盘还低。
阿里云也是国内最早投入自研绿色科技的云厂商之一。阿里云仁和数据中心(位于浙江杭州)是全国规模最大的单相浸没液冷数据中心。初步估算,如果全国的数据中心都采用液冷技术,一年可节省电量相当于三峡电站2020年全年发电量的三分之二。
2021年云栖大会,阿里云推出首款通用服务器芯片“倚天710”,以及“磐久”服务器家族,实现了芯片、服务器、操作系统的全栈技术自研。通过13年的技术积累、自主研发,阿里云作为国内云厂商的代表,正在世界云计算的舞台上发出越来越高的声量。