2022阿里云峰会只有半天时间的云上跨时空连线,时间虽短,但发布的信息却令人震撼。
最重磅消息当数阿里云智能总裁张建锋发布的全新“处理器”:CIPU(云基础设施处理器)。他介绍说,以CIPU为中心的体系架构是一个全新的架构体系,“将替代CPU成为云时代IDC的处理核心”。
众所周知,无论是个人计算机还是数据中心、超算集群等基础设施,CPU的核心地位都牢不可破。为何在阿里云的话语体系里,这个只比CPU多个“I”的新名词,一举成为云计算架构中取代CPU“C位”的存在?
CIPU即云基础设施处理器。从字面上看,CIPU专门用于云计算,定位是云数据中心的kaiyun体育全站 Kaiyun登录网页管理中枢。在张建锋的介绍中,CIPU的功能定位很专一,“专门用于连接服务器内硬件和云上虚拟化资源”。
阿里云给出的CIPU架构图显示,通过“飞天”云计算操作系统,CIPU能够长出“三头六臂”,分别接入计算、存储和网络三个加速单元。可以看出,CIPU扮演了统筹协调各类计算硬件的角色,并实现计算、存储、网络的加速。过程中,它以中心管理者的姿态,取代了传统数据中心中CPU的位置。
CPU和GPU等计算单元,是服务器中最昂贵的部分。而云计算要体现出弹性特征,需要做好资源池化、虚拟化及网络分发等各项工作。在传统的数据中心,这些“杂活儿”都要身价不菲的CPU来承载。也就是说,CPU不仅要充当计算核心,还要负责网络管控、安全、访问协议等“琐事”,不仅大材小用,还严重透支服务器的计算资源。
而对于云计算服务商来说,云计算的核心卖点是随时随地的弹性计算,但厂商不能为了提供弹性计算服务,就放任计算性能有一定的损失。相反,只有把服务器的计算资源“吃干榨净”尽量多地将CPU用于提供计算能力,用户才能用上更便宜好用的云服务。
换言之,要说服更多用户上云,云服务商不仅要提供更好弹性的云,还要提供性能更好、成本更低、安全性更强的云。
那么云服务商必然要面对这样的难题:对服务器物理机的虚拟化、计算存储分离都会造成性能损耗、提高延迟,云服务本身还会遭受许多攻击,需要强调云上隐私保护的重要性。这些问题已经不是简单地软件迭代就能解决得了的,探索更加云化的体系结构是完全合理的方向。
事实上,阿里云早就注意到了虚拟化等给CPU带来的额外消耗,并致力于解决问题。2017年,阿里云代表云数据中心虚拟化技术变革、致力于以软硬协同设计提升虚拟化效率的“神龙架构”问世。历经多轮迭代,神龙架构逐渐具备了编排调度、硬件加速等更多能力,最终诞生了CIPU的雏形。
第一阶段是分布式和虚拟化技术替代了大型机、小型机,满足了当时企业业务扩展带来的算力弹性需求;第二阶段出现了资源池化技术,把计算和存储资源分离,再规模化编排和调度,提供了超大规模的计算和存储资源池。
“这两个阶段的演进推动了云计算发展,但都是基于传统的以CPU为中心的体系架构去做优化,已经触及瓶颈。”阿里云认为,近年来云上的需求发生了很大变化,数据密集型计算越来越多,提高了对云计算服务的低时延、高带宽的需求,这些需求“很难通过传统体系结构去满足”。
这已经成为云计算的下一个战场。以英特尔、英伟达为代表的硬件厂商和以亚马逊为代表的头部云厂商,都纷纷推出了IPU、DPU,来应对愈加棘手的数据吞吐、网络时延和带宽的问题。但他们仍然在旧有的计算体系架构上做文章,尚未真正实现突破和大规模落地。
这也是阿里云以CIPU为基础构建一个全新架构体系的初衷。张建锋介绍,从最底层的数据中心核心部件到最上层云原生软件,阿里云建立了完整的自研技术体系,做到了软硬件无缝结合,形成了“飞天+CIPU”支撑的云计算技术体系。
张建锋介绍说,CIPU替代CPU成为云计算的加速和管控中心,CIPU向下接入数据中心的计算、存储、网络资源,快速云化并进行硬件加速;向上接入飞天云操作系统,管控阿里云全球数百万台服务器,让算力“零”损耗为用户服务,并通过规模化应用RDMA网络技术,让访问云端比访问本地硬盘更快,网络时延最短可达二十万分之一秒。
目前,阿里云在全球云计算的市场和技术水平方面均处于领先地位,在权威机构Gartner发布的年度报告里,阿里云的Iaakaiyun体育全站 Kaiyun登录网页S基础设施能力、产品能力获得全球最高分。其中,在网络技术上,阿里云被权威机构AMiner评为全球十大最具影响力的网络研究机构。
“云计算越来越接近下一个时代了全新的架构定义、软件界面、硬件加速。”张建锋表示,“我们虽然错过了PC时代,但云时代大家同时起步。在重新定义云结构的窗口期,如果我们定义好了,中国就可以在下一个技术时代占有一席之地。”
他认为,新一代技术架构会催生新一代云原生应用,也是中国软件和企业数字化的巨大机会。所以,阿里云一方面会向下深耕技术,另一方面会大力推动生态建设。
中国工程院院士、清华大学计算机科学与技术系教授郑纬民也认为,这是中国争夺云计算定义权的重要机会。
郑纬民提出,“近几年,云计算已经进入一个关键的转换期。过去这些年,在云计算领域,我国主要在软件层面有创新,发展了一些开源生态,但还是在传统IT的格局下追赶。现在,阿里云提出了CIPU技术,把上一代计算架构中心完全打破,在基础技术上实现世界领先,和国际IT巨头站在同一个起跑线上。他们提出了CIPU,使得中国在争取云计算的定义权中处于有利位置,改变了原本由西方制定的游戏规则,让我国IT产业拥有全球领导力。基于这一改变格局的事情,我对中国在下一个技术时代拥有自己的一席之地表示乐观。”
自创立以来,阿里云坚持深耕核心技术。13年前,阿里云大力投入自研云操作系统“飞天”,立志打破国外在云计算底层技术上的垄断。飞天是阿里云底层的核心技术,也是国内唯一自研的云计算操作系统。十多年来,“飞天”经受“双11”、12306春运购票等极限并发的场景挑战,解决了全球技术行业面临的典型技术难题,并获得2017年中国电子学会科技进步奖特等奖,这是该奖项设立15年来首次颁发特等奖。
阿里自研的数据库起源于“去IOE”浪潮。过去数据库市场一直是Oracle等传统数据库巨头的天下,阿里云十年来始终坚持在数据库领域投入,已经突破了外国数据库公司的封锁。2020年,阿里云代表中国科技厂商,挺进Gartner全球数据库魔力象限的领导者象限,成为基础软件领域首次进入领导者象限的中国企业。从阿里巴巴自身“去IOE”,到全行业“去IOE”,阿里云94%以上的头部用户都购买了云数据库产品。
在云存储技术方面,使用阿里云自研的盘古分布式系统,协同CIPU、高密存储服务器和Solar-RDMA网络,可以让延迟降低到30微秒,这意味着访问存储在远端的数据,延迟比访问本地的硬盘还短。
阿里云也是国内最早投入自研绿色科技的云厂商之一。阿里云仁和数据中心(位于浙江杭州)是全国规模最大的单相浸没液冷数据中心。初步估算,如果全国的数据中心都采用液冷技术,一年节省电量相当于三峡电站2020年全年发电量的三分之二。
2021年云栖大会,阿里云推出首款通用服务器芯片“倚天710”以及“磐久”服务器家族,实现了芯片、服务器、操作系统的全栈技术自研。通过13年的技术积累、自主研发,阿里云作为国内云厂商的代表,正在世界云计算的舞台上发出越来越高的声量。
数字经济的发展与算力规模密切相关。算力规模排名前20的国家中,有17个国家实体经济非常发达。所以我们说,算力是数字经济的新引擎。
那么,什么是算力?通常认为,算力有三大类:第一类是高性能计算,即“超算”,我们国家有十几个超高性能计算中心,这些超算中心的算力很大、很强,对国防、国家经济、国民生活水平提高起到很大作用;第二类是近两年才出现的人工智能计算机,它们主要处理人工智能应用问题,国内正在建设很多人工智能计算机中心,发展很快;第三类是数据中心,它更多是通过云计算的方式为大家提供算力的公共服务。这三类计算中心合起来反映出一个国家的算力水平。
因为算力的强弱对数字经济的发展起到了关键作用,所以我国近年来对算力的发展越来越重视。目前,中国的整体算力在世界上可以排到第二;人均算力则处于中等偏上水平,这也说明我们还有很大的发展空间。
大家都在畅想,数字时代究竟是什么样子,怎么来实现?我认为,其中一个必要条件就是算力可以跟水、电一样,想用就可以拿到,变成一种真正意义上的公共服务。
这方面,阿里云做的是比较好的。其通过自主研发的飞天云操作系统,在全球云计算的技术水平、市场方面均处于领先地位,在权威机构Gartner发布的年度报告里,阿里云的IaaS基础设施能力、产品能力获得了全球最高分,超过亚马逊、微软、谷歌等知名企业。一家中国企业在云计算方面投入了13年,取得如此成绩,实属不易。
近日,阿里云又发布了云数据中心专用处理器CIPU来应对愈加棘手的数据吞吐、网络时延和带宽的问题。
我们都知道,数字时代关于信息有4个要素:获取、传输、处理和显示。在信息的显示方面,我们已做得不错。但在获取、传输、处理方面还有欠缺。因此,在国际上,以英特尔、英伟达为代表的硬件厂商和以亚马逊、微软为代表的头部云厂商,都纷纷推出IPU、DPU等自研技术,试图在数据传输、处理方面破局。这和阿里云推出CIPU异曲同工。
云计算已经进入一个关键的转换期。过去这些年,在云计算领域,我国主要在软件层面有所创新,发展了一些开源生态,但还是在传统IT的格局下追赶发达国家。现在,阿里云提出了CIPU技术,打破了上一代计算架构的中心,在基础技术上实现了世界领先,和国际IT巨头站在同一个起跑线上。
CIPU的提出,使得中国在争取云计算的定义权中处于有利位置,改变了原本由西方技术制定的游戏规则,让我国IT产业拥有全球领导力。这一改变格局的事,让我对中国在下一个技术时代拥有自己的一席之地表示乐观。
最后,我也对中国云计算的发展提出几个期许:第一,硬件进一步自主,不管是服务器还是网络;第二,多云之间是否能无缝互动;第三,公有云的安全、隐私性、可用性要进一步提高,让更多大型企业愿意使用公有云,而不是都去建设自己的私有云。
如果这三大问题解决了,相信我国的算力水平会再上一层台阶,我国的数字经济也会更进一步。
(作者系中国工程院院士、清华大学计算机科学与技术系教授,本报记者赵广立整理)