华体会登录口:为何阿里云、亚马逊都要“卷”云计算基础架构?

   刊发时间:2022-06-16 08:47:34   来源:华体会网站链接 作者:华体会电竞官网入口

  元宇宙是不是伪概念不知道,但今天世界已成为数字世界却是不争事实,人们生活、工作和学习都离不开各种数字技术加持,而数字世界的底层则是依托于云的计算基础设施,说得更具体一点,就是芯片、存储、网络等计算资源 堆砌 起来的计算基础设施。

  在云计算出现前,计算机的底层计算中心是 CPU 以及围绕 CPU 这一中心的 GPU、存储、网络等等被 CPU 调拨的计算资源。在云计算出现后,传统计算架构体系变得捉襟见肘,因其面向的是一个个物理设备,而云计算则先后经历分布式 + 虚拟化、资源池化两个阶段,事实上已在底层构建起一个超级计算机,客户付费后可对资源按需租用,然而这种模式是昔日计算架构体系设计者未曾考虑到的,存在很多问题。在数字化时代来临后,更多、更大、更碎的数据,实时、海量、多变的计算场景,给计算提出全新要求,特别是高性能、密集型、高韧性以及低碳化,传统的 CPU 计算架构如同 小马拉大车 一样倍感吃力。

  这些年,国外的 Amazon、微软以及国内的阿里云,诸多云计算巨头们都在探索全新的适用于或专属于云的计算体系,最新的成果来自于阿里云。

  6 月 13 日,阿里云对外发布 CIPU,其全称为阿里云基础设施处理器(Cloud infrastructure Processing Units),即专用于新型云计算中心的计算管控和加速中心。

  src=在传统计算架构中,CPU 承载这一功能,既负责核心计算同时负责网络、存储等资源的调拨管控。CPU 是主,其他资源是从;CPU 是中心,其他资源则是外围。

  依托 CPU 的计算架构难以支撑当下的云计算需求,一方面,云计算应对的数据密集型计算越来越多,以 CPU 为中心的架构导致计算和网络传输之间的时延较大。另一方面,数据中心内部的数据迁移量增多,以 CPU 为中心的架构无法提供高带宽。CPU 限制着云计算的低延时与高带宽能力,也导致了许多常见应用通过云计算实现难度变大,比如实时音视频通讯、元宇宙 XR 以及正在崛起的自动驾驶等 IoT 云边融合应用。开发者要实现这些应用需要想方设法,开发周期、开发难度、计算成本均显著增加,行业也出现了专门解决云计算平台与应用场景间的鸿沟的 PaaS 类服务商。

  src=解铃还须系铃人,要解决以 CPU 为中心架构的问题,需要对这一体系改组和重构。阿里云的最新解是另起炉灶,把管控中心从服务器内部的 CPU,上移至服务器外的 CIPU。

  在 CIPU 中,传统 CPU 的功能只是其功能子集,在计算资源上支持传统 CPU 即插即用、虚拟化和硬件加固隔离,同时支持 GPU、异构计算;在存储资源上整合 SSD 存储加速,网络资源上整合 RDMA 网络加速,且均支持虚拟化、转发加速、硬件加解密等功能。

  src=在 CIPU 架构下,向下接入的是物理的计算、存储、网络资源,快速云化并进行硬件加速;向上接入飞天云操作系统,通过规模化应用 RDMA 网络技术,让访问云端比访问本地硬盘还要快。当数据中心或云计算中心应用 CIPU 后,就可以解决当前正面临的带宽、时延、性能、能耗等核心问题,进而更好地支撑不同的云上业务,助力产业数字化升级,更好地支持已出现、未出现的科技创新应用。

  基于 CIPU 和飞天的新一代云计算架构体系在通用计算、大数据、人工智能等核心场景的计算测试中展现了优越的性能:

  高吞吐类的互联网业务上云之后,比自建物理机的集群吞吐量提升了 30%,业务高峰期延迟下降了 90%;

  在大数据和 AI 等计算与数据双密集场景下,相比传统的 TCP 网络,弹性 RDMA 高性能网络的吞吐能力提升 30% 以上;

  云原生方面,容器启动速度快了 350%,在 Serverless 场景下 6 秒可拉起 3000 个弹性容器实例。

  云计算厂商都宣称自身的计算架构有着显著的提升,最终的检验者是开发者。阿里云 CIPU+ 飞天的新一代云计算架构体系最终效果如何,市场会给出答案,因为倘若这套架构真的可以克服以 CPU 为中心的计算架构在云计算上的不足,获得如此强大的效能提升,对开发者来说将意味着更好用、实用、实惠的资源,对阿里云来说则是产品具备更强性价比,这依然是云计算市场的核心竞争力。

  众所周知,不论什么场景下的计算都离不开软硬件的有效结合,芯片的性能一定要有软件系统算法来吃掉。摩尔定律要生效就要有市场需求来驱动,有些芯片性能不再遵循摩尔定律不是技术天花板到了,而是对于市场而言,已性能过剩。而芯片性能被吃掉,有两种方式:

  一种是生态,最经典的莫过于 Window-Intel 构建的 WinTel 阵营 ,当时 Intel CEO 安迪 · 格鲁夫不断让芯片性能升级,被微软 CEO 比尔 · 盖茨不断庞大的 Windows 等系统软件给吃掉,这被称为 安迪比尔定律 ,WinTel 联盟让 Intel 芯片不断进步的同时,限制其他芯片的发展,移动时代高通(以及 ARM 阵营)与 Android 同样形成类似联盟。

  另一种是自产自销,如苹果 A 处理器,华为海思,因为是自家产品,将应用场景与处理器深度结合,就可以发挥出最强性能,现在苹果 A 系列、M 系列处理器已让 Intel、高通们压力山大。阿里云的 飞天 +CIPU 就是云计算领域的 iOS+A 处理器 搭档模式,iOS 和 A 处理器都是面向移动设备而生。飞天 +CIPU 都是面向云计算而生。

  src=2009 年,阿里云推出前,阿里就决定要自主研发大规模分布式计算操作系统 飞天 ,这是一款专门面向云计算的操作系统,不是搭载在单个设备上,而是可以调动分布在全球的百万级服务器对其进行管控调度。如今飞天与 CIPU 软硬件结合,阿里云重新定义了云计算的计算体系架构。

  CIPU 本质上只是将不同的能力封装在一起——计算、存储和网络资源以及对应的加速技术行业早已应用多年。

  封装并不少见,在个人计算中 CPU 在不断增加核心数的同时,也在封装更多能力,比如这两年流行的 AI 芯片将 GPU 等计算单元整合在一起强化本地化的 AI 计算,Intel 在日前再度重申未来几年将用更新的制造工艺和封装技术整合高性能 CPU 和 GPU 到一个芯片。

  正如阿里云智能总裁张建锋在发布 CIPU 时总结的那样,10 多年里云计算发展走过两个阶段,第一阶段是分布式和虚拟化技术替代大型机、小型机,核心解决的是扩展性问题,企业不再需要自建机房维护,从买到租按需扩容,使用的计算资源实质上依然是一台台主机。第二阶段出现资源池化技术,通过计算存储分离架构,将计算、存储、网络资源分别池化,突破规模和稳定性的瓶颈,可提供了超大规模的云计算服务。

  分布式 + 虚拟化 和 资源池化 两个阶段都是通过软件定义的方法对计算、存储和网络资源进行优化,以 CPU 为中心的计算架构的体系没变,只不过被云计算企业用软件去定义,让计算资源聚合起来发挥规模效应等云的优势,就像阿里云飞天做的。然而这样的模式已经很难适应今天这个时代,因为计算需求变了,更多的行业、更多的客户,更多的业务,全新的场景(如云边融合、音视频直播、元宇宙 XR 等等)都在上云,结果就是更加海量密集的数据以及对应的 AI 计算等需求,这些对云计算的低时延、高带宽、低碳化需求更高,传统架构已很难甚至无法满足。

  阿里云很早就意识到以 CPU 为中心的传统架构支持云计算只会日益艰难,因此 2015 年就成立专门的技术攻坚团队,2017 年推出业内首款虚拟化损耗为零的神龙云服务器,其基于 CPU+FPGA 方案实现对裸金属虚拟化的支持,做出了性能超越物理机的裸金属服务器,此后神龙云服务器迭代到第四代,已经做到彻底消除 数据中心税 ,且性能大幅提升。

  云计算在虚拟化后应用依然跑在主机上,主机要划拨部分 CPU 和内存资源去运行 Dom0 也就是特权虚拟机(其他虚拟机的管理者和控制者),这导致 10%-30% 的计算资源无法被售卖,增加了云计算成本,这部分成本就是 数据中心税 。

  不过,单靠神龙云服务器依然有很多问题难以解决。客户对高带宽、低延时、低碳化要求更高,然而网络和存储却受限于主机侧 CPU 的性能,云计算服务商只能不断增加 CPU 核心数或增加计算频率,然而 CPU 核心数受限于摩尔定律成本巨大,而增加计算频率则会增加发热与功耗进而增加运营成本,这些都不符合客户的核心利益诉求。

  在阿里云探索神龙服务器、弹性 RDMA、自研 RISC-V 指令集芯片等核心技术时,全球云计算巨头自然没有闲着。

  亚马逊 2015 年收购以色列芯片公司 Annapurna labs 后,面向云计算基础设施研发定制芯片,2018 年发布第一代 Amazon Graviton 处理器,支持该处理器的 A1 成为 AWS 上第一个基于 Arm 的实例,此后不断迭代,2021 年 12 月采用 5nm 工艺的 Graviton 3 发布,性能、能耗等表现都有显著提升,可更好地支持科学计算、机器学习和媒体编码等工作负载。不过,亚马逊努力的方向依然是 CPU 本身,通过定制手段将这套传统计算架构体系性能发挥得更好。微软也被曝出要给云计算服务器开发定制芯片,今年还挖到了苹果半导体专家 Mike Filippo 从事处理器研发工作。

  src=谷歌的方案则是另起炉灶,不再采用 CPU 和 GPU 这样的通用芯片,不用 FPGA 技术,而是定制适合特定计算场景的专用芯片:TPU 芯片,服务于谷歌 AI 计算。TPU 全称是 Tensor Processing Unit 即张量处理单元,为谷歌机器学习平台 Tensorflow 量身定制,相较于通用芯片更适合跑神经网络,有报道称谷歌 TPU 芯片在机器学习测试中超过英特尔至强 CPU 和英伟达 GPU 一个数量级。此外,谷歌也有转为 YouTube 等视频应用打造的视频解码芯片,如 Argos。针对特定计算场景定制全新架构的芯片,这是谷歌的做法,它可以更好地满足部分场景下的计算需求,但未能一劳永逸。

  亚马逊基于 ARM 架构的定制芯片模式未能解决 以 CPU 为中心的计算架构在支持云计算场景存在的先天不足 ,而谷歌的场景化定制模式更是难以解决这个时代海量、复杂的通用计算难题。

  亚马逊与谷歌的做法,阿里云前些年一直在做,也推出了 AI 芯片含光 800 和 CPU 处理器倚天 710。正是因为有神龙云服务器、弹性 RDMA 以及平头哥芯片的积累,阿里云才可以在今天推出 CIPU+ 飞天 的全新架构,想要一劳永逸地构建适应 AI 时代的云计算架构体系:以 CIPU 为中心,与飞天系统软硬件结合,深度整合三大资源(计算、存储和网络)进而实现更高性能、更低延时、更大带宽、更低功耗的计算,适应高性能计算、实时化计算、数据密集型计算等主流新场景。

  尽管 CIPU 承载着未来云计算的 计算管控与加速核心 的角色,不过这更像是一个去中心化的架构,CPU 不再是主,网络、存储也不再是从,不同资源不再互相依赖意味着不会再有瓶颈。CIPU 架构也可支持 CPU、GPU 等不同芯片以及 ARM、X86 等不同架构,使得不同计算资源或体系互补。

  在发布 CIPU 时,张建锋表示阿里云 2022 年最重要策略是 B2B,就是 Back to Basic,回归本质,我们看到阿里云在最近一个财年首次实现年度盈利,并强调要从追求规模增长到追求高质量增长,这是其不再追求规模第一后的 回归技术本质 。

  src=发布 CIPU 表明阿里云重仓算力,将云计算的本质 计算 给做好,即以客户为中心给其提供更极致的算力服务,而要做到这一点离不开回归技术这一本质,因为技术是云计算的根,资源、渠道、服务、品牌等等只能是枝叶,只有根扎得深,才可能枝繁叶茂,阿里云的 Back toBasic 有多重深意。

  张建锋说阿里云要 坚持在技术的长征路上 ,这样说是因为阿里云成立时就是技术立业,在业务中死磕技术,用技术驱动业务。从去 IOE 到飞天系统到建中台再到斥巨资建达摩院系统性布局基础前沿技术,一次次技术布局,都是阿里云的爬雪山、过草地。

  实际上,CIPU 并不是从 0 到 1 被阿里云设计出来的,而是基于此前多年自研迭代的神龙、弹性 RDMA、芯片等核心技术,不断深入垂直整合演进出的结果。如同苹果做 iPhone 手机,前几代用的是自己的系统,却是 Intel 的处理器,直到 2010 年的 iPhone 4 才上马 A4 处理器,这是 iPhone 大众化的开始,移动互联网时代才真正来临。自研处理器并形成 iOS+A 的计算架构,苹果让移动计算彻底走出 PC 计算的 阴影 ,在能耗等维度不再有缺陷,一劳永逸地解决了移动设备面临的底层问题。同理,阿里云也是想要靠底层技术来攻克云计算一直面临的架构难题。

  技术的问题用技术解决,这也是阿里云一直坚持的路线 年决定自主研发系统飞天时,阿里云有很多开源云平台可选。从时间、成本、风险维度来考量,用成熟的开源系统是最佳选择,不过,为了确保对每一行代码有控制力,可随时随地无间断升级且实现水平扩展,阿里云却选择了更难的技术路线,自主研发,阿里云技术研发负责人蒋江伟后来曾对媒体复盘说: 如果不是自主研发,我们根本无法应对双 11 32.5 万笔 / 秒的交易创建峰值。

  云端操作系统是一个宏大的工程,阿里自研充满坎坷。经历长达三年的技术攻关、数次推倒重来,飞天和阿里云终于迎来大成,2013 年阿里云发布飞天 5K 集群,成为全球首家调动服务器集群超过 5000 台的云计算厂商;2017 年飞天已可将遍布全球的百万级服务器连成一台超级计算机。基于飞天,阿里云可以给客户提供全球领先的计算能力,在向数据中心、智能平台延展时游刃有余。

  如今与 CIPU 结合形成云计算新架构,将进一步提升阿里云的核心竞争力。

  飞天式的技术自研路线一次次奏效,如自研数据库系统,如平头哥 铸剑 的 RISC-V 处理器玄铁 910、云端 AI 推理芯片含光 800,如神龙云服务器。技术的 底子 或者说 BASIC 正是阿里云一骑绝尘的关键。Gartner 数据显示,2021 年全球云计算 IaaS 市场份额中阿里云排名全球第三,已连续六年实现份额增长;亚太市场第一,市场份额为 25.53%。

  src=不只是阿里云,今天 3A(Amazon AWS、微软 Azure 和 Aliyun)云计算头部玩家都在不约而同地重注底层技术,因为所有人都知道,技术才是云计算长跑中唯一的决胜力。阿里云在保持核心技术领先的同时,更将助力中国在云计算赛道拥有核心技术话语权,正如张建锋所言: 云计算越来越接近进入下一个时代——全新的架构定义,全新的软件界面,硬件加速。我们错过了 PC 时代,但云这个时代大家起步是一样的。现在是重新定义云的窗口期,如果我们定义好了,中国就可以在下一个技术时代有自己的一席之地。

 

版权所有: 华体会登录口网站链接_华体会电竞官网入口 

京ICP备05050114号      400-160-1670