云芯一体:正在成为公有云的一个新的技术差异化竞争力

原先曾经在一篇旧文中初步调研和分析了哪些类型的企业(运营商、互联网、制造商等)可以运营好公有云,结论如下,详细的可以看点击链接(http://www.brofive.org/?p=3640)。

1、服务器厂家利用自产自销的优势,或许可以降低成本,具备优势,但是我们注意到HP没有成功,而华为目前做的不错。

2、运营商拥有自建的网络和IDC,或许可以降低成本,具备优势,但是我们注意到海外的运营商ATT和Verizon都放弃了,中国联通在推动合营,DT也是合营,中国电信有云堤这个杀手锏

3、擅长操作系统的软件厂家可以在IaaS层面实现DevOps,推动业务创新,但是VMware却放弃了,华为目前做的不错,其他一些都在做SAAS(补充:IBM还在坚持、Google在发力)

结论:成功的公有云需要服务商具备全栈能力,已经具备的能力只能提供了较好的基础,通过采购引入的能力如果不能消化吸收,也是不能保证获得成功,最终还是需要自主研发,特别是在这个日新月异的公有云领域。

上文说的全栈是指从建设、研发、运营的全栈能力。其中研发主要指的是软件和硬件。我们知道,在公有云的成本构成中,服务器是最贵的(接近60%),而服务器构成部件中,CPU又是最贵的部件,从最贵的零部件开始控制价格显然是非常科学合理的想法。目前一家独大的Intel X86处理器长期垄断市场,一方面造成云服务商缺乏差异化(阿里有定制化Intel处理器,但是基本上没啥差异化),一方面挤牙膏式的发展让整个行业发展受限。在整个IT技术栈中,做芯片很可能是最底层的开发了,难度更大,但凡能忍,谁也不愿意进入。

但是公有云是一种靠规模挣钱的业务,目前公有云市场强大的市场价格竞争压力,逼着云服务商不得不深挖技术潜力。跟踪AWS可以看到,其目标是源源不断地提供高性价比的产品给客户,从而保持竞争力,这些年已经从原先的自主研发软件、建设生态、到白牌硬件、走到了处理器芯片这一步。自己动手做处理器确实还是驱有动力的。然后,我们就注意到目前有个新的态势:公有云服务商开始进军处理器芯片领域

一、必要性和机会

虽然有驱动力,但是大家都不会选择做X86处理器,因为这是一条死路。做非X86处理器会造成麻烦的兼容性问题,幸好目前几个行业趋势却给非X86处理器创造了大量需求:

(1)计算和存储分离:网络成本的下降,让计算和存储分离成为可能,并且存储和计算分离还是提升可用性的一个重要方式。这样,存储系统可以从X86的体系中剥离了出去。大量的存储系统使用了成本更低的非X86芯片构建。可以看看华为鲲鹏。数据库和大数据也随之可以被剥离

(2)PaaS能力强化:PaaS能力的发展,一方面是降低了应用的开发成本,一方面是云服务商构建护城河的套路,这些PaaS底座和中间件都由云服务商主导,还有ServerLess的忽悠。当然,自己开发的成本越低越好。这样,中间件能力也可以从X86体系中剥离了出去。可以看看AWS Graviton。

(3)高级开发语言:从Java、PHP、ASP开始,出现了大量高级语言,这些语言开发的应用系统只需要一个解释器或者容器就可以执行,只要把解释器或者容器移植到非X86平台,就可以实现迁移,这样,高级语言开发的应用可以从X86体系剥离出去。可以看看AWS Graviton。最近流行的Low-Code开发,又向前走了一步。

(4)中台化:云服务商将应用划分为前台、中台和后台。同时把自己擅长、或者自己生态擅长的部分抽象为中台。很显然中台的开发在云计算服务商的掌控之下,这样,中台的开发也可以从X86体系中剥离了出去

(5)AI计算:GPU在很早的时间就成为了高性能计算的刚需,商业模式是:价格和计算能力成正比。传统的GPU厂家在占领市场的同时,公有云服务商也在自主研发新的处理器,虽然通用性还有些问题,但是已经在各种场景得到了大量的应用。AI计算能力可以从传统GPU体系中剥离了出去。可以看看AWS Inferentia、华为昇腾。

image image

这种形势,不妨称之为“云芯一体”,这是云服务商在技术领域开辟的另外一个新战场,从AWS的经验看,领先者可以把云主机的价格降低40%,存储系统的成本降低更多。这种略有些跨界的战争,已经很难依靠自身能力开展了,必须要通过并购等方式进入,才能持续保持领先。

国外的Google是开创者,但是比较能玩票,并未大量商用;AWS是这条路上的领军者,商业化手法更为成熟;华为被美国逼上了这条道,战略意志强烈驱动。其他厂家,目前看都还没有这个能力,毕竟,这是一个体系化的任务,投入很大、难度很大。需要技术全栈才能做到这一点。(可以仔细看看后文中AWS的一些文章)

二、可行性和进展

ARM、以及围绕ARM的生态为自主研发处理器芯片提供了可行性。虽然还有RISC-V在一旁蠢蠢欲动,目前还是ARM的天下。

image

我们可以看看最近的AWS Graviton的情况:一方面AWS Graviton已经大量造势和使用,已经有了Bare Metal实例;另一方面,性能提升7倍的Graviton2也正式发布,2020年大量投产。

Graviton2芯片基于64位Arm Neoverse内核,采用7nm工艺,64核心。在缓存上,单核心1MB的二级缓存,总计64MB,所有核心共享32MB三级缓存,264个核心采用网格总线(Mesh Fabric),合并带宽2TB/s。内存方面,Graviton2支持八通道DDR4-3200内存,64条PCIe 4.0以及AES-256内存加密技术。亚马逊还将其与配备Intel至强铂金(最高3.1GHz)的第五代实例进行对比,单核心性能全面领先:SPECjvm 2008 +43%(估计)、SPEC CPU 2017整数+44%(估计)、SPEC CPU 2017浮点+24%(估计)、HTTPS负载均衡+24%、内存缓存+43%(同时延迟更低)、x2664视频编码+26%、EDA模拟+54%! 马逊Graviton2平台将在2020年规模上市。

更多信息可以阅读下面的文章:

  1. 解析ARM Neoverse N1和E1平台 
  2. Amazon EC2 A1实例类型
  3. 亚马逊推出第二代Arm服务器芯片Graviton2,能否快速替代x86?
  4. 推理芯片inferentia和Arm服务器芯片Graviton2
  5. VMware ESXi 64-bit Arm Support Announced
  6. Now Available: Bare Metal Arm-Based EC2 Instances
  7. Now Available: Bare Metal Arm-Based EC2 Instances
  8. EC2 A1 Instance with AWS Graviton Processor: Easy Way to Save 40%
  9. Benchmarking Amazon’s ARM Graviton CPU With EC2’s A1 Instances
  10. ESXi on Arm at the Edge, on the SmartNIC and in the Cloud
  11. Running KeyDB on Arm-based Amazon EC2 A1 Instances for the Best Price/Performance
  12. Running Java applications on Amazon EC2 A1 instances with Amazon Corretto
  13. Optimizing NGINX load balancing on Amazon EC2 A1 instances
  14. New – EC2 Instances (A1) Powered by Arm-Based AWS Graviton Processors
  15. Getting started with the A1 instance
  16. Now Available: Bare Metal Arm-Based EC2 Instances
  17. Now Available – Five New Amazon EC2 Bare Metal Instances: M5, M5d, R5, R5d, and z1d

部分相关文章:(完整的见   http://www.brofive.org/?cat=128http://www.brofive.org/?cat=483http://www.brofive.org/?cat=149 等)

  1. 几个厂商和运营商的公有云现状,什么样的企业可以运营好公有云?(http://www.brofive.org/?p=3640,2018年)

  2. AWS源自一个情怀(http://www.brofive.org/?p=2342 2018年)

  3. 下一代计算设备CPU/GPU/FPGA:FPGA规模商用还需时日(http://www.brofive.org/?p=1068 2014年)
  4. 亚马逊的EFS服务(http://www.brofive.org/?p=1768 2014年)

  5. 行星级的存储系统(Planet-Scale Storage System)是啥?(http://www.brofive.org/?p=1137 2013年)

  6. AWS Glacier系统背后是什么?(http://www.brofive.org/?p=1127 2013年)

  7. 跨数据中心的系统可靠性(http://www.brofive.org/?p=1624 2011年)

  8. XaaS的背后:哪些IT能力适合作为集中的云计算服务?(http://www.brofive.org/?p=793,2011年)

发表评论

电子邮件地址不会被公开。 必填项已用*标注