算力网络(CAN、CFN、CPN)、东数西算是怎么回事(下):解读

系列文章:

1、算力网络、东数西算是怎么回事(上):起源(http://www.brofive.org/?p=9177

2、算力网络、东数西算是怎么回事(下):解读(http://www.brofive.org/?p=9270

 

第一篇文章做了近期涉及到算力网络的云计算和通信行业标准化工作的考古,大体发现这个概念是运营商和设备商共同提出的,围绕网络能力编排,试图延伸到把网络和计算/云的统一调度,这样就带来了几个问题,首先是概念问题,算力和算力网络的定义。然后是以谁为中心的问题,其次就是算力网络和云网融合的关系。

一、什么是算力和算力网络?

1.1 什么是算力?

算力在Wikipedia英文写法是Computing Power,指向Computing Performance词条。在不考虑场景的情况下,计算机性能通常用准确性、效率和程序执行时间来表示,通常涉及到更短的响应时间、更高的吞吐率、更低的资源利用率、更高的可用性、更高的带宽、更短的数据传输等等。

如果再狭义一些,算力实际指的是处理器的计算能力,有很多指标和基准测试,例如SPEC、Linpack、TPC、MLPerf、Terasort等等。在CSDN知乎Wikipedia等相关网站上,有很多此类介绍。针对新型计算任务也有一些特定的指标,一些常见的指标如下:

  1. MIPSMillion
    Instructions Per Second):百万条指令/秒,即每秒执行百万级指令数。Intel 80386
    电脑可以每秒处理3百万到5百万机器语言指令,可以说80386是3~5MIPS的CPU。ARM7
    的运算速度可按如下公式计算:MIPS=0.9×MHz,S3C44B0X的最大运算速度大约为0.9×66MHz=59.4MIPS。那么指令(instruction)和运算(operation)有什么区别呢,简单地说就是测试集的差异而已。MIPS包含各种指令,而operation就是算数指令。因此MIPS一般更高一些。
  2. DMIPSDhrystone
    Million Instructions executed Per
    Second):Dhrystone是测量处理器运算能力的最常见基准程序之一,常用于处理器的整型运算性能的测量。Dhrystone是一种整数运算测试程序。
  3. OPS(Operations Per Second):“每秒执行的运算次数”,1TOPS代表处理器每秒钟可进行一万亿次(10^12)操作。还有更小的GOPS、MOPS指标。也有TOPS/W这种结合能效的算力指标。
    • 对于AlexNet处理224*224的图像,需要1.4GOPS
    • 对于224*224的图像,ResNet-152需要22.6GOPS。1080p图像(像素点个数1920*1280) 的8路 帧率为30FPS的图像。22.6GOPS30FPS8路*(1920*1280/224^2)=265Teraop/sec。这个数量级为30张高端显卡。
    • EIE在稀疏网络上可达102GOPS/s,相当于同等级非稀疏网络的1TGOPS/s
  4. FLOPS(floating-point operations per second):每秒所执行的浮点运算次数。主要使用到大量浮点运算的科学计算领域中。比这个更大的是MFLOPS、GFLOPS、TFLOPS(万亿)、PFLOPS等量级。注意浮点数有FP16、FP32、FP64不同的规格
    • 支持AVX512的处理器的单指令的长度是512Bit,每个intel核心假设包含2个FMA,一个FMA一个时钟周期可以进行2次乘或者加的运算,那么这个处理器在1个核心1个时钟周期可以执行512bit*2FMA*2M/A/64=32次浮点运算,也称为32FLOPS。
    • Intel Purley Platform的旗舰skylake 8180是28Core@2.5GHZ,支持AVX512,其理论双精度浮点性能是:28Core*2.5GHZ*32FLOPs/Cycle=2240GFLPs=2.24TFLOPs
    • GPU的计算CPU都能做,但是核心比CPU超过2个数量级,因此FLOPS指标会非常高。
      • Nvidia Pascal架构超算卡Tesla P100,是1792核@1.328GHz,其理论的双精度浮点性能是:1792Core*1.328GHZ*2FLOPs/Cycle=4759.552GFLOPs=4.7TFLOPs
      • Nvidia Volta架构的超算卡Tesla V100,是2560核@1.245GHz,其理论的双精度浮点性能是:2560Core*1.245GHZ*2FLOPs/Cycle=6374.4GFLOPs=6.3TFLOPs
  5. Hash(Hash per second、Hash Calculation Rate)指的是在通过“挖矿”得到比特币的过程中,代表每秒能进行哈希运算的次数。目前比特币全网算力即将突破 100 EH/s ,其实 100 EH/s 完整的写法应该是 100 Exa Hash/s ,就是指 1 秒能够完成 100E 次(100E是每秒一万亿亿次)。哈希运算而对于任何一个六十四位的哈希值,要找到其解,都没有固定算法,只能靠计算机随机的hash碰撞,而一个挖矿机每秒钟能做多少次hash碰撞,就是其“算力”的代表,单位写成Hash/s,这就是所谓工作量证明机制POW(Proof Of Work)。这个指标是矿机的算力指标。
  6. MLPerf(Machine Learning Performance Benchmark),这个是针对AI领域的一个基准测试体系,主要是用来衡量不同软硬件环境下机器学习算法的性能(速度和质量),这个比较复杂,涉及到图像分类、对象识别、翻译、语音识别、推荐、情感分析、增强学习等。指标也不是单一的,具体可参见附件MLPerf的几篇论文。这个体系还在演进,目前可能0.7版本。(引文17、18),Nvidia对其GPU设备也有一些基准测试的方法,可以到其主页研究。(引文19)
  7. Terasort。这个是知名的大数据排序基准测试,不过现在已经不那么热闹了

1.1 什么是算力网络?

(1)如果用狭义的算力来定义算力网络,特别是CPU这个级别的算力,那么算力网络就是计算机系统接口里面的多处理器组网,很类似SMP、NUMA、MPP这种概念。虽然依然重要,但显然是一个历史已久的概念。

(2)在以Google MapReduce为代表的分布式计算体系在2000年初重新兴起之后,算力基本上被定义为计算机级别,于是算力网络被定义为数据中心,这个层级的算力以计算机为单位,而网络就是数据中心的网络(DCN),例如CLOS、SDN等等,主要看需要连接什么类型的计算需求。

(3)而在AWS等公有云厂家在2006年发展并崛起之后,数据中心不再是基本的计算单元了,AWS提出了Region-AZ-DC的三级概念,由于在Region内部实现了多AZ的高可用,这个时候Region成为了新的算力计量单位,算力网络就是云

(4)2019年的样子,Gartner提出了分布式云概念。这个场景下,云和网更进一步融合,计算能力也从中心延伸到边缘(物联网设备、5G边缘、CDN、城市节点、专属云outpost),我们会称之为云网边协同的状态,这还是云。下面是2020年我的一次演讲材料,介绍了上述演进的2-4阶段。

(5)目前看,AWS已经很早就接入了机器人上云的阶段,我们移动云也在研究云端机器人。未来云和端(机器人、手机、家庭智能设备等)讲都被云管理起来,终端设备不仅仅是从网络获得链接,而且也通过网络从云获得算力,这个时候。算力新增了云端协同,算力网络呈现出一种以网络为脉络的云端全面融合状态。但是既然大家把云定位一切涉计算能力的整合者,那么称之为云并不为过。

image

概括地说,全面融合(含云网边端)场景下,算力网络就是云的一种演进形态。考虑到端在数据安全、安全生产等方面的风险,端和云深度全面融合还需要一些时间。

二、以什么为中心开展调度?

随着数字经济+经济数智化的演进步伐,未来云计算必将成为一切业务的载体。用户的主要诉求将是寻找高性价比的算力网络来承载其业务。这难免要提到以谁为主进行调度的问题,到底是以计算能力为中心调度,还是以网络能力为中心调度?简单地说就是:到底是听网络运营商的,还是听云计算服务商的。可以从两个维度来看待这个问题:

2.1 演进阶段问题(方法论)。我们都知道云网融合方法论定义了三个阶段:云网协同、云网融合、云网一体。用人可以看得懂的话来解释就是。

(1)云网协同阶段。这个阶段的意思客户分别用云服务商采购云主机等IT资源,从运营商采购网络资源,然后一般是云计算服务商和网络运营商协同开通云网

(2)云网融合阶段。这个阶段客户不用在麻烦自己联系多个服务商,而是可以自己在线上统一订购。当然这后面的实现并不简单,这需要云网统一编排能力。这个阶段实际上已经具备了所谓云操作系统(Cloud OS 3.0,参见上图)在国内和国外不一样。国外的运营商基本上放弃了公有云业务,因此云计算服务商很容易作为网络服务商的代理来代替客户开通网络(预计不都是线上开通),并且获得性价比更高的网络。中国运营商也开展公有云服务,理论上运营商的云网融合有更多优势

(3)云网一体阶段。在中国电信《云网融合2030技术白皮书》说这个会在2028-2030年实现,是“突破传统云和网的物理边界, 构筑统一的云网资源和服务能力, 形成一体化的融合技术架构”。是一种“化学反应”。说实话,我没有看明白这个远期目标的实际效果(别和我说智能)。但是这个阶段会有一个具备一些智慧的云网操作系统(Cloud OS 4.0)

2.2 源自客户的需求(务实的)。目前看,大部分用户在网络和算力上的开支大体相当,涉及到内容分发的客户网络的开支会更大。因此明智的客户会算算小账,到底选择谁的云、把业务部署到那片云上可以更高效低成本。很早以前就打算弄个公示算算,但是一直没有时间静下心来测算,基本原理是数据和计算的分布。看到电信雷博士给了3组复杂的公式,原理也差不多。

 

打个比方,有个人到了新城市,找到一个市中心的工作,那么他应该如何选择租住在什么地方呢,他可以选择住在距离单位近(云),步行上下班(网)的地方,但是租金可能更贵。也可以选择距离单位较远(网),但是房租便宜(云)的地方。最后这人算了小账,发现综合成本还是就住在近处更好。

 

从上不难看出,从原理上看,算力网络需要以云网综合开展调度,不应该以单个要素为中心。但目前的现实问题,让云成为了调度中更重要的因素。(1)数据属地化需求,即数据不出省市、不出场的刚性需求。(2)云更为稀缺,难以替换。用上面的例子就是(1)必须住单位宿舍(2)近处的房子租不到。

 

三、算力网络和云网融合有何差异?

前面说了这么多,大家也可以知道了算力网络是一种各种算力和网络同时提供的业务、云网融合是云计算和网络同时提供的业务。考虑到云计算正在从:中心云、云边协同、云端协同的方向演变。在不远的将来,云计算是一切涉及云业务的整合者。因此算力网络和云网融合的内涵是一致的。但是算力网络可以看做是云网融合的新阶段,即算力网络是云网融合发展到全面融合阶段的产物(云网边端融合)

要是能把算力网络产品化(云网端一体化并产品化),那么就真的把运营商核心业务网络和云梳理清楚了。这要求一个企业同时运营好使用同样基础能力的2C和2B业务,但是这一点还是有难度的,涉及到资源投放、管理主责、条线协调等诸多问题,大家都知道,这不太容易,需要管理者的决心!

小结,算力网络并没有引入什么新的概念,基本上是云网融合走向未来云网端融合的一个演进。和分布式云的区别是,到底以谁为中心,很像是云服务商和网络运营商抢C位的一次运动。与此同时,和算力网络还停留在概念不同,分布式云已经在快速演进中,已经从云网融合逐步走向云网边融合,先进的云服务商,例如AWS已经针对点状终端开展云网端融合(物联网、机器人、卫星等)。未来,云是一切计算能力的整合者

 

相关信息:

  1. 算力单位TOPS,GPU处理能力(TFLOPS/TOPS),CPU能力MIPS ,片外内存与片内内存
  2. “东数西算”来了:贵州内蒙等地将建国家算力枢纽
  3. 国家“东数西算”产业联盟
  4. 关于印发《全国一体化大数据中心协同创新体系算力枢纽实施方案》的通知
  5. 中国电信研究院在ITU-T牵头首项算力网络国际标准获通过
  6. 算力感知网络CAN技术白皮书(2021)
  7. 中国联通算力网络白皮书(2019)
  8. 《数据中心算力白皮书》及首批算力测评结果重磅发布!
  9. 解读下一代网络:算力网络正从理想照进现实
  10. 算力感知网络技术白皮书发布会(2019)
  11. NVIDIA英伟达GPU显卡算力一览(包含Tesla和GeForce、TITAN及RTX系列等)
  12. 处理器和GPU的计算能力如何计算?
  13. TF GPU基准测试:2080 Ti vs V100 vs 1080 Ti vs Titan V
  14. 什么是MLPerf?
  15. MLPerf: An Industry Standard Benchmark Suite for Machine Learning Performance
  16. https://en.wikipedia.org/wiki/Exa-
  17. https://export.arxiv.org/pdf/1910.01500
  18. https://research.spec.org/fileadmin/user_upload/documents/wg_bd/BD-20180604-MLPerf.pdf
  19. https://developer.nvidia.com/deep-learning-performance-training-inference

算力网络(CAN、CFN、CPN)、东数西算是怎么回事(下):解读》有1个想法

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注