站务联系

阿里云祝顺民:云网络的十年“修路”历程(3)

发布时间:2022-01-08   来源:网络整理    
字号:

InfoQ:接下来想跟江鹤老师聊聊大家很关注的概念:云网边端一体化,能不能给我们简单介绍下?再者,这对云网络来说,有什么新的挑战吗?

江鹤:这个词确实很大,我分享一下我个人的一些见解。

首先来说云和网的关系。云是内容,网是连接是通道,但网的发展其实是促进了云的发展。我们回顾一下,过去十几年,从 2G 到 3G 到 4G 到现在的 5G 其实是网络通信能力的提升促进的内容的发展。再延伸一下,今天网的能力又进一步提升了。我们国家运营商的网络从 4G 升级到 5G 有三个非常关键的特征:海量设备、高吞吐,低延时。当视频甚至交互式视频内容产生的时候阿里云网络,对延时的敏感度就会非常高,以中国为例,几个大区的 region,离有些省份距离还是挺远的,那有没有可能往下降一层,降到是省级别,甚至市级别,甚至再往下降,这也就是说内容需要下沉,也意味着需要有更多的机房来承载业务内容和包括提供内容的这些应用,这其实就是边缘的发展,而这个端一定是配合的。

从技术角度来看,也提出更多的要求,假设一个应用在国内只部署一个 region 就可以了,应用的价格会比较简单,但是如果要在全国三十几个省市部署,具体怎么做?应用和应用之间的访问怎么去定义,那就会变成一个很复杂的事情,而所有复杂的事情都会出问题。这也对网络技术,存储技术,包括对应用层的中间件消息都提出了很高的要求。所以大的背景是网络技术的发展,带动了云的发展,带动了应用的发展,最终还是回到用户的体验。

InfoQ:在让网络变得简洁这方面,有什么具体的方向吗?

江鹤:有。因为今天阿里云的物理服务器的规模非常大,当规模发展到这种程度的时候,服务器的损坏是必然的,所以我们的计算团队投入了非常大的资源去研究如何提升服务器以及如何降低宕机率。

我们会有一个历史的统计,就是每天会发生多少台服务器坏掉,这几年我们在服务器的质量,包括其他方面做了一些工作,宕机率其实降低了很多,但是从网络设备上来讲,它一定也会断也会坏掉。

第一,让使用更简单,从网络链路上来讲,光纤一定会坏,尤其光到电的转换,这个过程多少也会出问题,但是如何做到能让阿里云的用户感知不到,这就是软件硬件联通协同起来做的;

第二,让运维更简单,大量的服务器和网络设备,如果全部是靠人去运维去管理的话,开销会非常大。所以如何提升每个人能掌控管理的服务器数量和网络设备的数量,也是我们不停追求的一个东西。

InfoQ:咱们是通过什么方式来降低人力成本的?

江鹤:我可以简单介绍一下。我们现在在网络设备方面:第一,交换机都是自己研发的。整个交换机里面一些物理硬件,都是自己设计的;第二,我们把所有网络设备都加了类似一个探针一样的东西,把很多数据给提出来,就可以监视其运行状况。以前黑盒的时候,对它的监视其实就是 work 不 work,但是现在我们都会打开到端口级别。安全规则级别不同维度的数据都采集出来,然后再把所有数据集中在一起去做数据分析。

关于数据分析的目的,第一,我们希望在问题发故障发生之前,提前能够预测到可能要发生故障;第二个在故障发生的时候,我们能够知道发生了什么故障,原因是什么;第三点,如果已知的故障,我们都是尽量要去解决掉。

InfoQ:江鹤老师觉得在整个发展过程中哪一类指标提升最大,现在仍然非常关注的。

江鹤:其实我最关注的三个数是 1、5、10,这是什么意思?

第一,如果发生故障,我们最迟 1 分钟之内要知道故障已经发生;第二,故障已经发生 5 分钟,要有基本的判断,故障影响范围有多大;第三,10 分钟要把故障给恢复。不管你是去做 fix,还是去做容灾切换,要在 10 分钟之后让用户感受不到故障的存在。其实阿里云保证保障服务的延续可用是我们最关键的一个能力要求,所以几乎所有的产品团队都在追求这一点。从实现上来讲,也会有各种各样的方法:第一,比如我刚才提到的数据分析和数据的应用的能力。第二,会存在一些冗余的设计。

图说天下

×
二维码生成