站务联系

阿里云祝顺民:云网络的十年“修路”历程

发布时间:2022-01-08   来源:网络整理    
字号:

写在前面:9 月 8 日,InfoQ邀请了阿里巴巴集团研究员、阿里云智能云网络产品线总经理祝顺民(花名江鹤)做客直播间。本文整理自直播内容,获InfoQ授权转载。

如果说云计算是现代 IT 架构中的基础设施,那么云网络就是云计算的基础设施,它决定了云将以什么样的性能指标连接各类 IT 业务。那么,云网络在建设的过程中,有哪些技术上的关键和难点?云网边端一体化进程,为云网络带来了哪些挑战?越来越成熟的 5G 商用,会为云网络带来哪些机遇?跟随大咖带你“看穿”云网络的前世今生阿里云网络,自底向上,理解云网络这一现代 IT 架构中,最重要的基础设施。

InfoQ:江鹤老师,应该说您是见证了整个阿里云网络从无到有,一直到现在发展成为整个云计算服务的基础设施的过程,对于这个过程,江鹤老师有什么样的体会呢?请您跟大家聊聊。

江鹤:我觉得作为一个技术从业者能够经历整个云计算快速发展的过程是非常荣幸的。

对于云计算网络,我也是经历了从一个单一的网络慢慢发展成现在的云网络。在这十多年的过程中,现在回头看,觉得它很快就发展成这样了,但是回想一下当时的情况,是无法想象十年之后能变成现在这个样子的。

阿里云网络是如何诞生的

InfoQ:首先咱们来聊一下整个云网络,江鹤老师能不能帮我们介绍一下阿里落实云网络它的整个发展的关键节点?

江鹤:在这里我给大家介绍阿里云洛神云网络这个系统,如果介绍整个洛神系统的经历的话,要回到大概十几年前的一个状态了。

阿里云第一天构建我们云计算的时候,网络这一层还是非常传统的:去买外面厂商的网络设备、交换机、路由器、负载均衡设备去搭起来,然后去用。

大家都知道网络是在一九七几年开始慢慢发展的,对吧?但到了 2010 年前后,网络技术还是在原来的技术轨道中往前走。云技术发展的一个最关键的地方就是我们把大量的服务器集中在了一个机房里面,其实绝大部分的用户,在原来的 IT 系统中是不会需要一个机房里面有这么大量的服务器的。

因为阿里云的快速发展,也导致我们遇到一个问题。就是用传统的网络设备和网络架构的方案,已经无法支撑计算存储的发展。这个时候,我们就去联系设备厂商,去问有没有更大规模的网络设备,能够承载的 IP 数量,横向扩展路由表的数量。但从当时的芯片的发展来看,它最大的芯片都满足不了我们当时的需求。所以我们也在想解决办法。当然国外也有厂商在做云计算,在做公有云,但找不到任何文章来描述他们是怎么搭建起来的,这种情况下只能去摸索,根据我们的场景和问题以及最终用户的需求,来思考。

当然技术原理很多都是相通的,最终构建出的解决方案在阿里云是比较场景化的,所以这可以说是洛神系统的第一阶段,我们现在叫他洛神 1.0,在这里实现了一个很大的跨越,即从一个原来最传统的经典网络,跨越到了一个虚拟网络,解决了在阿里云上用户和用户之间的安全隔离问题。

第一代用网络虚拟化技术,用软件定义的网络来解决最基础的安全隔离,但这还不够。因为我们又发现阿里云上的单个用户拥有虚拟机的体量和存储体量其实是在快速增长的。所以这时,需要网络架构和网络管理,这也促使我们把网络变成一个产品,而且这个网络是可以自己规划、定义的。这实际上是我们的第二个阶段。

第三个阶段我们发现单个用户更大了,这时候他们多个地域之间的虚拟机是需要联通的,如果联通都是走公网的话,安全性能肯定得不到保障,所以我们在这个基础之上延伸出了一个全球跨地域的网络,就是把广域网虚拟化。

当走到上一阶段,用户体量和单个用户的规模更大了,我们又碰到了性能的问题性,以前是软件定义网络,包括网络设备等都是用软件自己去研发出来的,但是大到一定程度,还是用软件 CPU 的摩尔定律,就约束了能达到的程度,所以我们去构建硬件芯片里面的业务逻辑来研发自己的网络设备,这也是我们最新的一个阶段。

图说天下

×
二维码生成