站务联系

阿里云飞天洛神:高性能网络软硬件一体化技术实践 | 凌云时刻

发布时间:2021-03-15   来源:网络整理    
字号:

作者 |余年兵(渔滨)

来源 |凌云时刻(微信号:linuxpk)

云网路构架

阿里云飞天洛神:高性能网络软硬件一体化技术实践 | 凌云时刻云计算从9年前被指责为新瓶装旧酒,到经过多年的高速发展,正在成为水电煤一样的基础设施。云网路建立在化学网路之上,为云计算提供灵动、智能的网路连结。云网络的功耗跟稳定性是云估算的基石。

VPC是云网路的基础,VPC的基础组件主要包括2部份:Gateway 和 vSwitch。

Gateway是VPC的流量入口,负责内网/专线跟跨region流量的凝聚跟分发。vSwitch负责ECS的虚拟交换,和Gateway一起为顾客搭建一张虚拟专用网。

阿里云飞天洛神:高性能网络软硬件一体化技术实践 | 凌云时刻

阿里云飞天洛神:高性能网络软硬件一体化技术实践 | 凌云时刻阿里云网络阿里云网络,DPDK也可以适于其它的CPU构架,比喻说ARM跟Power。DPDK运行在用户态,通过大页/轮询/CPU亲和性等技术,达到提高显存拷贝/减少cache miss/减少中断读取/减少进程跟句柄切换等优化目标,进而实现CPU软转发的功耗优化。

在DPDK出现之前,软转发一般是选用带加快引擎的NP,x86主要适于控制。DPDK出现以后,基于x86的转发从内核态迁移至用户态,性能有了急剧增强。

阿里是最早把DPDK产品化的公司之一,目前阿里云网路的各个组件早已全面切至DPDK。以vSwitch为例,通过DPDK,vSwitch的功耗得到了数倍的增强。

软硬一体化

阿里云飞天洛神:高性能网络软硬件一体化技术实践 | 凌云时刻

基于CPU的软转发主要面临2个问题:一是CPU的单core功耗难题,在大流跟防御场景下比较容易被打爆,导致故障;二是CPU的摩尔定律逐渐失效,CPU的速率跟核数提高空间越来越小,靠CPU软转做逐步功耗增强的空间有限。

以太网的插口速度正在急速发展中,25G NRZ早已普及,50G PAM4早已成熟,单模块400G早已成为现实。PCIE的插口频率也在迅速发展中,单lane 16Gb的PCIE Gen4还未规模上线,单lane 32Gb的PCIE Gen5的规范早已公布。

随着云计算的发展,云网络的流量出现了爆发式下降。游戏/视频/NFV化对ECS网路功耗提出了更高的要求,vSwitch的网路正在朝百Gbps踏入。混合云的发展带给了专线跟跨region流量的增长,Gateway的流量正在朝百Tbps踏入。

为了提高云网络的功耗跟稳定性,满足云估算的技术发展需求跟业务发展需求,阿里云网路团队对VPC的基础组件做了全链路的软硬一体化设计,Gateway以超大流量+百万表项为目标,vSwitch以超大表项+百Gbps为目标。经过一年多的努力,2款产品都已顺利上线,提升了阿里云网路产品的核心竞争力。

阿里云飞天洛神:高性能网络软硬件一体化技术实践 | 凌云时刻

网络的业务可以理解为各类route + ACL的组合,一次信令转发要经过多次表项查找跟head update。快慢速分离的思路就是使Slowpath负责复杂的业务逻辑,首包上赠Slowpath生成Session/Flow,后续信令就不需要把整个业务步骤再走一遍,直接在Fastpath里基于Session/Flow做Match/Action,提升转发功耗。

阿里云飞天洛神:高性能网络软硬件一体化技术实践 | 凌云时刻

软转发里,快慢速都是通过CPU实现的。为了提高vSwitch的功耗跟稳定性,阿里云网路团队经过一年多的努力,成功通过AISC实现了Fastpath的硬件化。

通过硬件化,vSwitch的功耗对比软转发提高了10倍以上,延时急剧减少。

图说天下

×
二维码生成