编者按:TCP 协议作为当前使用最为广泛的网络协议,场景遍布移动通信、数据中心等。对于数据中心场景,通过弹性 RDMA 实现高性能网络协议 SMC-R,透明替换应用 TCP 协议,实现应用网络透明加速。本文整理自龙蜥大讲堂第 15 期,视频精彩回放已上传至龙蜥官网(文末点击阅读原文即可直达),欢迎查看!

dff95fc003a7193958ccea673ff64f51.png

e0bd18e38b2b5e2e82e9385e61a163b6.gif 为什么需要新的内核网络协议栈?

4101e872c77f97e4493f5fb47518608e.png

Linux 内核网络协议栈没有银弹,当前 Linux 网络协议栈是在性能(吞吐、CPU 使用率)、时延和通用性权衡下的实现。在真实场景中,我们可能需要高性能但是并不通用的用户态协议栈,亦或是通用、更高性能更低时延的方案,但是基于传统以太网卡的方案很难有大幅度的提升,更多是基于硬件的红利,例如 100G/400G 网络。鉴于此,我们考虑是否可以基于其他高性能网络,提供 TCP 兼容的行为和 socket 接口,提供更优的性能。

8b668906b82de1e3bc854d0f44975d7b.gif 基于共享内存的网络通信

在谈跨主机通信之前,我们先把视线放到单机维度,如何在单机维度实现 IPC?下面是几种常见的 IPC 方式:

9acc6070f55be5236251337d33d733b2.png

不出意外,共享内存是最快的 IPC 方式,但是缺少一种 OS 层面的统一实现和接口,多数是在语言的 library 中提供。

这里我们分解一下单机维度的共享内存 IPC 流程:

  1. 发送方写到预先分配好的一块内存区域;

  2. 通知对端,并更新新写入内存的偏移量;

  3. 接收方按照新更新的偏移量读取数据;

  4. 接收方更新读取内存的偏移量。

9aaadde6ce3d049d32abdf545644cf57.png

如果有一种技术,可以实现在两台机器间“搬运”内存,那么我们可以把这种高性能 IPC 方案从单机维度拓展到不同的主机间。很显然,Remote Direct Memory Access RDMA 可以帮助我们高效地搬运内存。

相对于单机的共享内存通信流程,基于 RDMA 的流程:

  1. 发送方写到本机预先分配好的一块内存区域;

  2. 通过 RDMA 将该内存写入到对端维护的内存区域的相同位置;

  3. 通过 RDMA 通知接收方,并更新新写入内存的偏移量;

  4. 接收方按照新更新的偏移量读取数据;

  5. 接收方通过 RDMA 更新读取内存的偏移量。

ffe9d648d16c64d4dc9769aa8227d3c3.png

基于 RDMA 的共享内存模型,SMC-R 应运而生,SMC-R 缩写即为 Shared Memory Communcation over RDMA。

下面让我们看下 SMC-R 是如何加速 TCP 应用。

6616635c1d8f36a7496ec5b013243f15.png

SMC-R 是一种混合协议,即通过 TCP 实现建联时信息交互,通过 RDMA 网络实现数据路径高性能数据传输同时,一旦 RDMA 链路建联失败,可以 fallback 到 TCP,实现兜底 TCP 的能力。除此之外,SMC-R 借助多个 RNIC,可以实现运行时的故障迁移,确保运行时可靠性。

d1de52969021d3324cd09cafb8c8bc06.png

RDMA 本身提供了 verbs 接口供应用使用,SMC-R 基于共享内存的模型,提供了一套完全兼容 TCP socket 的内核接口,可以通过 LD_PRELOAD 基于 eBPF 的规则替换等方式,实现将 TCP socket 透明替换成 SMC socket,进而实现透明替换和加速。

基于 SMC-R 透明替换,我们测试了几种应用场景,其中 Redis 有最高 57% 的性能提升,此时 Redis 无需进行任何改造,即可享受 SMC-R 带来的性能加速。

112276fafe5949681f6994ad015f9dde.png

df2fd8ae0399ff1d8a60387e1888f3ac.gif 使用 SMC-R 加速应用

透明替换并加速 TCP 应用,可以使用下面三种方案:

  1. 使用 LD_PRELOAD 的方式,这种方式原理是将动态链接的二进制文件中,关于 socket 创建的 SOCK_STREAM 协议,替换为 AF_SMC 协议,从而实现将 TCP 透明替换 SMC 协议;

  2. 通过 net namespace 级别的 sysctl,可以实现网络命名空间(容器等)纬度的所有 TCP 连接的替换;

  3. 通过 eBPF 规则(例如五元组、进程 ID 等),动态匹配需要替换的连接进行替换。

40c9b074d8309f92ec1558e11d816cf7.png

383b6d957781ad6fdf34d86d47e3780d.png

SMC-R 在龙蜥

在龙蜥社区中,我们也正在持续不断地增强优化 SMC,包括性能、使用场景、稳定性和透明替换。参与龙蜥社区贡献的半年时间内,共为 Linux 上游社区贡献了 60+ 的补丁。

6bc229c07f3dbf5a6366827f556fd4fe.png

本次分享只是抛砖引玉,后期更多精彩技术分享还请持续关注龙蜥公众号不迷路。欢迎大家在龙蜥社区交流和分享,相关资料可以从下面的链接中获取。

相关链接地址:

1、代码仓库:hpn-cloud-kernel

2、高性能网络 SIG 地址:https://openanolis.cn/sig/high-perf-network

往期技术文章参考:

1、SMC-R让网络性能提升20%

2、系列解读SMC-R(一):透明无感提升云上TCP应用网络性能

3、系列解读SMC-R(二):融合TCPRDMASMC-R通信

关于回放和课件获取 

【视频回放】:视频回访已上传至龙蜥官网(官网-动态-视频,可阅读原文直达)查看。

【PPT课件获取】:关注微信公众号(OpenAnolis),回复“龙蜥课件” 即可获取。有任何疑问欢迎随时咨询龙蜥助手—小龙(微信:openanolis_assis)。

—— 完 ——

加入龙蜥社群

加入微信群:添加社区助理-龙蜥社区小龙(微信:openanolis_assis),备注【龙蜥】与你同在;加入钉钉群:扫描下方钉钉群二维码。欢迎开发者/用户加入龙蜥社区(OpenAnolis)交流,共同推进龙蜥社区的发展,一起打造一个活跃的、健康的开源操作系统生态!

7b0b4a4af608f9facb6f2d140ca492c7.png

关于龙蜥社区

龙蜥社区(OpenAnolis)由企事业单位、高等院校、科研单位、非营利性组织、个人等在自愿、平等、开源、协作的基础上组成的非盈利性开源社区。龙蜥社区成立于 2020 年 9 月,旨在构建一个开源、中立、开放的Linux 上游发行版社区及创新平台。

龙蜥社区成立的短期目标是开发龙蜥操作系统(Anolis OS)作为 CentOS 停服后的应对方案,构建一个兼容国际 Linux 主流厂商的社区发行版。中长期目标是探索打造一个面向未来的操作系统,建立统一的开源操作系统生态,孵化创新开源项目,繁荣开源生态。

目前,龙蜥OS 8.4已发布,支持 X86_64 、Arm64、LoongArch 架构,完善适配 Intel、兆芯、鲲鹏、龙芯等芯片,并提供全栈国密支持。

欢迎下载:

https://openanolis.cn/download

加入我们,一起打造面向未来的开源操作系统!

https://openanolis.cn

往期精彩推荐

1.龙蜥开发者说:我的操作系统之路,坚持从实践中来,到实践中去 | 第6期

2.龙蜥云原生机密计算 SIG 成立,7 大开源项目重磅亮相!

3.龙蜥开源内核追踪利器 Surftrace:协议包解析效率提升 10 倍!

4.知名金融数字化服务提供商南天信息加入龙蜥社区

5.2022开源之夏 | 龙蜥社区@你,快来报名

Logo

欢迎加入龙蜥社区,参与开源活动即刻有好礼相送!

更多推荐