热门搜索：

计算密集型应用以ServiceMesh为支点解决分布式问题的探索与实践_王志龙

信息技术2023-08-02ArchSummit深圳2023|全球架构师峰会M***

AI智能总结

研报总结

一、Mesh溯源及背景介绍

起源：Service Mesh概念由William Morgan于2016年提出，最初用于内部分享。
典型形式：Sidecar部署模式，绿方块代表服务，蓝方块代表代理。
意义：作为协调微服务能力和解决分布式压力的重要支点。

二、落地挑战和方案选型

特点：数据量大、计算密集、实时性高、链路复杂。
方案选型：
- Proxy性能损耗 vs Proxyless业务耦合：选择Mosn On Envoy（MoE），兼顾处理性能和业务耦合。
- 多集群架构：采用多形态数据面和多数据面+多控制面架构。

三、业务赋能探索&实践

性能优化：
- HTTP网关下沉：TP99降低50%，抖动明显改善，可用率提升一个数量级。
- 负载均衡：采用加权最小连接数、EDF策略，应对突发流量。
- 限流机制：基于Envoyfilter实现混合跳步CPU/QPS自适应限流，提升可用率。
测试环境治理：
- Mock测试：单模块Mock测试，提高测试效率。
- 流量分组：路由动态别名，实例按需分组，实现流量调度和扩分片。

四、技术规划与未来展望

性能数据：
- 测试负载：从2000QPS到10MBA，各项指标如延迟、吞吐量和CPU利用率均有所表现。
技术方向：
- LiMoE：Layotto in MOSN on Envoy，结合了能力和性能。
- 智能自动化流量调控：基于Admiral实现智能流控。
- 新一代Serverless平台：通过Mesh Node化架构赋能。

欢迎技术交流。

计算密集型应用以ServiceMesh为支点解决分布式问题的探索与实践京东集团架构师/王志龙个人简介 10年+互联网一线研发及架构经验，KubernetesContributor，LayottoWasmMaintainer，专注云原生领域，擅长性能极限优化。 曾工作于腾讯、阿里，参与过微信PaaS云平台从0到1建设，阿里ServerlessC++和GolangRuntime研发及落地。 目前工作于京东集团搜索与推荐部，负责京东搜推微服务治理和新一代Serverless云化平台研发工作。目录一、Mesh溯源及背景介绍二、落地挑战和方案选型三、业务赋能探索&实践四、技术布局与未来展望一、Mesh溯源及背景介绍起源于Buoyant内部分享，从落地到概念专门的一层基础设施；负责可靠传输；轻量的网络代理；对应用程序透明 2016.09.29Buoyant 2016.01.15初次发布 2016.09.29概念诞生 Micro-Service=>ServiceMesh一脉相承 WilliamMorganBuoyantCEO 服务网格理念的提出者和先行者以及最早的布道师典型形式——Sidecar部署一般为Pod多容器，但是随着Node模式的演进，载体多样化起来，但整体形式一致服务网格和Sidecar的关系绿方块为服务，蓝方块为边车部署的代理，多个Sidecar之间的连接和交互组成了Mesh 右转90° 从微信Svrkit框架与业务分离方案，回看Mesh的意义基础框架作为承上启下的重要一环：对下充分利用底层系统能力，对上提供灵活可靠的底座栏目栏目细分方案1框架(bin)+业务(so) 方案2框架(so)+业务(bin) 方案3 框架，业务一起编译方案4框架(bin)+业务(bin) 方案5 框架(bin+支持插件)+业务（bin）方案6 框架(bin)+业务（bin+多so）方案7框架bin+ filterbin+业务bin 方案八框架bin容器+多bin 目标消除框架侵入 √ √ √ √ √ √ √ √ 消除代码浸入 √ √ √ √ √ √ √ √ 可观察性中中中高高高高高可测试性中中中高高高高高可扩展性中中中较高高很高很高很高分离度中中低较高高很高很高很高业务代码修改量低低不需要低低低低低运维修改量较高较高低中中高高高基础模块梳理量高高中高高高高高框架开发量中中低较高高高高高与框架发展契合度低低低高高高高高潜在风险 So符号未定义和符号冲突符号冲突 - - - So符号未定义和符号冲突 - - 当年的基于EnvoyHTTP通道传输私有协议方案如今的ServiceMesh百家争鸣，百花齐放 Mesh——协调微服务能力和分布式压力的一个支点微服务分散能力解决系统复杂度问题逻辑垂直拆分 …… 日益复杂多样的需求高效迭代和极致性能大促突发大流量挑战跨部门跨语言联动共性问题难聚焦复用小语种服务治理弱 …… 分布式分散压力解决系统性能问题物理横向拆分 …… 二、落地挑战和方案选型搜推广等计算密集型应用特点及落地挑战数据量大计算密集链路复杂实时性高技术选型 Proxy性能损耗vsProxyless业务耦合——Proxy无损耗？！ VS MOSN多协议框架快速落地，中长期使用MoE“双语”扩展处理性能高（C++）研发效能高（Golang） MoE——MosnOnEnvoy 多集群多主控制面架构多形态数据面&多数据面+多控制面架构三、业务赋能探索&实践跨语言、多协议去中心化网关 HTTP网关下沉到数据面=>私有协议RPC调用 TP99降低50%，抖动明显好转，可用率提高一个数量级异构环境负载均衡——加权最小连接数加权后不同规格机器可以相对均匀，TP99降5ms，但是个别算力或容器跟物理机差别大的，依然会不均匀复合多策略负载均衡——加权&本地耗时感知&远端负载感知可根据业务需要设置CPU保护水位，打开远端负载感知常规流量CPUTP7563%=>60%，TP99降8ms EDF 基于Envoyfilter下发的混合跳步CPU/QPS自适应限流应对突发大流量与业务内嵌限流的关键指标对比CPU/QPS动态限流应对常规流量，可用率更高，TP99更低对比项业务内嵌 MOSN 差值生效速度 19s 12s -36% 限流CPU 80% 78% -2.5% 限流可用率 83% 88% +6% cpu超过上限值，快速限流（按当前cpu与上限值等比例限流） cpu在上下限内，缓慢探测（按delta比例小幅探） cpu低于下限值，快速恢复（按delta比例大幅扩大流量） Little’slaw:L=λW 传输BDP=BW*RTT应用TW=TPS*LATENCY T≈QPS*Avg(RT) 测试环境治理——单模块Mock测试屏蔽个性化影响，提高压测效率；数据面一次修改，所有模块透明复用，一劳永逸；目前测试提效20%+ 流量分组——以Debug流量为例路由动态别名，实例按需分组，赋能异常流量测试，跨集群流量调度，动态扩分片，全流量实验基于eBPF的旁路无侵入观测零侵入，跨语言，高扩展，低损耗——有效快速解决跨语言异构系统、多模块的问题紧急排查和定位四、技术规划与未来展望 Attachment 1MB 3MB 5MB 10MB RDMA Avg-Latency:431,90th-Latency:437,99th- Latency:443,99.9th-Latency:446,Throughput:1942.76MB/s,QPS:1.98938k,ServerCPU- utilization:105%,ClientCPU-utilization:33%2000qps Avg-Latency:1180,90th-Latency:1188,99th- Latency:1203,99.9th-Latency:1208,Throughput:2040.34MB/s,QPS:0.696435k,ServerCPU-utilization:108%,ClientCPU-utilization:34% 700qps Avg-Latency:1918,90th-Latency:1930,99th- Latency:1945,99.9th-Latency:1952,Throughput:2188.17MB/s,QPS:0.448137k,ServerCPU-utilization:129%,ClientCPU-utilization:36% 450qps Avg-Latency:3774,90th-Latency:3781, 99th-Latency:3793,99.9th-Latency:3808,Throughput:2491.11MB/s,QPS:0.25509k,ServerCPU-utilization:130%,ClientCPU-utilization:37% 250qps TCP/IP Avg-Latency:632,90th-Latency:781,99th- Latency:857,99.9th-Latency:982,Throughput:1459.37MB/s,QPS:1.4944k,ServerCPU- utilization:83%,ClientCPU-utilization:31%1500qps Avg-Latency:1898,90th-Latency:2131,99th- Latency:2357,99.9th-Latency:2484,Throughput:1495.25MB/s,QPS:0.510379k,ServerCPU-utilization:86%,ClientCPU-utilization:26% 510qps Avg-Latency:2569,90th-Latency:2656, 99th-Latency:3939,99.9th-Latency:4227,Throughput:1830.62MB/s,QPS:0.37491k,ServerCPU-utilization:99%,ClientCPU-utilization:33% 375qps Avg-Latency:6127,90th-Latency:7398,99th- Latency:7662,99.9th-Latency:8391,Throughput:1477.67MB/s,QPS:0.151314k,ServerCPU-utilization:86%,ClientCPU-utilization:25% 150qps LiMoE=LayottoinMOSNonEnvoy“能力X性能” IstioEcosystem——基于Admiral智能自动化流量调控 WLARALB 服务集合跨逻辑集群跨物理集群智能流控 MeshNode化架构赋能新一代Serverless平台欢迎技术交流

点击免费查看完整报告

你可能感兴趣

计算密集型应用以ServiceMesh为支点解决分布式问题的探索与实践_王志龙

研报总结

一、Mesh溯源及背景介绍

二、落地挑战和方案选型

三、业务赋能探索&实践

四、技术规划与未来展望

你可能感兴趣

京东大数据安全与分布式权限体系的探索与实践

王仁达-阿里巴巴构建 Serverless 研发平台的探索与实践

【T112017-数据工程和技术分会场】基于内存的分布式计算实践

中美主管部门签署审计监管合作协议的点评：为解决审计监管问题带来实质性进展，或有望提振估值与风险偏好，关注实际执行的评估反馈

新鸿基地产（0016.HK）：家族问题的解决应重新关注核心业务