写点什么

Node 部署和运维工作量降低 80%,腾讯 NOW 直播是怎么做到的?

  • 2019-10-30
  • 本文字数:3900 字

    阅读完需:约 13 分钟

Node部署和运维工作量降低80%,腾讯NOW直播是怎么做到的?

一、背景简介

首先解释一下几个名词:


  • NGW(Node Gateway,Node 前端接入层):IVWEB 团队开发的内部前端业务接入层方案,目前处于腾讯内部开源状态。

  • BFF (Backend For Frontend) ,通常指服务于前端的后端。

  • SFF (Severless For Frontend) , BFF 架构的升华,落地到 Serverless 中。


目前,NOW 直播团队正在逐步接入 NGW,完成 BFF 向 SFF 架构的演进。


从前后端分离到 BFF,前端的能力不断扩大,逐渐涉猎到后端和运维,对前端人员的技术能力要求也越来越高。NOW 直播 IVWEB 团队从提升研发效率的角度,在调研了腾讯云 Serverless 之后,团队决定接入云函数 SCF 产品,对 BFF 架构结合 Serverless 进行了新的尝试。


在 SFF 架构下,Node 服务落地到 Serverless,最大的收益者是前端开发人员:


  • 前端同学不再需要关注服务器的申请/维护/扩容;

  • 无需关心生产环境的搭建;

  • 真正做到专注业务逻辑的开发;

  • 自动扩容,零运维;

  • 接入工作量降低了 80%。


此前,团队已经通过开发 Nest 系统的聚合服务(Node 服务的可视化管理)完成了 BFF 架构的演进。NGW 作为新项目,响应腾讯自研上云的号召,抛开历史包袱,全面拥抱上云,并且有幸成为公司内首个和腾讯云 SCF 大规模合作的前端项目,结合 SCF 实现了同构直出和 Node 服务的无服务化,做到自动部署和更新。在这里感谢腾讯云 Serverless 团队和 QQ 团队的大力支持。

二、从一个故事说起

阿特是个特别认真的人,但也有汉子柔情的一面,他攒了很久的假期,准备在情人节和小美来一场说走就走的旅行。不巧,就在情人节前一天,新上线的项目被产品挑战了,说“首屏速度不够快”。


作为高级工程师的阿特,有 100 种可以让页面提升首屏的方法;他马上用团队的同构直出框架,半天就撸出来了一个直出服务,部署完之后就可以和心爱的小美去旅行了。


阿特打开运维系统,看了一下业务机的承载,需要扩容才能满足需求。为了不影响线上业务,阿特选了新申请一批机器。半天过去了,新机器终于下来了,这时距离下班时间还有 5 分钟。为了小美的旅行,今天无论如何都要上线。


面对新下来的机器,阿特一把梭装好了所有基础组件,配置和部署好直出服务,现在只需要将原来的静态请求接入到直出服务就可以了;但事情并没有这么简单,现网的域名竟然要经过好几层接入机才能到直出服务。


凭借着高级工程师的一双能手,阿特一步步地终于将业务成功上线了。他松了一口气,看了一下时间,沉默了许久。现在是北京时间 2 月 14 日上午 9:55,距离飞机起飞时间还有 5 分钟,阿特终究还是错过了和小美的旅行。


故事虽然听起来比较夸张,但反映的事实却无比真实:


  • 业务不断增多,服务混布导致新老业务的变更越来越复杂,全部独立部署则会造成资源浪费;

  • 运维系统鱼龙混杂概念繁多,不是老司机很难理清楚,对小白不友好;

  • 业务模块多、机器多、配置多,变更全靠配置系统下发;

  • 前后端共用接入机,转发逻辑复杂。


我们发现,即使完成了 BFF 架构的演进,但难免会存在服务混布,而且仍需关注复杂的运维,效率的瓶颈始终在运维上。有没有一种方法可以既能使服务独立部署,并且能有效降低运维成本呢?


答案:Serverless。

三、NGW 的架构

NGW(Node Gateway,Node 前端接入层)是介于 STGW 和真实业务的中间层,用户的请求会通过 统一网关先进入到 NGW 层,再由 NGW 来分发请求到对应业务上。



这里的业务可以是:


  • 静态页面

  • BFF 架构下的 Node 服务

  • SFF 架构下的 Serverless 直出或 Node 服务


咦,这不是 Nginx 做的工作吗?——Nginx 虽然强大,但缺点是无法做到强逻辑的分发,也不容易进行扩展,而且每次更改配置之后都需要重启服务,查看日志也很困难。


NGW 使用 TypeScript + Node 开发,对前端同学更友好,能更方便地进行功能的迭代和扩展,转发逻辑可以动态下发,无需重启服务。


整个 NGW 方案主要分为三个模块:


  • NGW 分发层:主要专注于业务的分发;

  • NGW-Service 层:负责周边服务,如配置管理、Serverless 服务的部署和更新,日志旁路等;

  • NGW Platform:管理平台,用于配置管理与日志管理等。

四、容器化

作为 9102 年的新项目,响应自研上云的号召,NGW 的全部服务均使用 Orange-CI(自研内部 CI 工具) + TKE 腾讯云容器服务 进行构建和部署,并利用容器编排对 Docker 镜像的构建部署进行了优化。(优化后构建镜像时间缩短为 20 秒,大小缩小至 10M 以内)


NGW 分发层作为业务分发的基础服务,性能和稳定性非常重要,有了 Orange-CI 和 STKE 的加持,大大提高了服务部署的敏捷程度,并且在高并发场景下也能做到灵活自动扩容,再也不用提前评估业务量。


TKE 单机满负载运行资源占用(8 核 16G,数据来源 TKE):



高并发场景压测下自动扩容至 8 个实例,峰值接近 8000 TPS(数据来源于 WeTest 压测大师):



为什么峰值只压到 8000 TPS 呢?主要是因为峰值已经达到下层静态服务器的最大承载了,导致转发效率变慢,并不代表 8000 TPS 就是 NGW 层的最大承载(逃)。在 STKE 资源充足的前提下,NGW 是可以无限扩容的,无需担心高负载导致服务器宕机。

五、配置下发

Nginx 每次更改转发配置,都需要重启 Nginx 服务。


NGW 开发了 NGW-Service 层,结合管理平台对配置进行动态管理,配置更改后通过云 Redis 下发到 NGW 分发层中。配置热重载,平滑过渡。


配置下发流程:



目前已完成分发逻辑的动态下发,后续将陆续支持操作记录和版本管理。

六、Serverless 无服务

在 NGW 分发层的基础上,结合腾讯云 SCF,就能更方便灵活地对现有 Node 服务进行 BFF 到 SFF 的演进。


  • NGW-Service 负责 Serverless 服务的管理,如部署、更新等;

  • NGW 分发层进行业务的转发。


架构:



目前 NGW 已经支持同构 SSR 的 Serverless 化方案,并且已接入多个项目在线上通过验证,成功率接近 99.99%(数据来自内部打点统计系统)。



NGW 目前处于腾讯内部开源状态,待方案完善脱敏后将会逐步进行外部开源。


关于 Serverless 化方案的实现技术细节,后续将会有专门的文章来介绍,本文先不赘述了。

七、插件体系

前文说到 Nginx 虽然强大,但缺点是不容易进行扩展。NGW 的分发功能扩展是怎么实现的呢?


除了 Koa 中间件,NGW 还引入了插件的概念来对专用分发逻辑进行模块化:


  • Koa 中间件:用于处理统一逻辑;

  • 插件:与单次分发过程的生命周期强关联,用于处理专用逻辑。


插件的实现基于 Tapable,通过生命周期钩子来对分发过程进行逻辑干预。


生命周期钩子:


// 分为同步和异步钩子两种,以同步钩子为例interface ApplicationSyncHooks {   // 收到请求   didReceiveReq: AsyncSeriesHook<[Application, ProxyConfig]>;   // 即将转发代理请求   willSendProxyReq: AsyncSeriesHook<[Application, ProxyConfig]>;   // 代理请求成功   proxyReqSucc: AsyncSeriesHook<[Application, TswAjaxResult]>;   // 代理请求失败   proxyReqFail: AsyncParallelHook<[Application, TswAjaxResult]>;   // 接收到代理请求响应   didReceiveProxyRes: AsyncParallelHook<[Application, IncomingMessage]>;   // 即将返回代理层响应结果   willReturnRes: AsyncSeriesHook<[Application, IncomingMessage]>;   // 返回响应完成   didReturnRes: AsyncSeriesHook<[Application, TswAjaxResult]>;}
复制代码


利用插件,可以在基础的分发逻辑上进行一些专用的逻辑处理,比如灰度转发、白名单等。以灰度插件为例,可以在分发配置中添加插件:


{   "origin": "/ngw/index.html",   "proxyPass": "http://the-path-where-you-want-to-go.com",   // 添加灰度插件,Application 会在分发前进行插件实例化,并将 args 传入构造函数中   "plugins": [{       "name": "AlphaPlugin", "args": ["plan-A"]   }]}
复制代码


插件逻辑处理:


// 以下为简化代码...
class AlphaPlugin extends AbstractPlugin { public name = 'AlphaPlugin'; public config: AlphaPluginConfig; public constructor(args: AlphaPluginConfig) { super(); this.config = args; // 接收配置中的 args 参数 } public apply(application: Application) { application.syncHooks.didReceiveReq.tapPromise(this.name, this.didReceiveReq.bind(this)); } public async didReceiveReq(application: Application, proxyConfig: ProxyConfig) { const alphaConfig = getAlphaConfig(this.config[0]); // 获取灰度逻辑,入参是配置的 "plan-A" proxyConfig.proxyPass = alphaConfig.url; // 修改分发的地址 }}
复制代码


这样一来,就可以通过灰度插件实现对现网业务进行灰度上线或 ABTest,比如现网投放的 A 页面,通过 NGW 可以动态分发到 B 或 C 等页面。

八、日志查看

NGW 基于 TSW,得益于 TSW 的染色体系,可以轻松地查看实时染色日志,秒杀 Nginx。后续也会将 SCF 中的日志收归到 NGW-Platform 中。

九、现状

Serverless SSR


目前 NGW + Serverless SSR 已经应用到 NOW 直播、手 Q 附近、浏览器直播和手 Q 群送礼等多个项目中。实际业务开发中,Node 业务的部署和运维工作量降低了 80% 以上。


以前的业务上线路径:


申请机器 -> 申请 CL5 -> 织云包下发部署服务 -> 更改 Nginx 配置


接入 NGW + Serverless SSR 只需要两步,后续接入团队脚手架后,连这两部都可以省掉了,工作量 down down down:


  • 更改 oci 配置,将 CI 制品推送到 SCF

  • NGW-Platform 添加分发配置

稳定性

NGW 目前的分发成功率稳定在 3 个 9 以上,单元测试覆盖率已超过 85%。


十、接下来的计划

  • 和腾讯云 SCF 展开深度合作,提升性能;

  • React Chunked 流式渲染方案,结合 SCF 进一步提升首屏速度;

  • 接入 Aegis 前端监控体系,实现前端全息日志;


本文转载自公众号云加社区(ID:QcloudCommunity)。


原文链接:


https://mp.weixin.qq.com/s/IWRBTO4vRFJZlb48gLYPnw


2019-10-30 14:452392

评论

发布
暂无评论
发现更多内容

MyEMS与开源浪潮:如何重塑全球能源管理的未来格局

开源能源管理系统

开源 能源管理系统

重塑云上 AI 应用“运行时”,函数计算进化之路

阿里巴巴云原生

阿里云 云原生 函数计算

腾讯投资 AI 陪伴项目 Born 融资 1500 万美元,主打社交化 AI 陪伴;朱啸虎:AI 语音与视频应用爆发在即丨日报

声网

更灵活易用、延迟超低、更多情感语音支持!地表最强 Voice Agent 开源框架再进化!丨TEN Framework 更新

声网

工具链部署实用技巧 7|模型设计帧率推理时耗时与带宽分析

地平线开发者

自动驾驶 算法工具链 地平线征程6

从拖拽到架构:低代码如何兼顾速度、灵活性与可控边界

JeeLowCode低代码平台

低代码 低代码平台 低代码报告 低代码, 低代码工具

一文读懂电子看板管理:生产看板到底管什么?看什么?

万界星空科技

制造业 mes 可视化数据 电子看板 数字大屏

Flink 与Flink可视化平台StreamPark教程(时间相关 1)

天翼云开发者社区

大数据 flink 计算

flink on k8s的基本介绍

天翼云开发者社区

大数据

时序数据库 Apache IoTDB V1.3.5 发布|优化加密算法,优化内核稳定性,修复社区反馈问题

Apache IoTDB

Comate Agents成团出道,来Pick你的最强C位!

Comate编码助手

前端 Agents Agentic AI vibe coding

小红书开放平台评论接口全解析:从采集到情感分析

tbapi

小红书API 小红书笔记评论接口 小红书笔记评论api 小红书笔记评论数据采集

企业级 AI Agent 开发指南:基于函数计算 FC Sandbox 方案实现类 Chat Coding AI Agent

阿里巴巴云原生

阿里云 Serverless 云原生 函数计算

开源能源管理系统的进击:从“免费替代”到“创新引擎”

开源能源管理系统

开源 开源能源管理系统

试完豆包Seedream 4.0生图,我只想说,牛逼。。。

苍何

大数据-96 SparkSQL 语句详解:从 DataFrame 到 SQL 查询与 Hive 集成全解析

武子康

Java 大数据 flink spark 分布式

可可图片编辑 HarmonyOS(5)滤镜效果

万少

HarmonyOS

服装智能制造软件平台(源码+文档+讲解+演示)

深圳亥时科技

开源‘

以太坊ABI解析器零尺寸类型漏洞分析与利用

qife122

区块链 以太坊

新签约 | Oracle 慢到拖垮查询?江西水投换上 TDengine 时序数据库秒回实时监控

TDengine

tdengine 时序数据库 国产时序数据库

AI搜索的黑科技?DeepSearch 究竟“深”藏着什么秘密?

阿里云大数据AI技术

阿里云 OpenSearch DeepSearch

爱玛集团:All In SelectDB 构建极速统一数据平台,领航 AI 数智化实践

SelectDB

人工智能 数据库 实时数仓 MCP 爱玛电动车

开源安全与法律争议:OpenSSH枚举、DMCA诉讼与数据泄露事件解析

qife122

网络安全 开源漏洞

小红书笔记API实战:笔记详情数据采集Python代码

tbapi

小红书笔记详情接口 小红书API 小红书笔记数据采集 小红书笔记数据分析

无人机管理系统:巡航系统模块

深圳亥时科技

#开源

当智能机器人说”黑哥们语言是不通的“,作为开发者的你该如何应对?

老纪的技术唠嗑局

插件 #OceanBase 向量化

欲穷千里目,它凭什么能问鼎存力之巅?

脑极体

AI 存储

MyEMS在行动:揭秘开源能源管理系统如何重塑工业与楼宇的能效未来

开源能源管理系统

开源 能源管理系统

LED显示屏vs LCD液晶屏:如何选择

Dylan

广告 广告业 LED LED显示屏 lcd

查收你的技术成长礼包

京东零售技术

Node部署和运维工作量降低80%,腾讯NOW直播是怎么做到的?_文化 & 方法_IVWEB-jsonsun_InfoQ精选文章