把握行业变革关键节点,12 月 19 日 - 20 日,AICon北京站即将重磅启幕! 了解详情
写点什么

Netflix 引入虚拟线程:性能和缺陷案例研究

  • 2024-08-27
    北京
  • 本文字数:1460 字

    阅读完需:约 5 分钟

Netflix 引入虚拟线程:性能和缺陷案例研究

Netflix 是 Java 的长期采用者,最近他们升级到了 Java 21。他们现在正在利用 JEP 439 中引入的分代 ZGC 和 JEP 444 中引入的虚拟线程等新特性来提升其庞大的微服务组合的性能。虽然为高吞吐量并发应用程序设计的虚拟线程在早期展示出了优势,但它们在现实场景中也带来了独特的挑战。


在 Netflix Tech Blog 上最近的一篇文章中,其 JVM 生态系统团队分享了他们使用虚拟线程的经验,特别是服务遇到超时和挂起实例的问题。该问题与虚拟线程和阻塞操作和 OS 线程可用性的交互有关,导致其基于 SpringBoot 的应用程序出现类似死锁的情况。


Netflix 工程师在运行 Java 21 并使用 SpringBoot 3 和嵌入式 Tomcat 的服务中观察到了间歇性超时和无响应实例。尽管 JVM 实例保持活动状态,但它们停止提供流量,其特点是卡在 closeWait 状态的套接字显著增加。当远程端关闭 TCP 连接,但本地端尚未关闭其连接端,使套接字处于等待状态时,就会出现此状态。有关此问题的更多信息,请参阅术语部分的 RFC 793。



初步诊断表明虚拟线程与此问题有关,尽管它们并未出现在传统的线程转储中。团队使用 jcmd Thread.dump_to_file 发现了数千个“空白”虚拟线程,表示这些线程已创建但尚未运行。问题追溯到 Tomcat 的请求处理,其中创建了新的虚拟线程,但由于操作系统线程不可用而无法安排。


#119821 "" virtual#119820 "" virtual#119823 "" virtual#120847 "" virtual#119822 "" virtual...
复制代码


分析显示,Tomcat 的虚拟线程执行器正在为每个请求创建线程,但这些线程因等待锁定而停滞。具体而言,由于同步块内的阻塞操作,线程被固定到 OS 线程,而 ForkJoinPool 中可用的 OS 线程数量有限,让情况更加恶化。


该问题源于 一个经典的死锁场景,其中虚拟线程无法继续,因为所需的锁被其他虚拟线程持有,这些虚拟线程被固定到所有可用的 OS 线程。这阻止了新的虚拟线程的调度,结果阻塞了应用程序。


为了解决该问题,Netflix 的 JVM 生态系统团队使用一个堆转储来检查锁的状态,并确认没有线程拥有它,但等待它的线程无法继续。这是一个本应解决的瞬态,但却导致了类似死锁的情况。


团队确定了根本原因,并开发了一个可重现的测试用例,以防止将来出现类似问题。虽然 Java 21 中的虚拟线程已显示出通过减少开销来提高性能的潜力,但此案例意味着了解它们与现有线程模型和锁定机制的交互方式是很重要的。


除了 Netflix 的发现之外,InfoQ 上最近的一项案例研究还深入探讨了虚拟线程的实际挑战和优势,特别是在涉及大量并发负载的场景中。这项研究强调了在将虚拟线程集成到生产系统中时需要仔细考虑和测试,因为即使是很小的架构细节也会导致严重的性能影响。


除了虚拟线程之外,Netflix 采用的分代 ZGC 也在优化其系统时发挥了关键作用,正如最近的一篇文章中提到的那样。ZGC 能够在堆大小增加时保持较低的暂停时间,通过减少垃圾收集开销和增强响应能力,显著提高了 Netflix 的应用程序性能。有关分代 ZGC 的更多信息,请参阅这篇 InfoQ 新闻。


Netflix 还有一个强大的警报系统,基于其 Atlas Streaming Eval 平台,对帮助他们识别和诊断这些问题是很重要的。该系统旨在改进实时监控和警报,使团队能够捕获处于问题状态的实例并提供关键数据进行追溯分析。


尽管面临各种挑战,Netflix 对虚拟线程的未来仍持乐观态度,并预计即将发布的 Java 版本将取得进一步改进,特别是在解决锁定原语的集成挑战方面。此案例研究对于性能工程师和开发人员在其应用程序中探索虚拟线程时是一个有价值的示例。


原文链接:

https://www.infoq.com/news/2024/08/netflix-performance-case-study/

2024-08-27 09:569474

评论 1 条评论

发布
用户头像
Netflix最后解决了此问题吗?文章末尾的“解决锁定原语的集成”是指Netflix本次的问题名称吗
2024-08-29 18:09 · 广东
回复
没有更多了
发现更多内容

来了解Amazon CodeWhisperer的强大吧

初学者

云计算 亚马逊 亚马逊云

深入探究Flink:实时处理与批量处理的完美结合

xfgg

Java flink 6 月 优质更文活动

瞄准“量效”难题,百度营销创新推出大健康线索营销解决方案-医效通

说山水

最强攻略 | 1分钟带你了解内测,成为BUG小能手!

百度Geek说

百度 测试 企业号 6 月 PK 榜 6 月 优质更文活动

GreptimeDB v0.3 正式发布|分布式能力全面提升

Greptime 格睿科技

数据库 rust 云原生 分布式数据库 时序数据库

阿里云 EMAS & 魔笔:5月产品动态

移动研发平台EMAS

阿里云 DevOps 消息推送 低代码平台

揭秘阿里云Flink智能诊断利器——Fllink Job Advisor

阿里云大数据AI技术

大数据 flink 企业号 6 月 PK 榜

软件测试 | Selenium验证页面元素

测吧(北京)科技有限公司

测试

金融集团企业资金管理难度加倍,用友BIP如何破解这个难题?

用友BIP

资金管理

不愧是阿里P8出手的并发编程笔记!颠覆了我以往"正确"的认知

程序知音

Java 并发编程 java架构 Java进阶 后端技术

横空出世!京东技术专家狂推的Redis笔记,实战和原理两开花

程序知音

Java 数据库 redis Java进阶 后端技术

NFTScan 成为 CMC 官方 NFT 数据合作伙伴

NFT Research

crypto NFT

黑盒不黑:跨端 C/C++ 库一键源码调试方案

阿里技术

调试

主动发现系统稳定性缺陷:混沌工程 | 京东云技术团队

京东科技开发者

混沌工程 系统 系统工程 混沌工程实践 企业号 6 月 PK 榜

祝贺!Databend 入选 ICT 中国可信云优秀云原生创新案例

Databend

世界500强潍柴动力携手用友BIP全球司库打造资金管理系统,正式启动!

用友BIP

全球司库

2022 中国开源创新大赛,时序数据库 TDengine 榜上有名

爱倒腾的程序员

涛思数据 时序数据库 ​TDengine

深入了解mock.js,打造出类似真实数据的模拟数据

Apifox

程序员 前端 前端开发 API Mock

赋能生态合作 共话数字创新 | 2023开放原子全球开源峰会软硬协同开源分论坛即将启幕

开放原子开源基金会

开源 开放原子全球开源峰会 开放原子 软硬协同开源

让ChatGPT来写今年的高考作文,能得几分?

楚少AI

ChatGPT4 2023高考 ChatGPT写作

Openjob 1.0.2 重磅发布,新一代分布式任务调度框架

stelin

分布式架构 Java 分布式

技术赋能-混流编排功能,助力京东618直播重保 | 京东云技术团队

京东科技开发者

监控 直播技术 直播推流 企业号 6 月 PK 榜 重保

Mybatis的parameterType造成线程阻塞问题分析 | 京东云技术团队

京东科技开发者

mybatis CPU告警 企业号 6 月 PK 榜 线程阻塞

用户组是什么意思?怎么容易理解?有什么作用?

行云管家

运维 权限 用户组

咸阳有没有等保测评机构?在哪里?怎么联系?

行云管家

等保 等保测评 等保测评机构 咸阳

【Clickhouse】ReplaceingMergeTree引擎final实现合并去重探索 | 京东云技术团队

京东科技开发者

OLAP final clickhosue 企业号 6 月 PK 榜 合并去重

最强AIGC实战应用速成指南来了!14天掌握核心技术

飞桨PaddlePaddle

人工智能 深度学习 百度飞桨

10分钟了解Kubernetes网络

俞凡

架构 Kubernetes 云原生

2022百度ESG报告发布:年度答卷展现安全信任承诺

百度安全

AI老师的作者:17岁的高中生,可能是你想要孩子成为的样子

无人之路

AI 教育 ChatGPT

软件测试 | Web自动化测试

测吧(北京)科技有限公司

测试

Netflix 引入虚拟线程:性能和缺陷案例研究_编程语言_A N M Bazlur Rahman_InfoQ精选文章