写点什么

JEP 192(String Deduplication in G1)简介

  • 2014-03-25
  • 本文字数:1841 字

    阅读完需:约 6 分钟

JEP,即 JDK Enhancement Proposals,指的是为增强 JDK 而引入的一些提案,比如 Nashorn JavaScript 引擎就是在 JEP 174 中提出的。2013 年 11 月 22 日,来自 Oracle 的 Per Liden 创建了 JEP 192(String Deduplication in G1),意在增强 G1 垃圾收集器,去掉堆中重复的 String 对象,从而减少堆内存的占用。该文档近日又有更新,Per Liden 也提交了相应代码实现,目前还处于审校和讨论中。

应该注意的是该特性只针对 G1 垃圾收集器,不适用于其他收集器。

很多大规模 Java 应用都受限于内存瓶颈,测量表明,这类应用中,String 对象大概占了 Java 堆中活数据集的 25%。而这些 String 对象中,又大约有一半是重复的,这里的重复是指,对两个字符串 string1 和 string2 而言,string1.equals(string2) 为 true。存在重复的 String 对象本质上是对内存的浪费。JEP 192 打算在 G1 收集器中实现自动和连续的 String 去重操作,以避免内存浪费,进而减少总的内存占用量。

目前 String 类有两个字段:

private final char[] value;

private int hash;

使用旧版本 Java 的读者可能有点诧异,其实早期版本中的 count、offset 等实例字段已经去掉了,InfoQ 之前也曾报道过。

value 字段是特定于实现的,在 String 类之外看不到。因为 String 类不会修改该数组的内容,也不会将其用于同步,所以我们可以安全且透明地将其在多个 String 对象之间共享。也就是说我们可以将一个 String 对象的 value 指向另一个 String 对象的 value。尽管该字段是 final 的,但因为去重操作是在虚拟机内部实现的,所以这不是问题。有兴趣的读者可以查看一下 java.lang.System 类的实现,其中的

public final static InputStream in = null;

一句,就是先将 final 字段 in 设置为 null,然后在 native 代码中重新赋值的。

这里需要注意的是,实现并没有真的去掉重复的 String 对象,去掉的只是对象中的 char 数组。这样对应用才是透明的。去掉实际的 String 对象并不安全,因为应用可能将该对象用于同步等操作。这种实现不需要修改 JDK 类库或其他任何现有的 Java 代码。

Per Liden 对大量大大小小的 Java 应用进行了测量,发现了下列结果:

  • String 对象平均占活数据的 25%
  • 重复的 String 对象平均占活数据的 13.5%
  • String 的平均长度为 45 个字符

经过分析计算,通过去重、复用 char 数组,平均大概能减少 10% 的堆内存占用。

JEP 192 文档中介绍了实现思路。垃圾收集执行时会访问堆上的活对象,在访问对象时可以判断一下该对象是否可以作为字符串去重的候选。如果是,将其插入一个队列。有一个负责去重的线程在后台运行,处理该队列。使用一个哈希表来记录 String 对象使用的所有唯一的 char 数组(即 value)。在处理候选的 String 对象时,先查找哈希表,看是不是存在和当前处理对象内容相同的 char 数组。如果存在,则更新当前对象的 value 值,使其指向在哈希表中找到的 char 数组,这样垃圾收集器就可以在某个时间把当前对象原来的 char 数组回收掉了。如果不存在,则将当前对象的 char 数组插到哈希表中,供以后处理。对于哈希表中的某个 char 数组,如果引用它的所有对象都已经不可达了,即可将其移除。该哈希表会根据当前表项的数目动态调整,使用链表处理冲突。

这里有一个重要的参数:去重年龄阈值。对象的存活时间长短不一。对于存活时间很短的对象,执行去重操作其实是浪费资源。为避免这种情况,可以设置一个年龄阈值。在 String 对象的年龄等于该阈值时,才考虑对其进行去重操作,大于该阈值则是已经处理过的。该阈值应该提供一个合理的默认值,同时支持通过虚拟机选项来配置。

实际的去重操作在去重线程中完成。它会等待 String 对象引用出现在去重队列中,然后一个一个地将其从队列中去掉。在去掉时进行处理,计算字符串的哈希值,在哈希表中查找,如果可能的话执行去重操作。去重线程负责维护一些统计信息(已检查的候选对象数,去重的字符串数等),这些信息可以打印到 GC 日志中。

需要提供新的虚拟机命令行选项:

  • UseStringDeduplication (bool) ——支持字符串去重
  • PrintStringDeduplicationStatistics (bool) ——打印详细的去重统计信息
  • StringDeduplicationAgeThreshold (uintx) ——设置 String 对象的年龄阈值

文档中还对比评价了其他方案存在的一些问题,感兴趣的读者可以参考。


感谢张龙对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2014-03-25 23:332712
用户头像
臧秀涛 略懂技术的运营同学。

发布了 300 篇内容, 共 146.3 次阅读, 收获喜欢 35 次。

关注

评论

发布
暂无评论
发现更多内容

容器化 | 在 Kubernetes 上部署 RadonDB MySQL 集群

RadonDB

MySQL Kubernetes 容器

EasyRecovery——一款专业的数据恢复软件

淋雨

文件恢复 Easyrecovery破解 免费恢复软件 硬盘数据恢复

联想服务斩获两项智能运维大奖 助力企业业务创新与数字化转型

科技大数据

爆赞:这份Github神仙面试笔记,不愧是上了标星120k+的Java面试手册

Java 编程 程序员 架构 面试

数据结构——顺序表

若尘

数据结构 6月日更

12种mysql常见错误总结 +分析示例

李阿柯

MySQL 面试 常见问题

AI论文解读:基于Transformer的多目标跟踪方法TrackFormer

华为云开发者联盟

预测 Transformer 多目标跟踪 TrackFormer 跟踪目标

基于 Web 引擎扩展技术的 RTC 混合开发框架实践

白玉兰开源

大前端

深度解读MRS IoTDB时序数据库的整体架构设计与实现

华为云开发者联盟

大数据 架构 时序数据库 FusionInsight MRS MRS IoTDB

🏆「作者推荐」【JVM原理探索】深入理解G1垃圾收集器的原理和运行机制

码界西柚

G1 JVM 6月日更 垃圾回收器

JAVA 面向对象 (十四)-- 关键字abstract、final

加百利

6月日更

使用 Scala 宏解决对象转换

GrowingIO技术专栏

scala protobuf 元编程 macro

可视化搭建的一些思考和实践

白玉兰开源

支持低代码开发和远程真机,DevEco Studio 2.2 Beta1来啦

科技汇

AI如何赋能软硬件产品创新?百度大脑开放日西安站解密

百度大脑

AI 百度大脑 开放日 EdgeBoard

CentOS7 Linux服务器无法远程ssh登陆故障处理

Liyuanjie

Centos 7 linux运维 Linux内核

代码管理工具:Git和SVN

正向成长

git svn

Rust从0到1-自动化测试-测试组织

rust 单元测试 集成测试 自动化测试

带你认识9种常用卷积神经网络

华为云开发者联盟

神经网络 深度学习 卷积神经网络 图像 卷积

面试官:你知道怎么求素数吗?

华为云开发者联盟

面试 开发者 开发 代码 素数

拥抱开放的英特尔 让PC行业再次越过创新鸿沟

E科讯

神经网络吴恩达, 解析极限编程--Kent Beck, Cynthia Andres John 易筋 ARTS 打卡 Week 53

John(易筋)

ARTS 打卡计划

掌门教育自研APM实际分享

白玉兰开源

HarmonyOS学习路之开发篇——公共事件与通知(一)

爱吃土豆丝的打工人

Java HarmonyOS 鸿蒙操作系统

回忆录 | 那些你不能错过的CTF夏令营往届历程,2021精彩继续……

郑州埃文科技

为什么switch的case没有break不行

叫我阿柒啊

Switch case break

从零开始学习3D可视化之事件绑定

ThingJS数字孪生引擎

大前端 物联网 3D 3D可视化

Gopher China 2021,未来可期

非晓为骁

个人提升 架构师 Go 语言 GopherChina gopher

冰泉奶茶香牙膏好不好?奶茶控的宝藏牙膏就是它

Geek_50a546

30分钟接入SDK 融云是如何让开发者做到开箱即用的?

融云 RongCloud

计算机网络的 89 个核心概念

苹果看辽宁体育

后端 计算机网络 网络

JEP 192(String Deduplication in G1)简介_Java_臧秀涛_InfoQ精选文章