安全研究人员演示了一种针对 NVIDIA GPU 的新型攻击 Rowhammer 。该攻击可从内存损坏逐步升级至完全控制系统,这标志着硬件层安全风险的重大转变。正如近期学术研究中描述的那样( Ars Technica 也做过重点报道),这些被称为 GDDRHammer 和 GeForce/GeForge 的攻击利用了 GDDR6 GPU 内存的漏洞,可以获得任意的读写权限,最终使攻击者能够控制主机 CPU 和系统内存。
这些研究发现基于之前对 Rowhammer 漏洞的研究。Rowhammer 是 DRAM 中一个早已为人所知的硬件缺陷:通过反复访问(“敲击”)内存行,可以诱导相邻内存单元发生位翻转,从而绕过传统的隔离机制。虽然一直以来该漏洞都是与系统 RAM 相关,但研究人员现在已经证明,类似的技术也可以应用在 GPU 内存上,这极大地扩展了攻击面,特别是在共享 GPU 的环境中,例如云基础设施和 AI 训练平台。
与早期攻击主要针对 GPU 且主要影响应用程序行为(例如降低 AI 模型准确性)不同,这些新技术展现出了端到端的入侵能力。通过在 GPU 内存中精心诱导实现位翻转,攻击者可以操纵页表和内存映射,从而有效地将 GPU 与 CPU 内存空间连接起来。这使得攻击者能够在未经授权的情况下访问系统内存,在某些情况下甚至可以完全控制整台机器。
研究表明,像 GDDRHammer 这样的攻击能够产生大量针对性的位翻转,某些情况下每个内存体超过 100 次,同时还能绕过现有的 GPU 防护机制。更高级的变种甚至可以将 GPU 内存访问重定向到 CPU 内存,使攻击者能够读取或修改 GPU 之外的敏感数据。
这对 AI 和云计算环境的影响尤为严重,因为在这些环境中,GPU 通常会被不同的工作负载和用户共享。在这种情况下,攻击者可能无需直接访问受害者的数据,而只需要共享同一块 GPU 硬件的访问权限,即可干扰工作负载或提升权限。这使得多租户 GPU 集群成为这类攻击的高风险目标。
该研究还凸出了一个更广泛的发展趋势:随着 GPU 逐渐发展成为现代计算的核心,从生成式 AI 到高性能工作负载,都需要依赖它。GPU 正日益成为安全威胁格局的一部分,而不仅仅是性能加速器。
由于 Rowhammer 式攻击具有硬件层面的特性,所以防范这类攻击仍然非常具有挑战性。潜在的防御措施包括:启用纠错码(ECC)内存、提高内存刷新频率,或通过 IOMMU 等技术限制 GPU 对系统内存的访问。然而,这些措施往往会影响性能,而且面对复杂的攻击模式时效果有限。
更复杂的是,有研究表明,即使是 DRAM 中的现代缓解技术,也未必总能完全防止 Rowhammer 攻击,尤其是在内存密度不断提高、攻击手段不断发展变化的情况下。
基于 GPU 的 Rowhammer 攻击的出现,将这一存在十余年的漏洞扩展到了新的领域,这是硬件安全威胁显著升级的标志。随着攻击者越来越多地将目标锁定在共享基础设施和计算栈(computing stack)的底层部分,该研究强调,需要采用跨层安全策略,将硬件防护、系统级隔离以及基于工作负载的防御措施结合起来。
对于高度依赖 GPU 的组织而言,尤其是在 AI 和云环境中,其中传达出的信息非常明确:硬件已经不再是值得信赖的防护边界。相反,在不断演变的威胁形势下,必须对硬件进行主动监控、强化防护,并将其纳入更广泛的安全策略之中。
声明:本文为 InfoQ 翻译,未经许可禁止转载。
原文链接:https://www.infoq.com/news/2026/04/rowhammer-attacks-nvidia/





