2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

民间大神魔改 4090 48G 秒杀 5090!老黄显卡炒作被打脸,“最失败 50 系显卡”也支棱起不来了?

  • 2025-02-27
    北京
  • 本文字数:3319 字

    阅读完需:约 11 分钟

大小:1.66M时长:09:40
民间大神魔改4090 48G秒杀5090!老黄显卡炒作被打脸,“最失败50系显卡”也支棱起不来了?

近期,淘宝和闲鱼上很多厂家在出售至少 2.2 万的 4090 48G 显卡,这是一款“全新”、非官方规格的显卡。淘宝厂家甚至给出了基础款和升级款两种选择,其中基础款用的是拆机进口颗粒(19000 频率)和非定制全新 PCB 板,耐久度略低,升级版则用的是全新进口颗粒(21000 频率)和全新定制 PCB 板,耐久度高。不过厂家保证这两款都在前期性能稳定,并质保三年。

 

B 站上也早就有 UP 主对魔改版 4090 48G 显卡进行了初步测评,称这款显卡重量较大,显卡满载功率可达 450 瓦,原本运行 20 多分钟的工作流在该款显卡上仅需一分半。“在赛博绘图视频制作领域堪称顶级选择。满血的顶级算力搭配专业卡级别的显存,是非常不错的组合。如果后续改装水冷,将更具优势。”根据其他网友使用,4090 48G 显卡还可以支持 FP8,在游戏方面则与常规卡没有差别。

 

这款显卡也已经出走海外。来自加拿大的小哥在平台上晒出了自己在 eBay 上买的 RTX 4090 48G,让网友给出测试建议。eBay 官网显示,4090 48G 的售价要 3 万人民币起步。

 


现在,市面上还传出了 4090 96GB 版本已经被搓出来的消息,有人贴出了闲鱼上的预购消息和配置图,据说价格在 3700 美元左右(2.6 万人民币)。



不过,Slamtec 创始人兼 CTO  Tony Huang 对此在推特上表示,“这应该不可能,4090 的上限就是 384bit/16bit*16Gbit GDDR6 = 48G”。

如何做到的?

 

要得到 4090 48G 显卡需要几步?网传有三个步骤:一、找一块 3090 的板子,挖掉核心;二、找一块 4090 的板子,挖掉核心,然后把这个核心焊到 3090 的板子上;三、再焊接更多对应显存到板子上,实现 48G。

 

上面是很诙谐的说法,但在闲鱼上确实能找到很多 4090 无核心、无显存的显卡板,被戏称为“4090 显卡手办”,价格在 100 元上下不等。

 

实际上,4090 魔改 48G 过程中还有一个关键的步骤,即显卡 bios。bios 是存储在显卡 ROM 芯片中的固件程序,可以初始化显卡硬件参数,协调 GPU/显存/供电模块协同工作。

 

知乎答主“宅叔”表示,“其实就是传言流出来那版 vbios,没有那版 vbios,就没有后续的 48G。vbios 有数字签名会和芯片内的安全芯片作相互校验,因此绕不过去,而在 2023 年流出来了一个工具,可以把不同品牌的 vbios(有数字签名版)互刷,所以拿到 48G 的 vbios 就等于有了 48G 的 4090,无非是如何搬板,甚至有能力可以重新设计一张 PCB 来扩张。换句话说,如果未来有更大显存容量的 bios 流出,原则上也可以做更大显存的卡。”

 

有网友分析,3090 芯片发售时,显存颗粒最大 1GB,24GB 显存需要 24 颗,PCB 板正反面都有。4090 芯片发售时,显存颗粒达到 2GB,24GB 显存只需要 12 颗,PCB 板只有一面有焊盘。突然某一天,从英伟达总部流出 4090 48GB 改版显卡 bios,正好发现 4090 针脚定义和 3090 一样,可以焊在 3090 PCB 上。这样,4090 芯片+3090 PCB+24 颗 2GB 显存+流出魔改显卡 bios=4090 48GB 显卡。据悉,大概一张卡的工本费要 5500 元左右。

 

有网友对比 A100 80G 的生成速度实际就比 4090 48G 快 20%,但是价格却贵了 6 倍多。目前已经有公司推出主打性价比的 4090 48G 推理 GPU 方案,帮助进行 DeepSeek 部署。另一方面,这也推动了 4090 显卡价格居高不下。

 

个人用户使用 4090 48G 跑 DeepSeek 的配置截图

 

4090 48G 不是最近才出现的,目前还没有用户曝出大问题。不过对于魔改卡,部分人还是比较谨慎,“魔改卡的工艺还是赶不上原厂卡。一般焊锡不是无铅高温的,常出现脱焊、爆锡等问题。第二,保修也是个问题,后期还管不管保修都不知道。个人玩家还是算了。”

 

模型苦“显存”久矣

 

看起来只是单纯扩大了显卡显存,但对于实际应用来说可能意义很大。

 

根据 AI 开发人员 Piyush Kashya 的计算,FP16 精度的 7B 参数模型至少需要 16.8GB 的​​ GPU 内存。类似地,haotian-liu 在 GitHub 上回答开发者提问时表示,通常 7B 参数的模型可以使用内存小于 24GB 的 GPU 运行,而 13B 参数模型大约需要 32 GB 内存。

 

显存大小限制了人们使用更大参数的模型,因此很多人用小模型或量化版本。但对于多模态模型,如 Flux 等的运行上,显存制约让很多人感到使用不便。

 

深度学习的训练过程中,GPU 显存溢出也是经常出现的问题。为此,人们通常使用减少训练批次大小、数据并行等方式来减少 GPU 内存的使用。GPU 内存优化也一直是厂商在做的事情。

 

另一方面,英伟达当前在企业级卡和消费级卡之间设置了明显的技术鸿沟。

 

比如,在计算能力方面,RTX 4090 属于 Ada Lovelace 架构,16384 个 CUDA 核心,由 128 个 SM 组成。H100 则为 Hopper 架构,16896 个 CUDA 核心和 528 个 4.0Tensor 核心,阉割了对图像渲染至关重要的光追核心(RT Core),多了 FP64 的处理单元。

 

而在多卡互联方面,4090 不支持 GPU 间直接通信,必须通过 CPU 中转,而 H100 可以借助 Nvlink 等进行卡间高速通信,支持 RDMA、GDS(GPU 存储直接访问)。值得注意是的,RTX 30 系列中只有 RTX 3090 支持 NVLink。

 


鉴于 DeepSeek 的热度,NVIDIA 发布了 DeepSeek R1 的量化版本 DeepSeek R1 FP4。借助对 Blackwell 架构的 TensorRT DeepSeek 优化(包括具备最先进生产精度的 FP4 性能),该模型实现了推理速度提升 25 倍、每 token 成本降低 20 倍的效果。



详情可查看:https://huggingface.co/nvidia/DeepSeek-R1-FP4

 

50 系显卡翻车?

 

大家对 4090 48G 的热情,也源于对英伟达“挤牙膏”发布的 50 系显卡的失望情绪。有 UP 主测评对比后表示,“4090 48G 秒杀 5090”。

 

“50 系是十年来最失败的一代显卡,这点是板上钉钉的,因为其存在重大缺陷,并且是前代已有的缺陷,并没有修复;而由于暴力拉规模导致故障风险扩大,大部分 5090 将在三年左右坏掉,故障为烧供电击穿核心。”有网友评价称。

 

与前代 4090 相比,5090 定价几乎翻了一番,而整个 RTX 50 系列产品的价格也都居高不下,此后还被炒出天价。消费者普遍认为这样的价格难以接受,尤其是考虑到性能的提升并不足以支撑售价翻倍。在质疑声中,黄仁勋直言不讳地表示,RTX 5090 的目标用户群体是那些追求顶级性能体验的发烧友,对他们而言,价格并不是首要考虑的因素。这一发言也引起了更大的不满。

 

而自发货以来,50 系被曝出的问题可太多了。截至目前,RTX 5090 已知问题包括:12 针电源接口熔化、黑屏、丢失 ROP(光栅单元)、电容烧毁、可靠性差等,还有用户遇到了错版问题。

 

其中,比较严重的就是 ROP 丢失问题。外媒 TechpowerUP 报道称,他们在 RTX 5090 评测样品上发现了 ROP 缺失问题,这源于 ZOTAC RTX 5090 样品测试中的运行速度要比其他样品慢。事实证明,该卡的 ROPS 仅为 168,而 ROPS 的官方规格数量为 176,后来发现几乎所有 AIB 都有这个问题。

 

5090 上缺少 ROP 单元导致游戏性能损失 4-5%。根据目前尚无法完全确认该问题是制造缺陷还是 bios 问题,但前者似乎更有可能,还有人猜测是老黄的管理出现了问题。而根据网友“MEGAsizeGPU”的说法,问题不在 bios 上,而在核心的 GB202 芯片上。

 


后来,英伟达公关总监 Ben Berraondo 紧急发声:这属于极个别芯片体质问题,对 AI 运算毫无影响,游戏性能平均损失仅 4%。但外媒表示,所谓缺少 1 个 ROP 为文字游戏,实际缺失量高达 8 个,英伟达将每个 ROP 单元的像素处理能力换算成虚拟单位,营造参数虚高的假象。

 

英伟达的 RTX 50 系列显卡是该公司最棘手的发布之一,这个论断并不过分。此次发布在多个环节出现重大失误:初期上市阶段,GeForce RTX 5090 在多家零售商的库存量持续是个位数,这种刻意控量供应策略导致实际供给不足,而需求激增主要源于黄牛抢购和高端硬件发烧友的追捧。值得注意的是,库存短缺也并非是英伟达 GPU 芯片产能不足导致的,推测问题可能出在封装测试环节、物流调度系统或渠道分配策略等深层供应链环节上。

 

外媒表示,50 系列显卡在市场上缺货的原因是英伟达正在进行“饥饿营销”。GPU 库存完全充足,但英伟达控制供应不释放库存,从而制造出短缺的假象。实际上,到四月或五月,GPU 将会大量释放。

 

参考链接:

 

https://www.zhihu.com/question/11803840385

https://www.bilibili.com/video/BV1RQfpYkEcg/?spm_id_from=333.337.search-card.all.click&vd_source=c7202342f6677650b47938178c8bfb3a

https://www.reddit.com/r/LocalLLaMA/comments/1iwhfl5/comment/medyq2f/

https://github.com/haotian-liu/LLaVA/issues/191

https://wccftech.com/nvidia-is-suppressing-inventory-levels-for-high-end-rtx-50-series-gpus/

2025-02-27 14:2112967

评论

发布
暂无评论

架构实战营模块8作业

Geek_649372

架构实战营

解读区块链在制药和物流管理中具备的优势

CECBC

都说数仓是面向主题建设的,那数仓的主题和主题域又应该怎么划分呢?

白贺BaiHe

数仓 7月日更 数仓主题 主题域 数仓建设

如何科学地系统地梳理出CDP的RFP?

Linkflow

隔壁工程师都馋哭了我的逆向工程IDA,说要给我搓背捏脚

网络安全学海

网络安全 信息安全 渗透测试 漏洞分析 逆向工程

禾木之变:2021我们该如何持续拥抱AI?

脑极体

PowerShell 哈希表

耳东@Erdong

PowerShell 7月日更

详聊微服务观测|从监控到可观测性,我们最终要走向哪里?

尔达Erda

开源 微服务 云原生 APM PaaS

区块链技术在“三资”监管领域的应用

CECBC

数据仓库的基本要求

奔向架构师

数据仓库 数据架构 7月日更

Linux之find xargs

入门小站

Linux

讨论 | 低代码能解决制造业企业数字化转型所面临的问题吗?

优秀

低代码

吃药吗?AI造的!

脑极体

🏆「作者推荐」【JVM性能分析】精心准备了一套JVM分析工具的锦囊(上部)

码界西柚

JVM 性能分析 jvm调优 7月日更

前端 JavaScript 实现一个简易计算器

编程三昧

JavaScript 大前端 代码实现

《持之以恒的从事运动》五

Changing Lin

7月日更

幸福来敲门

卢卡多多

幸福 7月日更

在线ASCII艺术字生成工具,SpringBoot banner生成工具

入门小站

工具

我看 JAVA 之 并发编程【一】FutureTask & Callable

awen

Java 多线程 Callable FutureTask

设计消息队列存储消息数据的MySQL表格

Vincent

架构训练营

数字政府建设如火如荼 区块链保证数据真实安全

CECBC

【得物技术】常用注册中心原理及比较

得物技术

zookeeper nacos Consul Eureka 注册中心

推荐系统的价值观(三十二)

Databri_AI

价值观 推荐系统

phpExcel:Excel数据导入导出最佳实战

devpoint

php Excel thinkphp 7月日更

模块一作业

君子意如何

「架构师训练营第 1 期」

利用 Vector 从日志创建指标来提高系统的可观测性

哈德韦

日志 可观测性 Prometheus SRE vector

浅谈云上攻防——Web应用托管服务中的元数据安全隐患

腾讯安全云鼎实验室

安全攻防 云安全 元数据 网络攻防

你的直观感受有可能是错的

石云升

学习 认知偏差 7月日更

面对大规模 K8s 集群,这款诊断利器必须要“粉一波”!

尔达Erda

开源 云原生 operator PaaS kubernete

5分钟速读之Rust权威指南(三十九)unsafe

wzx

rust

民间大神魔改4090 48G秒杀5090!老黄显卡炒作被打脸,“最失败50系显卡”也支棱起不来了?_芯片&算力_褚杏娟_InfoQ精选文章