写点什么

小红书 FinOps 实践:云成本优化与资源效率提升之道 |QCon 北京

  • 2025-03-31
    北京
  • 本文字数:1426 字

    阅读完需:约 5 分钟

大小:764.90K时长:04:21
小红书 FinOps 实践:云成本优化与资源效率提升之道 |QCon北京

2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将汇聚全球 140+ 技术先行者及创新实践者,直击行业痛点,解锁可复制的经验与模式。这不仅是一场会议,更是一次对技术演进的集体探索。无论你是资深开发者,还是技术管理者,都能在这里有所收获,为下一步的技术决策提供方向。


小红书混合云资源管理负责人梁啟成已确认出席并发表题为《小红书 FinOps 实践:云成本优化与资源效率提升之道》的主题分享。眼下,云计算已成为众多互联网企业支撑业务运行的关键基础设施,然而云计算的便利性和灵活性也带来了一系列资源成本管理挑战,包括成本增速过快、成本归属不清晰、缺乏有效成本控制手段、对云厂商高度依赖等。本次分享将重点介绍小红书的 FinOps 实践经验,并通过技术优化手段提升资源使用效率,每年节省数亿成本。


梁啟成多年 IT 资源管理与成本优化经验,曾深度参与头部互联网企业上云、大规模在离线业务混部,并持续推进业财一体化以及精细化的混合云资源成本管理,2024 年参与了信通院《IT 基础设施资源运营成熟度模型》标准制定,是 FinOps 文化的践行者。他在本次会议的详细演讲内容如下:


演讲提纲

1. 小红书用云概述

2. 成本优化面临的问题与挑战

  • 分摊云成本与实际资源用量存在偏差

  • 资源规模不断增长但利用效率持续低下

  • 大模型的部署与运行成本高昂

3. 成本洞察与优化实践

  • 技术商品化实现内外账分离

  • 大 Node 小 Pod 策略下的在线业务混部

  • 工作负载性能瓶颈分析

  • 机型收敛与 RightSizing

  • 内容大模型的降本增效

  • 多维并行提升训练效率

  • 量化蒸馏压缩模型大小

  • 算子优化提升推理速度

4. 总结与展望


这样的技术在实践过程中有哪些痛点?

  • 常规按比例分账方法能帮助测算出各业务部门的资源成本费用,但不一定能解释清楚其背后的量价对应关系,进而影响了技术优化方向判断

  • 云厂商硬件经过虚拟化后,不同规格大小虚拟机会存在跨 numa、共用一个 Socket 产生干扰,进而表现出内存性能差、业务 CPU 使用率明显分层、服务 RT 抖动明显等问题,云上客户不得不开通更多资源降低容量水位来保证在线服务不受损,最终造成了成本浪费

  • 高昂的训练和推理成本、高硬件需求、资源利用效率低下,这些问题限制了内容大模型的广泛应用和普及,需要通过技术创新和优化策略来解决


演讲亮点

  • 重点聚焦于建立清晰、透明的成本洞察机制以及配套系统能力建设,尝试分别从买卖家视角梳理清楚各自团队的资源用量、技术成本支出以及收入情况

  • 看清、看准、分析出系统关键性能瓶颈,通过机型迭代、内核优化等措施确保各业务具备将 CPU 跑高的能力,进而执行缩容退机操作达到降低成本的目标

  • 分别从数据、训练、压缩、推理等方面介绍小红书对于内容大模型的降本增效实践

听众收益

  • 可以帮助相关从业人员了解或学习云成本优化的主要技术方案,并在日常工作中进行运用


除此之外,本次大会还策划了多模态大模型及应用AI 驱动的工程生产力面向 AI 的研发基础设施不被 AI 取代的工程师大模型赋能 AIOps云成本优化Lakehouse 架构演进越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。

目前,所有大会演讲嘉宾已结集完毕,了解更多报名和详情信息可扫码或联系票务经理 18514549229 咨询。



为确保大会顺利举行,现诚邀志愿者加入,时长 3.5 天。可与大咖交流、获极客时间 VIP 月卡、大会演讲视频资源和证书。主办方提供午餐和交通支持。时间:4 月 9 日 13:00-4 月 12 日 18:00,地点:北京万达嘉华酒店,报名链接:https://www.infoq.cn/form/?id=2088

2025-03-31 14:004503

评论

发布
暂无评论

AI搜索的黑科技?DeepSearch 究竟“深”藏着什么秘密?

阿里云大数据AI技术

阿里云 OpenSearch DeepSearch

一文读懂电子看板管理:生产看板到底管什么?看什么?

万界星空科技

制造业 mes 可视化数据 电子看板 数字大屏

企业级 AI Agent 开发指南:基于函数计算 FC Sandbox 方案实现类 Chat Coding AI Agent

阿里巴巴云原生

阿里云 Serverless 云原生 函数计算

flink on k8s的基本介绍

天翼云开发者社区

大数据

远程控制软件怎么选?对比评测向日葵远程控制和ToDesk

科技热闻

Comate Agents成团出道,来Pick你的最强C位!

Comate编码助手

前端 Agents Agentic AI vibe coding

开源安全与法律争议:OpenSSH枚举、DMCA诉讼与数据泄露事件解析

qife122

网络安全 开源漏洞

试完豆包Seedream 4.0生图,我只想说,牛逼。。。

苍何

网易伏羲亮相Arm Unlocked 2025,携手Arm探索中国人工智能创新之路

网易伏羲

人工智能 arm 网易伏羲 游戏AI 永劫无间

活动预告|天润融通走进亚马逊云科技,用Agent打造客户服务新型竞争力

天润融通

GOSIM HANGZHOU 2025即将揭幕,华为云云原生团队精彩议题抢鲜

华为云原生团队

云计算 容器 云原生 Volcano kubeedge

当智能机器人说”黑哥们语言是不通的“,作为开发者的你该如何应对?

老纪的技术唠嗑局

插件 #OceanBase 向量化

以太坊ABI解析器零尺寸类型漏洞分析与利用

qife122

区块链 以太坊

新签约 | Oracle 慢到拖垮查询?江西水投换上 TDengine 时序数据库秒回实时监控

TDengine

tdengine 时序数据库 国产时序数据库

MyEMS与开源浪潮:如何重塑全球能源管理的未来格局

开源能源管理系统

开源 能源管理系统

阿里云可观测 2025 年 8 月产品动态

阿里巴巴云原生

阿里云 云原生 可观测

LED显示屏vs LCD液晶屏:如何选择

Dylan

广告 广告业 LED LED显示屏 lcd

拥抱AI生产力,天润融通致敬每一位AI的老师

天润融通

大数据-96 SparkSQL 语句详解:从 DataFrame 到 SQL 查询与 Hive 集成全解析

武子康

Java 大数据 flink spark 分布式

Flink 与Flink可视化平台StreamPark教程(CDC功能)

天翼云开发者社区

大数据 flink

低代码正在悄悄颠覆企业数字化

伤感汤姆布利柏

还停留在批处理时代吗?增量计算架构详解

tapdata

批处理 变更数据捕获 金融实时数据处理 增量计算 CDC,流处理

服装智能制造软件平台(源码+文档+讲解+演示)

深圳亥时科技

开源‘

Flink 与Flink可视化平台StreamPark教程(时间相关 1)

天翼云开发者社区

大数据 flink 计算

欲穷千里目,它凭什么能问鼎存力之巅?

脑极体

AI 存储

时序数据库 Apache IoTDB V1.3.5 发布|优化加密算法,优化内核稳定性,修复社区反馈问题

Apache IoTDB

查收你的技术成长礼包

京东零售技术

MyEMS在行动:揭秘开源能源管理系统如何重塑工业与楼宇的能效未来

开源能源管理系统

开源 能源管理系统

开源能源管理系统的进击:从“免费替代”到“创新引擎”

开源能源管理系统

开源 开源能源管理系统

重塑云上 AI 应用“运行时”,函数计算进化之路

阿里巴巴云原生

阿里云 云原生 函数计算

更灵活易用、延迟超低、更多情感语音支持!地表最强 Voice Agent 开源框架再进化!丨TEN Framework 更新

声网

小红书 FinOps 实践:云成本优化与资源效率提升之道 |QCon北京_云计算_QCon全球软件开发大会_InfoQ精选文章