写点什么

两年怒省上千万,知乎数据库降本增效实战

  • 2024-03-25
    北京
  • 本文字数:3267 字

    阅读完需:约 11 分钟

两年怒省上千万,知乎数据库降本增效实战

数据库在企业的数据管理和运营中扮演着越来越重要的角色。然而,高昂的数据库成本和低效的运营可能成为企业发展的拦路虎。


将在 2024 年 6 月 14-15 日深圳举办的 ArchSummit 全球架构师峰会上,我们邀请到了知乎数据库架构团队负责人代晓磊老师来分享一些降低数据库成本、提高效率的关键策略,以及知乎团队如何通过优化数据库配置、采用新技术、实施自动化管理等方式来实现降低成本的;同时,他也会介绍如何通过数据分析和性能优化来提高数据库的效率,从而实现降本增效的目标。在正式演讲之前,我们做了简短的采访,请代老师介绍他们的一些技术思路,提前剧透,以飨读者。



InfoQ:在降低数据库成本和提高效率方面,您认为最关键的策略是什么?能否详细介绍一下?


代晓磊: 最关键的策略是通过优化数据库架构和性能来实现成本降低和效率提升。我们重点关注以下几个方面:


(1) 数据库资源的合理利用:优化数据库配置、合理规划硬件资源,确保资源利用率最大化。


(2) 数据库查询和操作的优化:通过索引优化、SQL 调优等手段,提升查询效率,减少资源消耗。


(3) 数据库的自动化管理:利用自动化工具和流程,降低管理成本,提高运维效率。


InfoQ:在知乎数据库降本增效的实战中,都采取了哪些具体的措施和方法?


代晓磊: 在知乎,我们不仅仅采取了诸如合理的分布式数据库选型、基于 FinOps 合理规划硬件资源、服务器机型替换、对象存储优化等传统措施。此外,我们还引入了天穹自动化运维平台,该平台能够实现业务数据库变更的自助管理,同时也让 DBA 对数据库的管理实现了自动化,从而大大提高了数据库管理的效率和稳定性。通过这些创新措施的结合应用,我们在实践中不断探索和推进数据库降本增效的路径,为知乎的数据管理提供了更加全面和可靠的解决方案。


InfoQ:您如何看待数据库降本增效中的 FinOps 在实际应用中的作用?它对降低成本和提高效率有何影响?


代晓磊:FinOps 在数据库降本增效中扮演着不可或缺的角色。通过成本可见性、成本优化、预算管理、自动化和持续改进等手段,帮助组织更好地降低数据库成本,提高资源利用率,实现数据库管理的成本效益最大化。


首先,FinOps 提供了成本可见性。通过实时监控和分析数据库资源的使用情况,组织能够清晰地了解数据库成本的构成和分布情况。这使得组织能够更好地识别成本的主要来源,进而采取相应措施降低成本。


其次,FinOps 强调成本优化。基于成本可见性,FinOps 提供了优化数据库资源使用的方法和工具。通过合理规划数据库资源的使用,选择适当的规格和类型,以及优化数据库配置和性能,可以降低成本并提高资源利用率。


第三,FinOps 推动预算管理。通过制定和管理预算,组织能够更有效地控制数据库成本。合理规划预算和资源分配,确保在满足业务需求的前提下最大程度地降低成本。


此外,FinOps 倡导流程自动化和成本优化。通过自动化工具和流程,实现数据库资源的智能分配和管理,提高运营效率,并减少人工成本。持续改进也是 FinOps 的核心理念之一,通过不断优化数据库资源的使用和管理,实现成本的持续降低和效率的持续提高。


InfoQ:平台化在数据库降本增效中扮演着怎样的角色?您能分享一些在实践中取得成功的平台化案例吗?


代晓磊: 平台化在数据库降本增效中扮演关键角色,通过标准化、自动化数据库管理流程,提高效率、降低人工成本;同时提供统一监控和管理,优化资源利用率,增强系统稳定性,推动数据库成本降低与效率提升。


例如,我们建立了一站式数据库自动化管理平台:天穹平台,为各业务团队提供统一的数据库服务和管理接口,实现了数据库资源的最大化利用和管理的便捷化。


InfoQ:您认为数据库降本增效的 5 个要素中,哪些是最具挑战性的?为什么?


代晓磊: 数据库降本增效的五个要素中,最具挑战性的要素分别是性能优化和数据库容器化。


  1. 性能优化:性能优化涉及诸多方面,包括查询优化、索引设计、存储引擎选择等,需要综合考虑数据库结构、数据量、业务需求等因素。挑战在于识别性能瓶颈、设计有效的优化策略,需要深入理解数据库的工作原理和业务特性,以及不断的性能测试和调优。

  2. 数据库容器化:数据库容器化涉及到将传统的数据库系统迁移到 Kuberenets 环境中,需要解决诸如数据持久化、性能稳定性、安全性等问题。数据库在容器环境中的部署和管理相对复杂,需要考虑容器间的网络通信、资源隔离等方面,同时确保数据的一致性和可靠性,这是一个技术挑战和组织变革的过程。


因此,性能优化和数据库容器化是数据库降本增效中最具挑战性的要素,需要综合考虑技术、业务和组织等多方面因素,采取有效的策略和方法应对挑战,才能实现数据库管理的成本效益最大化。


InfoQ:在实施数据库降本增效策略时,您遇到过哪些主要的挑战?又是如何应对的?


代晓磊: 在实施数据库降本增效策略时,我们遇到了一些主要的挑战,其中包括分布式数据库选型、与业务团队沟通成本、以及迁移切换对数据库稳定性的影响 等方面。


  1. 分布式数据库选型是一个复杂的决策过程,需要考虑多个因素,如性能、可靠性、成本等。我们需要对不同的分布式数据库进行评估和比较,以选择最适合我们业务需求的解决方案。这涉及到技术评估、性能测试等工作,需要投入大量时间和精力。

  2. 与业务团队沟通成本也是一个挑战。数据库成本不仅仅包括硬件和软件成本,还包括人力资源和时间成本。因此,我们需要与业务团队充分沟通,让他们理解数据库降本增效策略的重要性,并愿意为其投入资源和支持。

  3. 迁移切换带来的数据库稳定性问题也是一个挑战。数据库迁移往往伴随着数据转移切换、架构调整等操作,容易引起系统故障,可能会影响 SLA 保障。为了应对这一挑战,我们采取了谨慎的迁移计划和准备工作,提前进行充分的测试和验证,确保迁移过程的顺利进行,并及时处理可能出现的问题。


InfoQ:在降低数据库成本方面,你们应用了哪些新技术?分别起到了怎样的作用?能否分享一些成功案例?


代晓磊: 在降低数据库成本方面,我们采用了数据库容器化部署、AIOps(人工智能运维)、以及运维平台化等新技术。


  1. 数据库容器化部署:通过将数据库容器化部署,实现了快速部署、弹性伸缩和资源隔离,提高了资源利用率和灵活性,同时减少了硬件成本和人力成本,加速了开发和测试过程。比如我们的 TiDB 以及 Redis 都是跑在 Kuberenetes 集群中,基于 operator 自动管控。

  2. AIOps:引入 AIOps 技术,通过机器学习和数据分析,实现了自动化故障检测、预测性维护和智能优化,提高了系统的稳定性和性能,减少了故障处理时间,降低了人力成本。比如我们通过 ELK 收集各个数据库的日志和性能指标、机器的资源指标等来辅助管理 DB。

  3. 运维平台化:建立了天穹平台,集中管理和监控数据库资源,提供统一的管理界面和自动化运维工具,减少了人工操作和管理成本,同时提高了运维效率和数据库服务的可靠性。


InfoQ:您如何评估知乎数据库降本增效实战所取得的收益效果?是否能提供一些具体的案例展示?


代晓磊: 我们通过监控数据库成本、资源利用率、性能指标等多方面的数据来评估降本增效实战的收益效果。我们实现了数据库成本的降低、资源利用率的提高、性能指标的改善等目标,并取得了显著的效益。例如,数据库的成本 2 年 + 为公司节省千万,天穹平台的推出成功提升了业务的 oncall 效率,DBA 的运维从黑屏到白屏平台的工单审批操作,降低了数据库运维安全风险,提升了运维效率,保障了数据库的性能和稳定性,为业务的发展提供了可靠的基础服务支撑。


InfoQ:对于那些正在寻求降本增效的企业或团队,您有什么建议或经验分享?


代晓磊: 我建议他们首先充分了解自身业务需求和数据库现状,加强数据库资源梳理和管控,明确降本增效的目标和重点。其次,要往“外”看,多多了解其他社区或者大厂都在使用什么数据库,如何使用的,不断学习和探索新的技术和降本增效的方案。最后,要注重实践和持续改进,不断优化数据库架构和运维流程,持续提升降本增效的能力。


本届 ArchSummit 会议上,我们邀请了 CNCF、顺丰集团、腾讯、百度等企业的专家来演讲。会议上还设置了大模型、架构升级等专题,如果你感兴趣来会议上演讲,欢迎点击进入 ArchSummit 会议官网,提交议题。

2024-03-25 18:424241
用户头像

发布了 182 篇内容, 共 104.5 次阅读, 收获喜欢 208 次。

关注

评论

发布
暂无评论
发现更多内容

从“13天”到“0天”延时,揭秘幸福里离线SLA保障最佳实践

字节跳动数据平台

大数据 数据中台 数据治理 数据安全 企业号9月PK榜

学会PCB通用布局规则,复杂设计也能轻松搞定!

华秋电子

PCB

华为云云耀云服务器实例L:为企业提供安全可靠的轻量应用服务器架构

平平无奇爱好科技

2023年,小游戏分发平台的机遇与挑战

没有用户名丶

混合应用前端框架HybridApp篇

没有用户名丶

mac电脑录屏截图标注首选 CleanShot X 最新激活版

胖墩儿不胖y

Mac软件 截图软件 截图工具 屏幕截图软件

谈谈JSF业务线程池的大小配置 | 京东物流技术团队

京东科技开发者

测试 测试用例 jsf 企业号9月PK榜

文盘Rust——子命令提示,提高用户体验 | 京东云技术团队

京东科技开发者

rust cli 企业号9月PK榜 领域交互

WorkPlus Meet | 私有化部署视频会议系统,实现安全高效跨屏协作的利器

BeeWorks

从软件工程师角度聊聊 Kubernetes

SEAL安全

容器 k8s 解决方案 kubernetes 运维 企业号9月PK榜

一种基于动态代理的通用研发提效解决方案

阿里技术

一见“氢”心-康士柏氢能产业链蓄力待发

极客天地

华为云云耀云服务器L实例:中小企业和开发者的云端伙伴

平平无奇爱好科技

视频剪辑中花式抠图的代码实操与案例详述

阿里云CloudImagine

云计算 阿里云

头部媒体经观传媒传依托博睿数据,将故障排查效率提升60%

博睿数据

可观测性 博睿数据

弹性数据库连接池探活策略调研(三)——DBCP | 京东云技术团队

京东科技开发者

数据库 数据库连接池 企业号9月PK榜 DBCP

亚信安慧荣膺“信创工委会技术活动单位”

亚信AntDB数据库

AntDB 国产数据库 AntDB数据库

多重安全防护加持,华为云828营销季为中小企业构建上云安全感

平平无奇爱好科技

七种 BeanDefinition,各显其能!

江南一点雨

Java spring

接网线怎么保留了568B线序

小齐写代码

时序数据库 TDengine 官网全新上线,四大亮点抢先看

TDengine

tdengine 时序数据库 工业互联网

HBuilder开发者必备!Windows上传IPA文件的软件分享

百度输入法全面升级,打造首个基于大模型的输入法原生应用

彭飞

两年怒省上千万,知乎数据库降本增效实战_技术选型_Xue Liang_InfoQ精选文章