写点什么

两年怒省上千万,知乎数据库降本增效实战

  • 2024-03-25
    北京
  • 本文字数:3267 字

    阅读完需:约 11 分钟

两年怒省上千万,知乎数据库降本增效实战

数据库在企业的数据管理和运营中扮演着越来越重要的角色。然而,高昂的数据库成本和低效的运营可能成为企业发展的拦路虎。


将在 2024 年 6 月 14-15 日深圳举办的 ArchSummit 全球架构师峰会上,我们邀请到了知乎数据库架构团队负责人代晓磊老师来分享一些降低数据库成本、提高效率的关键策略,以及知乎团队如何通过优化数据库配置、采用新技术、实施自动化管理等方式来实现降低成本的;同时,他也会介绍如何通过数据分析和性能优化来提高数据库的效率,从而实现降本增效的目标。在正式演讲之前,我们做了简短的采访,请代老师介绍他们的一些技术思路,提前剧透,以飨读者。



InfoQ:在降低数据库成本和提高效率方面,您认为最关键的策略是什么?能否详细介绍一下?


代晓磊: 最关键的策略是通过优化数据库架构和性能来实现成本降低和效率提升。我们重点关注以下几个方面:


(1) 数据库资源的合理利用:优化数据库配置、合理规划硬件资源,确保资源利用率最大化。


(2) 数据库查询和操作的优化:通过索引优化、SQL 调优等手段,提升查询效率,减少资源消耗。


(3) 数据库的自动化管理:利用自动化工具和流程,降低管理成本,提高运维效率。


InfoQ:在知乎数据库降本增效的实战中,都采取了哪些具体的措施和方法?


代晓磊: 在知乎,我们不仅仅采取了诸如合理的分布式数据库选型、基于 FinOps 合理规划硬件资源、服务器机型替换、对象存储优化等传统措施。此外,我们还引入了天穹自动化运维平台,该平台能够实现业务数据库变更的自助管理,同时也让 DBA 对数据库的管理实现了自动化,从而大大提高了数据库管理的效率和稳定性。通过这些创新措施的结合应用,我们在实践中不断探索和推进数据库降本增效的路径,为知乎的数据管理提供了更加全面和可靠的解决方案。


InfoQ:您如何看待数据库降本增效中的 FinOps 在实际应用中的作用?它对降低成本和提高效率有何影响?


代晓磊:FinOps 在数据库降本增效中扮演着不可或缺的角色。通过成本可见性、成本优化、预算管理、自动化和持续改进等手段,帮助组织更好地降低数据库成本,提高资源利用率,实现数据库管理的成本效益最大化。


首先,FinOps 提供了成本可见性。通过实时监控和分析数据库资源的使用情况,组织能够清晰地了解数据库成本的构成和分布情况。这使得组织能够更好地识别成本的主要来源,进而采取相应措施降低成本。


其次,FinOps 强调成本优化。基于成本可见性,FinOps 提供了优化数据库资源使用的方法和工具。通过合理规划数据库资源的使用,选择适当的规格和类型,以及优化数据库配置和性能,可以降低成本并提高资源利用率。


第三,FinOps 推动预算管理。通过制定和管理预算,组织能够更有效地控制数据库成本。合理规划预算和资源分配,确保在满足业务需求的前提下最大程度地降低成本。


此外,FinOps 倡导流程自动化和成本优化。通过自动化工具和流程,实现数据库资源的智能分配和管理,提高运营效率,并减少人工成本。持续改进也是 FinOps 的核心理念之一,通过不断优化数据库资源的使用和管理,实现成本的持续降低和效率的持续提高。


InfoQ:平台化在数据库降本增效中扮演着怎样的角色?您能分享一些在实践中取得成功的平台化案例吗?


代晓磊: 平台化在数据库降本增效中扮演关键角色,通过标准化、自动化数据库管理流程,提高效率、降低人工成本;同时提供统一监控和管理,优化资源利用率,增强系统稳定性,推动数据库成本降低与效率提升。


例如,我们建立了一站式数据库自动化管理平台:天穹平台,为各业务团队提供统一的数据库服务和管理接口,实现了数据库资源的最大化利用和管理的便捷化。


InfoQ:您认为数据库降本增效的 5 个要素中,哪些是最具挑战性的?为什么?


代晓磊: 数据库降本增效的五个要素中,最具挑战性的要素分别是性能优化和数据库容器化。


  1. 性能优化:性能优化涉及诸多方面,包括查询优化、索引设计、存储引擎选择等,需要综合考虑数据库结构、数据量、业务需求等因素。挑战在于识别性能瓶颈、设计有效的优化策略,需要深入理解数据库的工作原理和业务特性,以及不断的性能测试和调优。

  2. 数据库容器化:数据库容器化涉及到将传统的数据库系统迁移到 Kuberenets 环境中,需要解决诸如数据持久化、性能稳定性、安全性等问题。数据库在容器环境中的部署和管理相对复杂,需要考虑容器间的网络通信、资源隔离等方面,同时确保数据的一致性和可靠性,这是一个技术挑战和组织变革的过程。


因此,性能优化和数据库容器化是数据库降本增效中最具挑战性的要素,需要综合考虑技术、业务和组织等多方面因素,采取有效的策略和方法应对挑战,才能实现数据库管理的成本效益最大化。


InfoQ:在实施数据库降本增效策略时,您遇到过哪些主要的挑战?又是如何应对的?


代晓磊: 在实施数据库降本增效策略时,我们遇到了一些主要的挑战,其中包括分布式数据库选型、与业务团队沟通成本、以及迁移切换对数据库稳定性的影响 等方面。


  1. 分布式数据库选型是一个复杂的决策过程,需要考虑多个因素,如性能、可靠性、成本等。我们需要对不同的分布式数据库进行评估和比较,以选择最适合我们业务需求的解决方案。这涉及到技术评估、性能测试等工作,需要投入大量时间和精力。

  2. 与业务团队沟通成本也是一个挑战。数据库成本不仅仅包括硬件和软件成本,还包括人力资源和时间成本。因此,我们需要与业务团队充分沟通,让他们理解数据库降本增效策略的重要性,并愿意为其投入资源和支持。

  3. 迁移切换带来的数据库稳定性问题也是一个挑战。数据库迁移往往伴随着数据转移切换、架构调整等操作,容易引起系统故障,可能会影响 SLA 保障。为了应对这一挑战,我们采取了谨慎的迁移计划和准备工作,提前进行充分的测试和验证,确保迁移过程的顺利进行,并及时处理可能出现的问题。


InfoQ:在降低数据库成本方面,你们应用了哪些新技术?分别起到了怎样的作用?能否分享一些成功案例?


代晓磊: 在降低数据库成本方面,我们采用了数据库容器化部署、AIOps(人工智能运维)、以及运维平台化等新技术。


  1. 数据库容器化部署:通过将数据库容器化部署,实现了快速部署、弹性伸缩和资源隔离,提高了资源利用率和灵活性,同时减少了硬件成本和人力成本,加速了开发和测试过程。比如我们的 TiDB 以及 Redis 都是跑在 Kuberenetes 集群中,基于 operator 自动管控。

  2. AIOps:引入 AIOps 技术,通过机器学习和数据分析,实现了自动化故障检测、预测性维护和智能优化,提高了系统的稳定性和性能,减少了故障处理时间,降低了人力成本。比如我们通过 ELK 收集各个数据库的日志和性能指标、机器的资源指标等来辅助管理 DB。

  3. 运维平台化:建立了天穹平台,集中管理和监控数据库资源,提供统一的管理界面和自动化运维工具,减少了人工操作和管理成本,同时提高了运维效率和数据库服务的可靠性。


InfoQ:您如何评估知乎数据库降本增效实战所取得的收益效果?是否能提供一些具体的案例展示?


代晓磊: 我们通过监控数据库成本、资源利用率、性能指标等多方面的数据来评估降本增效实战的收益效果。我们实现了数据库成本的降低、资源利用率的提高、性能指标的改善等目标,并取得了显著的效益。例如,数据库的成本 2 年 + 为公司节省千万,天穹平台的推出成功提升了业务的 oncall 效率,DBA 的运维从黑屏到白屏平台的工单审批操作,降低了数据库运维安全风险,提升了运维效率,保障了数据库的性能和稳定性,为业务的发展提供了可靠的基础服务支撑。


InfoQ:对于那些正在寻求降本增效的企业或团队,您有什么建议或经验分享?


代晓磊: 我建议他们首先充分了解自身业务需求和数据库现状,加强数据库资源梳理和管控,明确降本增效的目标和重点。其次,要往“外”看,多多了解其他社区或者大厂都在使用什么数据库,如何使用的,不断学习和探索新的技术和降本增效的方案。最后,要注重实践和持续改进,不断优化数据库架构和运维流程,持续提升降本增效的能力。


本届 ArchSummit 会议上,我们邀请了 CNCF、顺丰集团、腾讯、百度等企业的专家来演讲。会议上还设置了大模型、架构升级等专题,如果你感兴趣来会议上演讲,欢迎点击进入 ArchSummit 会议官网,提交议题。

2024-03-25 18:424402
用户头像

发布了 182 篇内容, 共 107.0 次阅读, 收获喜欢 210 次。

关注

评论

发布
暂无评论
发现更多内容

NumPy之:使用genfromtxt导入数据

程序那些事

Python 数据分析 Numpy 程序那些事

区块链+农业,如何升级农业价值链

CECBC

农业

STM32低功耗模式下GPIO如何配置最节能?

不脱发的程序猿

嵌入式 stm32 单片机 低功耗模式

如何快速制作短视频?拥有这个神器,轻松搞定!

奈奈的杂社

短视频 视频剪辑 自媒体

全新 Jira 系列,适用于所有团队!

Atlassian

DevOps 敏捷 Atlassian Jira

轶事

言未卜

模块2学习总结

TH

架构实战营

看完阿里P7技术大牛的JVM知识点总结,竟帮我斩获了3份大厂Offer

飞飞JAva

Java JVM

Offer收割机!阿里P7大神甩出JSP实战笔记,网友:信息量过大

飞飞JAva

Java

第三次作业

Geek_9cf7b5

在线体验四大名著情景(地图、游戏)

不脱发的程序猿

开源 程序人生 四大名著

运维五一不加班,从一套On-Call响应机制开始!

睿象云

运维 告警 智能运维 告警设置 告警管理

Hive解析Json数组超全讲解

五分钟学大数据

hive 5月日更

Tars Java 客户端源码分析

vivo互联网技术

Java TARS RPC架构

架构实战营模块3作业

Vic

架构实战营

从5大挑战带你了解多模态机器学习

华为云开发者联盟

机器学习 多模态机器学习 多模态 异构数据

rocketmq优雅停机往事

捉虫大师

nmon和nmon analyser的网盘下载安装与使用

InfoQ_Springup

工具

腾讯T6!万字长文体系化讲解Spring源码,码农:太透彻了,学会了

牛哄哄的java大师

Java

一周信创舆情观察(4.26~5.5)

统小信uos

架构实战模块三作业

Geek_649372

架构实战营

第一个鸿蒙应用

释缘

鸿蒙 HarmonyOS

“区块链+疫情预警”!这个科研团队研发了传染病预警系统

CECBC

疫情

存算解耦的多模型数据管理平台介绍:以星环科技TDH8.0为例

星环科技

人工智能 大数据 云平台 数据管理平台 存算解耦

深入浅出 LVS 负载均衡系列(二):DR、TUN 模型原理

UCloud技术

负载均衡

从狗狗币说起 看区块链的未来发展方向

CECBC

狗狗币

模块2作业 微信朋友圈高性能复杂度

TH

架构实战营

如何在苹果M1上安装使用FL Studio

奈奈的杂社

编曲 教程分享 编曲软件

数仓ETL系统:给强大的“心脏”配上“超级流水线”

华为云开发者联盟

数据库 数据仓库 GaussDB(DWS) ETL系统 MPPDB

双向循环链表:鸿蒙轻内核中数据的“驿站”

华为云开发者联盟

鸿蒙 数据结构 结构体 OpenHarmony 双向循环链表

超详细教程:SpringBoot整合MybatisPlus

华为云开发者联盟

Java spring springboot 代码 MyBatisPlus

两年怒省上千万,知乎数据库降本增效实战_技术选型_Xue Liang_InfoQ精选文章