写点什么

数据规模

收录了 数据规模 频道下的 50 篇内容

规模化时间序列数据存储 Part1

Netflix使用会员的视频观看记录实时准确地记录用户的观看情况,并为会员提供个性化推荐。Netflix的发展,对视频观看记录时序数据存储的规模化提出了挑战,原有的单表存储架构无法适应会员的大规模增长。本文介绍了Netflix团队在规模化时序存储中的做法,包括数据存储方式的改进,以及在存储架构中添加缓存层。存储架构在Netflix的实际应用验证了该时序数据存储的有效性。

数据规模超 1PB ,揭秘网易游戏规模化 TiDB SaaS 服务建设实践
数据规模超 1PB ,揭秘网易游戏规模化 TiDB SaaS 服务建设实践

TiDB在网易游戏的技术实践。

从“大数据”到“小数据”,“隐语”开源SCQL助力不同规模数据安全分析
从“大数据”到“小数据”,“隐语”开源 SCQL 助力不同规模数据安全分析

在数据要素战略持续升级的背景下,发展以隐私计算为代表的密态技术,是解决大规模数据安全可信流转的技术手段。

基于动态知识图谱的大规模数据集成技术
基于动态知识图谱的大规模数据集成技术

本文介绍百分点认知智能实验室出品的基于动态知识图谱的大规模数据集成技术。

百度大规模时序数据存储(二)| 存储选型及数据模型设计
百度大规模时序数据存储(二)| 存储选型及数据模型设计

本篇将介绍 TSDB 在方案选型和存储模型设计上的实践。

大规模数据处理初体验:怎样实现大型电商热销榜?
大规模数据处理初体验:怎样实现大型电商热销榜?

今天我们就以大型电商热销榜为例,来谈一谈从 1 万用户到 1 亿用户,从 GB 数据到 PB 数据系统,技术思维需要怎样的转型升级?

EB 级大规模存储的数据面设计与思考
EB 级大规模存储的数据面设计与思考

全文总共分为三个部分,第一部分对大规模数据存储进行概述;第二部分以百度网盘为例介绍百度沧海如何支撑 EB 级大规模存储;第三部分享一些相关的经验与思考。

百度大规模时序数据存储(三)| 核心功能设计
百度大规模时序数据存储(三)| 核心功能设计

本文将着重介绍在 TSDB 中起了重要作用的两个核心功能的设计。

知乎首页已读数据万亿规模下高吞吐低时延查询系统架构设计
知乎首页已读数据万亿规模下高吞吐低时延查询系统架构设计

本次分享介绍目前知乎已读服务的整体架构以及如何在这个架构上应对各种挑战满足业务需求。

etcd在超大规模数据场景下的性能优化
etcd 在超大规模数据场景下的性能优化

本篇文章首先介绍etcd优化的背景,为什么要进行优化, 之后介绍 etcd 内部存储系统的工作方式,之后介绍本次具体的实现方式及最后的优化效果。

在数据规模重压、多维度查询需求之下,支付平台的迁移之旅
在数据规模重压、多维度查询需求之下,支付平台的迁移之旅

MySQL的问题:之前的一次二次扩容的经历

金融级分布式数据库打造!TDSQL在微众银行的大规模实践
金融级分布式数据库打造!TDSQL 在微众银行的大规模实践

微众银行在2014年成立之时,就非常有前瞻性的确立了分布式架构的基础架构。当时,腾讯有一款金融级的分布式数据库产品TDSQL,其业务场景和对数据库的可靠性要求,和银行场景非常类似。

为何底层数据湖决定了 AI Agent 的上限?
为何底层数据湖决定了 AI Agent 的上限?

“可以说,我们是国内最早引入 Lance 的团队之一。”

烧钱,能解决 AI 存储的焦虑吗?
烧钱,能解决 AI 存储的焦虑吗?

存储短缺带来的焦虑,在 2026 年仍将延续。

自主式大数据优化:通过多智能体强化学习实现 Apache Spark 的自调优
自主式大数据优化:通过多智能体强化学习实现 Apache Spark 的自调优

一个基于 Q-learning 的强化学习(RL)智能体,通过观察数据集特征、尝试不同的 Spark 配置,并从性能反馈中学习,能够自主学习出最优的 Spark 配置策略。

Gemini 3预训练负责人警告:模型战已从算法转向工程化!合成数据成代际跃迁核心,谷歌碾压OpenAI、Meta的秘密武器曝光
Gemini 3 预训练负责人警告:模型战已从算法转向工程化!合成数据成代际跃迁核心,谷歌碾压 OpenAI、Meta 的秘密武器曝光

以绝对王者之姿强势突围,一登场就刷新了行业的认知边界。直接“横扫”多项权威基准测试,以“世界最强多模态理解”“交互最深智能体”“推理怪兽”的姿态,强势碾压全球所有同类模型。

9000+ 核跑并行:ClickHouse 数据库让任意查询语句肆意奔驰
9000+ 核跑并行:ClickHouse 数据库让任意查询语句肆意奔驰

借助并行副本(parallel replicas),ClickHouse 可以让一台拥有 90 个核心的机器与一百台共 9000 核心的集群,执行查询时表现一致。

万亿数据规模下,火山引擎ByteHouse助力银行日志数据高效分析
万亿数据规模下,火山引擎 ByteHouse 助力银行日志数据高效分析

ByteHouse将持续为银行等金融领域提供高性能、高可用的分析服务,助推数据价值进一步释放。

数据库
云原生
Clickhouse
数仓
企业数据规模扩展中 YashanDB 的弹性设计探索

在企业快速发展的过程中,数据量的迅速增加和对数据处理效率的更高要求成为了企业面临的重大挑战之一。如何在保持高可用性和灵活性的同时实现对海量数据的有效管理,是每一个企业必然考虑的问题。针对这一关键问题,本文将探索YashanDB的弹性设计,以实现企业

AWS 数据底座S3,万亿数据规模下是如何做到数据“强一致性”的
AWS 数据底座 S3,万亿数据规模下是如何做到数据“强一致性”的

AWS S3 是如何在万亿数据规模,每秒千万次请求下,既要保证可用性(99.99%),持久性(11个9)的前提下,同时做到数据强一致性的呢?让我们一探究竟。

云计算
AWS
aws s3
数据规模专题_资料-InfoQ中文网