大数据
讲述数据获取、存储、管理、分析的方方面面,关注软件、实践、生态,挖掘最新的前沿技术,同时也思考大数据与AI和云计算的深度结合。
- 全部
- DataOps
- 数据集成
- DataMesh
- 数据编织
- 数据湖仓
- 在离线混部
- 实时计算
- 其他

企业落地 NL2SQL,需要的是「AI-ready Data」和「小模型」
当 NL2SQL 从 Demo 走向生产,关键不在“更大的模型”,而是“更干净的数据底座 + 更小的专用模型 + 更可控的工程化流程”。

圆桌研讨:《共话数据库发展新路径:人才、产业与技术研讨》| 腾讯云数据库 DBTalk
围绕人才培养、产学研合作、未来数据库发展方向三个方向展开讨论。

数据库事务一致性验证问题: 前沿技术与发展趋势探讨
事务是数据库系统中的核心概念,是支撑在线交易顺利进行的关键技术。事务 ACID 特性中的“隔离性”要求并发事务互不干扰,以防止上层业务产生数据异常。

SIGMOD 25’TXSQL 内核热点更新优化
TXSQL 实现了高达 7 倍的性能提升,同步场景下性能提升更明显

查询生成与查询优化技术: 人工智能赋能视角
首先,探讨基于大模型技术的查询生成技术。其次,探讨基于深度学习的前沿查询优化技术。最后,对未来发展趋势进行展望与讨论。

面向数据库参数调优的负载压缩
生成推荐参数配置。评估参数配置性能。调整优化模型。

跨域数据的压缩技术: 从数据库存储到大语言模型优化
通过对跨域数据压缩技术的系统介绍,分析新应用对于压缩技术带来的新挑战,并对压缩技术的发展进行展望。

Netflix 如何重新定义视频、音频和文本的数据工程
Netflix 推出了一个新的工程专业化领域——媒体机器学习数据工程(Media ML Data Engineering),以及一个旨在大规模处理视频、音频、文本和图像资产的媒体数据湖。早期成果包括在标准化媒体上训练的更丰富的机器学习模型、更快的评估周期,以及对创意工作流程的更深入洞察。

货拉拉大数据存储实践与 AI 时代的应对
上的灾备、迁移实践经验。时代的到来,给存储领域带来了新的挑战,我们将探讨这些挑战,并展示货拉拉如何联合腾讯云打造创新的解决方案。

ClickHouse 内部的全文搜索:快速、原生、列式架构
我们在 ClickHouse 中彻底重构了全文搜索功能,性能更高、更轻量,并且与列式数据库架构深度融合。

直播预告| 三大顶会被「中国技术」霸屏,国产数据库的领跑密码是什么?
见证国产数据库从「跟跑」到「领跑」的高光时刻!

别了磁盘:ClickHouse Cloud 中无状态计算背后的架构
ClickHouse Cloud 现在彻底告别了磁盘。

数据分析师,即将从工业领域“消失”?
数据找人、无问智推?数据分析师会在多大程度上被 AI 取代?InfoQ 特别采访了涛思数据创始人 &CEO 陶建辉,聊了聊涛思数据最新的发布,以及 BI 类产品正在发生的变化。

困在产业落地的数据流通,开源会成为“破局点”吗?
8 月 14 日,隐语开源社区宣布在三周年之际全新升级:将由“可信隐私计算开源社区”扩容为“隐语·数据可信流通技术社区”,并将逐步覆盖隐私保护计算、可信数据空间、数据元件、数联网、区块链、数场等六大技术路线并形成多技术路线的融合。升级后的隐语,未来将以开源代码、共建标准和共创场景,为企业提供一站式、可验证、可互联的数据流通技术底座。

特斯拉如何基于 ClickHouse 构建千万亿级别的可观测性平台
他们选择了 ClickHouse,并构建出 Comet——一个具备 Prometheus 式简洁体验

Cloudflare 选择 PostgreSQL 扩展而不是专用的 OLAP 来进行 100K 行 / 秒的分析
在最近一篇由 Zero Trust 产品套件背后的工程团队撰写的文章中,Cloudflare 解释了为什么选择 TimescaleDB 而不是 ClickHouse 来为其内部平台增加分析和报告功能。作者强调了存储分析数据与配置数据的简单性与专用 OLAP 系统的性能之间“惊人的平衡”。

开源基金会:使用 Apache Iceberg 和 SparkSQL 构建可复制的 ML 系统
Apache Iceberg 和 SparkSQL 为你的数据湖带来了类似数据库的可靠性。时间旅行、模式演化和 ACID 事务有助于支持可重复的机器学习实验。

ClickHouse 25.6 盛夏福利版:CoalescingMergeTree 表引擎
CoalescingMergeTree —— 一个全新的表引擎,专为整合稀疏更新设计,可以在不损失数据完整性的前提下,帮你有效减少行数

三年之约,相聚北京!邀您见证迈向“数据流通全栈技术生态”的全新隐语
2025 年 8 月 14 日·北京,报名通道已开启!更多精彩议程抢先解锁

数据基建:云厂商的“新阳谋”
业界需要更具全局思维、更全能的数据基础设施。

AI 集成的智能 Profiling 实践:从性能分析到优化闭环
本文将分享该功能的设计思路、工程实现与应用成效,并探讨 AI 在性能优化场景下的未来潜力。

Amazon S3 新增排序和 Z-Order 压缩功能,提升 Apache Iceberg 查询性能
Amazon S3 支持 Apache Iceberg 表的排序和叠放顺序压缩功能,能够有效减少数据扫描时间,降低引擎成本。

优化搜索系统:平衡速度、相关性和可伸缩性
创新的软件工程师专注于优化动态环境中的搜索性能。本文重点介绍了我们在 2024 年旧金山 QCon 演讲中的关键策略,以解决优步外卖(Uber Eats)等平台在数据索引和检索方面面临的挑战。

得物新一代可观测性架构:海量数据下的存算分离设计与实践
得物可观测性平台采用了存算分离架构,结合 AutoMQ 和 Kafka 以及 ClickHouse 存储技术,实现了高效的资源管理和性能优化。

扩展可观测性平台至 100 PB:通过拥抱宽事件并替换 OTel 实现突破
越来越多的团队正在将 ClickHouse 用于可观测性场景,并惊喜地发现可以以极低的成本存储和查询海量数据。

Databricks 为 Apache Spark 提供了 Spark 声明式管道
在 6 月 10 日至 12 日于美国旧金山举行的 Databricks Data+AI 峰会上,Databricks 宣布将 Delta Live Tables(DLT)背后的技术贡献给 Apache Spark 项目,这个项目中,它将被称为 Spark 声明式管道(Spark Declarative Pipelines)。这一举措将使 Spark 用户更容易开发和维护流式管道,并进一步体现了 Databrick 对开源的承诺。

腾讯云与 Gartner 联合发布“Data+AI”白皮书,各行业领军企业分享最佳实践
过去二十年,数据平台的发展随着互联网时代的崛起而不断加速。BigTable,奠定了现代大数据技术的基石。

计算引擎焕新:MySQL 8.0 内核 + 分布式增强,兼容性与功能双突破
计算引擎焕新:MySQL 8.0 内核 + 分布式增强,兼容性与功能双突破

敏态数据难题:传统分库分表的弹性瓶颈与 TDstore 的破局之道
敏态数据难题:传统分库分表的弹性瓶颈与 TDstore 的破局之道

TDSQL PG 性能优化全景:从分布式交互到单核效率,三维突破实现极致提速
TDSQL PG 性能优化全景:从分布式交互到单核效率,三维突破实现极致提速