大数据
讲述数据获取、存储、管理、分析的方方面面,关注软件、实践、生态,挖掘最新的前沿技术,同时也思考大数据与AI和云计算的深度结合。
- 全部
- DataOps
- 数据集成
- DataMesh
- 数据编织
- 数据湖仓
- 在离线混部
- 实时计算
- 其他

从 OTel 到 Rotel:每秒处理量提升 4 倍的 PB 级追踪系统
得益于其高压缩比和良好的成本效益,ClickHouse 越来越多地被用于大规模的 OpenTelemetry 负载中。

从查询计划分解到 100%MySQL 兼容:TDSQL-B 并行查询技术的实现与优势
从查询计划分解到 100%MySQL 兼容:TDSQL-B 并行查询技术的实现与优势

TDSQL-B 数据库核心优化思路:从一体化对等架构到高性能 Raft Log 存储
TDSQL-B 数据库核心优化思路:从一体化对等架构到高性能 Raft Log 存储

超大规模化繁为简,TDSQL-B 的四大核心适用场景
超大规模化繁为简,TDSQL-B 的四大核心适用场景

DuckDB 的 WebAssembly 客户端支持在浏览器中查询 Iceberg 数据集
DuckDB 最近推出了一项新功能,可以在浏览器标签页内直接与 Iceberg REST Catalog 进行端到端交互,而无需配置任何基础设施。该功能依托于 DuckDB-Wasm,支持用户以无服务器方式查询、读取和写入 Iceberg 表。

Alexey 精选的 2025 年他最喜欢的 ClickHouse 功能
2025 年发布的 ClickHouse 各版本共计引入了 277 项新功能 、319 项性能优化以及 1051 个 bug 修复。

Swiggy 内部 AI 助手升级:Text-to-SQL 不够用了,Agent 开始接管数据分析
Swiggy 推出 Hermes V3,从 Text-to-SQL 走向对话式 AI。

从 SQL 到自然语言,下一代 Lakehouse 为何必须「AI 优先」
下一代 AI-first Lakehouse 技术展望。

MinIO GitHub 存储库的维护模式:开源对象存储的下一步是什么?
在一次有争议的许可证变更和从控制台中移除管理员功能之后,支持流行的开源对象存储服务器 Minio 的公司最近宣布该项目将进入维护模式。这一变化在社区引发了关于分叉的必要性、开源项目的挑战以及 Garage、SeaweedFS 和其他替代方案的可行性的讨论。

通过对话式 AI Agent 运用 Snowflake Intelligence,从成本、安全和性能三个维度全面提升您整体系统的表现 | 技术实践
的投资回报远超预期?41%!我的灵感来源于 @umeshpatel_us。何时能直接为我们提供一个包含所有这些内容的语义视图。

从查询到行动:AI 智能体如何重塑企业决策方式 | 技术实践
我们构建了一款原生集成于 Snowflake 的 AI 智能体,它不仅能够分析数据,更能实时规划并执行操作任务。这标志着企业人工智能领域正在经历一场更深刻的范式转变——一场悄然重塑决策机制的革命。

优步采用 Amazon OpenSearch 进行语义搜索,以更好地捕捉用户意图
为了提升搜索与推荐的用户体验,优步(Uber)从 Apache Lucene 迁移到了 Amazon OpenSearch,以支持大规模向量搜索并更精准地捕捉用户搜索意图。此次迁移带来了若干基础设施方面的挑战,优步的工程师通过针对性的解决方案逐一将其克服。

一旦运营环节出错,数据平台必须稳如磐石——Snowflake 灾难恢复为何成了必备能力? | 技术趋势
在快速变化的环境中,Snowflake 的灾备恢复如何运作?您应部署哪些工具与实践方案进行准备?又该如何着手启动?这篇博客将会带来详细解读。

从架构到引擎:TDSQL-MySQL 并行查询技术全链路拆解 | 腾讯云数据库 DBTalk
2 款产品。这个分享从介绍这 2 款产品的总体架构和各自产品的查询处理的总体流程入手从并行查询的整体构架到每个模块的实行细节逐渐分解,对整个并行查询的核心技术做详细的阐述。

新一代分布式数据库:TDSQL Boundless 架构特性与场景选型指南 | 腾讯云数据库 DBTalk
产品家族的新一代分布式数据库产品。提供了高弹性和高灵活性,在支撑海量数据管理的同时,并不会增加架构和运维的复杂度。

TDSQL Boundless 存储引擎核心技术架构与性能优化之道 | 腾讯云数据库 DBTalk
作为新一代腾讯云原生分布式数据库产品,在面对海量敏态数据业务场景下,具有高性能、弹性扩缩容等特点。性能优化等方面的设计思考。

2025 Snowflake 峰会重点:构建 AI 和应用的未来 | 技术趋势
随着越来越多的企业寻求利用人工智能和覆盖全数据生命周期的应用来创造价值,并让组织内的全体员工都能受益,强大的数据基础变得前所未有的重要。

告别 Agent “泛滥成灾”:火山引擎基于 200 + 企业样本的 AI 管理架构
IT 产业的历史,总是惊人的相似。年代,企业开始信息化建设,各部门“见软件就买”——财务系统、仓储系统、CRM……在早期,这确实显著提升了单点效率,但很快就撞上了一堵墙:系统之间数据不通、流程断裂,部门各自为政,企业内部竖起一座座“烟囱”。

构建可扩展的流媒体基础设施:因为观众不会等到明天
在流媒体领域,挑战是即时的:用户现在就在观看电视节目,而不是计划明天再看。当系统在黄金时段发生故障时,根本没有恢复窗口;观众会立即离开,并可能一去不返。一年半前,ProSiebenSat.1 Media SE 面临着为国际用户扩展流媒体应用的挑战。

迪卡侬采用 Polars 优化数据管道与算力成本
迪卡侬分享了其采用开源库 Polars 来优化数据流水线的原因。

Visual Studio 2026 正式发布,带来 AI 原生 IDE 和提升性能
微软正式发布 Visual Studio 2026(版本 18.x),这是其旗舰集成开发环境的首个“AI 原生”版本。在正式版发布之前,微软通过 Insiders 通道进行了全面验证。

筑基 AI 战略:从数据采集到 AI 就绪的数据工程变革
在 Snowflake 年度技术盛会 Build 的第三天,Snowflake 产品副总裁 Chris Child 发表了题为《从数据采集到 AI 就绪的数据工程》主题演讲。本次演讲的主旨非常明确:没有数据战略,就没有真正的 AI 战略。演讲通过一系列技术演示和深度论述,阐述了数据工程师如何利用 Snowflake 的端到端平台,将原始数据转化为能够支撑 AI 成功的坚实基础。

赋能开发者:Snowflake 如何实现 AI 规模化影响力
在近期举行的 Snowflake Build 大会上,Snowflake 产品管理总监 Jeff Holland 发表了题为《实现 AI 规模化影响力》的主题演讲 。他以一名“构建者”和 AI 开发者的视角,深度回顾了 Snowflake 在 AI 领域的最新技术突破、行业应用场景以及为全球开发者提供的创新基础设施。

构建 Agentic AI 未来:Snowflake Build 大会开幕主题演讲技术发布一览
在近期举行的 Snowflake Build 大会上,Snowflake 产品执行副总裁 Christian Kleinerman 携团队发表了以《构建 Agentic AI 未来》为主题的开幕演讲 。本次演讲集中发布了一系列旨在助力企业激活数据价值、通过 AI 提升生产力并构建智能体应用( Agentic Apps)的重磅功能与技术更新。

性能炸裂、成本降低 20%,腾讯云 TDSQL Boundless 如何做到的?| Q 推荐
掌握 TDSQL Boundless 架构特性、TDSQL-MySQL 并行查询技术,构建分布式数据库技术认知体系

Grab 为其平台新增实时数据质量监控功能
Grab 升级了其内部平台,以实时监控 Apache Kafka 的数据质量。该系统结合 FlinkSQL 与大语言模型(LLM),能够检测数据中的语法错误和语义错误。目前,该平台已覆盖 100 多个 Kafka 主题,有效阻止无效数据流入下游用户。这一主动式策略契合行业趋势,也就是将数据流视为可靠的产品进行治理与保障。

Vike 发布 Photon 平台,搭载新一代 JavaScript 部署基础设施并集成 Cloudflare 服务
Vike 推出 Photon,这是一个可以在任何平台上部署 JavaScript 服务器的下一代基础设施。Photon 标志着开发人员在服务器部署与集成方式上的重大转变。

超载保护:平台工程缺失的支柱
在平台工程中,过载保护经常被忽视,导致团队创建不一致的、脆弱的修复程序。集中的速率限制、配额、自适应控制和清晰的可见性为服务提供了可预测的方式来处理流量峰值、减少可靠性债务并防止跨系统的级联故障。

颠覆认知!MongoDB 存储引擎 WiredTiger 是一种“特殊 B + tree”
颠覆认知!MongoDB 存储引擎 WiredTiger 是一种“特殊 B + tree”

腾讯云 MongoDB 备份回档功能矩阵:物理回档 500G 数据 1 小时级、按 Key 闪回万条记录秒级恢复
腾讯云 MongoDB 备份回档功能矩阵:物理回档 500G 数据 1 小时级、按 Key 闪回万条记录秒级恢复







