大数据
讲述数据获取、存储、管理、分析的方方面面,关注软件、实践、生态,挖掘最新的前沿技术,同时也思考大数据与AI和云计算的深度结合。
- 全部
- DataOps
- 数据集成
- DataMesh
- 数据编织
- 数据湖仓
- 在离线混部
- 实时计算
- 其他

欧洲数据主权倡议发布了一个信任框架
在多瑙河发布的 Gaia-X 信任框架提供了自动化合规机制,并支持跨部门和跨区域的互操作性,以确保可信的数据交易和服务交互。2025 年举办的 Gaia-X 峰会促进了关于人工智能和数据主权的讨论,并提出了支持整个欧洲和其他地区创新的数据空间解决方案。

Salesforce 将 1,000 多个 EKS 集群迁移到 Karpenter,以提高扩缩速度和效率
Salesforce 已完成对 1000 多个 Amazon Elastic Kubernetes Service(EKS)集群从 Kubernetes Cluster Autoscaler 到 Karpenter 的分阶段性迁移,Karpenter 是 AWS 的开源节点配置和自动伸缩解决方案。这次大规模转型旨在减少扩展延迟,简化操作,降低成本,并为公司广泛的 Kubernetes 团队内部开发人员提供更灵活自助的基础设施。

AI 撞到“数据天花板”,一场革命正悄悄上演
撰稿:李文朋编辑:王一鹏这两年 AI 发展很快,很多企业遇到的瓶颈也在变化:不再是“算力不够”,而是“数据跟不上”。

Cloudflare 在 R2 SQL 中推出聚合功能,提升数据分析能力
最近,Cloudflare 宣布在 R2 SQL 中支持聚合功能。这是一个新特性,使开发者可以通过 SQL 查询存储在 R2 中的数据。

如何利用 Snowflake ML 实现电商个性化 | 技术实践
本文将深入探讨 Snowflake ML 如何为现代电商体验提供简洁、基于 SQL 的个性化解决方案。您将了解如何将客户数据接入 Snowflake,根据行为模式划分客群,并利用 Snowflake ML 构建预测高价值客户的智能模型。无论您是构建个性化工作流的开发者,还是提升营销效果的分析师,这些实践步骤都将助您快速入门。

揭秘 Uber 跨区域数据湖与灾难恢复机制:350PB 数据、数百万事件、单一系统
Uber 构建了 HiveSync,这是一个分片式批量复制系统,能够使 Hive 和 HDFS 数据在多个区域之间保持同步,它每天处理数百万个 Hive 事件。

从数据到决策:AI 驱动的 Quick BI 架构设计与实践
本文介绍了阿里云 Quick BI 如何通过技术架构跃迁、结合大模型的突破实现从传统 BI 到 AI 驱动的智能 BI 的跨越式进化。并重点解析领域大模型与 BI 引擎的协同设计、NL2SQL 算法调优与架构演进、AI + BI 在场景落地实践过程中的技术权衡,为行业提供可复用的技术范式。

Pinterest 的 Moka:Kubernetes 如何重写大数据处理规则
数字公告板提供商 Pinterest 发布了一篇文章,解释了其新平台 Moka 在大规模数据处理方面的未来蓝图。该公司正在将核心工作负载从老化的 Hadoop 基础设施迁移到基于 Kubernetes 的系统上,该系统运行在亚马逊 EKS 上,以 Apache Spark 作为主要引擎,并即将支持其他框架。

MAKE IT SNOW | 2025-2026 Data+AI 年度时刻
战略发起“年度十问”,共同见证企业数智化变革的关键时刻。

2026 年预测:智能体将推动集中化战略,带来新的工作方式 | 技术趋势
的投资回报远超预期?41%!在企业中实现真正落地的关键之年。 将迎来爆发式增长与颠覆性普及。尽管技术进步显著且持续加速,但这一年的更深层意义在于,它重塑了我们对技术可行性的理解。

ClickHouse 完成由 Dragoneer 领投的 4 亿美元 D 轮融资,加速其在分析与 AI 基础设施领域的扩张
面向未来,我们正在支持统一的事务型与分析型工作负载,让开发者能够在坚实的技术基础之上构建各种由 AI 驱动的应用。

Agoda 是如何将多个数据管道统一为单一事实来源的
Agoda 近日分享了他们如何将多个独立的数据管道整合为一个基于 Apache Spark 的集中式平台,以消除财务数据中的不一致性。该公司构建了一个多层质量保障框架,结合自动化校验、基于机器学习的异常检测以及与上游团队签订的数据契约(data contracts),确保用于财务报表和战略规划的财务指标准确无误,同时每天处理数百万笔预订交易。

从数据存储到 AI 基建,XSKY 发布全栈 AI 数据方案破解算力效率难题
2026 年 1 月 15 日,XSKY 星辰天合在北京举办主题为“数据常青 智算无界”的 AIMesh 产品战略发布会,宣告公司战略重心从“信息技术(IT)”全面跨越至“数据智能(Data Intelligence)”。

从 OTel 到 Rotel:每秒处理量提升 4 倍的 PB 级追踪系统
得益于其高压缩比和良好的成本效益,ClickHouse 越来越多地被用于大规模的 OpenTelemetry 负载中。

从查询计划分解到 100%MySQL 兼容:TDSQL-B 并行查询技术的实现与优势
从查询计划分解到 100%MySQL 兼容:TDSQL-B 并行查询技术的实现与优势

TDSQL-B 数据库核心优化思路:从一体化对等架构到高性能 Raft Log 存储
TDSQL-B 数据库核心优化思路:从一体化对等架构到高性能 Raft Log 存储

超大规模化繁为简,TDSQL-B 的四大核心适用场景
超大规模化繁为简,TDSQL-B 的四大核心适用场景

DuckDB 的 WebAssembly 客户端支持在浏览器中查询 Iceberg 数据集
DuckDB 最近推出了一项新功能,可以在浏览器标签页内直接与 Iceberg REST Catalog 进行端到端交互,而无需配置任何基础设施。该功能依托于 DuckDB-Wasm,支持用户以无服务器方式查询、读取和写入 Iceberg 表。

Alexey 精选的 2025 年他最喜欢的 ClickHouse 功能
2025 年发布的 ClickHouse 各版本共计引入了 277 项新功能 、319 项性能优化以及 1051 个 bug 修复。

Swiggy 内部 AI 助手升级:Text-to-SQL 不够用了,Agent 开始接管数据分析
Swiggy 推出 Hermes V3,从 Text-to-SQL 走向对话式 AI。

从 SQL 到自然语言,下一代 Lakehouse 为何必须「AI 优先」
下一代 AI-first Lakehouse 技术展望。

MinIO GitHub 存储库的维护模式:开源对象存储的下一步是什么?
在一次有争议的许可证变更和从控制台中移除管理员功能之后,支持流行的开源对象存储服务器 Minio 的公司最近宣布该项目将进入维护模式。这一变化在社区引发了关于分叉的必要性、开源项目的挑战以及 Garage、SeaweedFS 和其他替代方案的可行性的讨论。

通过对话式 AI Agent 运用 Snowflake Intelligence,从成本、安全和性能三个维度全面提升您整体系统的表现 | 技术实践
的投资回报远超预期?41%!我的灵感来源于 @umeshpatel_us。何时能直接为我们提供一个包含所有这些内容的语义视图。

从查询到行动:AI 智能体如何重塑企业决策方式 | 技术实践
我们构建了一款原生集成于 Snowflake 的 AI 智能体,它不仅能够分析数据,更能实时规划并执行操作任务。这标志着企业人工智能领域正在经历一场更深刻的范式转变——一场悄然重塑决策机制的革命。

优步采用 Amazon OpenSearch 进行语义搜索,以更好地捕捉用户意图
为了提升搜索与推荐的用户体验,优步(Uber)从 Apache Lucene 迁移到了 Amazon OpenSearch,以支持大规模向量搜索并更精准地捕捉用户搜索意图。此次迁移带来了若干基础设施方面的挑战,优步的工程师通过针对性的解决方案逐一将其克服。

一旦运营环节出错,数据平台必须稳如磐石——Snowflake 灾难恢复为何成了必备能力? | 技术趋势
在快速变化的环境中,Snowflake 的灾备恢复如何运作?您应部署哪些工具与实践方案进行准备?又该如何着手启动?这篇博客将会带来详细解读。

从架构到引擎:TDSQL-MySQL 并行查询技术全链路拆解 | 腾讯云数据库 DBTalk
2 款产品。这个分享从介绍这 2 款产品的总体架构和各自产品的查询处理的总体流程入手从并行查询的整体构架到每个模块的实行细节逐渐分解,对整个并行查询的核心技术做详细的阐述。

新一代分布式数据库:TDSQL Boundless 架构特性与场景选型指南 | 腾讯云数据库 DBTalk
产品家族的新一代分布式数据库产品。提供了高弹性和高灵活性,在支撑海量数据管理的同时,并不会增加架构和运维的复杂度。

TDSQL Boundless 存储引擎核心技术架构与性能优化之道 | 腾讯云数据库 DBTalk
作为新一代腾讯云原生分布式数据库产品,在面对海量敏态数据业务场景下,具有高性能、弹性扩缩容等特点。性能优化等方面的设计思考。

2025 Snowflake 峰会重点:构建 AI 和应用的未来 | 技术趋势
随着越来越多的企业寻求利用人工智能和覆盖全数据生命周期的应用来创造价值,并让组织内的全体员工都能受益,强大的数据基础变得前所未有的重要。








