大数据
讲述数据获取、存储、管理、分析的方方面面,关注软件、实践、生态,挖掘最新的前沿技术,同时也思考大数据与AI和云计算的深度结合。
- 全部
- DataOps
- 数据集成
- DataMesh
- 数据编织
- 数据湖仓
- 在离线混部
- 实时计算
- 其他

别再手动拼凑 Data Pipeline 了!这个新平台想让你彻底告别 Iceberg 运维噩梦
Etleap 发布全新的 Iceberg Pipeline 托管平台,通过集成摄取、转换与运维,助力企业在 VPC 环境内低成本构建高效数据湖仓。

AI 驱动的大数据自治:TCInsight 智能应对复杂运维挑战
在大数据平台高速发展的当下,生态扩张与业务量激增,致使大数据分布式组件问题愈发棘手,传统专家运维模式捉襟见肘。以腾讯大数据庞大的规模为例,面对海量计算单元、繁杂技术栈以及千万级任务管理,借助 AI 驱动实现大数据系统的故障和问题的快速洞察与自治能力,已成为行业迫切需求。

拼模型、拼向量库的时代结束了?MongoDB 正在重写 AI 检索的基础设施
MongoDB 在 Atlas 上推出 Embedding 与 Reranking API。

当 AI 吞噬软件,数据正在成为企业唯一的护城河
作者|关涛、苏郡城审校|李文朋编者按:近日编者获悉,国内领先的数据平台公司“云器科技”完成 B 轮融资,其聚焦在亚洲市场,产品战略对标 Databricks。


2026 年 AI 与数据发展预测
智能体 AI (Agentic AI) 的崛起,将重塑企业的形态,亦将锻造一代新型的从业者。

从三大支柱出发:Snowflake 平台的一次系统级升级
探索 Snowflake 在易用、互联、可信平台上的各项新特性,涵盖计算、可管理性、安全治理及业务连续性 / 灾难恢复,全面加速您的数据与 AI 创新进程。

如何用 dbt MCP 服务器和 Snowflake 构建智能体工作流
关于 dbt 模型上下文协议服务器,并演示开发人员如何运用 dbt MCP 服务器与 Snowflake 在结构化数据之上构建智能体工作流。

如何大规模构建、部署和管理智能体
CrewAI 首席执行官 Joao Moura 的实践课程,带你深入探索如何构建和扩展智能体。

不要再纠结 LLM 准确率了:从“回答对不对”到“系统是否值得信任”
由 Snowflake Cortex 提供支持的 Hex,启用了一个新的对话式分析模型,每次交互都让模型变得更聪明。通过 Hex 的 Notebook Agent 与 Threads 功能,业务用户可直接定义核心问题,而数据团队则将这些问题精炼、审计并转化为持久且值得信赖的工作流。

从复杂挑战到竞争优势:AI SQL 如何重塑非结构化数据的价值边界
通过 Snowflake 的最新发布,开发者可以使用熟悉的 SQL 语法对结构化和非结构化数据进行分析。

利用 ADBC 实现更快的数据传输:一次关于数据通路的系统性重构
JDBC。客户端应用程序的瓶颈。的速度实在过于缓慢。连接标准的核心动因。客户消除客户端序列化和反序列化的开销,从而为大型结果集带来巨大的性能提升。

当雪花落在中国 遇见企业 AI Strategy 的变革时刻 | 2025-2026 Data+AI 年度时刻精华版
回看 2025 的三次认知突破,走向 2026 的“十问 Data Strategy 与 AI Strategy”。

数据土壤,决胜 AI 下半场:一场关于企业 Data+AI 战略的炉边思辨
数据与 AI 的变革正以前所未有的速度重塑产业格局,2026 年年初,Snowflake 与 InfoQ 联合呈现的“Make it Snow”2025-2026 Data+AI 年度时刻,汇聚了来自医疗、制造、汽车等领域的顶尖专家,共同探讨数据智能的前沿突破与未来方向。

AI 驱动的智能异常处置:从异常发现到根因定位
本文从阿里云计算平台的运维场景出发,分享了从异常发现到问题定界和根因定位各环节的算法选型和设计思路,包括通用的时间序列异常检测、高效的日志聚类和精准的多 Agent 根因定位框架。

构建下一代 AI 系统:可信生成式 AI 的工程蓝图
Snowflake 首席数据与分析官 Anahita Tafvizi 凝练了来自 Snowflake 自身实践与行业顶尖构建者的深度交流,系统拆解了可信生成式 AI 的技术架构要点。

Hugging Face 发布 FineTranslations:一个万亿级的多语言平行文本数据集
Hugging Face 发布了 FineTranslations,这是一个大规模多语言数据集,包含覆盖英语和其他 500 多种语言的并行文本、超过 1 万亿个 Token。

平台即产品:以声明式基础设施提升开发者效率
统一的配置层抽象了基础设施、CI/CD 以及运维复杂性,让开发者能够专注于应用开发本身。

欧洲数据主权倡议发布了一个信任框架
在多瑙河发布的 Gaia-X 信任框架提供了自动化合规机制,并支持跨部门和跨区域的互操作性,以确保可信的数据交易和服务交互。2025 年举办的 Gaia-X 峰会促进了关于人工智能和数据主权的讨论,并提出了支持整个欧洲和其他地区创新的数据空间解决方案。

Salesforce 将 1,000 多个 EKS 集群迁移到 Karpenter,以提高扩缩速度和效率
Salesforce 已完成对 1000 多个 Amazon Elastic Kubernetes Service(EKS)集群从 Kubernetes Cluster Autoscaler 到 Karpenter 的分阶段性迁移,Karpenter 是 AWS 的开源节点配置和自动伸缩解决方案。这次大规模转型旨在减少扩展延迟,简化操作,降低成本,并为公司广泛的 Kubernetes 团队内部开发人员提供更灵活自助的基础设施。

AI 撞到“数据天花板”,一场革命正悄悄上演
撰稿:李文朋编辑:王一鹏这两年 AI 发展很快,很多企业遇到的瓶颈也在变化:不再是“算力不够”,而是“数据跟不上”。

Cloudflare 在 R2 SQL 中推出聚合功能,提升数据分析能力
最近,Cloudflare 宣布在 R2 SQL 中支持聚合功能。这是一个新特性,使开发者可以通过 SQL 查询存储在 R2 中的数据。

揭秘 Uber 跨区域数据湖与灾难恢复机制:350PB 数据、数百万事件、单一系统
Uber 构建了 HiveSync,这是一个分片式批量复制系统,能够使 Hive 和 HDFS 数据在多个区域之间保持同步,它每天处理数百万个 Hive 事件。

从数据到决策:AI 驱动的 Quick BI 架构设计与实践
本文介绍了阿里云 Quick BI 如何通过技术架构跃迁、结合大模型的突破实现从传统 BI 到 AI 驱动的智能 BI 的跨越式进化。并重点解析领域大模型与 BI 引擎的协同设计、NL2SQL 算法调优与架构演进、AI + BI 在场景落地实践过程中的技术权衡,为行业提供可复用的技术范式。

Pinterest 的 Moka:Kubernetes 如何重写大数据处理规则
数字公告板提供商 Pinterest 发布了一篇文章,解释了其新平台 Moka 在大规模数据处理方面的未来蓝图。该公司正在将核心工作负载从老化的 Hadoop 基础设施迁移到基于 Kubernetes 的系统上,该系统运行在亚马逊 EKS 上,以 Apache Spark 作为主要引擎,并即将支持其他框架。

MAKE IT SNOW | 2025-2026 Data+AI 年度时刻
InfoQ 携手 Snowflake,邀请数位来自智能制造、智慧医疗、智驾等行业的全球头部企业的数智化专家和大数据专家围炉对谈,深度复盘 2025 年三大认知突破,围绕 Data 与 AI 战略发起“年度十问”,共同见证企业数智化变革的关键时刻。

2026 年预测:智能体将推动集中化战略,带来新的工作方式 | 技术趋势
2026 年将成为智能体 AI 在企业中实现真正落地的关键之年。

ClickHouse 完成由 Dragoneer 领投的 4 亿美元 D 轮融资,加速其在分析与 AI 基础设施领域的扩张
面向未来,我们正在支持统一的事务型与分析型工作负载,让开发者能够在坚实的技术基础之上构建各种由 AI 驱动的应用。

Agoda 是如何将多个数据管道统一为单一事实来源的
Agoda 近日分享了他们如何将多个独立的数据管道整合为一个基于 Apache Spark 的集中式平台,以消除财务数据中的不一致性。该公司构建了一个多层质量保障框架,结合自动化校验、基于机器学习的异常检测以及与上游团队签订的数据契约(data contracts),确保用于财务报表和战略规划的财务指标准确无误,同时每天处理数百万笔预订交易。

从数据存储到 AI 基建,XSKY 发布全栈 AI 数据方案破解算力效率难题
2026 年 1 月 15 日,XSKY 星辰天合在北京举办主题为“数据常青 智算无界”的 AIMesh 产品战略发布会,宣告公司战略重心从“信息技术(IT)”全面跨越至“数据智能(Data Intelligence)”。

从 OTel 到 Rotel:每秒处理量提升 4 倍的 PB 级追踪系统
得益于其高压缩比和良好的成本效益,ClickHouse 越来越多地被用于大规模的 OpenTelemetry 负载中。







