大数据
讲述数据获取、存储、管理、分析的方方面面,关注软件、实践、生态,挖掘最新的前沿技术,同时也思考大数据与AI和云计算的深度结合。
- 全部
- DataOps
- 数据集成
- DataMesh
- 数据编织
- 数据湖仓
- 在离线混部
- 实时计算
- 其他

“随选随配”的自定义区域:Cloudflare 推出细粒度数据驻留控制
Cloudflare 最近推出了自定义区域,这是对其区域服务的一次扩展,让客户可以精确定义数据在哪些地方被处理。通过按国家或地区选择特定的数据中心组合,客户可以确保 TLS 终止和应用层处理始终发生在指定的地理范围内,从而满足合规和数据控制需求。

HashiCorp Vault 1.21 带来 SPIFFE 认证、细粒度密钥恢复等新特性
HashiCorp 发布了 Vault 1.21。这个版本为非人类的工作负载引入了原生 SPIFFE 认证,扩展了在 Vault 1.20 中推出的细粒度密钥恢复模型,并新增了 KV v2 密钥归属信息、MFA TOTP 自助注册、一个 Vault Secrets Operator 的 CSI 驱动(可以把密钥直接挂载到 Pod 中且不落盘到 etcd),以及其他多项改进。

实验性 Web Install API 试图改进应用发现与分发方式
一个新的实验性 Web Install API 目前已在微软 Edge 和 Chrome 中进入 Origin Trial(源试用)阶段。这个 API 允许开发者在应用内部的用户交互中,以编程方式触发 PWA 的安装提示。它的目标是简化软件的发现和分发流程,尤其适用于那些不知道浏览器地址栏里有安装图标,或者平时不使用应用商店的用户。

利用 Snowflake Cortex AI 能力,打造高效 IPO 研究智能体 | 技术实践
本快速入门指南旨在指导您构建一个 IPO 研究智能体,该智能体充分利用 Snowflake Cortex 的核心功能。

Snowpark Connect 完全指南:PySpark 作业执行与生产数据管道构建 | 技术实践
本综合指南将带您深入了解 Snowpark Connect 如何在 Snowflake 基础设施上高效执行 PySpark 作业,并掌握构建可用于生产环境的数据管道的方法。

AWS S3 推出账户级区域命名空间,结束存在长达 18 年之久的全局存储桶名称冲突
近日,亚马逊云科技宣布为 S3 通用存储桶推出账户级区域命名空间,解决了困扰开发者 18 年之久的一个限制性问题——全局存储桶名称冲突。

绿色 IT :如何减轻 AI 对环境的影响
AI 对绿色 IT 提出了重大挑战:每次查询都会消耗大量的能源,GPU 芯片的使用寿命仅为 2-3 年,而且用户看不到相关成本。

Uber 推出流式优先数据湖 IngestionNext ,将延迟和计算量降低 25%
Uber 工程师对公司数据湖摄入平台的架构进行了重构,从计划批处理作业转向了一个流式优先系统 IngestionNext,将摄入延迟从小时级降低到分钟级。

当数据库的主要用户不再是人类:我们在 AI Agent 场景下的架构实践与思考
某头部 AI 平台 200 万用户等了 2 个月才上线,卡在哪?数据库成本。当 AI 成为数据库主要用户,一切都变了

拒绝向量打补丁:TiDB CTO 黄东旭如何给龙虾装上“私有大脑”?
做饭不能只用菜刀,还得有锅和灶台。同理,解决 Agent 记忆问题,光靠向量库是不够的。

Uber 借助智能体系统实现设计文档自动化
在 Uber 的工程博客上,Ian Guisard 介绍了 uSpec,这是一个用于自动创建组件设计规范的智能体系统。借助 AI 代理和开源的 Figma Console Model Context Protocol(MCP),Uber 将撰写详细文档所需的时间从数周缩短到了几分钟。

Netflix 图抽象架构解析:全球毫秒级处理 650TB 图数据
Netflix 构建高吞吐图抽象系统,实现大规模图数据的实时管理。

AWS 扩展 Aurora DSQL,新增 Playground、工具集成和驱动连接器
亚马逊云科技宣布了多项针对 Aurora DSQL 的更新,重点聚焦于易用性、集成能力与开发者工具。这些改进包括全新的交互式 Aurora DSQL Playground,它能够让开发者无需注册、无需付费,即可直接在浏览器中探索和测试该数据库。

Cloudera:备份与安全,本质是 AI 经济学问题
韧性,本质上是一种资源配置的艺术。

跨越数据孤岛:实现 100 家全球酒店绩效秒级监控的实战指南 |技术实践
本指南介绍了一个完全构建于 Snowflake 平台之上、面向多物业酒店组合的综合性高管智能平台。该平台专为 C-level 高管、区域总裁及战略决策者设计,通过自然语言 AI 智能体、实时分析及主动式情报,将原始运营数据转化为可执行的洞察,助力提升酒店组合整体绩效、优化会员忠诚度并打造卓越宾客体验。

作业帮 Flink On K8s 落地实践
本文主要分享 25 年 Flink on k8s 的探索与实践,包括选型思考、平台架构演进、日志观测、Flink 版本升级、兼容性适配、工具迁移、稳定性和性能优化等关键内容。

ClickHouse 不再只有一个主索引:投影正式进化为真正的二级索引,查询提速 90%
ClickHouse 表过去只能拥有一个主索引。现在它们可以拥有多个索引,这些索引通过轻量级投影实现,其行为与主索引一致,而且不会复制数据。

从零构建智能体:面向 AI 智能体的端到端数据管道搭建实战 | 技术实践
本文旨在指导您如何利用 Snowflake Cortex AI,完成从原始数据到可操作洞察的完整转化流程,重点关注情感分析与分类任务。

工业级 LLM 数据工程:北京大学 DCAI 团队 DataFlow 框架的架构设计与实践
大模型行业急需一套具备系统化抽象与工业级可靠性的数据治理基础设施。

深度集成亚马逊云科技与微软生态,以自然语言驱动智能决策 |Snowflake Discover AI 技术实战周 Day 4
借助 Cortex 与 AI SQL 构建自然语言驱动的数据应用体系,并联动 Amazon Quick Suite 与 Microsoft Teams 等生态工具,实现跨平台协作与业务场景深度融合。

打造 AI 就绪型数据基座 & 数据工程与数据科学实战 |Snowflake Discover AI 技术实战周 Day 3
围绕 AI 就绪型数据体系建设,聚焦统一摄取、数据质量监控与特征体系构建,夯实支撑 AI 持续演进的数据底座。

从企业 AI 战略全景到零帧起手玩转 Snowflake |Snowflake Discover AI 技术实战周 Day 1
系统梳理企业级 AI 的端到端落地路径,从战略规划、数据准备到 Agent 构建与业务价值衡量,搭建可规模化的 AI 实施框架。

从 AI 能力探索到企业级 Agent 与 GenAI 实战构建 |Snowflake Discover AI 技术实战周 Day 2
聚焦 Snowflake 上 AI 的真实应用场景与创新能力,探索企业智能 Agent、生成式 AI 与多模态能力的融合路径,推动数据资产向智能生产力转化。

从 ChatBI 到多 Agent 分析中台:Snowflake 与亚马逊云科技的实战架构
本文不再纠结「要不要做 ChatBI」,而是尝试回答一个更关键的问题:如何利用 Amazon Quick Suite、Bedrock AgentCore 和 Snowflake Cortex Agents,把「能聊天的 BI」升级为「能协同工作的数据智能中台」,并满足企业级落地的要求。

Snowflake China 与国内云对象存储的多云集成实战指南:一套架构打通多云对象存储
如何打通 Snowflake 与国产云厂商之间的“最后一公里”,实现真正的全云架构?本文将分 Snowflake China 如何在异构 Bucket 之上,利用 Apache Iceberg 搭建起高性能、统一治理的数据高速公路。

如何用 Streamlit 和 Snowflake Cortex 搭建语音助手应用 |技术实践
在本快速入门指南中,您将利用 Snowflake Cortex 的 AI_TRANSCRIBE 函数,构建一个支持语音交互的 AI 助手。用户可通过录制音频消息,经由系统自动转录并由大语言模型处理,实现智能化、自然的对话体验。

Netflix 将 400 个生产集群的 RDS PostgreSQL 自动迁移到 Aurora PostgreSQL
Netflix 介绍了他们内部的一个自动化平台。该平台将近 400 个生产集群的 Amazon RDS for PostgreSQL 数据库迁移到 Amazon Aurora PostgreSQL,降低了操作风险和停机时间。

强强联合:借助 Snowflake 与 Amazon Quick,释放 AI 驱动的商业智能潜能 | 技术实践
本快速入门指南将重点介绍 Snowflake 与 Amazon Quick 的集成方案,帮助用户构建由 AI 驱动的商业智能(BI)能力,实现对企业全域数据源的统一智能分析,并打通从洞察获取到行动执行的“最后一公里”关键环节。

作业帮 StarRocks 替换 Presto 落地实践
本文主要分享 25 年 StarRocks 替换 Presto 的探索与实践,包括历史背景、选型思考、技术方案以及过程中遇到的核心问题。

Uber 的混合云数据:工程师如何攻破解大规模复制难题
Uber 工程团队对其数据复制平台做了全面升级,现在每天可以在混合云和本地数据湖之间移动数以 PB 计的数据,解决了由于工作负载迅速增长而引起的扩展挑战。








