大数据

关注
收录了大数据频道下的 10505 篇内容
讲述数据获取、存储、管理、分析的方方面面,关注软件、实践、生态,挖掘最新的前沿技术,同时也思考大数据与AI和云计算的深度结合。
  • 全部
  • DataOps
  • 数据集成
  • DataMesh
  • 数据编织
  • 数据湖仓
  • 在离线混部
  • 实时计算
  • 其他
  • 全部
  • 文章
  • 视频
  • 话题
  • 电子书
Aspire 13.2 正式发布,带来扩展版 CLI、预览版 TypeScript AppHost 及仪表盘改进
Aspire 13.2 正式发布,带来扩展版 CLI、预览版 TypeScript AppHost 及仪表盘改进

上月底,微软发布了 Aspire 13.2,为其云原生开发技术栈带来了大量的更新。这次发布主要致力于提升命令行体验、扩展多语言支持,为开发者和 AI 编码代理简化本地开发流程。

GitHub Actions 正式发布自定义 Runner 镜像
GitHub Actions 正式发布自定义 Runner 镜像

GitHub 刚刚宣布,其托管 Runner 现已支持自定义镜像。借助这一功能,团队可以使用经过 GitHub 批准的基础镜像,构建真正符合其工作流需求的虚拟机镜像。

Anthropic 因 npm 源映射文件意外泄露 Claude Code 源码
Anthropic 因 npm 源映射文件意外泄露 Claude Code 源码

Claude Code CLI 因 npm 包误打包源映射文件导致完整 TypeScript 源码泄露,曝光了未发布功能、内部模型代号及多智能体调度架构。

BUILD 2025 主题演讲:实现 AI 规模化影响力
BUILD 2025 主题演讲:实现 AI 规模化影响力

探索当前即可投入生产的最新 AI 创新技术,聆听客户的成功实践,观看真实的实战演示。您将了解从业者如何轻松运用最新的 AI 能力,实现企业级规模驱动效率、生产力与商业价值的全面提升。

TigerFS:将 PostgreSQL 数据库挂载为文件系统,面向开发者与 AI 智能体
TigerFS:将 PostgreSQL 数据库挂载为文件系统,面向开发者与 AI 智能体

TigerFS 是一款实验性的文件系统,可将数据库挂载为目录并将文件直接存储于 PostgreSQL 中。它通过标准文件系统接口开放数据,让开发者与 AI 智能体无需借助 API 或 SDK,即可使用 ls、cat 等常见 Unix 工具直接交互。

大规模替换数据库序列,保障百余个服务平稳运行
大规模替换数据库序列,保障百余个服务平稳运行

本文围绕关系数据库迁移 NoSQL 的难点展开,聚焦唯一标识所需的数据库序列,介绍了基于 DynamoDB 和双层缓存架构构建的新型序列服务。

“随选随配”的自定义区域:Cloudflare 推出细粒度数据驻留控制
“随选随配”的自定义区域:Cloudflare 推出细粒度数据驻留控制

Cloudflare 最近推出了自定义区域,这是对其区域服务的一次扩展,让客户可以精确定义数据在哪些地方被处理。通过按国家或地区选择特定的数据中心组合,客户可以确保 TLS 终止和应用层处理始终发生在指定的地理范围内,从而满足合规和数据控制需求。

HashiCorp Vault 1.21 带来 SPIFFE 认证、细粒度密钥恢复等新特性
HashiCorp Vault 1.21 带来 SPIFFE 认证、细粒度密钥恢复等新特性

HashiCorp 发布了 Vault 1.21。这个版本为非人类的工作负载引入了原生 SPIFFE 认证,扩展了在 Vault 1.20 中推出的细粒度密钥恢复模型,并新增了 KV v2 密钥归属信息、MFA TOTP 自助注册、一个 Vault Secrets Operator 的 CSI 驱动(可以把密钥直接挂载到 Pod 中且不落盘到 etcd),以及其他多项改进。

实验性 Web Install API 试图改进应用发现与分发方式
实验性 Web Install API 试图改进应用发现与分发方式

一个新的实验性 Web Install API 目前已在微软 Edge 和 Chrome 中进入 Origin Trial(源试用)阶段。这个 API 允许开发者在应用内部的用户交互中,以编程方式触发 PWA 的安装提示。它的目标是简化软件的发现和分发流程,尤其适用于那些不知道浏览器地址栏里有安装图标,或者平时不使用应用商店的用户。

利用 Snowflake Cortex AI 能力,打造高效 IPO 研究智能体 | 技术实践
利用 Snowflake Cortex AI 能力,打造高效 IPO 研究智能体 | 技术实践

本快速入门指南旨在指导您构建一个 IPO 研究智能体,该智能体充分利用 Snowflake Cortex 的核心功能。

Snowpark Connect 完全指南:PySpark 作业执行与生产数据管道构建 | 技术实践
Snowpark Connect 完全指南:PySpark 作业执行与生产数据管道构建 | 技术实践

本综合指南将带您深入了解 Snowpark Connect 如何在 Snowflake 基础设施上高效执行 PySpark 作业,并掌握构建可用于生产环境的数据管道的方法。

AWS S3 推出账户级区域命名空间,结束存在长达 18 年之久的全局存储桶名称冲突
AWS S3 推出账户级区域命名空间,结束存在长达 18 年之久的全局存储桶名称冲突

近日,亚马逊云科技宣布为 S3 通用存储桶推出账户级区域命名空间,解决了困扰开发者 18 年之久的一个限制性问题——全局存储桶名称冲突。

绿色 IT :如何减轻 AI 对环境的影响
绿色 IT :如何减轻 AI 对环境的影响

AI 对绿色 IT 提出了重大挑战:每次查询都会消耗大量的能源,GPU 芯片的使用寿命仅为 2-3 年,而且用户看不到相关成本。

Uber 推出流式优先数据湖 IngestionNext ,将延迟和计算量降低 25%
Uber 推出流式优先数据湖 IngestionNext ,将延迟和计算量降低 25%

Uber 工程师对公司数据湖摄入平台的架构进行了重构,从计划批处理作业转向了一个流式优先系统 IngestionNext,将摄入延迟从小时级降低到分钟级。

当数据库的主要用户不再是人类:我们在 AI Agent 场景下的架构实践与思考
当数据库的主要用户不再是人类:我们在 AI Agent 场景下的架构实践与思考

某头部 AI 平台 200 万用户等了 2 个月才上线,卡在哪?数据库成本。当 AI 成为数据库主要用户,一切都变了

拒绝向量打补丁:TiDB CTO 黄东旭如何给龙虾装上“私有大脑”?
拒绝向量打补丁:TiDB CTO 黄东旭如何给龙虾装上“私有大脑”?

做饭不能只用菜刀,还得有锅和灶台。同理,解决 Agent 记忆问题,光靠向量库是不够的。

Uber 借助智能体系统实现设计文档自动化
Uber 借助智能体系统实现设计文档自动化

在 Uber 的工程博客上,Ian Guisard 介绍了 uSpec,这是一个用于自动创建组件设计规范的智能体系统。借助 AI 代理和开源的 Figma Console Model Context Protocol(MCP),Uber 将撰写详细文档所需的时间从数周缩短到了几分钟。

Netflix 图抽象架构解析:全球毫秒级处理 650TB 图数据
Netflix 图抽象架构解析:全球毫秒级处理 650TB 图数据

Netflix 构建高吞吐图抽象系统,实现大规模图数据的实时管理。

AWS扩展Aurora DSQL,新增Playground、工具集成和驱动连接器
AWS 扩展 Aurora DSQL,新增 Playground、工具集成和驱动连接器

亚马逊云科技宣布了多项针对 Aurora DSQL 的更新,重点聚焦于易用性、集成能力与开发者工具。这些改进包括全新的交互式 Aurora DSQL Playground,它能够让开发者无需注册、无需付费,即可直接在浏览器中探索和测试该数据库。

Cloudera:备份与安全,本质是AI经济学问题
Cloudera:备份与安全,本质是 AI 经济学问题

韧性,本质上是一种资源配置的艺术。

跨越数据孤岛:实现 100 家全球酒店绩效秒级监控的实战指南 |技术实践
跨越数据孤岛:实现 100 家全球酒店绩效秒级监控的实战指南 |技术实践

本指南介绍了一个完全构建于 Snowflake 平台之上、面向多物业酒店组合的综合性高管智能平台。该平台专为 C-level 高管、区域总裁及战略决策者设计,通过自然语言 AI 智能体、实时分析及主动式情报,将原始运营数据转化为可执行的洞察,助力提升酒店组合整体绩效、优化会员忠诚度并打造卓越宾客体验。

作业帮Flink On K8s落地实践
作业帮 Flink On K8s 落地实践

本文主要分享 25 年 Flink on k8s 的探索与实践,包括选型思考、平台架构演进、日志观测、Flink 版本升级、兼容性适配、工具迁移、稳定性和性能优化等关键内容。

ClickHouse 不再只有一个主索引:投影正式进化为真正的二级索引,查询提速 90%
ClickHouse 不再只有一个主索引:投影正式进化为真正的二级索引,查询提速 90%

ClickHouse 表过去只能拥有一个主索引。现在它们可以拥有多个索引,这些索引通过轻量级投影实现,其行为与主索引一致,而且不会复制数据。

从零构建智能体:面向 AI 智能体的端到端数据管道搭建实战 | 技术实践
从零构建智能体:面向 AI 智能体的端到端数据管道搭建实战 | 技术实践

本文旨在指导您如何利用 Snowflake Cortex AI,完成从原始数据到可操作洞察的完整转化流程,重点关注情感分析与分类任务。

工业级 LLM 数据工程:北京大学 DCAI 团队 DataFlow 框架的架构设计与实践
工业级 LLM 数据工程:北京大学 DCAI 团队 DataFlow 框架的架构设计与实践

大模型行业急需一套具备系统化抽象与工业级可靠性的数据治理基础设施。

深度集成亚马逊云科技与微软生态,以自然语言驱动智能决策 |Snowflake Discover AI 技术实战周 Day 4
深度集成亚马逊云科技与微软生态,以自然语言驱动智能决策 |Snowflake Discover AI 技术实战周 Day 4

借助 Cortex 与 AI SQL 构建自然语言驱动的数据应用体系,并联动 Amazon Quick Suite 与 Microsoft Teams 等生态工具,实现跨平台协作与业务场景深度融合。

打造 AI 就绪型数据基座 & 数据工程与数据科学实战 |Snowflake Discover AI 技术实战周 Day 3
打造 AI 就绪型数据基座 & 数据工程与数据科学实战 |Snowflake Discover AI 技术实战周 Day 3

围绕 AI 就绪型数据体系建设,聚焦统一摄取、数据质量监控与特征体系构建,夯实支撑 AI 持续演进的数据底座。

从企业 AI 战略全景到零帧起手玩转 Snowflake |Snowflake Discover AI 技术实战周 Day 1
从企业 AI 战略全景到零帧起手玩转 Snowflake |Snowflake Discover AI 技术实战周 Day 1

系统梳理企业级 AI 的端到端落地路径,从战略规划、数据准备到 Agent 构建与业务价值衡量,搭建可规模化的 AI 实施框架。

从 AI 能力探索到企业级 Agent 与 GenAI 实战构建 |Snowflake Discover AI 技术实战周 Day 2
从 AI 能力探索到企业级 Agent 与 GenAI 实战构建 |Snowflake Discover AI 技术实战周 Day 2

聚焦 Snowflake 上 AI 的真实应用场景与创新能力,探索企业智能 Agent、生成式 AI 与多模态能力的融合路径,推动数据资产向智能生产力转化。

从 ChatBI 到多 Agent 分析中台:Snowflake 与亚马逊云科技的实战架构
从 ChatBI 到多 Agent 分析中台:Snowflake 与亚马逊云科技的实战架构

本文不再纠结「要不要做 ChatBI」,而是尝试回答一个更关键的问题:如何利用 Amazon Quick Suite、Bedrock AgentCore 和 Snowflake Cortex Agents,把「能聊天的 BI」升级为「能协同工作的数据智能中台」,并满足企业级落地的要求。

    负责任的技术规划 —— 不仅仅是技术
    负责任的技术规划 —— 不仅仅是技术

    许晓斌 | 阿里巴巴 技术总监

    立即下载
    以 KVCache 为中心的云上 LLM 推理软件栈

    马腾 | 阿里巴巴 高级技术专家

    立即下载
    生成式 3D 技术实践: 重塑产品设计的可能性

    党宇航 | VAST 产品负责人

    立即下载