大数据

关注
收录了大数据频道下的 10330 篇内容
讲述数据获取、存储、管理、分析的方方面面,关注软件、实践、生态,挖掘最新的前沿技术,同时也思考大数据与AI和云计算的深度结合。
  • 全部
  • DataOps
  • 数据集成
  • DataMesh
  • 数据编织
  • 数据湖仓
  • 在离线混部
  • 实时计算
  • 其他
  • 全部
  • 文章
  • 视频
  • 话题
  • 电子书
Google Spanner 再出新招:单库同时处理事务和分析,效果如何?
Google Spanner 再出新招:单库同时处理事务和分析,效果如何?

Google 为 Spanner 推出列式引擎,实现单库同时处理 OLTP 与 OLAP,性能最高提升 200 倍。

直击调参痛点!负载压缩加速调参落地
直击调参痛点!负载压缩加速调参落地

直击调参痛点!负载压缩加速调参落地

提升事务处理效率新招:“热点感知”+“组锁模式”!
提升事务处理效率新招:“热点感知”+“组锁模式”!

提升事务处理效率新招:“热点感知”+“组锁模式”!

隔离级别事务 bug 捕获率 91.4%!WSS 成利器,串行比对判错超直接
隔离级别事务 bug 捕获率 91.4%!WSS 成利器,串行比对判错超直接

隔离级别事务 bug 捕获率 91.4%!WSS 成利器,串行比对判错超直接

颠覆认知:大模型训练过程的本质就是数据压缩!
颠覆认知:大模型训练过程的本质就是数据压缩!

颠覆认知:大模型训练过程的本质就是数据压缩!

戳中智能查询生成痛点!真实性 + 覆盖性不足催生新需求,大模型入场仍有挑战
戳中智能查询生成痛点!真实性 + 覆盖性不足催生新需求,大模型入场仍有挑战

戳中智能查询生成痛点!真实性 + 覆盖性不足催生新需求,大模型入场仍有挑战

以数生智,以智驭数:GenAI新常态下的企业数据之道 | 矩阵起源产品发布会重磅启幕
以数生智,以智驭数:GenAI 新常态下的企业数据之道 | 矩阵起源产品发布会重磅启幕

一场真正面向未来的智能变革,从真正掌控数据开始。

面向 GenAI 的数据智能底座白皮书面向 GenAI 的数据智能底座白皮书
面向 GenAI 的数据智能底座白皮书

在 GenAI 时代,数据不再只是用来查询和分析的资产,而是构建企业专属 AI 应用的基础。只有构建统一、多模态、AI-Ready 的数据底座,企业才能真正释放 AI 的潜力,实现智能体的持续进化与业务的高效增长。

企业落地 NL2SQL,需要的是「AI-ready Data」和「小模型」
企业落地 NL2SQL,需要的是「AI-ready Data」和「小模型」

当 NL2SQL 从 Demo 走向生产,关键不在“更大的模型”,而是“更干净的数据底座 + 更小的专用模型 + 更可控的工程化流程”。

圆桌研讨:《共话数据库发展新路径:人才、产业与技术研讨》| 腾讯云数据库 DBTalk
圆桌研讨:《共话数据库发展新路径:人才、产业与技术研讨》| 腾讯云数据库 DBTalk

围绕人才培养、产学研合作、未来数据库发展方向三个方向展开讨论。

数据库事务一致性验证问题: 前沿技术与发展趋势探讨
数据库事务一致性验证问题: 前沿技术与发展趋势探讨

事务是数据库系统中的核心概念,是支撑在线交易顺利进行的关键技术。事务 ACID 特性中的“隔离性”要求并发事务互不干扰,以防止上层业务产生数据异常。

SIGMOD 25’TXSQL内核热点更新优化
SIGMOD 25’TXSQL 内核热点更新优化

TXSQL 实现了高达 7 倍的性能提升,同步场景下性能提升更明显

查询生成与查询优化技术: 人工智能赋能视角
查询生成与查询优化技术: 人工智能赋能视角

首先,探讨基于大模型技术的查询生成技术。其次,探讨基于深度学习的前沿查询优化技术。最后,对未来发展趋势进行展望与讨论。

面向数据库参数调优的负载压缩
面向数据库参数调优的负载压缩

生成推荐参数配置。评估参数配置性能。调整优化模型。

跨域数据的压缩技术: 从数据库存储到大语言模型优化
跨域数据的压缩技术: 从数据库存储到大语言模型优化

通过对跨域数据压缩技术的系统介绍,分析新应用对于压缩技术带来的新挑战,并对压缩技术的发展进行展望。

Netflix如何重新定义视频、音频和文本的数据工程
Netflix 如何重新定义视频、音频和文本的数据工程

Netflix 推出了一个新的工程专业化领域——媒体机器学习数据工程(Media ML Data Engineering),以及一个旨在大规模处理视频、音频、文本和图像资产的媒体数据湖。早期成果包括在标准化媒体上训练的更丰富的机器学习模型、更快的评估周期,以及对创意工作流程的更深入洞察。

货拉拉大数据存储实践与 AI 时代的应对
货拉拉大数据存储实践与 AI 时代的应对

上的灾备、迁移实践经验。时代的到来,给存储领域带来了新的挑战,我们将探讨这些挑战,并展示货拉拉如何联合腾讯云打造创新的解决方案。

ClickHouse 内部的全文搜索:快速、原生、列式架构
ClickHouse 内部的全文搜索:快速、原生、列式架构

我们在 ClickHouse 中彻底重构了全文搜索功能,性能更高、更轻量,并且与列式数据库架构深度融合。

直播预告| 三大顶会被「中国技术」霸屏,国产数据库的领跑密码是什么?
直播预告| 三大顶会被「中国技术」霸屏,国产数据库的领跑密码是什么?

见证国产数据库从「跟跑」到「领跑」的高光时刻!

别了磁盘:ClickHouse Cloud 中无状态计算背后的架构
别了磁盘:ClickHouse Cloud 中无状态计算背后的架构

ClickHouse Cloud 现在彻底告别了磁盘。

数据分析师,即将从工业领域“消失”?
数据分析师,即将从工业领域“消失”?

数据找人、无问智推?数据分析师会在多大程度上被 AI 取代?InfoQ 特别采访了涛思数据创始人 &CEO 陶建辉,聊了聊涛思数据最新的发布,以及 BI 类产品正在发生的变化。

困在产业落地的数据流通,开源会成为“破局点”吗?
困在产业落地的数据流通,开源会成为“破局点”吗?

8 月 14 日,隐语开源社区宣布在三周年之际全新升级:将由“可信隐私计算开源社区”扩容为“隐语·数据可信流通技术社区”,并将逐步覆盖隐私保护计算、可信数据空间、数据元件、数联网、区块链、数场等六大技术路线并形成多技术路线的融合。升级后的隐语,未来将以开源代码、共建标准和共创场景,为企业提供一站式、可验证、可互联的数据流通技术底座。

特斯拉如何基于 ClickHouse 构建千万亿级别的可观测性平台
特斯拉如何基于 ClickHouse 构建千万亿级别的可观测性平台

他们选择了 ClickHouse,并构建出 Comet——一个具备 Prometheus 式简洁体验

Cloudflare选择PostgreSQL扩展而不是专用的OLAP来进行100K行/秒的分析
Cloudflare 选择 PostgreSQL 扩展而不是专用的 OLAP 来进行 100K 行 / 秒的分析

在最近一篇由 Zero Trust 产品套件背后的工程团队撰写的文章中,Cloudflare 解释了为什么选择 TimescaleDB 而不是 ClickHouse 来为其内部平台增加分析和报告功能。作者强调了存储分析数据与配置数据的简单性与专用 OLAP 系统的性能之间“惊人的平衡”。

开源基金会:使用Apache Iceberg和SparkSQL构建可复制的ML系统
开源基金会:使用 Apache Iceberg 和 SparkSQL 构建可复制的 ML 系统

Apache Iceberg 和 SparkSQL 为你的数据湖带来了类似数据库的可靠性。时间旅行、模式演化和 ACID 事务有助于支持可重复的机器学习实验。

ClickHouse 25.6 盛夏福利版:CoalescingMergeTree 表引擎
ClickHouse 25.6 盛夏福利版:CoalescingMergeTree 表引擎

CoalescingMergeTree —— 一个全新的表引擎,专为整合稀疏更新设计,可以在不损失数据完整性的前提下,帮你有效减少行数

三年之约,相聚北京!邀您见证迈向“数据流通全栈技术生态”的全新隐语
三年之约,相聚北京!邀您见证迈向“数据流通全栈技术生态”的全新隐语

2025 年 8 月 14 日·北京,报名通道已开启!更多精彩议程抢先解锁

数据基建:云厂商的“新阳谋”
数据基建:云厂商的“新阳谋”

业界需要更具全局思维、更全能的数据基础设施。

AI 集成的智能 Profiling 实践:从性能分析到优化闭环
AI 集成的智能 Profiling 实践:从性能分析到优化闭环

本文将分享该功能的设计思路、工程实现与应用成效,并探讨 AI 在性能优化场景下的未来潜力。

Amazon S3新增排序和Z-Order压缩功能,提升Apache Iceberg查询性能
Amazon S3 新增排序和 Z-Order 压缩功能,提升 Apache Iceberg 查询性能

Amazon S3 支持 Apache Iceberg 表的排序和叠放顺序压缩功能,能够有效减少数据扫描时间,降低引擎成本。

  • 用户头像
    关注

    InfoQ高级编辑

  • 用户头像
    关注

    暂无签名

  • 用户头像
    关注

    暂无签名

    实时分析与流处理:合作共赢还是竞争对手?
    实时分析与流处理:合作共赢还是竞争对手?

    吴英骏 | RisingWave Labs CEO

    立即下载
    面向生态开放的新一代企业级应用架构

    喻立久 | 微盟集团 高级技术总监

    立即下载
    Databend: 大模型时代的 Cloud Warehouse 设计探索

    张雁飞 | Datafuse Labs 联合创始人

    立即下载