数据湖仓

关注
收录了数据湖仓频道下的 1716 篇内容
关注数据湖仓的发展趋势和一线技术实践
  • 全部
  • 文章
  • 视频
  • 话题
  • 电子书
Netflix如何重新定义视频、音频和文本的数据工程
Netflix 如何重新定义视频、音频和文本的数据工程

Netflix 推出了一个新的工程专业化领域——媒体机器学习数据工程(Media ML Data Engineering),以及一个旨在大规模处理视频、音频、文本和图像资产的媒体数据湖。早期成果包括在标准化媒体上训练的更丰富的机器学习模型、更快的评估周期,以及对创意工作流程的更深入洞察。

开源基金会:使用Apache Iceberg和SparkSQL构建可复制的ML系统
开源基金会:使用 Apache Iceberg 和 SparkSQL 构建可复制的 ML 系统

Apache Iceberg 和 SparkSQL 为你的数据湖带来了类似数据库的可靠性。时间旅行、模式演化和 ACID 事务有助于支持可重复的机器学习实验。

独家干货!Apache Iceberg未来蓝图:Open Lakehouse闭门会核心洞察
独家干货!Apache Iceberg 未来蓝图:Open Lakehouse 闭门会核心洞察

说它独特,首先是因为这不是一场对公众开放的会议,而是在 Databricks 的协助和组织下,专门面向全球各大主流数据开源社区核心贡献者、Committer 和 PMC 成员的闭门邀请制(invite-only)峰会。

传统数据仓库正在被 Agentic AI 吞噬?Agentic Data Stack 初探
传统数据仓库正在被 Agentic AI 吞噬?Agentic Data Stack 初探

Snowflake 换 CEO,不只是人事变动,而是数据架构的时代信号:数仓黄金时代正在谢幕,Agentic Data Stack 正在登场。

4 年融 1 亿美金,ProtonBase 王绍翾揭秘 Data Warebase 核心技术
4 年融 1 亿美金,ProtonBase 王绍翾揭秘 Data Warebase 核心技术

小质科技 团队历时 4 年打造的 ProtonBase ,堪称“六边形战士”

专访小质科技 | ProtonBase 这匹“黑马” 如何搅动数据库市场?
专访小质科技 | ProtonBase 这匹“黑马” 如何搅动数据库市场?

当一位操盘过 Facebook 在线 Infra、阿里搜索数据和机器学习平台、阿里云实时计算平台,以及达摩院机器智能工程的技术领军人,带着 1 亿美金融资与团队杀入市场,数据库行业的游戏规则注定要被颠覆。

浅谈DeepSeek与Lakehouse的跨越式融合
浅谈 DeepSeek 与 Lakehouse 的跨越式融合

今天想跟大家聊聊最近比较火的 DeepSeek 私有部署 + Lakehouse 方案。作为一名数据从业者,我想结合自己的经验,跟大家聊聊我的看法。  

Apache Hudi 1.0 正式发布
Apache Hudi 1.0 正式发布

这是一个支持近实时分析的事务型数据湖平台。

Apache Doris 创始人:何为“现代化”的数据仓库?
Apache Doris 创始人:何为“现代化”的数据仓库?

Apache Doris 目前 GitHub Stars 已近 13,000,社区的贡献者达到近 670 名,平均每月活跃贡献者超过 120 名。这一成就使其超越了 Spark、Kafka 等项目。

AI 信创与湖仓一体化,2024 年数据库&湖仓发展与展望
AI 信创与湖仓一体化,2024 年数据库 & 湖仓发展与展望

展望未来,我意识到,尽管数据库行业正面临明显的瓶颈,湖仓领域却蕴藏着无尽的潜力,而 AI 的崛起将进一步提高从业门槛。

Apache Iceberg 赢得未来:2025 年如何前进
Apache Iceberg 赢得未来:2025 年如何前进

数据工程的未来已经到来,而它正是 Iceberg。

Apache Doris 创始人:何为“现代化”的数据仓库?
Apache Doris 创始人:何为“现代化”的数据仓库?

Apache Doris 创始人 & PMC 成员马如悦在开场演讲中,围绕“现代化数据仓库”这一主题,指出 3.0 版本是 Apache Doris 研发路程中的重要里程碑,他将这一进展总结为“实时之路”、“统一之路”和“弹性之路”,

降本增效神器?Lakehouse是怎么在大厂里火起来的
降本增效神器?Lakehouse 是怎么在大厂里火起来的

Lakehouse 会是数据分析的新标配吗?

存算分离的过去、现在和未来
存算分离的过去、现在和未来

存算分离架构,作为数据处理领域的一个重要概念,从其最初的雏形到如今广泛应用,经历了多次迭代和变革。

兼顾高性能与低成本,浅析 Apache Doris 异步物化视图原理及典型场景
兼顾高性能与低成本,浅析 Apache Doris 异步物化视图原理及典型场景

面对有限的计算资源,成本及性能如何平衡,严格的资源管控也显得尤为重要

AI时代的数据底座,StarRocks 2024 年度技术峰会带你探索湖仓架构
AI 时代的数据底座,StarRocks 2024 年度技术峰会带你探索湖仓架构

阿里集团、Snowflake、腾讯音乐、小红书、Shopee 等 30+ 行业标杆企业联袂呈现,共话 AI 时代下的湖仓技术创新与未来

数据湖系列之四 | 数据湖存储加速方案的发展和对比分析

我们期望本文能够帮助读者对大数据和 AI 场景下的「数据湖存储加速」这个主题建立一个整体把握,为选出适合自己业务的方案提供参考。

资源节省 81%,作业帮 MySQL千表入湖仓实践
资源节省 81%,作业帮 MySQL 千表入湖仓实践

23 年我们完成了日志采集入湖,整体运行效果很好。为解决上述问题。我们决定将 Mysql 采集由入 Hive 改为 Iceberg。

腾讯音乐:从 Elasticsearch 到 Apache Doris 内容库升级,统一搜索分析引擎,成本直降 80%
腾讯音乐:从 Elasticsearch 到 Apache Doris 内容库升级,统一搜索分析引擎,成本直降 80%

为满足更严苛数据分析的需求,腾讯音乐借助 Apache Doris 替代了 Elasticsearch 集群,统一了内容库数据平台的内容搜索和分析引擎。

统一存储、缩短链路,快手从 Clickhouse 到 Apache Doris 实现湖仓分离向湖仓一体的升级
统一存储、缩短链路,快手从 Clickhouse 到 Apache Doris 实现湖仓分离向湖仓一体的升级

快手通过引入 Apache Doris 湖仓一体能力,替换了 Clickhouse ,升级为湖仓一体架构,并结合 Doris 的物化视图改写能力和自动物化服务,实现高性能的数据查询以及灵活的数据治理。

完整的数仓能力,ByConity 1.0 版本发布!
完整的数仓能力,ByConity 1.0 版本发布!

2024 年 8 月,ByConity 1.0 正式发布,翻开了 ByConity 新的一页。

作业帮在多云环境下的高可用双活架构优化实践
作业帮在多云环境下的高可用双活架构优化实践

目前,作业帮是多云架构(阿里云、百度云、腾讯云),并同时使用 MySQL、Redis-Cluster、MongoDB、Elastisearch、TiDB 、OceanBase 这几款数据库。

单集群 QPS 超 10w,存储成本降低 70%!招联金融基于 Apache Doris 数仓升级实践
单集群 QPS 超 10w,存储成本降低 70%!招联金融基于 Apache Doris 数仓升级实践

在竞争激烈的消费金融市场中,有效利用海量数据、提升业务运营效率是赢得市场的关键。

GitHub遭遇全球宕机,Copilot也瘫痪了!开发者:今天可以光明正大摸鱼了
GitHub 遭遇全球宕机,Copilot 也瘫痪了!开发者:今天可以光明正大摸鱼了

开发者失望吐槽:太不靠谱,是时候逃离了

小米在Open Data Catalog For AI的实践
小米在 Open Data Catalog For AI 的实践

如何使用 Gravitino 和 Fileset 来管理 AI 数据资产?

图灵奖数据库大师 Stonebraker 师徒对数据库近 20 年发展与展望的 2 万字论文
图灵奖数据库大师 Stonebraker 师徒对数据库近 20 年发展与展望的 2 万字论文

数据库近 20 年总结与展望:“历史总是不断轮回”

离产业最近的人工智能才是未来!腾讯宣布模型全矩阵产品升级
离产业最近的人工智能才是未来!腾讯宣布模型全矩阵产品升级

作为新一轮科技革命和产业变革的重要驱动力量,人工智能被认为是发展新质生产力的主要阵地。

章文嵩、蒋晓伟、李飞飞、张凯巅峰对谈:大模型时代的数据智能新趋势 | QCon
章文嵩、蒋晓伟、李飞飞、张凯巅峰对谈:大模型时代的数据智能新趋势 | QCon

AI 与数据,它们的生产关系是不是发生了变化?

    微服务架构和质量评估的前沿探索
    微服务架构和质量评估的前沿探索

    李晓洲 博士 | 芬兰奥卢大学 博士后研究员

    立即下载
    去哪儿网测试环境体系设计与实践

    刘丹 | 去哪儿网 测试高级经理

    立即下载
    小米大模型端侧部署落地探索

    黄武伟 | 小米 AI 实验室 大模型算法工程师

    立即下载