大数据

关注
收录了大数据频道下的 2718 篇内容
大数据无论在现在还是未来,都是企业和技术人关注的焦点。讲述获取、存储、管理、分析的方方面面,关注软件、实践、生态,挖掘最新的前沿技术,同时也思考大数据与AI和云计算的深度结合。
  • 全部
  • 文章
  • 视频
  • 话题
  • 电子书
Hadoop的MapReduce到底有什么问题?
Hadoop 的 MapReduce 到底有什么问题?

作为 Hadoop 里重要的分布式计算组件 MapReduce 到底存在什么样的问题,大家纷纷都转投其他技术栈?我们来一起探个究竟。本文会先详细解析一下整个 MapReduce 的过程,编程方式,然后再去分析一下存在的问题和其中可以借鉴的点。

快手AI技术对游戏的全链路赋能
快手 AI 技术对游戏的全链路赋能

本文主要介绍快手将 AI 技术应用于游戏业务各个环节的探索和落地情况。

Gartner 报告最新解读:数仓 or 数据湖?
Gartner 报告最新解读:数仓 or 数据湖?

本文对 Gartner 近期发布的“分析查询加速的市场引导报告(Market Guide for Analytics Query Accelerators)”进行解读。

如何利用TensorFlow Hub 让BERT开发更简单?
如何利用 TensorFlow Hub 让 BERT 开发更简单?

开发者可在 TensorFlow Hub 上使用预训练编码器和匹配的文本预处理模型。

在云计算的前进路上,多云策略为何意义重大?
在云计算的前进路上,多云策略为何意义重大?

近年来,信息技术的飞速发展带来了更强大、更敏捷的云服务选项,更丰富的软件方案,更全面的分析功能以及前所未有的移动性与传感器覆盖范围。

数据与云革命浪潮即将到来:关于2021年的六大预测
数据与云革命浪潮即将到来:关于 2021 年的六大预测

准确预测未来是一个挑战,特定的时间范围对于未来的判断也有所区别。但纵观我们在云采用层面感受到的趋势,2020 年的一系列事件似乎能够给 2021 年的变化提供一点启示。

为什么训练数据是自然语言处理的瓶颈?
为什么训练数据是自然语言处理的瓶颈?

人工智能并不像某些资料中宣传的那样真正理解人类的语言。

Kylin 在 eBay 的成长历程与实践
Kylin 在 eBay 的成长历程与实践

本文回顾了 Apache Kylin 在 eBay 中的发展历程和应用实践,同时展望了 eBay 与 Kylin 的未来发展规划。

历时四年,分布式文件系统 JuiceFS 正式开源
历时四年,分布式文件系统 JuiceFS 正式开源

经过 4 年持续迭代和累计几千万小时线上考验的 JuiceFS 开源了!

TiDB 常⻅架构应⽤场景
TiDB 常⻅架构应⽤场景

本文详细介绍了 TiDB 常⻅应⽤场景,以及在这种场景下数据库架构选型的一些思考。

Kylin 5 年的成长与未来规划
Kylin 5 年的成长与未来规划

本文分享 Kylin 在过去 5 年中的成长和 Kylin 4.0 版本开发的状况,也面向社区分享了 Kylin 未来的发展规划。

云原生数据库设计新思路
云原生数据库设计新思路

未来在 Serverless,包括 AI-Driven 几大方向上,怎么设计出更好的 database,这是我们努力的方向。

360一站式大数据资源管理与开发平台详解
360 一站式大数据资源管理与开发平台详解

360 系统部成立于 2010 年,负责整个集团的大数据底层基础平台建设(包括分布式存储、分布式计算、大数据搜索、图计算等各类大数据服务),目前服务于整个集团 30+ 部门,1000+ 用户,服务器 25000+,存储数据量 EB 级。

Kafka集群突破百万partition 的技术探索
Kafka 集群突破百万 partition 的技术探索

本篇文章主要从元数据,controller 逻辑等方面介绍了如何解决支撑百万 partition 的问题。

浅淡 Apache Kylin 与 ClickHouse 的对比
浅淡 Apache Kylin 与 ClickHouse 的对比

本文将尝试从技术原理、存储结构、优化方法和优势场景等方面,对比这两种 OLAP 引擎, 为大家的技术选型提供一些参考。

ClickHouse的实践之路
ClickHouse 的实践之路

在数据量日益增长的当下,传统数据库的查询性能已满足不了我们的业务需求。

Kylin 在贝壳的性能挑战和 HBase 优化实践
Kylin 在贝壳的性能挑战和 HBase 优化实践

本文从性能调优上向大家介绍如何通过对 HBase 的优化来保障重点业务的查询性能,实现 Kylin 千万级 / 天的查询量下,3s 内查询占比达到 99.7%。

Lucene 中的 Stored Fields 存储优化
Lucene 中的 Stored Fields 存储优化

Qunar 酒店的搜索和 suggest 是基于 Lucene 构建的,本文将介绍 Lucene 提供的相关机制,以及我们怎么利用这种机制去实现我们想要的功能。

PostgreSQL 中如何启用/禁用及验证外键约束
PostgreSQL 中如何启用 / 禁用及验证外键约束

本文总结了 DB 日常运维实践中可能踩的坑,使读者可以掌握在日常迁移数据时对外键的处理方法。

从 0 到 1 搭建技术中台之目标愿景篇:一个技术立命的团队,但更关注业务价值
从 0 到 1 搭建技术中台之目标愿景篇:一个技术立命的团队,但更关注业务价值

中台架构是近一两年最火热的话题之一,然而成功案例不多,为什么出现这样的问题呢?

Apache Kylin 在中通快递的实践
Apache Kylin 在中通快递的实践

本文从多方面对比了 Presto 和 Kylin 的优缺点,并从业务场景、调度整合、监控系统、运维调优、源码和二次开发等多个角度进行了阐述。

详解 Flink 容器化环境下的 OOM Killed
详解 Flink 容器化环境下的 OOM Killed

本文将解析 JVM 和 Flink 的内存模型,并总结在工作中遇到和在社区交流中了解到的造成 Flink 内存使用超出容器限制的常见原因。本文主要讨论 on YARN 部署、Oracle JDK/OpenJDK 8、Flink 1.10+ 的情况。

数据中心“容灾”和“备份”的区别

数据中心运行突发故障 (如:天灾不可避免的灾难) 是无法预测的,计算机里的数据就像扫雷游戏一样,十面埋伏充满雷区,随时都有可能 Game Over,容灾备份就是数据安全的最后防线,但是你可以避免由数据中心发生故障而丢失数据引发的数据丢失的局面。

架构师(2021年1月)架构师(2021年1月)
架构师(2021 年 1 月)

本期推荐内容:我们为什么选择 Rust 实现顶尖实时通信技术?Docker 的第二次死亡;要么改进要么消亡:我想跨平台应用程序快要终结了。

Fit 健身 APP 联手 HarmonyOS,升级在线健身体验
Fit 健身 APP 联手 HarmonyOS,升级在线健身体验

Fit 健身 APP 联手 HarmonyOS,升级在线健身体验。

使用Kafka,如何成功迁移SQL数据库中超过20亿条记录?
使用 Kafka,如何成功迁移 SQL 数据库中超过 20 亿条记录?

不同的情况需要不同的解决方案,不过也许有人可以从我们的解决方案中得到一些有价值的见解。

从Lambda到无Lambda,领英吸取到的教训
从 Lambda 到无 Lambda,领英吸取到的教训

在这篇文章中,我们将分享一些在采用 Lambda 架构时的经验教训、过渡到无 Lambda 时所做的决定,以及经历这个过渡所必需的转换工作。

Python的GIL
Python 的 GIL

结合日常工作的总结和前人的经验,聊一聊 GIL 存在的得与失。

报!大赛最新赛况已出炉,特色应用赛道初赛进入倒计时
报!大赛最新赛况已出炉,特色应用赛道初赛进入倒计时

由中国信通院、深圳市宝安区联合主办的第四届工业大数据创新竞赛已经火热开启了三个多月。自开赛以来,各界人士通过不同的宣传渠道获取相关信息,并最终决定踏入赛场,挥起智慧与才华的旗帜为竞赛增注能量。

  • 用户头像
    关注

    InfoQ编辑

  • 用户头像
    关注

    InfoQ高级编辑

  • 用户头像
    关注

    InfoQ高级编辑

    同程艺龙接入层体系架构与实践
    同程艺龙接入层体系架构与实践

    袁伟 | 同程艺龙 研发中心/基础服务团队负责人

    立即下载
    基于 C++ 构建微信客户端跨平台开发框架

    方秋枋 | 腾讯 微信客户端工程师

    立即下载
    技术人员如何面对创业焦虑

    巨建华 | BHEX 创始人兼 CEO

    立即下载