大数据
大数据无论在现在还是未来,都是企业和技术人关注的焦点。讲述获取、存储、管理、分析的方方面面,关注软件、实践、生态,挖掘最新的前沿技术,同时也思考大数据与AI和云计算的深度结合。

Hadoop 的 MapReduce 到底有什么问题?
作为 Hadoop 里重要的分布式计算组件 MapReduce 到底存在什么样的问题,大家纷纷都转投其他技术栈?我们来一起探个究竟。本文会先详细解析一下整个 MapReduce 的过程,编程方式,然后再去分析一下存在的问题和其中可以借鉴的点。


Gartner 报告最新解读:数仓 or 数据湖?
本文对 Gartner 近期发布的“分析查询加速的市场引导报告(Market Guide for Analytics Query Accelerators)”进行解读。



数据与云革命浪潮即将到来:关于 2021 年的六大预测
准确预测未来是一个挑战,特定的时间范围对于未来的判断也有所区别。但纵观我们在云采用层面感受到的趋势,2020 年的一系列事件似乎能够给 2021 年的变化提供一点启示。







360 一站式大数据资源管理与开发平台详解
360 系统部成立于 2010 年,负责整个集团的大数据底层基础平台建设(包括分布式存储、分布式计算、大数据搜索、图计算等各类大数据服务),目前服务于整个集团 30+ 部门,1000+ 用户,服务器 25000+,存储数据量 EB 级。




Kylin 在贝壳的性能挑战和 HBase 优化实践
本文从性能调优上向大家介绍如何通过对 HBase 的优化来保障重点业务的查询性能,实现 Kylin 千万级 / 天的查询量下,3s 内查询占比达到 99.7%。

Lucene 中的 Stored Fields 存储优化
Qunar 酒店的搜索和 suggest 是基于 Lucene 构建的,本文将介绍 Lucene 提供的相关机制,以及我们怎么利用这种机制去实现我们想要的功能。




详解 Flink 容器化环境下的 OOM Killed
本文将解析 JVM 和 Flink 的内存模型,并总结在工作中遇到和在社区交流中了解到的造成 Flink 内存使用超出容器限制的常见原因。本文主要讨论 on YARN 部署、Oracle JDK/OpenJDK 8、Flink 1.10+ 的情况。
数据中心“容灾”和“备份”的区别
数据中心运行突发故障 (如:天灾不可避免的灾难) 是无法预测的,计算机里的数据就像扫雷游戏一样,十面埋伏充满雷区,随时都有可能 Game Over,容灾备份就是数据安全的最后防线,但是你可以避免由数据中心发生故障而丢失数据引发的数据丢失的局面。








报!大赛最新赛况已出炉,特色应用赛道初赛进入倒计时
由中国信通院、深圳市宝安区联合主办的第四届工业大数据创新竞赛已经火热开启了三个多月。自开赛以来,各界人士通过不同的宣传渠道获取相关信息,并最终决定踏入赛场,挥起智慧与才华的旗帜为竞赛增注能量。