大数据

人人都在谈大数据,但理解其真谛的只是少数人。
收录了大数据话题下的 978 篇文章
  • 文章
  • 迷你书
大数据时代的小数据挑战:华为美研披露无监督和半监督方法最新进展

本文是 AI 前线的第 76 篇论文导读,今天要解读的这篇论文来自华为美研所。在这篇论文中,作者对无监督和半监督这两大类方法的最新进展做了详细解读,包括训练变换等变、非耦合、自监督和半监督表示的标准,以及无监督和半监督生成模型的实例。

作者: Guo-Jun QiJiebo Luo 译者: 马卓奇

2019 年 4 月 21 日
打造工业级推荐系统(一):推荐算法工程师的成长之道

本文是作者计划的一系列文章中的一篇。后面的文章将涉及到推荐系统的基本介绍、冷启动、商业价值、工程实现、评估等方方面面。

作者: gongyouliu

2019 年 4 月 18 日
基于 Flink 构建用户实时基础行为工程

本文介绍基于 Flink 构建用户实时基础行为工程的相关实践,包括 Flink 相关的技术点和基础行为实时工程的业务。

作者: 孙赵宏

2019 年 4 月 18 日
DataX 在有赞大数据平台的实践

本文介绍有赞大数据平台对 DataX 的设计、开发及应用实践。

作者: 小木

2019 年 4 月 18 日
见微知著,从 Apache Kylin 看项目开源的门道

人人都想做开源,但你真的懂开源吗?

作者: 田晓旭

2019 年 4 月 17 日
如何利用 Pravega 的状态同步器解决分布式一致性问题

StateSynchronizer 组件应用实例

作者: 蔡超前滕昱

2019 年 4 月 17 日
Pick!闲鱼亿级商品库中的秒级实时选品

本文主要阐述马赫系统中数据处理的具体设计方案,说明整体设计的来龙去脉。

作者: 剑辛

2019 年 4 月 17 日
分布式数据库中间件 Apache ShardingSphere 京东落地实战

本次分享将介绍 Apache ShardingSphere 核心功能、在京东的具体落地实战、产品生态圈发展等内容。

作者: dbaplus社群

2019 年 4 月 17 日
腾讯 Flink 实践:实时计算平台 Oceanus 建设历程

目前腾讯的实时计算的规模已经十分庞大。数据平台部实时计算团队每天需要处理超过了 17 万亿条数据,其中每秒接入的数据峰值达到了 2.1 亿条。本文介绍了腾讯大数据在实时计算平台建设上的工作。

作者: 腾讯大数据

2019 年 4 月 16 日
Apache Kylin 在携程的实践

在近期的 Apache Kylin Meetup 上,携程大数据资深研发工程师张巍分享了 Kylin 在携程的应用。本文为大家介绍携程当前的架构以及使用 Kylin 过程中的挑战与心得。

作者: 张巍魏宁

2019 年 4 月 16 日
决定大数据搭建场所的重要因素是什么?

如今,企业大数据搭建地可以在本地、公有云和私有云之间灵活选择,而这一决定的关键因素是数据安全、数据体量和业务预判。

作者: 赵钰莹

2019 年 4 月 16 日
唯品会舆情监控系统

本文主要介绍唯品会的舆情监控系统,包括系统架构,实践效果等内容。

作者: 唯技术

2019 年 4 月 16 日