年终盛会:QCon 上海站将于 12 月举办,拟邀请 70 位嘉宾前来分享!>>> 了解详情
写点什么

大数据清洗

收录了 大数据清洗 频道下的 50 篇内容

大数据挖掘更多时间都在于清洗数据

编者按:本文作者汪榕曾写过一篇文章:《以什么姿势进入数据挖掘会少走弯路》,是对想入行大数据的读者的肺腑之言,其中也表达了作者的一些想法,希望大家不要随便去上没有结合业务的收费培训班课程;而后,他有了结合他本人的工作经验,写一系列帮助大家进行实践学习课程文章的想法,InfoQ也觉得这是件非常有意义的事情,特别是对于大数据行业1-3年工作经验的人士,或者是没有相关工作经验但是想入行大数据行业的人。课程的名称是“数据挖掘与数据产品的那些事”,目的是:1. 引导目标人群正确学习大数据挖掘与数据产品;2. 协助代码能力薄弱的学习者逐渐掌握大数据核心编码技巧;3. 帮助目标人群理解大数据挖掘生态圈的数据流程体系;4. 分享大数据领域实践数据产品与数据挖掘开发案例;5.交流大数据挖掘从业者职业规划和发展方向。这系列文章会在InfoQ上形成一个专栏,本文是专栏的第三篇。

复盘1:直播大数据采集(一期)
复盘 1:直播大数据采集(一期)

因为在直播公司的缘故,所以会涉及很多直播相关的业务。

机器学习在美团配送系统的实践:用技术还原真实世界
机器学习在美团配送系统的实践:用技术还原真实世界

本文来自美团点评技术文章系列。

又来抢大数据饭碗?AWS 发布 SageMaker:省略数据清洗、建模、调参等步骤

美国拉斯维加斯时间2017年11月29日上午,AWS CEO Andy Jassy在一年一度的AWS re:Invent大会上发布了主题演讲。在短短两小时内,Andy宣布了一系列令人兴奋的新服务。其中最重要的包括一款售价249美元的、名为DeepLens的人工智能摄像机;一套用于开放并部署机器学习算法的SageMaker平台;外加实时视频识别、文字翻译等多项应用层服务。

利用 AWS GreenGrass ML Inference 为你的物联网赋予智能
利用 AWS GreenGrass ML Inference 为你的物联网赋予智能

想对产线做预防性维护减少停机?想在门口的智能门铃上自动判断出现的人是不是家人?

一篇文章说清楚如何提升大数据质量
一篇文章说清楚如何提升大数据质量

数据质量问题不仅仅是一个技术问题,它也可能出现在业务和管理的过程中。要想提高数据质量,就必须懂行业、懂组织、懂业务。

经典大数据架构案例:酷狗音乐的大数据平台重构

本文是酷狗音乐的架构师王劲对酷狗大数据架构重构的总结。酷狗音乐的大数据架构本身很经典,而这篇讲解了对原来的架构上进行重构的工作内容,总共分为重构的原因、新一代的大数据技术架构、踩过的坑、后续持续改进四个部分来给大家谈酷狗音乐大数据平台重构的过程。

突破MySQL三大技术瓶颈,分布式数据库在翼鸥教育中的技术实践
突破 MySQL 三大技术瓶颈,分布式数据库在翼鸥教育中的技术实践

数据库选型时有哪些考量因素?

有关数据治理的本质及实践,看这一篇就够了
有关数据治理的本质及实践,看这一篇就够了

本篇文章就结合龙石数据的理论研究和实践经验,帮助大家揭开数据治理的面纱。

Hadoop 怎么了,大数据路在何方
Hadoop 怎么了,大数据路在何方

本文以Hadoop的盛衰变化为楔子聊下大数据分析的发展现状和未来趋势。

苏宁11.11:基于Apache Ignite日均十亿数据对账实践应用
苏宁 11.11:基于 Apache Ignite 日均十亿数据对账实践应用

遵循避免重复开发、抽象共通规则、建设专职系统的思路,苏宁内部很早就开发实施了一套数据对账开放平台(以下简称为“对账平台”)并得到良好应用。

苏宁基于 Spark Streaming 的实时日志分析系统实践

目前业界基于 Hadoop 技术栈的底层计算平台越发稳定成熟,计算能力不再成为主要瓶颈。 多样化的数据、复杂的业务分析需求、系统稳定性、数据可靠性, 这些软性要求, 逐渐成为日志分析系统面对的主要问题。2018 年苏宁易购践行双线融合模式,提出了智慧零售的大战略,其本质是数据驱动,为消费者提供更好的服务, 苏宁日志分析系统作为数据分析的第一环节,为数据运营打下了坚实基础。

高技能人才或是未来5-10年大数据发展的最大瓶颈
高技能人才或是未来 5-10 年大数据发展的最大瓶颈

是什么使大数据充满挑战,我们应如何解决这些问题?

明略数据杨威:借助新技术为金融行业实现高效数据变现

金融行业一直以其特殊的行业属性与业务需求区别于其他传统行业,而在大数据应用方面,金融行业同样也是如此。从建立金融大数据平台的角度来看,其既具有其他传统行业的普遍需求,同时又在其他行业需求不明显的方面要求颇为严格,这自然就为金融企业大数据平台的建立带来了很多困难。那么到底该如何满足金融行业大数据业务需求,并克服种种技术难题,最终建立起能够促进金融企业实现高效数据变现的大数据平台呢?明略数据作为主要面向传统行业的大数据平台供应商,在金融行业中同样具备丰富的技术经验,为此InfoQ对明略数据产品经理杨威进行了独家专访。

机器学习项目中的数据预处理与数据整理之比较

本文比较了用于数据准备的几种方法,它们分别是提取-变换-加载批处理(ETL)、流式获取和数据整理。本文还讨论了数据准备如何与可视化分析相关联,以及不同用户角色(如数据科学家或业务分析人员)应如何共同构建分析模型的最佳实践。

数据湖与数据仓库的新未来:阿里提出湖仓一体架构
数据湖与数据仓库的新未来:阿里提出湖仓一体架构

近几年,随着数据湖概念的兴起,业界对于数据仓库和数据湖的对比甚至争论始终不断。数据仓库和数据湖的区别到底是什么?本文作者来自阿里巴巴计算平台部门,在深度参与阿里巴巴大数据/数据中台领域建设之后,将对数据湖和数据仓库的来龙去脉进行深入剖析,阐述两者融合演进的新方向——湖仓一体。

腾讯云总裁邱跃鹏:大模型将重新定义云上工具和应用
腾讯云总裁邱跃鹏:大模型将重新定义云上工具和应用

大模型进一步提升了云产品的效能。

媒体数据中台建设方法论和落地实践
媒体数据中台建设方法论和落地实践

百分点科技大数据技术团队围绕当前媒体机构的转型需求,系统地介绍了百分点科技媒体数据中台建设方法论及实践成果。

从数据云的概念、应用场景聊我们为什么需要它
从数据云的概念、应用场景聊我们为什么需要它

数据云的主要目标是让数字化转型变得更简单、更智能。

中国银联大数据发展史
中国银联大数据发展史

从制作报表到数仓,中国银联的大数据转型历程。

大数据清洗专题_资料-InfoQ中文网