收录了 大数据清洗 频道下的 50 篇内容
编者按:本文作者汪榕曾写过一篇文章:《以什么姿势进入数据挖掘会少走弯路》,是对想入行大数据的读者的肺腑之言,其中也表达了作者的一些想法,希望大家不要随便去上没有结合业务的收费培训班课程;而后,他有了结合他本人的工作经验,写一系列帮助大家进行实践学习课程文章的想法,InfoQ也觉得这是件非常有意义的事情,特别是对于大数据行业1-3年工作经验的人士,或者是没有相关工作经验但是想入行大数据行业的人。课程的名称是“数据挖掘与数据产品的那些事”,目的是:1. 引导目标人群正确学习大数据挖掘与数据产品;2. 协助代码能力薄弱的学习者逐渐掌握大数据核心编码技巧;3. 帮助目标人群理解大数据挖掘生态圈的数据流程体系;4. 分享大数据领域实践数据产品与数据挖掘开发案例;5.交流大数据挖掘从业者职业规划和发展方向。这系列文章会在InfoQ上形成一个专栏,本文是专栏的第三篇。
因为在直播公司的缘故,所以会涉及很多直播相关的业务。
本文来自美团点评技术文章系列。
美国拉斯维加斯时间2017年11月29日上午,AWS CEO Andy Jassy在一年一度的AWS re:Invent大会上发布了主题演讲。在短短两小时内,Andy宣布了一系列令人兴奋的新服务。其中最重要的包括一款售价249美元的、名为DeepLens的人工智能摄像机;一套用于开放并部署机器学习算法的SageMaker平台;外加实时视频识别、文字翻译等多项应用层服务。
想对产线做预防性维护减少停机?想在门口的智能门铃上自动判断出现的人是不是家人?
数据质量问题不仅仅是一个技术问题,它也可能出现在业务和管理的过程中。要想提高数据质量,就必须懂行业、懂组织、懂业务。
本文是酷狗音乐的架构师王劲对酷狗大数据架构重构的总结。酷狗音乐的大数据架构本身很经典,而这篇讲解了对原来的架构上进行重构的工作内容,总共分为重构的原因、新一代的大数据技术架构、踩过的坑、后续持续改进四个部分来给大家谈酷狗音乐大数据平台重构的过程。
数据库选型时有哪些考量因素?
本篇文章就结合龙石数据的理论研究和实践经验,帮助大家揭开数据治理的面纱。
本文以Hadoop的盛衰变化为楔子聊下大数据分析的发展现状和未来趋势。
遵循避免重复开发、抽象共通规则、建设专职系统的思路,苏宁内部很早就开发实施了一套数据对账开放平台(以下简称为“对账平台”)并得到良好应用。
目前业界基于 Hadoop 技术栈的底层计算平台越发稳定成熟,计算能力不再成为主要瓶颈。 多样化的数据、复杂的业务分析需求、系统稳定性、数据可靠性, 这些软性要求, 逐渐成为日志分析系统面对的主要问题。2018 年苏宁易购践行双线融合模式,提出了智慧零售的大战略,其本质是数据驱动,为消费者提供更好的服务, 苏宁日志分析系统作为数据分析的第一环节,为数据运营打下了坚实基础。
是什么使大数据充满挑战,我们应如何解决这些问题?
金融行业一直以其特殊的行业属性与业务需求区别于其他传统行业,而在大数据应用方面,金融行业同样也是如此。从建立金融大数据平台的角度来看,其既具有其他传统行业的普遍需求,同时又在其他行业需求不明显的方面要求颇为严格,这自然就为金融企业大数据平台的建立带来了很多困难。那么到底该如何满足金融行业大数据业务需求,并克服种种技术难题,最终建立起能够促进金融企业实现高效数据变现的大数据平台呢?明略数据作为主要面向传统行业的大数据平台供应商,在金融行业中同样具备丰富的技术经验,为此InfoQ对明略数据产品经理杨威进行了独家专访。
本文比较了用于数据准备的几种方法,它们分别是提取-变换-加载批处理(ETL)、流式获取和数据整理。本文还讨论了数据准备如何与可视化分析相关联,以及不同用户角色(如数据科学家或业务分析人员)应如何共同构建分析模型的最佳实践。
近几年,随着数据湖概念的兴起,业界对于数据仓库和数据湖的对比甚至争论始终不断。数据仓库和数据湖的区别到底是什么?本文作者来自阿里巴巴计算平台部门,在深度参与阿里巴巴大数据/数据中台领域建设之后,将对数据湖和数据仓库的来龙去脉进行深入剖析,阐述两者融合演进的新方向——湖仓一体。
大模型进一步提升了云产品的效能。
百分点科技大数据技术团队围绕当前媒体机构的转型需求,系统地介绍了百分点科技媒体数据中台建设方法论及实践成果。
数据云的主要目标是让数字化转型变得更简单、更智能。
从制作报表到数仓,中国银联的大数据转型历程。