阿里、蚂蚁、晟腾、中科加禾精彩分享 AI 基础设施洞见,现购票可享受 9 折优惠 |AICon 了解详情
写点什么

大数据清洗

收录了 大数据清洗 频道下的 50 篇内容

大数据挖掘更多时间都在于清洗数据

编者按:本文作者汪榕曾写过一篇文章:《以什么姿势进入数据挖掘会少走弯路》,是对想入行大数据的读者的肺腑之言,其中也表达了作者的一些想法,希望大家不要随便去上没有结合业务的收费培训班课程;而后,他有了结合他本人的工作经验,写一系列帮助大家进行实践学习课程文章的想法,InfoQ也觉得这是件非常有意义的事情,特别是对于大数据行业1-3年工作经验的人士,或者是没有相关工作经验但是想入行大数据行业的人。课程的名称是“数据挖掘与数据产品的那些事”,目的是:1. 引导目标人群正确学习大数据挖掘与数据产品;2. 协助代码能力薄弱的学习者逐渐掌握大数据核心编码技巧;3. 帮助目标人群理解大数据挖掘生态圈的数据流程体系;4. 分享大数据领域实践数据产品与数据挖掘开发案例;5.交流大数据挖掘从业者职业规划和发展方向。这系列文章会在InfoQ上形成一个专栏,本文是专栏的第三篇。

复盘1:直播大数据采集(一期)
复盘 1:直播大数据采集(一期)

因为在直播公司的缘故,所以会涉及很多直播相关的业务。

机器学习在美团配送系统的实践:用技术还原真实世界
机器学习在美团配送系统的实践:用技术还原真实世界

本文来自美团点评技术文章系列。

又来抢大数据饭碗?AWS 发布 SageMaker:省略数据清洗、建模、调参等步骤

美国拉斯维加斯时间2017年11月29日上午,AWS CEO Andy Jassy在一年一度的AWS re:Invent大会上发布了主题演讲。在短短两小时内,Andy宣布了一系列令人兴奋的新服务。其中最重要的包括一款售价249美元的、名为DeepLens的人工智能摄像机;一套用于开放并部署机器学习算法的SageMaker平台;外加实时视频识别、文字翻译等多项应用层服务。

利用 AWS GreenGrass ML Inference 为你的物联网赋予智能
利用 AWS GreenGrass ML Inference 为你的物联网赋予智能

想对产线做预防性维护减少停机?想在门口的智能门铃上自动判断出现的人是不是家人?

运用ETLCloud快速实现数据清洗、转换
运用 ETLCloud 快速实现数据清洗、转换

自动化数据转换和集成工具,可实现企业内部和外部数据的无缝对接。

ETL
数据清洗
数据集成工具
百度大脑 EasyData 智能数据服务平台上线文本数据清洗功能

我们采集或导出的原始文本数据中,通常包含着大量无关的emoji和url信息,面对大量的无用信息时该怎么办?少量数据通常我们可采用人工剔除的方式,但在数据量较大的情况下,往往就无从下手。

经典大数据架构案例:酷狗音乐的大数据平台重构

本文是酷狗音乐的架构师王劲对酷狗大数据架构重构的总结。酷狗音乐的大数据架构本身很经典,而这篇讲解了对原来的架构上进行重构的工作内容,总共分为重构的原因、新一代的大数据技术架构、踩过的坑、后续持续改进四个部分来给大家谈酷狗音乐大数据平台重构的过程。

一篇文章说清楚如何提升大数据质量
一篇文章说清楚如何提升大数据质量

数据质量问题不仅仅是一个技术问题,它也可能出现在业务和管理的过程中。要想提高数据质量,就必须懂行业、懂组织、懂业务。

业务数据清洗,落地实现方案
业务数据清洗,落地实现方案

在系统业务开发的过程中,都会面临这样一个问题:面对业务的快速扩展,很多版本在当时没有时间去全局考虑,导致很多业务数据存储和管理并不规范。

数据
数据清洗
数据管理
数据服务
业务数据
突破MySQL三大技术瓶颈,分布式数据库在翼鸥教育中的技术实践
突破 MySQL 三大技术瓶颈,分布式数据库在翼鸥教育中的技术实践

数据库选型时有哪些考量因素?

高技能人才或是未来5-10年大数据发展的最大瓶颈
高技能人才或是未来 5-10 年大数据发展的最大瓶颈

是什么使大数据充满挑战,我们应如何解决这些问题?

Hadoop 怎么了,大数据路在何方
Hadoop 怎么了,大数据路在何方

本文以Hadoop的盛衰变化为楔子聊下大数据分析的发展现状和未来趋势。

大数据在大模型趋势下的“新姿态”:大模型与企业数据充分协同
大数据在大模型趋势下的“新姿态”:大模型与企业数据充分协同

随着大数据、人工智能和云计算等技术的不断发展,大模型成为了企业数据体系中不可或缺的一部分。大模型趋势下,企业数据体系面临着新的挑战和机遇。

有关数据治理的本质及实践,看这一篇就够了
有关数据治理的本质及实践,看这一篇就够了

本篇文章就结合龙石数据的理论研究和实践经验,帮助大家揭开数据治理的面纱。

中国银联大数据发展史
中国银联大数据发展史

从制作报表到数仓,中国银联的大数据转型历程。

大话 Python:python 操作 excel 系列 -- 数据清洗
大话 Python:python 操作 excel 系列 -- 数据清洗

python 在对 excel 操作的同时,前面文章中说了数据的读取、插入、简单分析,还有一个非常重要的点就是数据清洗。那什么叫数据清洗,说白了就是去除数据文本中的垃圾值,比如:存在的空值、多余的空格、数据格式等等的处理。

Python
Excel
数据清洗
4 亿用户过后,甜橙金融如何利用大数据和 AI 蓄力发展?

人工智能逐渐渗透进人们生活的方方面面,传统的工作领域也在被人工智能与大数据逐渐颠覆,金融就是其中的一个代表领域。在如今的金融领域,自助与自动化似乎都是常态,利用人脸识别进行身份验证,用户画像则用来对用户信用进行评级。在AI发展愈发强大的今天,金融领域还有哪些我们不知道的变化?这一切的背后又有什么样的技术在支撑?我们采访到了来自甜橙金融的大数据总监谢巍盛,这些问题将由他来进行一一解答。

腾讯云总裁邱跃鹏:大模型将重新定义云上工具和应用
腾讯云总裁邱跃鹏:大模型将重新定义云上工具和应用

大模型进一步提升了云产品的效能。

大数据清洗专题_资料-InfoQ中文网