

 写点什么

登录/注册

大数据清洗

收录了大数据清洗频道下的 50 篇内容

大数据挖掘更多时间都在于清洗数据

编者按：本文作者汪榕曾写过一篇文章：《以什么姿势进入数据挖掘会少走弯路》，是对想入行大数据的读者的肺腑之言，其中也表达了作者的一些想法，希望大家不要随便去上没有结合业务的收费培训班课程；而后，他有了结合他本人的工作经验，写一系列帮助大家进行实践学习课程文章的想法，InfoQ也觉得这是件非常有意义的事情，特别是对于大数据行业1-3年工作经验的人士，或者是没有相关工作经验但是想入行大数据行业的人。课程的名称是“数据挖掘与数据产品的那些事”，目的是：1. 引导目标人群正确学习大数据挖掘与数据产品；2. 协助代码能力薄弱的学习者逐渐掌握大数据核心编码技巧；3. 帮助目标人群理解大数据挖掘生态圈的数据流程体系；4. 分享大数据领域实践数据产品与数据挖掘开发案例；5.交流大数据挖掘从业者职业规划和发展方向。这系列文章会在InfoQ上形成一个专栏，本文是专栏的第三篇。

作者 : 汪榕

2017-01-10

8709

复盘1：直播大数据采集（一期）

复盘 1：直播大数据采集（一期）

因为在直播公司的缘故，所以会涉及很多直播相关的业务。

作者 : Jim Tang

2020-01-06

75

百度冯景辉：从数据清洗到安全围栏，深度解析大模型原生安全构建

百度冯景辉：从数据清洗到安全围栏，深度解析大模型原生安全构建

8月18日-19日，AICon 落地上海，百度冯景辉即将为你分享《百度大模型原生安全构建之路》，本文为会前采访文章～

冯景辉策划: 李忠良AICon 全球人工智能开发与应用大会

2024-08-15

0

又来抢大数据饭碗？AWS 发布 SageMaker：省略数据清洗、建模、调参等步骤

美国拉斯维加斯时间2017年11月29日上午，AWS CEO Andy Jassy在一年一度的AWS re:Invent大会上发布了主题演讲。在短短两小时内，Andy宣布了一系列令人兴奋的新服务。其中最重要的包括一款售价249美元的、名为DeepLens的人工智能摄像机；一套用于开放并部署机器学习算法的SageMaker平台；外加实时视频识别、文字翻译等多项应用层服务。

作者 : 蔡芳芳Vincent

2017-11-30

1993

FineDataLink 数据中心：一键搞定数据清洗，告别数据脏乱差！

FineDataLink数据中心提供智能清洗解决方案，支持多源整合、实时同步、去重补缺、格式转换，高效提升数据质量，降低运维成本，助力企业打破数据孤岛，实现精准决策与高效运营。

数据集成与治理

2025-09-26

0

运用ETLCloud快速实现数据清洗、转换

运用 ETLCloud 快速实现数据清洗、转换

自动化数据转换和集成工具，可实现企业内部和外部数据的无缝对接。

ETL

数据清洗

数据集成工具

谷云科技RestCloud

2024-01-24

0

YashanDB 数据库大数据环境下的数据清洗与预处理技术

在大数据环境中，数据的清洗与预处理是影响数据质量与后续分析结果的重要环节。尤其是在面对大量且复杂的数据集时，如何有效地清理不准确或冗余的数据、转化数据格式、标准化数据以及消除噪音数据，将直接影响数据分析的准确性和效率。因此，探索高效且系统化

数据库砖家

01-13

0

YashanDB 数据库数据清洗与预处理高效策略

YashanDB支持多样存储结构，包括HEAP、BTREE、MCOL和SCOL，分别适配OLTP、HTAP及OLAP业务。数据清洗阶段，可基于存储结构特性优化更新及查询操作：

数据库砖家

2025-09-23

0

YashanDB 数据库数据清洗与预处理高效策略

在当前数据库技术环境下，性能瓶颈、数据一致性维护及高并发处理是通用挑战。数据清洗与预处理作为数据管理关键环节，直接影响数据质量和后续分析效能。本文依据YashanDB数据库体系架构和运行机制，系统阐述适用于该平台的高效数据清洗与预处理方案，旨在为数

数据库砖家

2025-10-25

0

YashanDB 数据库的数据清洗与标准化方法

在大规模数据库应用中，数据质量直接影响查询效率、存储性能和业务决策的准确性。如何高效清洗、标准化海量的结构化与半结构化数据，成为数据库系统设计和运维中的关键问题。针对YashanDB数据库的复杂存储结构及多样化部署环境，优化数据清洗与标准化流程，不

数据库砖家

01-31

0

利用 YashanDB 数据库实现自动化数据清洗的实用攻略

在大数据时代，海量数据的质量直接影响企业业务决策和系统运行的效率。低质量数据往往包含缺失、冗余或不一致等问题，导致分析结果失真和应用系统性能下降。如何有效地对数据进行清洗以确保数据的准确性和完整性，成为数据库技术和数据管理领域的核心问题。本

数据库砖家

2025-09-30

0

百度大脑 EasyData 智能数据服务平台上线文本数据清洗功能

我们采集或导出的原始文本数据中，通常包含着大量无关的emoji和url信息，面对大量的无用信息时该怎么办？少量数据通常我们可采用人工剔除的方式，但在数据量较大的情况下，往往就无从下手。

2021-02-07

0

经典大数据架构案例：酷狗音乐的大数据平台重构

本文是酷狗音乐的架构师王劲对酷狗大数据架构重构的总结。酷狗音乐的大数据架构本身很经典，而这篇讲解了对原来的架构上进行重构的工作内容，总共分为重构的原因、新一代的大数据技术架构、踩过的坑、后续持续改进四个部分来给大家谈酷狗音乐大数据平台重构的过程。

作者 : 王劲

2016-01-14

26364

一篇文章说清楚如何提升大数据质量

一篇文章说清楚如何提升大数据质量

数据质量问题不仅仅是一个技术问题，它也可能出现在业务和管理的过程中。要想提高数据质量，就必须懂行业、懂组织、懂业务。

作者 : 苏槐

2020-04-13

5944

业务数据清洗，落地实现方案

业务数据清洗，落地实现方案

在系统业务开发的过程中，都会面临这样一个问题：面对业务的快速扩展，很多版本在当时没有时间去全局考虑，导致很多业务数据存储和管理并不规范。

数据

数据清洗

数据管理

数据服务

业务数据

2021-11-09

0

如何让数据清洗工作变得简单

如何让数据清洗工作变得简单

ETLCloud简化数据清洗流程，解决缺失值、重复数据、格式不一致及数据错误等问题，通过自动化转换和集成，提高数据处理效率和准确性，实现流程可控可管理。

数据同步

ETL

数据清洗

数据集成平台

谷云科技RestCloud

2024-10-17

0

如何在 YashanDB 中实施高效的数据清洗

在现代数据管理中，高效的数据清洗已经成为确保数据质量和一致性的关键步骤。在面对大量数据的处理时，数据库系统常常遭遇性能瓶颈和数据一致性问题，尤其是在大规模应用场景中。YashanDB作为一个灵活的数据库解决方案，提供了多种功能强大的数据清洗工具，能

数据库砖家

2025-07-10

0

突破MySQL三大技术瓶颈，分布式数据库在翼鸥教育中的技术实践

突破 MySQL 三大技术瓶颈，分布式数据库在翼鸥教育中的技术实践

数据库选型时有哪些考量因素？

作者 : 刘江策划: 李冬梅

2023-03-01

0

高技能人才或是未来5-10年大数据发展的最大瓶颈

高技能人才或是未来 5-10 年大数据发展的最大瓶颈

是什么使大数据充满挑战，我们应如何解决这些问题？

作者 : Gary Cheung 译者: MQ 策划: 刘燕

2019-10-26

5498

YashanDB 数据清洗与预处理关键技术指南

YashanDB数据清洗与预处理是确保数据质量的重要步骤，以下是一些关键技术和步骤指南：

数据库砖家

2025-12-12

0