收录了 大数据清洗 频道下的 50 篇内容
编者按:本文作者汪榕曾写过一篇文章:《以什么姿势进入数据挖掘会少走弯路》,是对想入行大数据的读者的肺腑之言,其中也表达了作者的一些想法,希望大家不要随便去上没有结合业务的收费培训班课程;而后,他有了结合他本人的工作经验,写一系列帮助大家进行实践学习课程文章的想法,InfoQ也觉得这是件非常有意义的事情,特别是对于大数据行业1-3年工作经验的人士,或者是没有相关工作经验但是想入行大数据行业的人。课程的名称是“数据挖掘与数据产品的那些事”,目的是:1. 引导目标人群正确学习大数据挖掘与数据产品;2. 协助代码能力薄弱的学习者逐渐掌握大数据核心编码技巧;3. 帮助目标人群理解大数据挖掘生态圈的数据流程体系;4. 分享大数据领域实践数据产品与数据挖掘开发案例;5.交流大数据挖掘从业者职业规划和发展方向。这系列文章会在InfoQ上形成一个专栏,本文是专栏的第三篇。

因为在直播公司的缘故,所以会涉及很多直播相关的业务。

8月18日-19日,AICon 落地上海,百度冯景辉即将为你分享《百度大模型原生安全构建之路》,本文为会前采访文章~

本文来自美团点评技术文章系列。
美国拉斯维加斯时间2017年11月29日上午,AWS CEO Andy Jassy在一年一度的AWS re:Invent大会上发布了主题演讲。在短短两小时内,Andy宣布了一系列令人兴奋的新服务。其中最重要的包括一款售价249美元的、名为DeepLens的人工智能摄像机;一套用于开放并部署机器学习算法的SageMaker平台;外加实时视频识别、文字翻译等多项应用层服务。
FineDataLink数据中心提供智能清洗解决方案,支持多源整合、实时同步、去重补缺、格式转换,高效提升数据质量,降低运维成本,助力企业打破数据孤岛,实现精准决策与高效运营。

YashanDB支持多样存储结构,包括HEAP、BTREE、MCOL和SCOL,分别适配OLTP、HTAP及OLAP业务。数据清洗阶段,可基于存储结构特性优化更新及查询操作:
在当前数据库技术环境下,性能瓶颈、数据一致性维护及高并发处理是通用挑战。数据清洗与预处理作为数据管理关键环节,直接影响数据质量和后续分析效能。本文依据YashanDB数据库体系架构和运行机制,系统阐述适用于该平台的高效数据清洗与预处理方案,旨在为数
在大数据时代,海量数据的质量直接影响企业业务决策和系统运行的效率。低质量数据往往包含缺失、冗余或不一致等问题,导致分析结果失真和应用系统性能下降。如何有效地对数据进行清洗以确保数据的准确性和完整性,成为数据库技术和数据管理领域的核心问题。本
我们采集或导出的原始文本数据中,通常包含着大量无关的emoji和url信息,面对大量的无用信息时该怎么办?少量数据通常我们可采用人工剔除的方式,但在数据量较大的情况下,往往就无从下手。
本文是酷狗音乐的架构师王劲对酷狗大数据架构重构的总结。酷狗音乐的大数据架构本身很经典,而这篇讲解了对原来的架构上进行重构的工作内容,总共分为重构的原因、新一代的大数据技术架构、踩过的坑、后续持续改进四个部分来给大家谈酷狗音乐大数据平台重构的过程。

数据质量问题不仅仅是一个技术问题,它也可能出现在业务和管理的过程中。要想提高数据质量,就必须懂行业、懂组织、懂业务。

在系统业务开发的过程中,都会面临这样一个问题:面对业务的快速扩展,很多版本在当时没有时间去全局考虑,导致很多业务数据存储和管理并不规范。

ETLCloud简化数据清洗流程,解决缺失值、重复数据、格式不一致及数据错误等问题,通过自动化转换和集成,提高数据处理效率和准确性,实现流程可控可管理。
在现代数据管理中,高效的数据清洗已经成为确保数据质量和一致性的关键步骤。在面对大量数据的处理时,数据库系统常常遭遇性能瓶颈和数据一致性问题,尤其是在大规模应用场景中。YashanDB作为一个灵活的数据库解决方案,提供了多种功能强大的数据清洗工具,能

数据库选型时有哪些考量因素?

是什么使大数据充满挑战,我们应如何解决这些问题?

本文以Hadoop的盛衰变化为楔子聊下大数据分析的发展现状和未来趋势。

随着大数据、人工智能和云计算等技术的不断发展,大模型成为了企业数据体系中不可或缺的一部分。大模型趋势下,企业数据体系面临着新的挑战和机遇。