收录了 python数据清洗 频道下的 50 篇内容
python 在对 excel 操作的同时,前面文章中说了数据的读取、插入、简单分析,还有一个非常重要的点就是数据清洗。那什么叫数据清洗,说白了就是去除数据文本中的垃圾值,比如:存在的空值、多余的空格、数据格式等等的处理。
三步走,带你快速入门数据分析
本文比较了用于数据准备的几种方法,它们分别是提取-变换-加载批处理(ETL)、流式获取和数据整理。本文还讨论了数据准备如何与可视化分析相关联,以及不同用户角色(如数据科学家或业务分析人员)应如何共同构建分析模型的最佳实践。
人工智能、神经网络、机器学习、深度学习和大数据方面的重要知识点都能在这份速查表中找到!
在面试数据分析时,笔试是非常重要的一个环节,它可以直接测验你对数据分析具体理论的掌握程度和动手操作的能力。以上7道来自一线大厂的数据分析面试题……
可以实现目前人气极高的机器学习
本文测试DolphinDB和pickle在数据读取方面的性能。与使用pickle文件存储相比,直接使用DolphinDB数据库,数据读取速度可最多可提升10倍以上;若为了考虑与现有Python系统的集成,使用DolphinDB提供的Python API读取数据,速度最多有2~3倍的提升。
近期成为月入两万的数据分析师的广告遍地都是,可能会对一些未入行的同学造成错觉。我个人感觉数据分析师这个岗位,可能近几年会消亡。未来数据分析可能会变成一个基本无门槛的模块,培养自己的产品sense,解决用户需求问题,或将成为未来的发展方向。
在本次访谈中,AdMaster技术副总裁卢亿雷谈到了营销数据的重要性、Python做数据挖掘的易用性以及他对Hadoop相关平台的看法。
本文介绍了宜信数据中台顶层设计,从中间件工具到平台及案例分析。
本博文将引导您完成构建数据管道所需的全部步骤—从使用 AWS Glue
数据科学家被誉为2016年美国最好的工作。你想知道数据科学家的工作有什么特别之处吗?成为一名数据科学家需要掌握哪些技能?平常都会使用到什么工具?这篇文章告诉你答案。
本文来自美团点评技术文章系列。
Linkis 是微众银行开源的一款数据中间件,用于解决前台各种工具、应用,和后台各种计算存储引擎间的连接、访问和复用问题。
如何使用 Gravitino 和 Fileset 来管理 AI 数据资产?
今年的PyCon四月9-17日在加拿大蒙特利尔召开,和其他语言的会议最不同的地方,是Python在学术界的广泛应用,这当然仰仗Python快速的原型实现能力。近来其官方网站发布了大会tutorial部分的视频和幻灯片,其中有很多(接近一半数量)跟数据挖掘和机器学习相关的内容,本文对此逐一介绍。
伴鱼离线数仓建立,与伴鱼的业务一起快速发展,从一条业务线,到多条业务线。在演进的过程中,有很多总结和沉淀的内容。本篇文章主要介绍伴鱼离线数据仓库的发展历史,在发展过程中遇到的各种问题,以及针对问题的解决方案。
今年12月3日、4日,Python界著名的PyCon大会首次登陆中国,邀请了众多国内的Python高手作为嘉宾,带来了很多精彩演讲。InfoQ有幸邀请了几位与会嘉宾就广大Python爱好者所关心的问题发表了各自的观点。
随着数字化不断推进,全球数据量以超过 59% 的年增长率快速增长,中国的数据量增速比全球更快。其中,80% 是非结构化和半结构化数据。
本文介绍了途家接入 Apache DolphinScheduler 的历程,以及功能改进。