写点什么

微软高级数据科学家教你如何做数据科学

  • 2016-04-08
  • 本文字数:2372 字

    阅读完需:约 8 分钟

  1. 学会获取更多的数据

数据科学的数据源是数字和字段的集合。测量、价格、日期、时间、产品、标题等,都是简单的数据集;你也可以用图像、音频、视频等复杂结构的数据集,这时需要你去降维分解成数字和字段的集合。
数据获取是一个复杂的机制,数据工程师各种被揉捏,但本篇文章重点是讲述数据科学,数据获取将会是下一个 topic。
2. 学会聪明的提出问题

简单点讲,就是提出的问题要问到点子上。数据科学是通过对数字和字段组成的数据集合进行处理,然后回答问题。你描述的问题越精确,越容易找到令你满意的精确答案。含糊不清的问法:“我的数据能为业务提供什么?”,”有了数据我该做什么?”;相对应地,清晰的问法:“第三季度在蒙特利尔卖了多少 Q 型小物件?”
你有了一个问题,现在你得看自己的数据是否可以回答。如果你的问题是“我的股票下周的销售价是多少?”,那需要确保你的数据包括股票的历史数据;如果你的问题是“88 型发动机多少小时会发生故障?”,那需要确保你的数据包括 88 型发动机失败的次数。这些问答案例被称之为目标,你的目标是定量或者分类预测或任务。如果你没有任何目标数据,需要回到步骤 1,获取更多的数据。
3. 装载数据进表

大部分机器学习算法都是假设数据以表的形式呈现。每行是一个事件、item、或者实体;每列是行数据的一个特征或者属性。一个描述美国足球比赛的数据集,每行代表一场比赛,每列分为主场足球队、客场足球队、主场得分、客场得分、日期、开始时间和出场等等。
选择你所需的数据行
经常有许多种方式将数据集分割成行,但只有一种方法能帮助你回答问题:每行有且仅有一个目标实体。拿零售店数据举例,一条交易记录一行,一天的记录一行,一个零售店一行,一个顾客的数据一行,等等。如果你的问题是”刚进过店的顾客会回访吗?“,那数据以一个顾客为一行来组织为好。你的目标 whether_the_customer_returned 将呈现在每行;但如果以一个零售店或者一天进行数据组织,将不能回答目标问题。
有时你必须向上钻取数据来获得相应的维度数据。如果你的问题是“我每天能卖多少拿铁咖啡?”,那你需要每行一天的数据记录(目标列为 number_of_lattes_sold),但是你的数据是每次的交易记录(带有日期和时间)。为了获取每行一天的数据记录,你必须向上钻取数据。
4. 数据质量校验

数据检查
接下来是仔细的查看数据。检查数据有两个目的:第一,发现错误数据,修复或者去除它;第二,对每行每列有足够的了解。
检查每列数据,它的符号是什么?符号意味着什么?有文档解释列的意思吗?数据是如何测试的?谁来测试的?如果你足够的幸运知道记录数据的人,可以去问问他们是怎样测试这些数据。
把数据列作为纵轴画图表,看下整体分布是否符合预期?是否有异常数据点?异常点是否有意义?
校正
纵观所有的数据列,你能发现字段和文档的错误,并记录下来你学到了什么,这样你会比其他人都要了解这些数据(除了纪录数据的人外)。
你也可能发现一些值是错误的。一些值超过了正常范围,比如,一个人 72 米高,或一个“7777777777 Mani St”的地址。当这些事情发生后你有三种选择:如果这个值很容易更改正确,比如,把高 72 米改成 72 英寸;如果错误的值不明显,你可以直接删除或者缺失;如果这个值是关键信息,你应该删除整行或者整列,这可以让你训练的模型远离错误数据,因为错误的数据对你的训练模型的影响比缺失数据更大。
替换缺失的值
在大部分情况下,数据集都存在缺失的值。但不管什么情况,机器学习算法都要希望数据无缺失或者填充默认值。对于你来说,你比机器学习算法更懂你的数据,所有补全缺失数据的工作你更适合。有许多替换缺失值的方法,最保险的一种是采用其它正常数据的平均值来替代。
5. 抽取特征

在做机器学习之前有一个非常重要的步骤:特征工程。特征工程简单讲,就是对现有特征数据进行组合,以获得更好的特征来预测目标。举个例子,火车到达和离开的时间相减获得运输时间,这个特征对预测速度的峰值更有用。
严格来讲,特征工程并不会增加任何数据信息,只是使用各种方法对原有数据进行组合。特征工程是数据科学的“黑科技”,并没有什么特别的、大一统的处理原则,虽然很多深度学习试图自动化这个过程,但都是失败了,特征工程一般是数据科学家的经验决定。不过即使你没有特征工程的技能,也有些小技巧可以使用。你可以对变量画图,并标记不同的颜色,可以帮你方便的发现变量之间的关系。
如果你发现经过特征工程之后还未找到特征来预测目标,那你得重写回到第一步获取数据。
6. 正确的回答问题

现在到了数据科学家钟爱的部分:机器学习,有许多资源讲这部分,这里就不再总结所有的方法。简单地讲,你可以在参考文章《你的问题属于哪种算法?》《选择一到多种算法》来选择算法,并用传统机器学习技术来分割数据进行训练、调优、测试数据、根据选择的模型优化参数。
如果你的模型并不能很好的解决问题,或者你想避免使用机器学习,也有两种非传统的方法回答:
第一种,简单的看你收集数据的图像,有一半的情况下可视化数据就可以找到答案。比如,如果你的问题是“在波士顿明年 7 月 4 号的最高温度是多少?”,对过去 100 年的温度可视化,查看直方图就基本可以解决问题。
第二种,更多技术需求。如果由于数据集太小而得不到结果,你可以考虑优化。机器学习是基于弱先验假设的结构化数据。这种方法的优点在于你使用算法之前你不需要知道太多数据,它能够训练出一个大范围的模型;副作用就是需要大量数据才能获得一个可信的答案。
7. 应用数据

不管你如何优雅的回答提出的问题,但数据科学家的工作直到用户去使用才算完成。把结果以某种形式呈现给用户作为参考来做对应的决策,展示的形式有很多种:将结果在 web 页面上画出来;把你发现的有用信息保存成 PDF;在 GitHub 上分享你的代码;把结论做成视频给你的商业客户,等等。总之一句话,要把你做的工作让其他人来使用。

2016-04-08 19:002565
用户头像

发布了 43 篇内容, 共 31.4 次阅读, 收获喜欢 7 次。

关注

评论

发布
暂无评论
发现更多内容

惠州等保测评机构有几家?电话多少?

行云管家

等保 等级保护 等级测评 惠州

基于GitLab CI的kubectl镜像配置

白粥

gitlab k8s gitlab ci kubectl

Docker 向全面集成 containerd 又迈进一步

张晓辉

Docker 容器 Containerd

设计模式的艺术 第九章适配器设计模式练习(OA系统需要提供一个加密模块,将用户机密信息(例如口令、邮箱)加密再存储在数据库,系统已经定义好数据库操作类。为了提高开发效率,现需要重用已有的加密算法,这些算法封装在一些由第三方提供的类中,有些甚至没有源代码)

代廉洁

设计模式的艺术

wallys IPQ8072 4x4 2.4G & 5G /QCN9074 11ax 4x4 6G M.2

wallys-wifi6

QCN9074 IPQ8072

JavaScript 装饰器介绍

掘金安东尼

前端 9月月更

我们总结了弹性伸缩的五个条件与六个教训

阿里巴巴云原生

阿里云 分布式 云原生 弹性伸缩

零基础如何参加大数据培训机构?

小谷哥

我们总结了 3 大使用建议,并首次公开 Nacos3.0 规划图 | Nacos 开源 4 周年

阿里巴巴中间件

阿里云 开源 微服务 云原生 nacos

【荣耀开发者服务平台—百亿曝光扶持等你来】智慧服务内容接口卡片接入指南

荣耀开发者服务平台

手机 激励 卡片服务 厂商 honor

新零售标杆 SKG 全面拥抱 Serverless,实现敏捷交付

阿里巴巴中间件

阿里云 Serverless 云原生

个推TechDay直播回顾 | 分享基于Flink的实时数仓搭建秘诀 附课件下载

个推

数据湖 实时数仓 flink window 数仓建设 大数据仓库

硅谷名企、国内大厂是如何度量研发效能的?|ONES 研发管理大师课

万事ONES

在Java培训机构中怎么学习?

小谷哥

个推TechDay直播回顾 | 分享基于Flink的实时数仓搭建秘诀

个推

设计模式的艺术 第二十二章观察者设计模式练习(开发一款实时在线股票软件。该软件需要提供如下功能:当股票购买者所购买的某只股票价格变化幅度达到5%时,系统将自动发送通知(包括新价格)给购买该股票的所有股民。试使用观察者模式设计并实现该系统)

代廉洁

亚信科技、清华AIR、英特尔成功举办WAIC智能算网与绿色计算论坛

亚信AntDB数据库

数据库 AntDB 国产数据库 AntDB数据库

《数字经济全景白皮书》证券数字化篇 重磅发布!

易观分析

金融 证券

最后 3 天|报名参加 OpenYurt+EdgeX 挑战赛 ,冲击最高 5 万元奖励!

阿里巴巴云原生

阿里云 云原生 openyurt EdgeX

深度操作系统20.7正式发布!

深度操作系统

国产操作系统 deepin 深度操作系统 深度 deepin20.7

北京哪家WEB前端培训机构比较不错

小谷哥

2022最新BATJ等一线互联网大厂秋招面试题汇总,速刷

程序知音

Java 程序员面试 后端技术 Java面试题 Java面试八股文

助你成为专业终端人,阿里巴巴第三届终端练习生计划开启报名!

阿里技术

前端 移动开发

深圳web前端技术培训学习费用

小谷哥

技术科普:如何应用视觉显著性模型优化远控编码算法?

贝锐

算法 编码器 视觉策略 远程控制 向日葵

上海WEB前端培训机构有什么推荐的

小谷哥

如何梳理企业流程管理?

优秀

业务流程管理 主业务流程梳理

我用 极狐 Gitlab issue 来点菜 #JIHULAB 101

朱亚光

JIHULAB 101

数据变更白屏化利器-推送轨迹上线

阿里巴巴云原生

zookeeper 阿里云 开源 微服务 云原生

微软高级数据科学家教你如何做数据科学_语言 & 开发_侠天_InfoQ精选文章