把握行业变革关键节点,12 月 19 日 - 20 日,AICon北京站即将重磅启幕! 了解详情
写点什么

入门数据科学,70% 的人都做错了

  • 2019-08-17
  • 本文字数:1036 字

    阅读完需:约 3 分钟

入门数据科学,70%的人都做错了

在大学的大部分时间里,我都在积极地学习困难但有用的课程。但是,到了最后一个学年,我感觉累了,我想休息一下,所以我选了一门“有趣”的工程系课程,叫做“航海物理学”。


我们研究了什么样的动力会让帆船的速度快过风,以及船的形状如何影响其自身的稳定性。我比大多数同学学到了更多的物理知识。很自然的,我的功课做得很好,而且如果我想去航海,我会是一个行家。


我在学期末验证了这个假设。当时我们去了马斯卡湖,试着行驶一艘真正的船,但事情并不像我预料的那样。


船有点晃动,我所掌握的有关浮力和“扶正手臂”的知识并没能让我好好地呆在船上。转弯需要协调多种动作,如果时间点不对,一根两米长的金属杆(吊杆)就会碰到我的脑袋,每一次敲击脑袋发出的隆隆声都会导致我出现几分钟的耳鸣。


航海物理知识很有趣,但很明显,在你真正开始航海时,它们并不一定管用。


那么,这和数据科学有什么关系呢?


就像我在没有实际航海经验的情况下学会了航海物理学,大多数数据科学课程非常详细地介绍了一些算法,但却忽略了成功的数据科学项目所需要的技能。


企业数据科学仍然是一个新的领域。很多学者都还没有为为真正的企业解决过真正的问题,所以他们以一种与数据和业务环境相分离的方式教授教科书中的算法。从智力方面看,这是一种乐趣。但是,如果学生们认为学好这些课程为就等于为成为数据科学家做好了准备,那他们就错了。


那么如何将你的学习精力放在重要的实操技能上呢?以下是一些值得一看的指南


  • 使用标准的开源库。数据科学通常会依赖具有良好的文档和设计并经过良好测试的 API 库。自己去实现这些东西会带来不必要的复杂性和 bug,并且会让你分心。

  • 花更多的时间研究数据模式,并将其转换成所需的格式。大多数项目涉及大量的数据操作和相对较少的模型调优。正在招聘数据科学家的朋友告诉我,很多求职者都能描述算法,但绝大多数人缺乏 pandas 相关的技能,无法在实际工作中高效地完成任务。

  • 了解技术的应用背景。在描述技术实用性时,如果你还是满嘴技术术语,说明你可能还没有准备好应用它。

  • 学会如何解释模型输出。例如,你需要了解如何度量模型的准确性,以此来判断是否可以信任模型。

  • 在你感兴趣的领域内构建项目,它可以与电影、时事、体育、食物或任何其他事情有关。这将教会你如何以一种非常实用方式来构建有关外部世界的无定形问题。这是数据科学家最重要的技能之一。分享你的工作成果,学会如何解释和讨论结果,这可能是最为重要的技能。

  • 跳过教科书和课程提及的算法理论,会更容易地成为一名数据科学家吗?当然不是。


2019-08-17 07:553919
用户头像

发布了 38 篇内容, 共 32.9 次阅读, 收获喜欢 210 次。

关注

评论

发布
暂无评论
发现更多内容

What's new in dubbo-go-pixiu 0.5.0

apache/dubbo-go

云原生 dubbo 微服务网关 dubbo-go

微信业务架构图&学生管理系统毕设架构设计

大眼喵

「架构实战营」

【直播回顾】OpenHarmony知识赋能第四期第四课——音频驱动开发

OpenHarmony开发者

OpenHarmony HDF框架 音频驱动开发

微信业务架构和学生管理系统

锎心😌😌😌

架构实战营

对话LigaAI创始人周然:在研发SaaS赛道,「颠覆」Jira | PLG十人谈

LigaAI

SaaS LigaAI 研发协作平台

清华自研时间序列数据库Apache IoTDB原理解析

云智慧AIOps社区

数据库 时序数据库 消息队列 智能运维

Linux下网络编程-UDP协议探测在线好友

DS小龙哥

4月月更

模块二作业

HZ

架构实战营 「架构实战营」

微信业务架构图

dan629xy

架构实战营

模块一作业

杨波

「架构实战营」

Java培训-实现定时任务的几种方式

@零度

Java

10年资深架构师分享 | 普通程序员向架构师进阶之路

云智慧AIOps社区

程序员人生 高薪 架构师 技术分享 职场发展

轻盈潇洒卓然不群,敏捷编辑器Sublime text 4中文配置Python3开发运行代码环境(Win11+M1 mac)

刘悦的技术博客

Python ide 编辑器 Python3 Sublime

博文推荐|深入解析 BookKeeper 多副本协议(一)

Apache Pulsar

开源 云原生 中间件 bookKeeper Apache Pulsar

突破数据分析瓶颈,寻因生物单细胞测序数据分析迈入云时代

阿里云弹性计算

虚拟化 持久内存 基因测序

模块一

Geek_5hnu3d

在 2040 年前,实现净零碳排放

亚马逊云科技 (Amazon Web Services)

方法论 亚马逊

DevEco Device Tool 3.0 Release新版本发布,支持多人共享开发、源码级调试

HarmonyOS开发者

HarmonyOS DevEco Device Tool

企业实施知识管理的建议

小炮

企业知识管理

当心,你搞的Scrum可能是小瀑布

华为云开发者联盟

Scrum 敏捷开发 软件开发 瀑布

在 AWS 上运行 CAE 工作负载的五个原因。

亚马逊云科技 (Amazon Web Services)

产品 计算机

大数据培训-如何连通 Hive 数仓和ClickHouse

@零度

大数据 hive Clickhouse Seatunnel

web前端培训-检测Javascript类型的4种方式

@零度

JavaScript 前端开发

架构训练营模块一作业

小马

#架构训练营

谈谈有什么方法可以快捷实现多场景下的线程安全

华为云开发者联盟

Java volatile 多线程 线程安全

阿里云:已有10000家企业在云上构建数据湖

Apache Flink

云计算 阿里云 数据湖 云原生

[Day5]-[滑动窗口] 处理字符串

方勇(gopher)

LeetCode 数据结构与算法

《软件开发的201个原则》思考:5. 不要试图通过改进软件实现高质量

非晓为骁

个人成长 软件工程 软件开发

“学生管理系统”毕设架构设计

鱼恨水

极客时间

入门数据科学,70%的人都做错了_AI&大模型_Dan Becker_InfoQ精选文章