阿里云「飞天发布时刻」2024来啦!新产品、新特性、新能力、新方案,等你来探~ 了解详情
写点什么

入门数据科学,70% 的人都做错了

  • 2019-08-17
  • 本文字数:1036 字

    阅读完需:约 3 分钟

入门数据科学,70%的人都做错了

在大学的大部分时间里,我都在积极地学习困难但有用的课程。但是,到了最后一个学年,我感觉累了,我想休息一下,所以我选了一门“有趣”的工程系课程,叫做“航海物理学”。


我们研究了什么样的动力会让帆船的速度快过风,以及船的形状如何影响其自身的稳定性。我比大多数同学学到了更多的物理知识。很自然的,我的功课做得很好,而且如果我想去航海,我会是一个行家。


我在学期末验证了这个假设。当时我们去了马斯卡湖,试着行驶一艘真正的船,但事情并不像我预料的那样。


船有点晃动,我所掌握的有关浮力和“扶正手臂”的知识并没能让我好好地呆在船上。转弯需要协调多种动作,如果时间点不对,一根两米长的金属杆(吊杆)就会碰到我的脑袋,每一次敲击脑袋发出的隆隆声都会导致我出现几分钟的耳鸣。


航海物理知识很有趣,但很明显,在你真正开始航海时,它们并不一定管用。


那么,这和数据科学有什么关系呢?


就像我在没有实际航海经验的情况下学会了航海物理学,大多数数据科学课程非常详细地介绍了一些算法,但却忽略了成功的数据科学项目所需要的技能。


企业数据科学仍然是一个新的领域。很多学者都还没有为为真正的企业解决过真正的问题,所以他们以一种与数据和业务环境相分离的方式教授教科书中的算法。从智力方面看,这是一种乐趣。但是,如果学生们认为学好这些课程为就等于为成为数据科学家做好了准备,那他们就错了。


那么如何将你的学习精力放在重要的实操技能上呢?以下是一些值得一看的指南


  • 使用标准的开源库。数据科学通常会依赖具有良好的文档和设计并经过良好测试的 API 库。自己去实现这些东西会带来不必要的复杂性和 bug,并且会让你分心。

  • 花更多的时间研究数据模式,并将其转换成所需的格式。大多数项目涉及大量的数据操作和相对较少的模型调优。正在招聘数据科学家的朋友告诉我,很多求职者都能描述算法,但绝大多数人缺乏 pandas 相关的技能,无法在实际工作中高效地完成任务。

  • 了解技术的应用背景。在描述技术实用性时,如果你还是满嘴技术术语,说明你可能还没有准备好应用它。

  • 学会如何解释模型输出。例如,你需要了解如何度量模型的准确性,以此来判断是否可以信任模型。

  • 在你感兴趣的领域内构建项目,它可以与电影、时事、体育、食物或任何其他事情有关。这将教会你如何以一种非常实用方式来构建有关外部世界的无定形问题。这是数据科学家最重要的技能之一。分享你的工作成果,学会如何解释和讨论结果,这可能是最为重要的技能。

  • 跳过教科书和课程提及的算法理论,会更容易地成为一名数据科学家吗?当然不是。


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2019-08-17 07:553683
用户头像

发布了 38 篇内容, 共 30.6 次阅读, 收获喜欢 206 次。

关注

评论

发布
暂无评论
发现更多内容

一文搞懂一致性hash的原理和实现

万俊峰Kevin

微服务 hash Go 语言

PNFile入门指南

Geek_6bf591

vim emacs vscode UltraEdit 文本编辑器

Python OpenCV 图像处理再循环,第一阶段复盘

梦想橡皮擦

7月日更

PNEdit文本编辑器

Geek_6bf591

vim emacs vscode UltraEdit 文本编辑器

基于用户角色的数据库智能监控系统应用场景分析

华为云开发者联盟

数据库 架构 监控 用户 智能监控

Pandas高级教程之:稀疏数据结构

程序那些事

Python 数据分析 pandas 程序那些事 稀疏矩阵

360 政企安全集团基于 Flink 的 PB 级数据即席查询实践

Apache Flink

flink

Go语言,你必须掌握的--高效并发模式!

微客鸟窝

Go 语言

PNFile功能介绍

Geek_6bf591

vim emacs vscode UltraEdit 文本编辑器

PNTree 目录结构树

Geek_6bf591

vim emacs vscode UltraEdit 文本编辑器

为什么互动直播可以发展如此迅速?

anyRTC开发者

在线教育 视频直播 直播连麦 互动直播 电商直播

PNComp目录比较器

Geek_6bf591

vim emacs vscode UltraEdit 文本编辑器

【LeetCode】滑动窗口的最大值Java题解

Albert

算法 LeetCode 7月日更

网易传媒数据指标体系建设实践

网易数帆

大数据 数据仓库 指标体系

华为云MVP周峥:气象预报是个技术活,大数据、超算、AI,缺一不可

华为云开发者联盟

人工智能 大数据 环保 气象 超算

bash: docker-compose: 未找到命令

阿呆

Docker-compose

获客达人app系统开发

获客I3O6O643Z97

大数据

什么是MircoPython?

华为云开发者联盟

Python 编程语言 物联网 MicroPython 嵌入式应用

架构实战营 模块二作业

脉醉

#架构实战营

HCIA-HarmonyOS Application Developer 应用方向认证资料

爱吃土豆丝的打工人

HarmonyOS HCIA认证 应用开发方向

抖音霸屏系统软件开发

获客I3O6O643Z97

大数据 抖音霸屏

深度解析 Lucene 轻量级全文索引实现原理

vivo互联网技术

lucene 检索 索引技术

Linux - 零拷贝

小方

Linux zero copy

智慧能源:清洁低碳环保新能源,沙漠光伏与光热发电站 3D 可视化

一只数据鲸鱼

数据可视化 智慧能源 光伏发电 沙漠光伏

PNFile 百科

Geek_6bf591

PNFind文件搜索器

Geek_6bf591

vim emacs vscode UltraEdit 文本编辑器

重磅来袭!全网最具深度的三次握手、四次挥手讲解

欢喜学安卓

android 程序员 面试 移动开发

赋能中小银行数字营销:索信达助力深圳农商行建设标签系统

索信达控股

金融 银行 用户标签

基于RNN和CTC的语音识别模型,探索语境偏移解决之道

华为云开发者联盟

语音 RNN ASR CTC 语音识别模型

PNEdit 百科

Geek_6bf591

vim emacs vscode UltraEdit 文本编辑器

重磅消息!写给安卓软件工程师的3条建议

欢喜学安卓

android 程序员 面试 移动开发

入门数据科学,70%的人都做错了_AI&大模型_Dan Becker_InfoQ精选文章