写点什么

入门数据科学,70% 的人都做错了

  • 2019-08-17
  • 本文字数:1036 字

    阅读完需:约 3 分钟

入门数据科学,70%的人都做错了

在大学的大部分时间里,我都在积极地学习困难但有用的课程。但是,到了最后一个学年,我感觉累了,我想休息一下,所以我选了一门“有趣”的工程系课程,叫做“航海物理学”。


我们研究了什么样的动力会让帆船的速度快过风,以及船的形状如何影响其自身的稳定性。我比大多数同学学到了更多的物理知识。很自然的,我的功课做得很好,而且如果我想去航海,我会是一个行家。


我在学期末验证了这个假设。当时我们去了马斯卡湖,试着行驶一艘真正的船,但事情并不像我预料的那样。


船有点晃动,我所掌握的有关浮力和“扶正手臂”的知识并没能让我好好地呆在船上。转弯需要协调多种动作,如果时间点不对,一根两米长的金属杆(吊杆)就会碰到我的脑袋,每一次敲击脑袋发出的隆隆声都会导致我出现几分钟的耳鸣。


航海物理知识很有趣,但很明显,在你真正开始航海时,它们并不一定管用。


那么,这和数据科学有什么关系呢?


就像我在没有实际航海经验的情况下学会了航海物理学,大多数数据科学课程非常详细地介绍了一些算法,但却忽略了成功的数据科学项目所需要的技能。


企业数据科学仍然是一个新的领域。很多学者都还没有为为真正的企业解决过真正的问题,所以他们以一种与数据和业务环境相分离的方式教授教科书中的算法。从智力方面看,这是一种乐趣。但是,如果学生们认为学好这些课程为就等于为成为数据科学家做好了准备,那他们就错了。


那么如何将你的学习精力放在重要的实操技能上呢?以下是一些值得一看的指南


  • 使用标准的开源库。数据科学通常会依赖具有良好的文档和设计并经过良好测试的 API 库。自己去实现这些东西会带来不必要的复杂性和 bug,并且会让你分心。

  • 花更多的时间研究数据模式,并将其转换成所需的格式。大多数项目涉及大量的数据操作和相对较少的模型调优。正在招聘数据科学家的朋友告诉我,很多求职者都能描述算法,但绝大多数人缺乏 pandas 相关的技能,无法在实际工作中高效地完成任务。

  • 了解技术的应用背景。在描述技术实用性时,如果你还是满嘴技术术语,说明你可能还没有准备好应用它。

  • 学会如何解释模型输出。例如,你需要了解如何度量模型的准确性,以此来判断是否可以信任模型。

  • 在你感兴趣的领域内构建项目,它可以与电影、时事、体育、食物或任何其他事情有关。这将教会你如何以一种非常实用方式来构建有关外部世界的无定形问题。这是数据科学家最重要的技能之一。分享你的工作成果,学会如何解释和讨论结果,这可能是最为重要的技能。

  • 跳过教科书和课程提及的算法理论,会更容易地成为一名数据科学家吗?当然不是。


2019-08-17 07:553913
用户头像

发布了 38 篇内容, 共 32.8 次阅读, 收获喜欢 210 次。

关注

评论

发布
暂无评论
发现更多内容

第三周产品经理训练营总结

产品经理训练营

区块链与安全随想

CECBC

区块链

华为18A架构师共享:Netty+Redis+zookeeper+高并发技术栈

996小迁

redis zookeeper 架构 Netty 高并发

anyRTC2020年 年终总结

anyRTC开发者

音视频 WebRTC RTC sdk

Linux-Lab 入门:使用开发板

贾献华

嵌入式 Linux Kenel 开发板 arm boot

【mybatis】- MyBatis基础篇

双木之林

产品训练营作业三

胡小湖

玩转IDEA项目结构Project Structure,打Jar包、模块/依赖管理全搞定

YourBatman

Module IntelliJ IDEA Project Structure

即构自研海量有序数据网络MSDN,构建全球可靠的多云通讯链路

ZEGO即构

利用 Python 分析了某化妆品企业的销售情况,我得出的结论是?

JackTian

Python 数据分析 数据可视化 化妆品 2月春节不断更

即日起 Jira、Confluence 正式停售本地版,中国客户将无法购买

万事ONES

项目管理 开发者 研发管理 团队协作 CTO

Kafka基础简介

架构精进之路

kafka 七日更 28天写作 2月春节不断更

关于自己的一个梦(飞翔)

Yuchen

产品训练营第三周作业

朱航

你的网站上还在用图片验证码来刁难用户么?一招教你彻底去除图片验证码!

香芋味的猫丶

短信验证码 短信防轰炸 短信防火墙 图片验证码 风控防火墙

使用pgBackRest并行归档解决wal堆积问题

PostgreSQLChina

数据库 postgresql 开源 开源社区

EXCEL数据如何去重? Python:这事我比你熟

智分析

Python

后疫情时代,企业如何实现数字化增长?

字节跳动 Kubernetes 容器 云原生

新思科技:以DevOps的速度打造安全的软件

InfoQ_434670063458

DevSecOps 新思科技

程序员成长第一篇:机会与趋势

石云升

28天写作 2月春节不断更 机会与趋势

数据库表数据量大读写缓慢如何优化(4)【分库分表】

我爱娃哈哈😍

数据库 架构

《我想进大厂》之Zookeeper夺命连环9问

艾小仙

zookeeper

2021年云计算面临的5大网络安全威胁

云计算 云安全

ICE暴雪正悄悄崛起

DT极客

HTTPS是怎么保证数据安全传输的?

面试 HTTP

MySQL安装教程&问题解决

Mars

MySQL 运维

Idea工具的各种查找快捷键

小马哥

IntelliJ IDEA 七日更 2月春节不断更

极客时间产品训练营第三周作业

云随心

产品 作业 产品训练营

最高法规范区块链证据,司法链将走向全国统一

CECBC

区块链

托管节点池助力用户构建稳定自愈的 Kubernetes 集群

阿里巴巴云原生

Docker 容器 运维 云原生 k8s

SpringCloud 从入门到精通15---Sentinel搭建和服务监控

Felix

入门数据科学,70%的人都做错了_AI&大模型_Dan Becker_InfoQ精选文章