阿里云飞天发布时刻,领先大模型限免,超7000万 tokens免费体验 了解详情
写点什么

入门数据科学,70% 的人都做错了

  • 2019-08-17
  • 本文字数:1036 字

    阅读完需:约 3 分钟

入门数据科学,70%的人都做错了

在大学的大部分时间里,我都在积极地学习困难但有用的课程。但是,到了最后一个学年,我感觉累了,我想休息一下,所以我选了一门“有趣”的工程系课程,叫做“航海物理学”。


我们研究了什么样的动力会让帆船的速度快过风,以及船的形状如何影响其自身的稳定性。我比大多数同学学到了更多的物理知识。很自然的,我的功课做得很好,而且如果我想去航海,我会是一个行家。


我在学期末验证了这个假设。当时我们去了马斯卡湖,试着行驶一艘真正的船,但事情并不像我预料的那样。


船有点晃动,我所掌握的有关浮力和“扶正手臂”的知识并没能让我好好地呆在船上。转弯需要协调多种动作,如果时间点不对,一根两米长的金属杆(吊杆)就会碰到我的脑袋,每一次敲击脑袋发出的隆隆声都会导致我出现几分钟的耳鸣。


航海物理知识很有趣,但很明显,在你真正开始航海时,它们并不一定管用。


那么,这和数据科学有什么关系呢?


就像我在没有实际航海经验的情况下学会了航海物理学,大多数数据科学课程非常详细地介绍了一些算法,但却忽略了成功的数据科学项目所需要的技能。


企业数据科学仍然是一个新的领域。很多学者都还没有为为真正的企业解决过真正的问题,所以他们以一种与数据和业务环境相分离的方式教授教科书中的算法。从智力方面看,这是一种乐趣。但是,如果学生们认为学好这些课程为就等于为成为数据科学家做好了准备,那他们就错了。


那么如何将你的学习精力放在重要的实操技能上呢?以下是一些值得一看的指南


  • 使用标准的开源库。数据科学通常会依赖具有良好的文档和设计并经过良好测试的 API 库。自己去实现这些东西会带来不必要的复杂性和 bug,并且会让你分心。

  • 花更多的时间研究数据模式,并将其转换成所需的格式。大多数项目涉及大量的数据操作和相对较少的模型调优。正在招聘数据科学家的朋友告诉我,很多求职者都能描述算法,但绝大多数人缺乏 pandas 相关的技能,无法在实际工作中高效地完成任务。

  • 了解技术的应用背景。在描述技术实用性时,如果你还是满嘴技术术语,说明你可能还没有准备好应用它。

  • 学会如何解释模型输出。例如,你需要了解如何度量模型的准确性,以此来判断是否可以信任模型。

  • 在你感兴趣的领域内构建项目,它可以与电影、时事、体育、食物或任何其他事情有关。这将教会你如何以一种非常实用方式来构建有关外部世界的无定形问题。这是数据科学家最重要的技能之一。分享你的工作成果,学会如何解释和讨论结果,这可能是最为重要的技能。

  • 跳过教科书和课程提及的算法理论,会更容易地成为一名数据科学家吗?当然不是。


2019-08-17 07:553845
用户头像

发布了 38 篇内容, 共 32.2 次阅读, 收获喜欢 209 次。

关注

评论

发布
暂无评论
发现更多内容

美国半导体十年计划中的NO.1,模拟硬件究竟有什么价值?

脑极体

老板下了死命令,要把日志系统切换到Logback

沉默王二

Java logback 日志系统

Scrapy 源码剖析(二)Scrapy是如何运行起来的?

Kaito

Python 爬虫 Scrapy 源码剖析

2020年9月公有云性能评测:UCloud、腾讯云屈居二三名,冠军竟然是它?

博睿数据

云计算 公有云 评测 排行榜

嵌入式面试之《Linux系统编程100问》

哒宰的自我修养

Linux 线程 网络编程 进程

【面经】面试官:讲讲类的加载、链接和初始化?

冰河

架构 JVM 类加载 优化 性能调试

如何搭建一个爬虫代理服务?

Kaito

爬虫 代理

Scrapy源码剖析(一)架构概览

Kaito

Python 爬虫 Scrapy 源码剖析

央行数字货币亮相 吹皱一池春水

CECBC

数字货币 银行

TarsCpp 组件 之 智能指针详解

TARS基金会

c++ 微服务 智能指针 TARS

架构师训练营第 1 期 -- 第六周学习总结

发酵的死神

极客大学架构师训练营

「架构师训练营第 1 期」第六周作业

张国荣

如何构建一个通用的垂直爬虫平台?

Kaito

Python 爬虫 代理

CICD实战——服务自动测试

TARS基金会

微服务 单元测试 CI/CD

架构师训练营第二周总结

lakers

极客大学架构师训练营

元模型驱动(三):构建我们自己的元模型-KAYA

KaYa

DDD Kaya MDA MDD 元建模

甲方日常42

句子

工作 随笔杂谈 日常

当AI入职FBI,克格勃直呼内行

脑极体

目标检测学习-比赛路线

Dreamer

Scrapy 源码剖析(三)Scrapy有哪些核心组件?

Kaito

Python 爬虫 Scrapy 源码剖析

积极参与数字货币等国际规则制定,塑造新的竞争优势

CECBC

疫情 经济

架构师训练营第 1 期 -- 第六周作业

发酵的死神

极客大学架构师训练营

SpringCloud 和 SpringBoot 版本选型

hepingfly

微服务 springboot SpringCloud 选型

Java9新特性-上篇

hepingfly

Java Java新特性

2020年区块链行业十大趋势

CECBC

区块链 技术人才

有状态软件如何在k8s上快速扩容甚至自动扩容

东风微鸣

Kubernetes DevOps openshift

TarsCpp 组件之 MySQL 操作

TARS基金会

c++ MySQL 数据库 微服务 TARS

架构师训练营第二周作业

lakers

极客大学架构师训练营

Scrapy 源码剖析(四)Scrapy如何完成抓取任务?

Kaito

Python 爬虫 Scrapy 源码剖析

架构师训练营第 1 期 第 6 周作业

李循律

极客大学架构师训练营

架构师训练营第二周

M.

入门数据科学,70%的人都做错了_AI&大模型_Dan Becker_InfoQ精选文章