时隔16年Jeff Barr重返10.23-25 QCon上海站,带你看透AI如何重塑软件开发! 了解详情
写点什么

入门数据科学,70% 的人都做错了

  • 2019-08-17
  • 本文字数:1036 字

    阅读完需:约 3 分钟

入门数据科学,70%的人都做错了

在大学的大部分时间里,我都在积极地学习困难但有用的课程。但是,到了最后一个学年,我感觉累了,我想休息一下,所以我选了一门“有趣”的工程系课程,叫做“航海物理学”。


我们研究了什么样的动力会让帆船的速度快过风,以及船的形状如何影响其自身的稳定性。我比大多数同学学到了更多的物理知识。很自然的,我的功课做得很好,而且如果我想去航海,我会是一个行家。


我在学期末验证了这个假设。当时我们去了马斯卡湖,试着行驶一艘真正的船,但事情并不像我预料的那样。


船有点晃动,我所掌握的有关浮力和“扶正手臂”的知识并没能让我好好地呆在船上。转弯需要协调多种动作,如果时间点不对,一根两米长的金属杆(吊杆)就会碰到我的脑袋,每一次敲击脑袋发出的隆隆声都会导致我出现几分钟的耳鸣。


航海物理知识很有趣,但很明显,在你真正开始航海时,它们并不一定管用。


那么,这和数据科学有什么关系呢?


就像我在没有实际航海经验的情况下学会了航海物理学,大多数数据科学课程非常详细地介绍了一些算法,但却忽略了成功的数据科学项目所需要的技能。


企业数据科学仍然是一个新的领域。很多学者都还没有为为真正的企业解决过真正的问题,所以他们以一种与数据和业务环境相分离的方式教授教科书中的算法。从智力方面看,这是一种乐趣。但是,如果学生们认为学好这些课程为就等于为成为数据科学家做好了准备,那他们就错了。


那么如何将你的学习精力放在重要的实操技能上呢?以下是一些值得一看的指南


  • 使用标准的开源库。数据科学通常会依赖具有良好的文档和设计并经过良好测试的 API 库。自己去实现这些东西会带来不必要的复杂性和 bug,并且会让你分心。

  • 花更多的时间研究数据模式,并将其转换成所需的格式。大多数项目涉及大量的数据操作和相对较少的模型调优。正在招聘数据科学家的朋友告诉我,很多求职者都能描述算法,但绝大多数人缺乏 pandas 相关的技能,无法在实际工作中高效地完成任务。

  • 了解技术的应用背景。在描述技术实用性时,如果你还是满嘴技术术语,说明你可能还没有准备好应用它。

  • 学会如何解释模型输出。例如,你需要了解如何度量模型的准确性,以此来判断是否可以信任模型。

  • 在你感兴趣的领域内构建项目,它可以与电影、时事、体育、食物或任何其他事情有关。这将教会你如何以一种非常实用方式来构建有关外部世界的无定形问题。这是数据科学家最重要的技能之一。分享你的工作成果,学会如何解释和讨论结果,这可能是最为重要的技能。

  • 跳过教科书和课程提及的算法理论,会更容易地成为一名数据科学家吗?当然不是。


2019-08-17 07:553892
用户头像

发布了 38 篇内容, 共 32.7 次阅读, 收获喜欢 210 次。

关注

评论

发布
暂无评论
发现更多内容

AI for Good | 从女性力量,到AI公平

澳鹏Appen

人工智能

ListView Item多布局的实现

芯动大师

ListView item QQ界面

GitLab 解析:为什么市场正在转向一体化 DevSecOps 平台?(附Forrester完整报告下载)

极狐GitLab

DevOps DevSecOps 安全测试 极狐GitLab 安全合规

如何利用分布式算法理解分布式存储

Dinfan

数据库 分布式 分布式存储 分布式算法

云计算之-弹性伸缩

天翼云开发者社区

从新手小白到运维大咖,SysOM 多场景宕机实例解析 | 龙蜥技术

OpenAnolis小助手

运维 操作系统 服务器 龙蜥技术 SysOM

【附下载】艾瑞《全球互联网通信云研究报告》,融云 IM 连续 8 年展现统治力

融云 RongCloud

互联网 IM 社交 融云 元宇宙

数据资产与勒索病毒之间,华为立起一张安全盾牌

脑极体

安全

一图读懂《2023 年全球互联网通信云行业研究报告》

融云 RongCloud

互联网 通讯 图片资源

前端开发框架React技术如何与小程序结合,进行页面构建

兴科Sinco

小程序 taro 前端开发 前端框架 React Native

一文搞懂面试官常问的:SpringBoot自动配置原理

Java Spring Boot 自动装配

让AI上车,车企如何借势2023上海国际车展硬核出圈

极客天地

彻底搞懂贝叶斯的本质

侠之大者

机器学习 贝叶斯公式 概率论

电商平台的商品价格管理的产品设计

产品海豚湾

产品设计 SaaS 商品管理 电商 产品分析

Swift 里 的 Struct 和 Class

刿刀

共铸国云智领未来| “码”上呼唤,马上办!

天翼云开发者社区

全国首个算力互联互通验证平台发布,天翼云推动算力智能调度再提速

天翼云开发者社区

虚拟主机和云服务器的区别

天翼云开发者社区

「中华田园敏捷开发」,是老板无能还是程序员无力?

引迈信息

前端 敏捷开发 后端 低代码

从5分钟到60秒,袋鼠云数栈在热重启技术上的提效探索之路

袋鼠云数栈

热重启

电商 SaaS 全渠道实时数据中台最佳实践

Apache Flink

大数据 flink 实时计算

OpenAI竞争对手Anthropic融资:1融资易估值难2背后谷歌云3侧重安全

B Impact

终于说有人清楚了BI仪表板和大屏的区别

搞大屏的小北

数据分析 数据可视化 数据大屏 仪表板 可视化展示

WorkPlus|可定制、可扩展的私有化即时通讯办公平台

BeeWorks

企业内部即时通讯软件,提供安全的组织管理和办公协作方式

BeeWorks

适配PyTorch FX,OneFlow让量化感知训练更简单

OneFlow

人工智能 深度学习

CleanMyMac X4.20免费版Mac系统垃圾清理工具

茶色酒

CleanMyMac X

模块八作业

张贺

架构训练营

周六直播|StarRocks 参与数据湖架构峰会,揭秘最新湖仓分析新范式!

StarRocks

数据库 大数据

入门数据科学,70%的人都做错了_AI&大模型_Dan Becker_InfoQ精选文章