阿里、蚂蚁、晟腾、中科加禾精彩分享 AI 基础设施洞见,现购票可享受 9 折优惠 |AICon 了解详情
写点什么

入门数据科学,70% 的人都做错了

  • 2019-08-17
  • 本文字数:1036 字

    阅读完需:约 3 分钟

入门数据科学,70%的人都做错了

在大学的大部分时间里,我都在积极地学习困难但有用的课程。但是,到了最后一个学年,我感觉累了,我想休息一下,所以我选了一门“有趣”的工程系课程,叫做“航海物理学”。


我们研究了什么样的动力会让帆船的速度快过风,以及船的形状如何影响其自身的稳定性。我比大多数同学学到了更多的物理知识。很自然的,我的功课做得很好,而且如果我想去航海,我会是一个行家。


我在学期末验证了这个假设。当时我们去了马斯卡湖,试着行驶一艘真正的船,但事情并不像我预料的那样。


船有点晃动,我所掌握的有关浮力和“扶正手臂”的知识并没能让我好好地呆在船上。转弯需要协调多种动作,如果时间点不对,一根两米长的金属杆(吊杆)就会碰到我的脑袋,每一次敲击脑袋发出的隆隆声都会导致我出现几分钟的耳鸣。


航海物理知识很有趣,但很明显,在你真正开始航海时,它们并不一定管用。


那么,这和数据科学有什么关系呢?


就像我在没有实际航海经验的情况下学会了航海物理学,大多数数据科学课程非常详细地介绍了一些算法,但却忽略了成功的数据科学项目所需要的技能。


企业数据科学仍然是一个新的领域。很多学者都还没有为为真正的企业解决过真正的问题,所以他们以一种与数据和业务环境相分离的方式教授教科书中的算法。从智力方面看,这是一种乐趣。但是,如果学生们认为学好这些课程为就等于为成为数据科学家做好了准备,那他们就错了。


那么如何将你的学习精力放在重要的实操技能上呢?以下是一些值得一看的指南


  • 使用标准的开源库。数据科学通常会依赖具有良好的文档和设计并经过良好测试的 API 库。自己去实现这些东西会带来不必要的复杂性和 bug,并且会让你分心。

  • 花更多的时间研究数据模式,并将其转换成所需的格式。大多数项目涉及大量的数据操作和相对较少的模型调优。正在招聘数据科学家的朋友告诉我,很多求职者都能描述算法,但绝大多数人缺乏 pandas 相关的技能,无法在实际工作中高效地完成任务。

  • 了解技术的应用背景。在描述技术实用性时,如果你还是满嘴技术术语,说明你可能还没有准备好应用它。

  • 学会如何解释模型输出。例如,你需要了解如何度量模型的准确性,以此来判断是否可以信任模型。

  • 在你感兴趣的领域内构建项目,它可以与电影、时事、体育、食物或任何其他事情有关。这将教会你如何以一种非常实用方式来构建有关外部世界的无定形问题。这是数据科学家最重要的技能之一。分享你的工作成果,学会如何解释和讨论结果,这可能是最为重要的技能。

  • 跳过教科书和课程提及的算法理论,会更容易地成为一名数据科学家吗?当然不是。


公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2019-08-17 07:553680
用户头像

发布了 38 篇内容, 共 30.6 次阅读, 收获喜欢 206 次。

关注

评论

发布
暂无评论
发现更多内容

性能加速包: SpringBoot 2.7&JDK 17,你敢尝一尝吗 | 京东物流技术团队

京东科技开发者

一行代码修复100vh bug | 京东云技术团队

京东科技开发者

CSS 前端 移动视口错误 100vh

2024年完整湖北等保测评机构名单看这里!

行云管家

湖北 等级保护 等保测评

什么是AI数字人互动大屏?

青否数字人

AI数字人短视频矩阵怎么做?

青否数字人

数字人

2023年“中国高校计算机大赛-人工智能创意赛”总决赛获奖名单公示

飞桨PaddlePaddle

人工智能 深度学习 开发者 高校 计算机大赛

GitHub 如何修改 Fork from

HoneyMoose

NFTScan 与蚂蚁数科旗下 ZAN 达成战略合作

NFT Research

节点 NFT\ NFTScan #Web3

第32期 | GPTSecurity周报

云起无垠

开发一个免费App,都可以用哪些工具?

FinFish

APP开发 小程序容器 小程序转app 小程序技术

一招砍成本、四档提效率,建设智能工厂成就智造企业

用友BIP

智能工厂

好用的时间任务管理:Omnifocus 4激活中文最新版

胖墩儿不胖y

Mac软件 任务管理器

文本信息大纲编写工具 OmniOutliner 5 Essentials 激活中文版

mac大玩家j

Mac软件推荐 文本大纲编辑工具

网络安全事件频发现状

尚思卓越

网络安全

云图说丨初识华为云DDoS防护AAD——DDoS攻击防护平台

华为云开发者联盟

云计算 后端 华为云 华为云开发者联盟 华为云云图说

IPQ4019 IPQ4029 IPQ5018 IPQ8072 IPQ6010 Wallys OpenWRT Compatible Routerboard Wallys|Industrial/Commercial use

wallyslilly

积极办理等保测评,保证企业网络安全!

行云管家

网络安全 等保 等级保护 等保测评

如何将小程序运行在App中完成灰度测试?

FinFish

小程序转app 小程序技术 灰度测试

迈向高质量发展!用友iuap助力央国企升级数智底座

用友BIP

数智底座

Intellij 2023.3Groovy项目报错缺陷分享

FunTester

Kyligence 发布数据和分析领域垂直大模型司南(Compass)

Kyligence

数据分析 司南大模型

全国巡展“2024人工智能展·世亚智博会”3月上海·4月杭州·6月北京

AIOTE智博会

智博会 上海智博会 世亚智博会 杭州智博会 北京智博会

HamronyOS自动化测试框架使用指南

HarmonyOS开发者

HarmonyOS

AI虚拟数字人互动大屏应用场景!

青否数字人

数字人

十问ByteHouse:如何基于ClickHouse玩转向量检索?

字节跳动数据平台

数据库 大数据 云原生

软件开发

Geek_8da502

HarmonyOS:Neural Network Runtime对接AI推理框架开发指导

HarmonyOS开发者

HarmonyOS

探索MySQL:开源、高性能与可定制化的数据库管理系统

小魏写代码

Kafka核心逻辑介绍 | 京东云技术团队

京东科技开发者

云计算 kafka 消息队列

打卡智能中国(七):AI的小城故事

脑极体

AI

万字长文,我对FinOps落地的思考

谦寻

云原生 后端 降本增效 成本治理 kubernetes 运维

入门数据科学,70%的人都做错了_AI&大模型_Dan Becker_InfoQ精选文章