AI实践哪家强?来 AICon, 解锁技术前沿,探寻产业新机! 了解详情
写点什么

机器学习,像极了一场足球比赛

  • 2021-03-04
  • 本文字数:2047 字

    阅读完需:约 7 分钟

机器学习,像极了一场足球比赛

本文最初发表于 Towards Data Science 博客,经原作者 Renato Boemer 授权,InfoQ 中文站翻译并分享。


如果向没有技术背景的人解释清楚机器学习,可能有些难度。


如果你是一名专业数据科学家,你会经常被问到一个问题 —“你这个工作是干什么的?”如果向没有技术背景的人解释清楚这个问题,可能有些难度。


卡内基梅隆大学著名计算机科学家 Tom Mitchell 教授给机器学习下的定义是


“一种计算机程序,它从经验 E 中学习某些类别的任务 T 和性能指标 P,如果它在任务 T 中的性能(用 P 来衡量) 随着经验 E 而提高。”


坦率地说,在任何非正式对话中,引用这种专业性很强的定义可能很难让对话继续下去。


而作为一个数据科学家,又经常需要向非技术性的受众解释技术术语。因此,每当我发现自己在解释自己的工作时,我就用到了我的哲学老师曾经用到的同样的技巧:足球类比。即便人们不喜欢足球,他们也可以以某种方式把机器学习和足球运动及规则联系在一起。


但愿足球的比喻有助于你理解或向其他人解释机器学习。

球员(数据)


显然,没有球员,就没有足球赛。无论你是在温布利球场进行职业级别的球赛,还是在街上和朋友们一起踢球,这都不重要。没有球员,那些地方只是一个空旷的足球场和街道。


对于机器学习来说,数据就像球员,没有数据,一切都无从下手。不过,并非所有数据集都是相同的,就像球员一样,C 罗和梅西是伟大的球员,他们超越了人们对于一场精彩的足球比赛的期待。但如果让我上场的话,这就不可能了。因此,优秀的球员才会有出色的表现。


类似地,数据科学中也有一句名言:“垃圾进,垃圾出”。无论你的编程技术多么精湛,或者你的数学知识多么渊博,但如果没有有用的数据集,你的机器学习项目很可能会使你的团队失望。

足球经理(数据准备)


一支足球队的成功离不开足球经理。即便拥有挑选顶级球员的豪华条件,英格兰国家足球队自 1966 年以来也再没有赢得过世界杯。足球经理负责决定谁将参加世界杯。同时,他也负责为球员提供指导,指导日常训练。这个过程很花时间,如果不能很好地完成,球队就不能为下届冠军做好准备。


据一份研究报告称,约 80% 的数据科学家会做数据准备和数据清理。数据专业人员必须将他们的数据集转化为机器学习模型可以学习的格式(例如,将数据归一化,处理空白值等)。不论对于数据科学家还是足球专业人士,这些都不是最令人兴奋的事情。

足球战术(机器学习模型)


球队要想夺冠,就必须根据每个对手的情况改变战术。举例来说,如果美国国家足球队面对四届世界冠军德国国家足球队,他们很有可能建立一个强大的防守体系。若美国队对阵冰岛足球队,则可采用强攻策略,采用不同的进攻战术。因此,一支经过良好训练的球队,只要做到战术合理,那么在 90 分钟内,很有可能进球并取得胜利。


机器学习从业者必须根据给定的特定数据集和期望的结果来决定要应用哪种算法或模型。举例来说,机器学习专业人员根据问题来选择预测模型:分类模型是关于预测标签的,而回归模型是关于预测数量的。因此,熟知哪些规则和技术是项目成功的关键。如,K- 最近邻、逻辑回归、朴素贝叶斯分类器和随机森林是一些常用的机器学习模型。

足球设备(硬件和软件)


足球在不同位置需要不同的装备和训练。举例来说,只有门将才能用手触球。因此,他们需要(特殊的)手套和独特的体能训练,而其他人则需要来回奔跑 90 分钟,并尝试用额头进球得分。另外,拥有强大赞助商的团队可以雇佣营养师、医学专家甚至数据科学家来分析表现数据。归根结底,设备和独特的专业人才能够帮助一支球队在世界杯上获得成功。


类似地,要处理一个很小的数据集(1000 行×5 列)来创建一些图形,这些图形可以在标准笔记本电脑上使用 Microsoft Excel 生成,但如果要从多个服务器上提取数据并处理数百万行的数据,就需要特定的编程语言 Python 和具有非凡计算能力的高性能设备。



不同联盟(领域专长)


不管你走到哪儿,可能总会有人在踢足球,可能是孩子 / 成人,男人 / 女人,室内 / 业余,线上 / 户外或业余 / 职业等。这都不重要,总有人在玩。另外,你会遇到技术水平的巨大差异。


足球不会因为不同的技术水平和比赛类型而存在缺陷,这正是足球运动的多样性和包容性。每种技术水平或竞赛类型都可以满足某种特殊的需求。有些人喜欢在户外的草地上踢球,而另一些人则喜欢在网上与朋友一起踢球。这也没关系,这些人专攻某一种类型的足球。


机器学习就像足球一样。不同的专业人员在各自的领域拥有不同的专长和工作,例如,商业和企业领域(金融市场);学术和技术领域(在大学研究开发新算法)。

总结


当你正在成为机器学习专家时,你必然会向来自不同背景的人解释你的工作。这个简单有效的类比可以帮助你让他们更容易理解机器学习。关注受众对足球的普遍印象,并与机器学习建立易于记忆的联系。但愿现在,你有了一个有趣的类比,来比喻和通俗解释那些日常生活中的复杂话题。


作者介绍:


Renato Boemer,企业家,毕业于剑桥大学。爱好数据科学和人工智能。


原文链接:


https://towardsdatascience.com/machine-learning-is-like-football-e3e3ace8ce7a

2021-03-04 10:301950
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 570.7 次阅读, 收获喜欢 1979 次。

关注

评论

发布
暂无评论
发现更多内容

模块一作业

大鹏

#架构实战营

Havenask分布式索引构建服务--Build Service

阿里技术

分布式 Havenask 分布式索引 Build Service

中粮、中交、云投等众多央国企携手用友打造世界一流人才管理体系

用友BIP

人才管理

前端开发新篇章:AI助力效率激增!

程序员海军

AI 前端 年终总结

HarmonyOS实践之应用状态变量共享

HarmonyOS开发者

HarmonyOS

从 Linux Crontab 到 K8s CronJob,定时任务正在经历怎样的变革

阿里巴巴云原生

阿里云 云原生 可观测

官答|初始化GreatSQL报错无法找到数据目录或初始化数据字典失败

GreatSQL

故障排查 greatsql 官答

QCA9880: A multi-dimensional engine driving wireless communications

wallysSK

治理要从数据建模抓起 | 京东云技术团队

京东科技开发者

一起学Elasticsearch系列-索引管理

Java随想录

Java 大数据 Elastic Search

两全其美:Sidecarless 与 Sidecar 模式融合的服务网格新形态

阿里巴巴云原生

阿里云 Serverless 云原生

你好!Apache Seata

阿里巴巴云原生

阿里云 云原生 seata

湖南等保测评3家叫什么名字?分别在哪里?

行云管家

等级保护 等保测评 湖南

Excel可编辑PDF转化软件 PDF to Excel 最新激活版

胖墩儿不胖y

Mac软件 好用的办公软件推荐

活动回顾丨云原生技术实践营北京站回放 & PPT 下载

阿里巴巴云原生

阿里云 云原生

2023云栖大会精彩内容集锦:《云原生核心技术与最佳实战指南》电子书重磅上线

阿里巴巴云原生

阿里云 云原生

Go语言微服务框架重磅升级:dubbo-go v3.2.0 -alpha 版本预览

阿里巴巴云原生

Go 阿里云 云原生 dubbo

淘宝商品评论数据接口(Taobao.item_review)

tbapi

天猫商品评论接口 天猫评论接口 淘宝商品评论数据接口 淘宝评论接口 淘宝评论API接口

概念回顾:REST API 和 GraphQL

NGINX开源社区

微服务 Rest API graphql REST API

顺丰科技:打造智慧物流数据管理平台

新消费日报

Java多线程系列9:读写锁

BigBang!

Java多线程

分布式云原生操作系统KubeWharf初探

雪雷

#云原生 KubeWharf

深度解读:阿里云全球首发的容器计算服务 ACS 诞生背景、核心技术与应用场景

阿里巴巴云原生

阿里云 云原生 容器计算

用 Tekton 来构建镜像并推送到极狐GitLab 私有仓库

极狐GitLab

IntelliJ IDEA & Apache Dubbo,IDEA 官方插件正式发布!

阿里巴巴云原生

Java 阿里云 云原生

基于 eBPF 构建下一代智能可观测系统

阿里巴巴云原生

阿里云 云原生 可观测

方太厨电,在创新科技中看见烟火人间

脑极体

方太

用友BIP全球司库助力央国企统一资金结算,更可控更高效

用友BIP

全球司库 资金结算

朋友们注意啦!破解脱壳接单了

Geek_7f3f61

小程序开发 定制开发 破解脱壳

机器学习,像极了一场足球比赛_文化 & 方法_Renato Boemer_InfoQ精选文章