【ArchSummit架构师峰会】探讨数据与人工智能相互驱动的关系>>> 了解详情
写点什么

乔丹 Reddit 访谈实录:统计学和机器学习不能分开

  • 2014-10-11
  • 本文字数:1707 字

    阅读完需:约 6 分钟

乔丹(Michael I. Jordan)教授是机器学习领域神经网络的大牛,他对深度学习、神经网络有着很浓厚的兴趣。如今,在工业界解决不确定性问题的时候需要更加有效的结果和更多理论依据的结果,这两者之间总是会有分歧,这使得机器学习领域和统计学的工作的背景很相似,乔丹教授对两个领域未来的发展方向有很多看法。

首先乔丹提到,他个人并没有把统计学和机器学习区分开。他认为把理论和实际明确分开是没有很大用处的,它们的相互作用已经被证明了是很有用的,当越来越复杂的系统诞生时,它们也会互相促进并且提升。

设想一下建一座桥的工程,这是从物理界到人文界工程师都需要一起参与的工程链,建筑师需要设计桥梁,土木工程师需要保证桥梁不会在某些极端条件下塌陷等等。在这条链中几乎没有人不知道把“理论概念”和“工程实际”结合起来,这一点已经在几十年里都被证明过了。

类似的,Maxwell 方程为电子学提供了理论依据,但是感应匹配之类的想法也是在工程上开始建造电路和和流水线之后才进入人们的视线的,这些想法都是结合了理论和实际的。

我们有一个类似的挑战——我们应该怎样把核心推理出想法转化成系统工程,使之能够在我们所要求的条件下工作,例如时间效率、花费等等。这样才能够反映出我们的设想是否能够应用于这个领域,让我们更加好的做出决定和改动,并且做到与人类更好的交互。实际上,出于对桥梁建造者、火箭制造者等人的尊重,乔丹认为目前人类社会面临着更加复杂的领域。

乔丹教授所做的领域很多,他把这些统称叫做数据科学。实际上,我们所知道的大部分在统计学或者机器学习领域的人基本上都把他们自己理解成了这个综合领域的人。这些人不会说:“我对于数据集合的随机化,或者怎样归并数据,或者预测的不确定性、评估模型、可视化等等不感兴趣”。尽管他们仅仅在这个综合问题的子集上工作,但是他们对整个综合问题都是很清楚的。不同圈子里的人通常有着自己不同的应用领域,因此使得他们目前的工作看起来截然不同,但是这里并没有基础知识上的区别,很多看上去的分歧其实是历史的玩笑。

乔丹重点谈到了一位提问者所说的“仅在机器学习领域通用的算法”的问题。他不太清楚这个是指什么,从八九十年代来看,已经不知道有多少次在机器学习领域里研究的人意识到他们的想法已经在其他领域出现过了,比如:统计学、决策树、最近邻居、逻辑回归、PCA、典型相关、图模型、K-means 和还有判别分析。当然,统计学群体至今也没有一个很好的定义,像卡尔曼滤波、HMMs 还有因子分析之类的想法都来源于统计学群体之外,正是因为它们都是关于推断所以才被吸收进统计学。类似的,多层神经网络可以被看成是非参数的函数估计因子或者目标,从而能够从统计学中分析。

某种程度上,统计学是指一种分析形式,一个统计学家会很高兴地分析一个系统的表现。比如,一个逻辑系统,如果输入的数据是随机的,那么输出的数据也会被考虑成不确定的。一个统计方法中没有任何侥幸概率的成分。

当 Leo Breiman 发明了随机森林,他变成了一个统计学家或者机器学习家吗?当乔丹和他的同事发明了 LDA 模型,他们变成了统计学家或者机器学习家吗?难道因为 SVM 是一种机器学习的算法,逻辑回归是一种统计算法,它们就完全不同了吗?它们是以同样的效率解决了相同的优化问题,区别仅仅是在一点点缺失函数的形式上,为什么很多人总是认为这些是非常重要的区分呢?

乔丹教授说道,机器学习群体并没有发展很多新的推论原理,或者很多新的优化原理。但是这个群体正在创造性地从其他领域吸收已经存在了的想法,并且把它们混合并加以改造,以使得解决这个领域的难题。

但是,也绝对不能将机器学习应用和统计学优化理论混淆起来。统计学群体往往非常收到欢迎,这仅仅是历史原因,因为他们的工作往往集中在科学、医学和政策方面而不是工程。机器学习社区的出现极大地有助于放大应用统计推断的范围,它已经开始打破工程思维的一些障碍,例如,计算机系统思维和推理思维。当然,它也遇到了新的理论问题。


感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2014-10-11 09:552022
用户头像

发布了 268 篇内容, 共 118.1 次阅读, 收获喜欢 24 次。

关注

评论

发布
暂无评论
发现更多内容

企业大数据价值最大化的关键因素

元年技术洞察

大数据 数据中台 数字化转型

从咖啡馆到世界,共赴下一个十年|写在EMQX开源十周年

EMQ映云科技

GitHub 开源 IoT emqx 12 月 PK 榜

2022中国产业数字化发展成熟度行业指数分析—— 重视差异,结合自身要素禀赋,推进产业精细化治理

易观分析

产业 产业数字化

weidl x DeepRec:热门微博推荐框架性能提升实战

阿里云大数据AI技术

性能优化 AI技术 推荐引擎 12 月 PK 榜

这个团队敢闯、会创,北京交通大学团队结合昇思MindSpore技术助力打造“智慧安全交通”

Geek_2d6073

技术分享 | 测试的本质是什么?

霍格沃兹测试开发学社

软件测试 | 测试开发 | 你的期待薪资是多少?为什么?

测吧(北京)科技有限公司

测试

更加灵活、经济、高效的训练 — 新一代搜推广稀疏大模型训练范式GBA

阿里技术

大模型 搜索推荐

跨平台应用开发进阶(三十六) :uniapp使用uni.request请求报错{“errMsg“:“request:fail abort statusCode:-1“}的解决办法

No Silver Bullet

uni-app 12月月更 跨平台应用开发 statusCode:-1“ request:fail abort

跨平台应用开发进阶(三十七)uni-app前端监控方案 Sentry 探究

No Silver Bullet

uni-app sentry 12月月更 前端监控方案

这一篇让你搞懂电商平台中的商品 SPU 和 SKU

产品海豚湾

产品经理 产品设计 商品管理 电商平台 需求分析

车载LED显示屏的4大性能指标

Dylan

LED显示屏 户外LED显示屏 led显示屏厂家

论文复现丨基于ModelArts进行图像风格化绘画

华为云开发者联盟

人工智能 华为云 12 月 PK 榜

头像类NFT的未来,实际价值在哪里?

博文视点Broadview

校招面试真题 | 你的期望薪资是多少?为什么?

测试人

MyBatis是如何初始化的

华为云开发者联盟

Java 开发 华为云 12 月 PK 榜

TypeScript 前端工程最佳实践

京东科技开发者

typescript 前端 前端开发 编程语言】

校招面试真题 | 你的期望薪资是多少?为什么?

霍格沃兹测试开发学社

跨平台应用开发进阶(三十四) :uni-app 应用 Universal Link 实现 iOS 微信分享

No Silver Bullet

uni-app universal link 跨平台应用 12月月更 iOS 微信分享

学生管理系统架构文档

闲人Eric

架构实战营

计算机科学通识-01-电子计算机发展史

邱比特讲编程

计算机基础 计算机 计算机教育

数据人PK也无人,为什么业务部门的数据需求都是急活?

雨果

数据开发 数据工程师 数据服务

教你用Python实现BMI计算器

小院里的霍大侠

Python 实战案例 初学者 入门实战

如何使用火焰图对 Rust 程序进行性能和内存占用分析

Databend

4年“落子”8大城市,骥翀氢能产业布局背后精心下好“商业模式”先手棋

硬科技星球

如何在云原生环境中实现安全左移?

SEAL安全

云原生 安全 DevSecOps 12 月 PK 榜

MySql索引下推知识分享

京东科技开发者

数据库 后端 索引 MySQL 数据库 索引原理

网络ping不通,试试这8招

华为云开发者联盟

开发 网络 服务器 华为云 12 月 PK 榜

带你读AI论文丨针对文字识别的多模态半监督方法

华为云开发者联盟

人工智能 华为云 文字识别 12 月 PK 榜

低代码多分支协同开发的建设与实践

阿里巴巴终端技术

前端 低代码

如何通过Java提取PDF中的图片

Geek_249eec

Java PDF 图片

乔丹Reddit访谈实录:统计学和机器学习不能分开_语言 & 开发_张天雷_InfoQ精选文章