写点什么

乔丹 Reddit 访谈实录:统计学和机器学习不能分开

  • 2014-10-11
  • 本文字数:1707 字

    阅读完需:约 6 分钟

乔丹(Michael I. Jordan)教授是机器学习领域神经网络的大牛,他对深度学习、神经网络有着很浓厚的兴趣。如今,在工业界解决不确定性问题的时候需要更加有效的结果和更多理论依据的结果,这两者之间总是会有分歧,这使得机器学习领域和统计学的工作的背景很相似,乔丹教授对两个领域未来的发展方向有很多看法。

首先乔丹提到,他个人并没有把统计学和机器学习区分开。他认为把理论和实际明确分开是没有很大用处的,它们的相互作用已经被证明了是很有用的,当越来越复杂的系统诞生时,它们也会互相促进并且提升。

设想一下建一座桥的工程,这是从物理界到人文界工程师都需要一起参与的工程链,建筑师需要设计桥梁,土木工程师需要保证桥梁不会在某些极端条件下塌陷等等。在这条链中几乎没有人不知道把“理论概念”和“工程实际”结合起来,这一点已经在几十年里都被证明过了。

类似的,Maxwell 方程为电子学提供了理论依据,但是感应匹配之类的想法也是在工程上开始建造电路和和流水线之后才进入人们的视线的,这些想法都是结合了理论和实际的。

我们有一个类似的挑战——我们应该怎样把核心推理出想法转化成系统工程,使之能够在我们所要求的条件下工作,例如时间效率、花费等等。这样才能够反映出我们的设想是否能够应用于这个领域,让我们更加好的做出决定和改动,并且做到与人类更好的交互。实际上,出于对桥梁建造者、火箭制造者等人的尊重,乔丹认为目前人类社会面临着更加复杂的领域。

乔丹教授所做的领域很多,他把这些统称叫做数据科学。实际上,我们所知道的大部分在统计学或者机器学习领域的人基本上都把他们自己理解成了这个综合领域的人。这些人不会说:“我对于数据集合的随机化,或者怎样归并数据,或者预测的不确定性、评估模型、可视化等等不感兴趣”。尽管他们仅仅在这个综合问题的子集上工作,但是他们对整个综合问题都是很清楚的。不同圈子里的人通常有着自己不同的应用领域,因此使得他们目前的工作看起来截然不同,但是这里并没有基础知识上的区别,很多看上去的分歧其实是历史的玩笑。

乔丹重点谈到了一位提问者所说的“仅在机器学习领域通用的算法”的问题。他不太清楚这个是指什么,从八九十年代来看,已经不知道有多少次在机器学习领域里研究的人意识到他们的想法已经在其他领域出现过了,比如:统计学、决策树、最近邻居、逻辑回归、PCA、典型相关、图模型、K-means 和还有判别分析。当然,统计学群体至今也没有一个很好的定义,像卡尔曼滤波、HMMs 还有因子分析之类的想法都来源于统计学群体之外,正是因为它们都是关于推断所以才被吸收进统计学。类似的,多层神经网络可以被看成是非参数的函数估计因子或者目标,从而能够从统计学中分析。

某种程度上,统计学是指一种分析形式,一个统计学家会很高兴地分析一个系统的表现。比如,一个逻辑系统,如果输入的数据是随机的,那么输出的数据也会被考虑成不确定的。一个统计方法中没有任何侥幸概率的成分。

当 Leo Breiman 发明了随机森林,他变成了一个统计学家或者机器学习家吗?当乔丹和他的同事发明了 LDA 模型,他们变成了统计学家或者机器学习家吗?难道因为 SVM 是一种机器学习的算法,逻辑回归是一种统计算法,它们就完全不同了吗?它们是以同样的效率解决了相同的优化问题,区别仅仅是在一点点缺失函数的形式上,为什么很多人总是认为这些是非常重要的区分呢?

乔丹教授说道,机器学习群体并没有发展很多新的推论原理,或者很多新的优化原理。但是这个群体正在创造性地从其他领域吸收已经存在了的想法,并且把它们混合并加以改造,以使得解决这个领域的难题。

但是,也绝对不能将机器学习应用和统计学优化理论混淆起来。统计学群体往往非常收到欢迎,这仅仅是历史原因,因为他们的工作往往集中在科学、医学和政策方面而不是工程。机器学习社区的出现极大地有助于放大应用统计推断的范围,它已经开始打破工程思维的一些障碍,例如,计算机系统思维和推理思维。当然,它也遇到了新的理论问题。


感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2014-10-11 09:552433
用户头像

发布了 268 篇内容, 共 132.3 次阅读, 收获喜欢 24 次。

关注

评论

发布
暂无评论
发现更多内容

BitKeep崛起:千万用户的信任,终点还未到来

股市老人

开发者反响热烈,阿里云免费试用产品增至 80 多款!

云布道师

阿里云

一不小心,穿越到未来银行

脑极体

生成式AI

日常开发中,程序员如何提升技术?这13个点一定要做到!

Java你猿哥

Java ssm java基础 日常开发 java 编程

SecureCRT中文乱码怎么办?解决 SecureCRT中文乱码方法

Rose

SecureCRT下载 SecureCRT激活版 SecureCRT许可证 SecureCRT中文乱码

浅克隆和深克隆有什么区别?

javacn.site

java面试

聊一聊适配器模式

Java 设计模式 适配器模式

从腾讯XR、Meta、迪士尼裁员先砍元宇宙,谈应对不确定新业务

B Impact

探究 JavaScript 前端热点面试题(三):让你在面试中游刃有余!

Immerse

日常开发中,程序员如何提升技术?这13个点一定要做到!

程序员小毕

Java 程序员 程序人生 后端 架构师

涅槃重生,BitKeep如何闯出千万用户新起点

鳄鱼视界

NineData:高效高质量的Redis可视化管理工具

NineData

数据库 redis 开发工具 Redis 可视化工具 NineData

记录内网Docker启动Stable-Diffusion遇到的几个坑

华为云开发者联盟

开发 华为云 华为云开发者联盟 企业号 5 月 PK 榜

涨薪40K!来自阿里内部绝学的“微服务架构手册”

Java你猿哥

架构 微服务 微服务架构 ssm 架构师

C语言编程—数据类型

芯动大师

新能源汽车品牌加速出海 赛力斯“硬实力”助力全球化布局

科技热闻

CrossOver 让你在Mac上轻松运行 PC 游戏

Rose

虚拟机 CrossOver2023 Mac电脑运行win CrossOver Mac下载

IDP 与 DevOps平台:相似之处与关键差异

SEAL安全

IdP 平台工程 内部开发者平台

清华大佬首推"中高级Java程序员进阶小册",程序员架构进阶必备

Java你猿哥

Java 算法 Spring Boot JVM java面试

ZBrush 2023 v2023.1.1最新激活版下载 三维数字雕刻和绘画

Rose

ZBrush 2023安装教程 ZBrush 2023下载地址 ZBrush 2023破解版 角色建模 特效制作

MySQL触发器Trigger加载以及目前局限

GreatSQL

MySQL greatsql greatsql社区

一个同事喜欢查别人的BUG,截图发工作大群,还喜欢甩锅怎么办?

Java你猿哥

Java 程序员 ssm 编码 java编程

PullTube for Mac使用技巧:快速导出铃声、缩略图和短片

Rose

Mac视频下载器 PullTube下载 PullTube使用教程

依赖反转和依赖注入:提高程序的可维护性和可扩展性

Jack

AIGC背后的技术分析 | 基于规则产生式的推理

TiAmo

推理 AIGC 规则产生

小白白也能学会的 PyQt 教程 —— 自定义组件 Switch Button

繁依Fanyi

SVN管理工具Cornerstone入门教程

Rose

cornerstone 4破解 SVN管理 Cornerstone教程 Mac版Cornerstone许可证

揭秘RLHF;可商用开源LLM列表;领域编译器的前世今生

OneFlow

人工智能 深度学习 RLHF

TiKV 新架构:Partitioned Raft KV 原理解析

PingCAP

MySQL 数据库 TiDB

网易数帆汪源:低代码仍然被“误会”,市场明年会迎拐点

B Impact

乔丹Reddit访谈实录:统计学和机器学习不能分开_语言 & 开发_张天雷_InfoQ精选文章