统计建模与机器学习的区别_语言 & 开发_Oliver Schabenberger_InfoQ精选文章

阿里云飞天发布时刻，领先大模型限免，超7000万 tokens免费体验了解详情 



 写点什么

登录/注册

Oliver Schabenberger 是商业分析与商业智能软件 SAS 的副总裁，Analytic Server 的研发主管，他还是美国统计协会 ASA 的会士。作为分布式计算、云计算和机器学习方面的专家，他经常会被问到统计学（尤其是统计建模）、机器学习和人工智能的区别。最近，Schabenberger发表文章，专门解答了这个问题。从目标、技术和算法上来说，统计建模、机器学习和人工智能三个领域确实有重叠的部分。但困惑不仅来自于这些重叠的部分，更多是来自人们阅读的那些非科学文章中时髦用语的大杂烩。

统计建模

统计建模的基本目标是回答这样一个问题：“哪一个概率模型能够生成我观察到的数据？”所以你可以这样做：

从一个合理的模型库里选一个候选模型
评估它的未知量（参数，又称作匹配模型与数据）
比对符合的模型和替代模型

举例来说，如果你的数据代表了总数，比如这个数字代表了客人感到反胃的数量，或者细胞分裂的数量，那泊松分布或者负二项分布、零膨胀模型中的某个模型就可能是适用的。

一旦选中了某个模型，那预估模型就会被用作一个查询设备：检验假设、建立预估值，还能测量信任度。预估模型就成了人们解释数据的棱镜。人们从来不声称预估模型带来了数据，但会把它当做一个在随机的过程中合理的近似，然后再基于它去验证推论。

验证推论是统计建模中一个重要的方面。举例来说，如果要在三个可能的医疗设备中，决定哪个对病人最有益，你就会对这样的模型感兴趣：它能捕捉病人使用什么样的途径治疗是明显有效果的。总是这样，那些能很好地捕捉数据生成途径的模型，同时也是在观测数据范围内最好地做出预测的模型，或许它还能预测出新的观测结果。

经典的机器学习

经典的机器学习是数据驱动的，它专注于回归和分类的算法，并被模式识别推动着。构成它基础的随机途径总是次要的和不被直接重视的。当然，很多机器学习的技术可以通过随机的模型和进程架构起来，但数据并不是通过模型生成的。相反，机器学习主要是为了辨识出运行某个特定任务的算法或技术（或者是二者兼有）：顾客最好由 k-Means 算法分组吗？或者由 DBSCAN、决策树、随机森林，还是 SVM？

简而言之，对统计学家来说，模型是第一位的；对机器学习专家来说，数据是第一位的。因为机器学习强调的是数据，不是模型，把数据分离成训练和测试组的验证技术是非常重要的。一个解决方案的优劣不在于 p 值，而在于证明这个解决方案在以前看不到的数据方面预测良好。把一个统计建模和一套数据匹配，或者为一套数据训练决策树，就需要评估未知量。决策树的最佳分支点，是由预估参数数据决定的，而预估参数是从属变量的条件分布决定的。

Oliver Schabenberger 的观点是，没有一种技术能够自称会学习。训练才是塑造某物的必经之路。学习，从另一方面来讲，就暗示着获得新的技能，而训练是学习的一部分。通过训练一个深度神经网络，也就是说，通过输入数据设定好它的砝码和偏向，它就学会了分类，这个神经网络就变成了一个分类器。

现代的机器学习

如果一个机器学习系统没有被指定完成一项 _ 任务 _，它就真的是个学习系统，然而它是被指定去 _ 学习 _ 完成某项任务的。Schabenberger 把这个称为现代的机器学习。就像经典机器学习的变体一样，现代机器学习是一种数据驱动的训练。跟经典机器学习不同的是，现代机器学习不依赖于强悍的算法技术。几乎所有这种形式的机器学习应用，都是以深度神经网络为基础的。

现在，这个领域通常被称作深度学习，一个机器学习的专门科目。深度学习被频繁应用于各种弱人工智能应用，在这些领域，机器会去做人类的工作。

数据的角色

现在，通过学习数据的角色，就可以分清统计建模、经典机器学习和现代机器学习了。

在统计建模中，数据指引人们到一个随机模型的可挑选范围里，它就相当于是抽象的利益问题的概率表达，比如假说、预测和前瞻。

在经典的机器学习中，数据会驱动着分析技术的挑选范围，使得它们最高效地完成手边任务。数据训练了算法。

在现代的机器学习中，数据驱动着基于神经网络的系统，而为了学习一项任务，这些神经网络系统自主决定数据的规律性。在这个训练神经网络学习数据的过程中，它就学会了这项任务。就像有的人说的那样：“是数据完成了编程。”

查看英文原文： The difference between Statistical Modeling and Machine Learning, as I see it

感谢杜小芳对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作，请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博（ @InfoQ ， @丁晓昀），微信（微信号： InfoQChina ）关注我们。

评论

发布

暂无评论

小度AI助手携手博西家电达，共筑智能家居新场景

科技大数据

需求频繁变更？AI 驱动的自动化解决方案实践

飞算JavaAI开发助手

2025深圳高交会·第二十七届中国国际高新技术成果交易会

高交会人工智能展深圳高交会

学啥才能接单？分享一下我目前使用的技术栈

程序员郭顺发

YashanDB|报错 YAS-00402：failed to connect socket?可能是监听地址设置问题

数据库砖家

Mac 剪辑利器 Final Cut Pro，智能升级，重塑视频创作新格局

MEV 的必然性：揭秘加密货币世界的暗池经济

YashanDB|YAS-02287：审计策略无法删除?因为还在启用中

数据库砖家

圆明园十二生肖兽首铜像终于“回国”？百度百科推出数字文物守护计划，让流失文物回家

科技大数据

Last Call丨精彩嘉宾阵容，完整日程揭秘！2025 Altair 区域技术交流会华北站

Altair RapidMiner

人工智能 AI 汽车数字孪生 CAE

打印高质量日志的10条军规

电子尖叫食人鱼

英特尔发布专业级GPU，专为AI推理和专业工作站设计

YashanDB 登录提示账户被锁?快速解锁 sys 用户的方法

数据库砖家

Lightroom Classic中文基础教程分享--LR图片管理和分类

依赖错误终结者：AI 项目管理中的故障排查指南

飞算JavaAI开发助手

项目管理 AI 依赖

Cornerstone for Mac：代码管理神器，让协作开发更稳更快！

Web前端入门：JavaScript 3 种书写位置及 script 标签的正确存放位置

不在线第一只蜗牛

Java 前端 Web

1688图片搜索API接口攻略

1688图片搜索接口 1688拍立淘接口 1688图片api

整合安全能力：观测云进一步强化数据价值

YashanDB|YAS-02507：执行增量备份失败?缺少基础备份

数据库砖家

Studio One 6 Pro永久许可证-Mac/win

同样的数据，更强的效果：如何让模型学会‘互补思维’？

量贩潮汐·WholesaleTide

人工智能机器学习

产品迭代为什么越来越慢？

效率工具产品经理产品运营产品迭代用户需求

数据分析与AI丨Graph+LLM 如何重塑传统 BI 的未来

Altair RapidMiner

人工智能 AI 数据分析知识图谱 GraphStudio

Java 中堆内存和栈内存上的数据分布和特点

量贩潮汐·WholesaleTide

成功案例丨GEZE与Altair合作推动智能建筑系统开发

Altair RapidMiner

制造业数字孪生仿真 CAE 工业仿真

朱雀二号改进型火箭成功发射！国产时序数据库 IoTDB 全程护航火箭试验、发射及北邮双星数据管理

IDEA+AI 深度融合：重构高效开发的未来模式

飞算JavaAI开发助手

IDEA #java 技巧分享

践行“科学智能”！和鲸打造 AI for Science 专属应用

Mac桌面宠物鹅Desktop Goose 如何使用？

淘宝商品详情API接口解析与 Python 实战指南

淘宝API接口淘宝商品详情接口淘宝数据采集淘宝商品详情数据采集