【ArchSummit】如何通过AIOps推动可量化的业务价值增长和效率提升?>>> 了解详情
写点什么

如何更好地阅读包含很多数学相关内容的机器学习论文?

  • 2017-08-17
  • 本文字数:2520 字

    阅读完需:约 8 分钟

有些机器学习论文里包含了大量的数学公式、理论和证明。通常,阅读这类论文要比阅读普通的深度学习论文花上更多的时间。对机器学习论文读者而言,需要什么样的数学背景?有哪些书有助于理解机器学习论文?可以阅读哪些书籍来提高阅读这类论文的能力呢?

最近 reddit 上的网友们针对以上问题展开了热烈的讨论,我们将讨论贴中的观点整理和总结如下。

对包含了大量数学公式的机器学习论文,有两种理解。

第一种是,一篇文章中有大量的公式、代数理论和复杂的公式计算。

一般而言,阅读论文都不会只读一遍。可以先浏览标题,然后决定是否要阅读摘要,再决定是否直接跳到结果部分。

阅读有着大量代数理论的论文的秘诀在于,在第一篇粗读时,不要一步步跟随代数部分。大部分学生都会犯下这个错误。在第一遍阅读时,你并不需要理解一个冗长计算的所有步骤。相反,默认它们是正确的,跳过它们,深入阅读关键的步骤。读公式之间的文字描述,读实验结果,读结论。当你大致明白了文章所谈论的东西之后,你再决定是否把时间花费在代数部分。不要在看不懂的步骤上花太多时间。当你以后有空时,可以重复阅读来慢慢理解它们。

当你逐渐成长为“应用数学家”时,你的能力也相应地增强了,浏览代数部分时已经能大致了解作者想达到什么目的以及大致所需要的步骤。没有人能够快速地阅读冗长复杂的计算公式。这也是为什么在第一遍阅读时要跳过公式的原因。从粗读开始,在每一次细读时再慢慢琢磨细节。

另外,你也应注意到,有时候这些计算里是有错误的。我们很难在第一次读的时候就发现它们。很多时间,这些错误与文章的观点是不相关的,但是它们会让读者产生混淆并阻碍读者理解数学内容。如果你已经基本理解了作者所做的工作,这些错误也很容易被找出。而且,当你看这些公式时,要确保你明白它们的真正意义。你可能知道某个公式的数学计算,但是你了解其背后的含义吗?譬如,你是否能够解释在某个特定系统下该公式的意义何在?你能否说出“当最大化 ELBO(Evidence Lower Bound Objective,似然函数下限)时,估计后验值与似然数据所允许的前验值类似”?这就是 ELBO 表达式背后的含义。当你达到了这一境界时,对冗长的代数操作进行推理就会变得更容易了。如何达到这种境界呢?读很多理论书,做很多代数题,这里没有捷径可走。

第二种是,论文中用到了大量的数学理论和证明,依赖大量的数学概念、理论和证明(有时候是过多且不必要的)来验证文章的观点。这种文章的核心就是数学。譬如,论文“为什么在增强学习中后验取样比优化更好”就是一篇数学理论性很强的文章。

对有些读者而言,这类文章更难阅读,因为它们往往很容易令人混淆。所有正式的谈论看起来都很重要。对这种论文,阅读的技巧是相通的:粗读。我们并不需要去查询Wikipedia 来试图记住Borel hierarchy 是什么。我们可以把这些时间节省下来,说不定我们再也不会读第二次了。

另外,也可以把用于某个特例的概念替换为一个简单的场景。很多时候,人们之所以用到正式的数学公式和推导,是因为他们在打安全牌、不想让一些诡异的边角例子破坏他们的推理。譬如,有一些聪明的数学系博士生会问:“如果该函数在每一处都是连续的但是不可微的,你认为还是否适用呢?”遇到这种情况怎么办?你所能做的就是假设没有这么聪明的学生,把所有Radon-Nikodym 导数都替换为比率,把所有测量标准都替换为有黎曼积分的简单函数,并假设这个作者只是在炫耀自己的数学知识,而你不需要通过这些数学知识来理解他所谈论的东西。

有时候这些方法都不适用,因为对某些文章,你必须认真阅读数学理论和推导来理解文章。

有时候,论文中引用数学公式只是为了更好地描述问题,仅仅了解公式的名称也能帮助你阅读文章。但是也有特例,譬如,KL 散度依赖于扎实的统计和信息论理论,当你阅读时,你会对其中的推论和计算点头称赞,但要想完全理解它,的确需要一些时间。

对有些人而言,更有效的方法是,拿出纸和笔,按照论文中的计算步骤一步步完成。这样有助于理解文章中的内容,而且也有助于发现其中简单的错误或笔误。很多文章会省略一些很明显的步骤,当只是用眼睛看的时候,很难跟着这些公式的思路。但是,如果你自己动手重新计算一次,就能涵盖文中所跳过的简单但重要的步骤。当然,每个人可以根据自己的情况来决定深入研究的程度。对于那种嵌套引用其他文章的断言或理论,你可以决定是继续查看参考文献还是直接跳过。

如果论文作者已经将基于论文实现的代码公布到了GitHub 上,读者可以粗读摘要和结论,然后跳入到程序中。这也是一个将理论与实践相结合的好方法。譬如, 论文“ Self-Normalizing Neural Networks ”中有着大量的公式,并在附录中给出了大篇幅的数学计算和证明。但这些附录中的计算是从一个计算机辅助的代数系统中生成出来的,对读者而言价值不大,可以快速地跳过。如果有读者想检查这些证明,当然也可以细看。该论文也有相应的 GitHub 代码,读者可以借助它来更好地理解文章。

也有人借助于量子物理中的费曼图(Feynman Diagrams),将复杂的公式抽象化和图形化,对于有物理背景的人而言,是一个简单易用的方法。

另外,阅读的深度也取决于读者的研究方向是机器学习的哪个分支。对于内核方法,需要有线性代数(元组、矩阵等的计算)、功能分析等的基础。对时间序列分析而言,需要了解测量方法和随机过程。有些方法需要用到图论等复杂理论。

当然,从学习机器学习的角度出发,了解一些数学理论基础还是很有必要的,如贝叶斯、最大后验概率、最大似然估计、高斯分布、一元 / 多元分类器、线性回归分析、支持向量机、隐藏马尔可夫模型、线性代数、概率论、微积分等等。很多东西都是这些理论的变形。一些引论类的研究生课程中会介绍到这些。网上也有很多免费资源,譬如你可以去 Youtube 上找到一些你喜欢的课程,加强自己对这些数学概念的了解。

有一些网友也推荐认真看看“ How to read a paper(如何阅读论文)”这篇文章,它里面讲解了很多论文阅读技巧。

查看原文 How do you read math-heavy machine learning papers ?


感谢蔡芳芳对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2017-08-17 19:002793
用户头像

发布了 21 篇内容, 共 89157 次阅读, 收获喜欢 3 次。

关注

评论

发布
暂无评论
发现更多内容

初探 Cocos Creator: 碰撞与物理系统

北桥苏

游戏开发 游戏引擎 小游戏 CocosCreator

一文读懂Partisia区块链的MOCCA 方案:让资产管理可信且可编程

加密眼界

金智维的务实主义,打响大模型落地“突围战”

脑极体

AI

重构大面积if-else代码

廊虞

Java 设计模式 策略模式

Apache Flink 中 Watermark 机制详解及其核心原理与应用示例

木南曌

flink 实时计算 watermark

叫好不叫座?Arm、英特尔、AMD 等 5 位技术大咖畅聊机密计算技术

OpenAnolis小助手

龙蜥社区 龙蜥操作系统 机密计算 2023龙蜥操作系统大会

云原生时代下,操作系统生态的挑战与机遇

OpenAnolis小助手

云原生 操作系统 国产操作系统 龙蜥社区 2023龙蜥操作系统大会

15 万奖金!开放原子开源大赛 OpenAnolis -云原生赛题报名开始

OpenAnolis小助手

操作系统 国产操作系统 龙蜥社区 龙蜥赛题

【专访英特尔】软硬结合,共赴服务器操作系统的云智未来

OpenAnolis小助手

AI 操作系统 国产操作系统 intel 龙蜥社区

开始报名,赢取丰厚奖金!2024 大学生操作系统赛—龙蜥赛题等你来挑战

OpenAnolis小助手

龙蜥赛题

2023 re:Invent | Amazon Q 与 Amazon CodeWhisperer 面向企业开发者提效利器

亚马逊云科技 (Amazon Web Services)

mj ai作画是什么?5款中文版Midjourney软件推荐!

彭宏豪95

人工智能 在线白板 AIGC AI绘画 MidJourney

[每日秒懂] 持续交付2.0

dinstone

持续交付 双环模型 科学探索-快速验证

【专访浪潮信息】构建开放公平的社区生态,中国服务器操作系统崛起进行时

OpenAnolis小助手

操作系统 国产操作系统 龙蜥社区 浪潮信息 2023龙蜥操作系统大会

院士专家任高级顾问,龙蜥生态日见成熟

OpenAnolis小助手

操作系统 国产操作系统 龙蜥社区

一文读懂Partisia区块链的MOCCA 方案:让资产管理可信且可编程

大瞿科技

英特尔助力龙蜥加速 AI 应用及 LLM 性能

OpenAnolis小助手

AI 英特尔 龙蜥社区 2023龙蜥操作系统大会

SysOM 的可观测和智能监控实践

OpenAnolis小助手

系统运维 龙蜥社区 龙蜥操作系统 SysOM 2023龙蜥操作系统大会

根基已筑!Anolis OS 23.1 预览版本搭载 Linux 6.6 内核和工具链升级完成

OpenAnolis小助手

操作系统 国产操作系统 龙蜥社区 龙蜥产品发布 Anolis OS

开箱即用的使用体验!Alibaba Cloud Linux 的演进之旅

OpenAnolis小助手

Alibaba Cloud Linux 龙蜥操作系统大会

群擎并举,众芯共魂,龙蜥重磅首发下一代操作系统“1+3”能力模型

OpenAnolis小助手

操作系统 国产操作系统 龙蜥社区 2023龙蜥操作系统大会

2023年回顾| 龙蜥这一年:群擎并举,众芯共魂

OpenAnolis小助手

操作系统 国产操作系统 龙蜥社区

直播预告|Sora 会怎样驱动视频编解码领域的突破与革新

声网

基础设施SIG月度动态:社区官网 SIG 增加轻量级 PR 支持,CVECenter 上线漏洞认领功能

OpenAnolis小助手

龙蜥社区 龙蜥社区SIG 月度动态

龙蜥社区衍生版浪潮信息 KOS 升级!支持最新 5.10 内核,让大模型“开箱即用”

OpenAnolis小助手

龙蜥操作系统 龙蜥社区衍生版

Alibaba Cloud Linux 与倚天软硬结合,加速数据智能创新

OpenAnolis小助手

AI 龙蜥社区 Alibaba Cloud Linux

龙蜥开发者说:一个人出发,一群人抵达 | 第 26 期

OpenAnolis小助手

龙蜥社区 龙蜥开发者说

释放硬件潜能,激活软件生态 《龙蜥+超级探访》第二期走进 Intel

OpenAnolis小助手

操作系统 国产操作系统 英特尔 龙蜥社区 龙蜥+超级探访

开放签开源电子签章产品白皮书(简版)

开放签开源电子签章

开源 电子签章

高性能网络SIG月度动态:virtio 支持 RSS 功能!virtio 标准委员会正式接受 SIG 提案

OpenAnolis小助手

龙蜥 龙蜥社区SIG 月度动态

【专访阿里云】云智融合转型期,国产服务器操作系统路在何方?

OpenAnolis小助手

阿里云 操作系统 国产操作系统 龙蜥社区

如何更好地阅读包含很多数学相关内容的机器学习论文?_语言 & 开发_CarolGuo_InfoQ精选文章