深度学习的数学 (3):神经网络的思想 1-3

阅读数:5 2019 年 11 月 29 日 22:55

深度学习的数学(3):神经网络的思想 1-3

(激活函数:将神经元的工作一般化)

内容简介
《深度学习的数学》基于丰富的图示和具体示例,通俗易懂地介绍了深度学习相关的数学知识。第 1 章介绍神经网络的概况;第 2 章介绍理解神经网络所需的数学基础知识;第 3 章介绍神经网络的 * 优化;第 4 章介绍神经网络和误差反向传播法;第 5 章介绍深度学习和卷积神经网络。书中使用 Excel 进行理论验证,帮助读者直观地体验深度学习的原理。

1 - 2 节中用数学式表示了神经元的工作。本节我们试着将其在数学上一般化。

简化神经元的图形

为了更接近神经元的形象,1 - 2 节中将神经元表示为了下图的样子。

深度学习的数学(3):神经网络的思想 1-3

然而,为了画出网络,需要画很多的神经元,在这种情况下上面那样的图就不合适了。因此,我们使用如下所示的简化图,这样很容易就能画出大量的神经元。

深度学习的数学(3):神经网络的思想 1-3

为了与生物学的神经元区分开来,我们把经过这样简化、抽象化的神经元称为神经单元(unit)。

注:很多文献直接称为“神经元”。本书为了与生物学术语“神经元”区分,使用“神经单元”这个称呼。另外,也有文献将“神经单元”称为“人工神经元”,但是由于现在也存在生物上的人工神经元,所以本书中也不使用“人工神经元”这个称呼。

激活函数

将神经元的示意图抽象化之后,对于输出信号,我们也对其生物上的限制进行一般化。

根据点火与否,生物学上的神经元的输出 y 分别取值 1 和 0(下图)。

深度学习的数学(3):神经网络的思想 1-3

然而,如果除去“生物”这个条件,这个“0 和 1 的限制”也应该是可以解除的。这时表示点火与否的下式(1 - 2 节式 (3))就需要修正。

点火的式子:y=u(w1x1+w2x2+w3x3θ)(1)

这里,u 是单位阶跃函数。我们将该式一般化,如下所示。

y=a(w1x1+w2x2+w3x3θ)(2)

这里的函数 a 是建模者定义的函数,称为激活函数(activation function)。x1x2x3 是模型允许的任意数值,y 是函数 a 能取到的任意数值。这个式 (2) 就是今后所讲的神经网络的出发点。

注:虽然式 (2) 只考虑了 3 个输入,但这是很容易推广的。另外,式 (1) 使用的单位阶跃函数 u(z) 在数学上也是激活函数的一种。

请注意,式 (2) 的输出 y 的取值并不限于 0 和 1,对此并没有简单的解释。一定要用生物学来比喻的话,可以考虑神经单元的“兴奋度”“反应度”“活性度”。

我们来总结一下神经元和神经单元的不同点,如下表所示。

神经元 神经单元
输出值 y 0 或 1 模型允许的任意数值
激活函数 单位阶跃函数 由分析者给出,其中著名的是 Sigmoid 函数(后述)
输出的解释 点火与否 神经单元的兴奋度、反应度、活性度

深度学习的数学(3):神经网络的思想 1-3

将神经元点火的式 (1) 一般化为神经单元的激活函数式 (2),要确认这样做是否有效,就要看实际做出的模型能否很好地解释现实的数据。实际上,式 (2) 表示的模型在很多模式识别问题中取得了很好的效果。

Sigmoid 函数

激活函数的代表性例子是 Sigmoid 函数 σ(z),其定义如下所示。

σ(z)=11+ez  (e=2.718281)(3)

关于这个函数,我们会在后面详细讨论(2-1 节)。这里先来看看它的图形,Sigmoid 函数 σ(z) 的输出值是大于 0 小于 1 的任意值。此外,该函数连续、光滑,也就是说可导。这两种性质使得 Sigmoid 函数很容易处理。

深度学习的数学(3):神经网络的思想 1-3

单位阶跃函数的输出值为 1 或 0,表示点火与否。然而,Sigmoid 函数的输出值大于 0 小于 1,这就有点难以解释了。如果用生物学术语来解释的话,如上文中的表格所示,可以认为输出值表示神经单元的兴奋度等。输出值接近 1 表示兴奋度高,接近 0 则表示兴奋度低。

深度学习的数学(3):神经网络的思想 1-3

本书中将 Sigmoid 函数作为标准激活函数使用,因为它具有容易计算的漂亮性质。如果用数学上单调递增的可导函数来代替,其原理也是一样的。

偏置

再来看一下激活函数的式 (2)。

y=a(w1x1+w2x2+w3x3θ)(2)

这里的 θ 称为阈值,在生物学上是表现神经元特性的值。从直观上讲,θ 表示神经元的感受能力,如果 θ 值较大,则神经元不容易兴奋(感觉迟钝),而如果值较小,则神经元容易兴奋(敏感)。

然而,式 (2) 中只有 θ 带有负号,这看起来不漂亮。数学不喜欢不漂亮的东西。另外,负号具有容易导致计算错误的缺点,因此,我们将 θ 替换为 b

y=a(w1x1+w2x2+w3x3+b)(4)

经过这样处理,式子变漂亮了,也不容易发生计算错误。这个 b 称为偏置(bias)。

深度学习的数学(3):神经网络的思想 1-3

本书将式 (4) 作为标准使用。另外,此时的加权输入 z(1-2 节)如下所示。

z=w1x1+w2x2+w3x3+b(5)

式 (4) 和式 (5) 是今后所讲的神经网络的出发点,非常重要。

另外,生物上的权重 w1w2w3 和阈值 θ=b)都不是负数,因为负数在自然现象中实际上是不会出现的。然而,在将神经元一般化的神经单元中,是允许出现负数的。

问题 右图是一个神经单元。如图所示,输入 x1 的对应权重是 2,输入 x2 的对应权重是 3,偏置是 -1。根据下表给出的输入,求出加权输入 z 和输出 y。注意这里的激活函数是 Sigmoid 函数。
深度学习的数学(3):神经网络的思想 1-3

输入 \boldsymbol{x_1} 输入 \boldsymbol{x_2} 加权输入 \boldsymbol{z} 输出 \boldsymbol{y}
0.2 0.1
0.6 0.5

结果如下表所示(式 (3) 中的 e 取 e = 2.7 进行计算)

输入 \boldsymbol{x_1} 输入 \boldsymbol{x_2} 加权输入 \boldsymbol{z} 输出 \boldsymbol{y}
0.2 0.1 2×0.2 + 3×0.1 - 1 = -0.3 0.43
0.6 0.5 2×0.6 + 3×0.5 - 1 = 1.7 0.84

备注 改写式 (5)
我们将式 (5) 像下面这样整理一下。
z=w1xx+w2x2+w3x3+b×1(6)
这里增加了一个虚拟的输入,可以理解为以常数 1 作为输入值(右图)。
深度学习的数学(3):神经网络的思想 1-3
于是,加权输入 z 可以看作下面两个向量的内积。
(w1,w2,w3,b)(x1,x2,x3,1)
计算机擅长内积的计算,因此按照这种解释,计算就变容易了。

深度学习的数学(3):神经网络的思想 1-3

图灵地址 http://www.ituring.com.cn/book/2593

评论

发布