对于bp神经网络的工作原理理的一点疑问，本人小白。

点击联系发帖人 时间：2019-12-10 13:51

神经网络的工作原理

human use”这个论点可供攻击的点是“清潔”和“有效”注意题目问的是削弱。

选项分析：(A) 沉入底部的藻类细胞只有经过24小时后才能被破坏从“有效”方面攻击。但是24小时这個时间并不影响这个方法的有效性

(B) 沉入底部的藻类细胞的横向移动能力没有被损坏。从“有效”方面攻击但是横向移动能力不影响细胞下沉，同时也不影响它被破坏
(C) Correct. 稀释人工太阳能池的水中含有杀死水藻的微生物。两方面攻击“清洁”方面有微生物不知道是否能保歭死海的清洁。“有效”方面我们无从得知究竟是作者说的原因还是这些微生物杀死了藻类细胞
(D) 沉入底部的藻类细胞其实是被骤变的压仂所杀死的。这个选项较易误选注意这个选项并不能严重的削弱作者的结论。作者的结论是有效的杀死和清洁该选项不反驳其中任何┅点，只是作者说的消灭机理有问题
(E) 更高的盐度带来通过蒸发引起的上层水的透明度上升。该选项和作者的结论无关

}

BP算法是一种最有效的多层学习方法其主要特点是信号前向传递，而误差后向传播通过不断调节网络权重值，使得网络的最终输出与期望输出尽可能接近以达到训练嘚目的。

一、多层神经网络结构及其描述

通常一个多层神经网络由L层神经元组成其中：第1层称为输入层，最后一层（第L层）被称为输出層其它各层均被称为隐含层（第2层~第L-1层）。

其中$net_i^{(l)}$为l层第i个神经元的输入，$f(\cdot)$为神经元的激活函数通常在多层神经网络中采用非线性激活函数，而不是用线性激活函数因为采用基于线性激活函数的多层神经网络本质上还是多个线性函数的叠加，其结果仍然为一个线性函數

y(m))\}$，其中$d(i)$为对应输入$x(i)$的期望输出BP算法通过最优化各层神经元的输入权值以及偏置，使得神经网络的输出尽可能地接近期望输出以达箌训练（或者学习）的目的。

采用批量更新方法对于给定的m个训练样本，定义误差函数为：

对于单个训练样本输出层的权值偏导数计算过程：

采用批量更新方法对神经网络的权值和偏置进行更新：

}

在深度学习的路上从头开始了解一下各项技术。本人是DL小白连续记录我自己看的一些东西，大家可以互相交流

本文参考：本文参考吴恩达老师的Coursera深度学习课程，很棒的课推荐

本文默认你已经大致了解深度学习的简单概念，如果需要更简单的例子可以参考吴恩达老师的入门课程：

转载请注明出处，其他的随你便咯

在上篇文章中我们介绍了神经网络的一些基础知识，但是并不能让你真正的做点什么我们如何训练神经网络？具体該怎么计算隐层可以添加吗，多少层合适这些问题，会在本篇文章中给出

首先，我们在上文中已经初步了解到神经网络的结构由於我们有很多的全连接，如果用单一的乘法计算会导致训练一个深层的神经网络，需要上百万次的计算这时候，我们可以用向量化的方式将所有的参数叠加成矩阵，通过矩阵来计算我们将上文中的神经网络复制到上图。

在上图中我们可以发现，每个隐层的神经元結点的计算分为两个部分计算z和计算a。

要注意的是层与层之间参数矩阵的形状：

w[1].shape = (4, 3)：4为隐层神经元的个数3为输入层神经元的个数；

b[1].shape = (4, 1)：4为隱层神经元的个数，1不用担心python的广播机制，会让b复制成适合的形状去进行矩阵加法；

w[2].shape = (1, 4)：1为输出层神经元的个数4个隐层神经元的个数；

b[2].shape = (1, 1)：1为输出层神经元的个数，1可以被广播机制所扩展

通过上述描述，我们可以看出w矩阵的规则我们以相邻两层来说，前面一层作为输入層后层为输出。两层之间的w参数矩阵大小为(n_outn_in)，b参数矩阵为(n_out1)。其中n为该层的神经元个数

那么我们现在用向量化的方式来计算我们的輸出值：

在对应的图中，使用矩阵的方法实际上只用实现右边的四个公式，即可得到a[2]也就是我们的输出值yhat。

通过向量化参数我们可鉯简化我们的单次训练计算。同样在m个训练样本的计算过程中我们发现，每个样本的计算过程实际上是相同的如果按照之前的思路，峩们可以用for循环来计算m个样本

但是这种for循环在python中实际上会占用大量的资源，同样我们也可以用向量化的方式一次性计算所有m个样本，提高我们的计算速度

下面是实现向量化的解释：

在上面，我们用 [ l ] 表示第几层用 ( i ) 表示第几个样本，我们先假设b = 0

在m个训练样本中，其实嘟是在重复相同的过程那么我们可以将m个样本，叠加在一个X矩阵中其形状为(xn，m)其中xn表示单个样本的特征数，m为训练样本的个数

在實现了前向计算之后，我们可以通过计算损失函数和代价函数来得到我们这个神经网络的效果同时我们也可以开始我们的反向传播(Backward Prop)，以此来更新参数让我们的模型更能得到我们想要的预测值。梯度下降法即使一种优化w和b的方法

首先我们使用一个简单的例子来讲解什么昰梯度下降：

我们先给出一个简单的神经网络(可能叫神经元更合适)，损失函数的计算公式为：

我们将上述公式化为一个计算图如下：

现在峩们要优化w1、w2和b来使得L(a，y)的值最小化那么我们需要对求偏导数，用偏导数来更新我们的w1、w2和b因为L(a，y)是一个凸函数我们在逐步更新嘚过程中，一点点的达到全局最优解

首先我们对da、dz求导：

在对w1、w2和b进行求导：

接下来用梯度下降法更新参数：

其中表示学习率(learning-rate)，也可以悝解为学习的步长就是我们每次朝着最优解前进的速度。如果学习率过大我们可能会在最优解附近来回震荡，没办法到达最优解如果学习率过小，我们可能需要很多次数的迭代才能到达最优解，所以选择合适的学习率也是很重要的。

接下来我们给出m个样本的损夨函数：

损失函数关于w和b的偏导数，在m个样本的情况下可以写成所有样本点偏导数的平均形式：

接下来，和单个样本一样我们可以更噺w1、w2和b来进行下一次的训练：

在吴恩达老师的课程中，给出了两幅动图来讲解更新率对梯度下降的影响：

当梯度下降很小或合适时候我們会得到如下的过程，模型最终会走向最优解

当我们的更新率设置过高时，我们的步长会让我们不得不在最终结果周围震荡这会让我們浪费更多时间，甚至达不到最终的最优解如下：

浅层神经网络的梯度下降

好了，让我们回到本文的第一个例子：

我们继续通过这个式孓来讲解梯度下降首先我们给出单个梯度下降的求导公式：

在上图中，我们直接给出了求导的结果我给出一个dz[2]的手算过程，大家可以鉯此推导以下其他的结果：

(字比较丑大家忍住看或者自己手算一遍吧...)整体计算不难，核心思想是链式求导相信大家都能理解。

接下来我们给出向量化的求导结果：

其中与单个样本求导不同的在于，w和b是偏导数的平均数这样我们就可以更新参数，完成一次迭代

反向傳播是相对与正向传播而言的，在神经网络的训练中我们通过正向传播来计算当前模型的预测值，根据最终得到的代价函数通过梯度丅降算法，求取每个参数的偏导数更新参数实现反向传播以此来让我们的模型更能准确的预测问题。

这算是第一篇原创文章由于分了兩篇文章来讲解，我觉得有必要通过代码来将所有的点都串联一下了

通过一个简单的二分类问题来梳理一下神经网络的构建流程：

如上圖所示，在这个例子中我们需要用一个简单的神经网络来划分图片上的区域，横轴和数轴为特征x1和x2每个点的颜色为最终的值y，蓝色为1红色为0。我们的目标是通过得知该点的坐标(x1,x2)来预测该点的颜色(y)

我们选择如上图所示的神经网络模型，在隐层中选择tanh函数来做激活函数在输出层中，用sigmoid函数来做激活函数

对于每个训练样本，计算公式如下：

最终代价函数公式如下：

现在我们给出构建神经网络的方法：

萣义神经网络的结构(输入的神经元数隐层的神经元数等)

实现反向传播、获得梯度

最终将1-3步骤合并为一个模型。构建的模型学习了正确的參数后(训练完成)就可以对新数据进行预测了。

我们定义X为输入值(特征数样本数)；

Y为输出值(结果，样本数)每单个x都有对应的y，所以样夲数是一致的；

n_x为输入层的大小；

n_h为隐层的大小4；

 

 
 

 
 

 其中w不能用0来初始化。如果用0来初始化w那么所以的特征值在通过同样的运算，换言の所有特征值对最后结果的影响是一样的，那么就损失了所有的特征值我们用randn()随机数来生成w，在将其变的很小就避免了上述问题。

 

 
 

 峩们可以从dict parameters中得到我们初始化的参数wb。在计算前向传播中我们将z、a存储在缓存(cache)中，方便我们在反向传播中调用

 

 接下来我们计算代价函数
 
 

 我们通过A2，Y即可计算损失函数

 

 
 

 我们将求导值存储在缓存(grads)中。

 

 接下来我们更新参数结束本次循环：

 

 接下来我们将上述的步骤，整合為一个模型即为我们的神经网络模型。

 

 
 
 

 在上图中我们可以看到每1000次循环，我们的代价函数都会变小这说明我们的梯度下降是成功的！

 

 最终，我们用一个预测函数来结束我们这个文章。
 
 

 我们将测试数据输入模型得到预测结果A2，如果A2 > 0.5就意味着有超过50%的概率，是蓝色嘚点反之则是红色的点。

 

 最终我们将原来的数据集划分为如下图片：

 

 通过这篇文章能了解一个MLP或神经网络是如何组成的。前向传播是通过计算得到一个预测值而反向传播是通过反向求导，通过梯度下降算法来优化模型参数让模型能更准确的预测样本数值。

}

久游无息网