最优化方法的一道题,求大神解答

  深度神经网络“容易收敛到局部最优”,很可能是一种想象,实际情况是,我们可能从来没有找到过“局部最优”,更别说全局最优了。

  很多人都有一种看法,就是“局部最优是神经网络优化的主要难点”。这来源于一维优化问题的直观想象。在单变量的情形下,优化问题最直观的困难就是有很多局部极值,如

  人们直观的想象,高维的时候这样的局部极值会更多,指数级的增加,于是优化到全局最优就更难了。然而单变量到多变量一个重要差异是,单变量的时候,Hessian矩阵只有一个特征值,于是无论这个特征值的符号正负,一个临界点都是局部极值。但是在多变量的时候,Hessian有多个不同的特征值,这时候各个特征值就可能会有更复杂的分布,如有正有负的不定型和有多个退化特征值(零特征值)的半定型

  在后两种情况下,是很难找到局部极值的,更别说全局最优了。

  现在看来,神经网络的训练的困难主要是鞍点的问题。在实际中,我们很可能也从来没有真的遇到过局部极值。Bengio组这篇文章Eigenvalues of the Hessian in Deep

没啥特点-不过是第一个CNN应该要知道

引入了ReLU和dropout,引入数据增强、池化相互之间有覆盖,三个卷积一个最大池化+三个全连接层

这个在控制了计算量和参数量的同时,获得了比较好的分类性能,和上面相比有几个大的改进:1、去除了最后的全连接层,而是用一个全局的平均池化来取代它;2、引入Inception Module,这是一个4个分支结合的结构。所有的分支都用到了1*1的卷积,这是因为1*1性价比很高,可以用很少的参数达到非线性和特征变换。3、Inception V2第二版将所有的5*5变成2个3*3,而且提出来著名的Batch Normalization;4、Inception V3第三版就更变态了,把较大的二维卷积拆成了两个较小的一维卷积,加速运算、减少过拟合,同时还更改了Inception Module的结构。

1、引入高速公路结构,可以让神经网络变得非常深2、ResNet第二个版本将ReLU激活函数变成y=x的线性函数

  DeepFace 先进行了两次全卷积+一次池化,提取了低层次的边缘/纹理等特征。后接了3个Local-Conv层,这里是用Local-Conv的原因是,人脸在不同的区域存在不同的特征(眼睛/鼻子/嘴的分布位置相对固定),当不存在全局的局部特征分布时,Local-Conv更适合特征的提取。



  共线性:多变量线性回归中,变量之间由于存在高度相关关系而使回归估计不准确。

  共线性会造成冗余,导致过拟合。

  解决方法:排除变量的相关性/加入权重正则。

244.使用k=1的knn算法, 下图二类分类问题, “+” 和 “o” 分别代表两个类, 那么, 用仅拿出一个测试样本的交叉验证方法, 交叉验证的错误率是多少 : 

  knn算法就是, 在样本周围看k个样本, 其中大多数样本的分类是A类, 我们就把这个样本分成A类. 显然, k=1 的knn在上图不是一个好选择, 分类的错误率始终是100%

245.我们想在大数据集上训练决策树, 为了使用较少时间, 我们可以 : 

  D. 减少树的数量

  A.增加树的深度, 会导致所有节点不断分裂, 直到叶子节点是纯的为止. 所以, 增加深度, 会延长训练时间.

  B.决策树没有学习率参数可以调. (不像集成学习和其它有步长的学习方法)

  D.决策树只有一棵树, 不是随机森林.

246.对于神经网络的说法, 下面正确的是 : 

  1. 增加神经网络层数, 可能会增加测试数据集的分类错误率
  2. 减少神经网络层数, 总是能减小测试数据集的分类错误率
  3. 增加神经网络层数, 总是能减小训练数据集的分类错误率

  深度神经网络的成功, 已经证明, 增加神经网络层数, 可以增加模型范化能力, 即, 训练数据集和测试数据集都表现得更好. 但更多的层数, 也不一定能保证有更好的表现(https://arxiv.org/pdf/v1.pdf). 所以, 不能绝对地说层数多的好坏, 只能选A

247.假如我们使用非线性可分的SVM目标函数作为最优化对象, 我们怎么保证模型线性可分?

  C. 设C=无穷大

  C无穷大保证了所有的线性不可分都是可以忍受的.

248.训练完SVM模型后, 不是支持向量的那些样本我们可以丢掉, 也可以继续分类:

  SVM模型中, 真正影响决策边界的是支持向量

249.以下哪些算法, 可以用神经网络去构造: 

  3. 对数几率回归

  1. KNN算法不需要训练参数, 而所有神经网络都需要训练参数, 因此神经网络帮不上忙
  2. 最简单的神经网络, 感知器, 其实就是线性回归的训练
  3. 我们可以用一层的神经网络构造对数几率回归

250.请选择下面可以应用隐马尔科夫(HMM)模型的选项: 

  A. 基因序列数据集

  B. 电影浏览数据集

  C. 股票市场数据集

  只要是和时间序列问题有关的 , 都可以试试HMM

}

最优化计算方法课后习题答案高等教育出版社施光燕

[版权声明] 本站所有资料由用户提供并上传,若内容存在侵权,请联系邮箱。资料中的图片、字体、音乐等需版权方额外授权,请谨慎使用。网站中党政主题相关内容(国旗、国徽、党徽)仅限个人学习分享使用,禁止广告使用和商用。

}

内容简介:陈宝林-最优化(第二版书+习题解答).rar 最优化理论与算法 习题解答.pdf 《最优化理论与算法》-陈宝林.pdf

}

我要回帖

更多关于 实用最优化方法第三版课后题答案 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信