最优化方法的一道题，求大神解答

点击联系发帖人 时间：2022-05-23 01:20

实用最优化方法第三版课后题答案

　　深度神经网络“容易收敛到局部最优”，很可能是一种想象，实际情况是，我们可能从来没有找到过“局部最优”，更别说全局最优了。

　　很多人都有一种看法，就是“局部最优是神经网络优化的主要难点”。这来源于一维优化问题的直观想象。在单变量的情形下，优化问题最直观的困难就是有很多局部极值，如

　　人们直观的想象，高维的时候这样的局部极值会更多，指数级的增加，于是优化到全局最优就更难了。然而单变量到多变量一个重要差异是，单变量的时候，Hessian矩阵只有一个特征值，于是无论这个特征值的符号正负，一个临界点都是局部极值。但是在多变量的时候，Hessian有多个不同的特征值，这时候各个特征值就可能会有更复杂的分布，如有正有负的不定型和有多个退化特征值（零特征值）的半定型

　　在后两种情况下，是很难找到局部极值的，更别说全局最优了。

　　现在看来，神经网络的训练的困难主要是鞍点的问题。在实际中，我们很可能也从来没有真的遇到过局部极值。Bengio组这篇文章Eigenvalues of the Hessian in Deep

没啥特点-不过是第一个CNN应该要知道

引入了ReLU和dropout，引入数据增强、池化相互之间有覆盖，三个卷积一个最大池化+三个全连接层

这个在控制了计算量和参数量的同时，获得了比较好的分类性能，和上面相比有几个大的改进：1、去除了最后的全连接层，而是用一个全局的平均池化来取代它；2、引入Inception Module，这是一个4个分支结合的结构。所有的分支都用到了1*1的卷积，这是因为1*1性价比很高，可以用很少的参数达到非线性和特征变换。3、Inception V2第二版将所有的5*5变成2个3*3，而且提出来著名的Batch Normalization；4、Inception V3第三版就更变态了，把较大的二维卷积拆成了两个较小的一维卷积，加速运算、减少过拟合，同时还更改了Inception Module的结构。

1、引入高速公路结构，可以让神经网络变得非常深2、ResNet第二个版本将ReLU激活函数变成y=x的线性函数

　　DeepFace 先进行了两次全卷积＋一次池化，提取了低层次的边缘／纹理等特征。后接了3个Local-Conv层，这里是用Local-Conv的原因是，人脸在不同的区域存在不同的特征（眼睛／鼻子／嘴的分布位置相对固定），当不存在全局的局部特征分布时，Local-Conv更适合特征的提取。

　　共线性：多变量线性回归中，变量之间由于存在高度相关关系而使回归估计不准确。

　　共线性会造成冗余，导致过拟合。

　　解决方法：排除变量的相关性／加入权重正则。

244.使用k=1的knn算法, 下图二类分类问题, “+” 和 “o” 分别代表两个类, 那么, 用仅拿出一个测试样本的交叉验证方法, 交叉验证的错误率是多少 :

　　knn算法就是, 在样本周围看k个样本, 其中大多数样本的分类是A类, 我们就把这个样本分成A类. 显然, k=1 的knn在上图不是一个好选择, 分类的错误率始终是100%

245.我们想在大数据集上训练决策树, 为了使用较少时间, 我们可以 :

　　D. 减少树的数量

　　A.增加树的深度, 会导致所有节点不断分裂, 直到叶子节点是纯的为止. 所以, 增加深度, 会延长训练时间.

　　B.决策树没有学习率参数可以调. (不像集成学习和其它有步长的学习方法)

　　D.决策树只有一棵树, 不是随机森林.

246.对于神经网络的说法, 下面正确的是 :

　　1. 增加神经网络层数, 可能会增加测试数据集的分类错误率
　　2. 减少神经网络层数, 总是能减小测试数据集的分类错误率
　　3. 增加神经网络层数, 总是能减小训练数据集的分类错误率

　　深度神经网络的成功, 已经证明, 增加神经网络层数, 可以增加模型范化能力, 即, 训练数据集和测试数据集都表现得更好. 但更多的层数, 也不一定能保证有更好的表现（https://arxiv.org/pdf/v1.pdf）. 所以, 不能绝对地说层数多的好坏, 只能选A

247.假如我们使用非线性可分的SVM目标函数作为最优化对象, 我们怎么保证模型线性可分？

　　C. 设C=无穷大

　　C无穷大保证了所有的线性不可分都是可以忍受的.

248.训练完SVM模型后, 不是支持向量的那些样本我们可以丢掉, 也可以继续分类:

　　SVM模型中, 真正影响决策边界的是支持向量

249.以下哪些算法, 可以用神经网络去构造:

　　3. 对数几率回归

　　1. KNN算法不需要训练参数, 而所有神经网络都需要训练参数, 因此神经网络帮不上忙
　　2. 最简单的神经网络, 感知器, 其实就是线性回归的训练
　　3. 我们可以用一层的神经网络构造对数几率回归

250.请选择下面可以应用隐马尔科夫(HMM)模型的选项:

　　A. 基因序列数据集

　　B. 电影浏览数据集

　　C. 股票市场数据集

　　只要是和时间序列问题有关的 , 都可以试试HMM

}

最优化计算方法课后习题答案高等教育出版社施光燕

}

内容简介：陈宝林-最优化（第二版书+习题解答）.rar 最优化理论与算法习题解答.pdf 《最优化理论与算法》－陈宝林.pdf

}

久游无息网