Google X主管：很多公司开始不知道怀孕拍了X什么是真正需

点击联系发帖人 时间：2018-09-29 04:34

开始不知道怀孕拍了X

( 9分）国家强盛和民族发展需要独立、改革、创新。独立后的美国经历多次改革，成为当今世界上惟一的超级大国，在国际事务中占有十分重要的地位。阅读下列材料，回答问题。
材料一列宁曾说：“现代的文明的美国的历史，是由一次伟大的、真正解放的、真正革命的战争开始的。”
材料二美国在19世纪60年代成为了单一的、联合的、强大的国家，这奠定了美国在20世纪成为世界第一强国的基础。如果美国在当时分裂成了两个或者更多的国家，或者北方没有赢得胜利，这是根本不可能实现的。所以，这场战争对美产生了深远的影响。
材料三英国资产阶级经济学家凯恩斯在1933年末给罗斯福的信中曾说：“如果你在现行制度范国内试验成功，各国将进行新的更雄心勃勃的实践，而我们也可以把你任总统之日起，作为一个新的开端。”
材料四从 20 世纪 90 年代开始，在经济全球化形势下一种以知识经济为基础，以信息技术为主导的新的经济增长模式推动了美国经济实现了长达十年的连续增长。因此，人们认为美国经济进入一个全新的时代。
(l）依据材料一并结合所学知识回答，“真正革命的战争”指的是什么？它为美国资本主义发展扫除了什么障碍？
(2）依据材料二并结合所学知识回答，美国面临的“分裂”危险是通过什么战争解决的？废除了什么制度？
( 3）材料三中的“试验”是指美国历史上的什么改革？此次改革有何显著特征？
(4）材料四中“全新的时代”指的是什么？这种经济的主要特征是什么？

本题难度：较难题型：解答题 | 来源：2014-初中毕业升学考试（江苏淮安卷）历史

习题“( 9分）国家强盛和民族发展需要独立、改革、创新。独立后的美国经历多次改革，成为当今世界上惟一的超级大国，在国际事务中占有十分重要的地位。阅读下列材料，回答问题。材料一列宁曾说：“现代的文明的美国的历史，是由一次伟大的、真正解放的、真正革命的战争开始的。”材料二美国在19世纪60年代成为了单一的、联合的、强大的国家，这奠定了美国在20世纪成为世界第一强国的基础。如果美国在当时分裂成了两个或者更多的国家，或者北方没有赢得胜利，这是根本不可能实现的。所以，这场战争对美产生了深远的影响。材料三英国资产阶级经济学家凯恩斯在1933年末给罗斯福的信中曾说：“如果你在现行制度范国内试验成功，各国将进行新的更雄心勃勃的实践，而我们也可以把你任总统之日起，作为一个新的开端。”材料四从 20 世纪 90 年代开始，在经济全球化形势下一种以知识经济为基础，以信息技术为主导的新的经济增长模式推动了美国经济实现了长达十年的连续增长。因此，人们认为美国经济进入一个全新的时代。请回答：(l）依据材料一并结合所学知识回答，“真正革命的战争”指的是什么？它为美国资本主义发展扫除了什么障碍？(2）依据材料二并结合所学知识回答，美国面临的“分裂”危险是通过什么战争解决的？废除了什么制度？( 3）材料三中的“试验”是指美国历史上的什么改革？此次改革有何显著特征？(4）材料四中“全新的时代”指的是什么？这种经济的主要特征是什么？...”的分析与解答如下所示：

（1）结合所学可知，在美国独立战争中，颁布了《独立宣言》，宣告了美国的诞生，故“真正革命的战争”指的是美国独立战争；结合所学分析，美国独立战争爆发的根本原因就是英国殖民统治严重阻碍北美资本主义经济的发展，故美国独立战争的胜利结束了英国的殖民统治，有利于美国资本主义经济的发展。
（2）分析材料，19世纪60年代，即1861年美国爆发了南北战争，为了维护国家的统一，林肯颁布了《解放黑人奴隶宣言》和《宅地法》，获得了人民的支持，取得了南北战争的胜利。所以在这场战争中，美国废除了阻碍其资本主义经济发展的黑人奴隶制。
（3）材料三的背景是经济大危机，为了缓和经济危机给美国带来的灾难，罗斯福实行了新政，其显著特点就是加大国家对经济的干预和指导。其核心措施是《全国工业复兴法》，在其中，规定了企业的最低工资、生产规模等，实现了国家对经济的大规模干预，并取得了显著的效果。
（4）本题考查学生对材料的归纳整合能力，学生需要解读材料，再结合所学，以简练的语言总结出答案。结合所学，20世纪90年代，美国抓住第三次科技革命的机遇，经济进入了新经济时代，经济持续稳定发展，发展速度名列西方国家前列，主要特征是信息化和全球化。美国经济经历了繁荣——危机——稳定发展的过程。

如发现试题中存在任何错误，请及时纠错告诉我们，谢谢你的支持！

( 9分）国家强盛和民族发展需要独立、改革、创新。独立后的美国经历多次改革，成为当今世界上惟一的超级大国，在国际事务中占有十分重要的地位。阅读下列材料，回答问题。材料一列宁曾说：“现代的文明的美国的历...

分析解答有文字标点错误

看完解答，记得给个难度评级哦！

经过分析，习题“( 9分）国家强盛和民族发展需要独立、改革、创新。独立后的美国经历多次改革，成为当今世界上惟一的超级大国，在国际事务中占有十分重要的地位。阅读下列材料，回答问题。材料一列宁曾说：“现代的文明的美国的历史，是由一次伟大的、真正解放的、真正革命的战争开始的。”材料二美国在19世纪60年代成为了单一的、联合的、强大的国家，这奠定了美国在20世纪成为世界第一强国的基础。如果美国在当时分裂成了两个或者更多的国家，或者北方没有赢得胜利，这是根本不可能实现的。所以，这场战争对美产生了深远的影响。材料三英国资产阶级经济学家凯恩斯在1933年末给罗斯福的信中曾说：“如果你在现行制度范国内试验成功，各国将进行新的更雄心勃勃的实践，而我们也可以把你任总统之日起，作为一个新的开端。”材料四从 20 世纪 90 年代开始，在经济全球化形势下一种以知识经济为基础，以信息技术为主导的新的经济增长模式推动了美国经济实现了长达十年的连续增长。因此，人们认为美国经济进入一个全新的时代。请回答：(l）依据材料一并结合所学知识回答，“真正革命的战争”指的是什么？它为美国资本主义发展扫除了什么障碍？(2）依据材料二并结合所学知识回答，美国面临的“分裂”危险是通过什么战争解决的？废除了什么制度？( 3）材料三中的“试验”是指美国历史上的什么改革？此次改革有何显著特征？(4）材料四中“全新的时代”指的是什么？这种经济的主要特征是什么？...”主要考察你对“英国资产阶级革命” 等考点的理解。

因为篇幅有限，只列出部分考点，详细请访问。

与“( 9分）国家强盛和民族发展需要独立、改革、创新。独立后的美国经历多次改革，成为当今世界上惟一的超级大国，在国际事务中占有十分重要的地位。阅读下列材料，回答问题。材料一列宁曾说：“现代的文明的美国的历史，是由一次伟大的、真正解放的、真正革命的战争开始的。”材料二美国在19世纪60年代成为了单一的、联合的、强大的国家，这奠定了美国在20世纪成为世界第一强国的基础。如果美国在当时分裂成了两个或者更多的国家，或者北方没有赢得胜利，这是根本不可能实现的。所以，这场战争对美产生了深远的影响。材料三英国资产阶级经济学家凯恩斯在1933年末给罗斯福的信中曾说：“如果你在现行制度范国内试验成功，各国将进行新的更雄心勃勃的实践，而我们也可以把你任总统之日起，作为一个新的开端。”材料四从 20 世纪 90 年代开始，在经济全球化形势下一种以知识经济为基础，以信息技术为主导的新的经济增长模式推动了美国经济实现了长达十年的连续增长。因此，人们认为美国经济进入一个全新的时代。请回答：(l）依据材料一并结合所学知识回答，“真正革命的战争”指的是什么？它为美国资本主义发展扫除了什么障碍？(2）依据材料二并结合所学知识回答，美国面临的“分裂”危险是通过什么战争解决的？废除了什么制度？( 3）材料三中的“试验”是指美国历史上的什么改革？此次改革有何显著特征？(4）材料四中“全新的时代”指的是什么？这种经济的主要特征是什么？...”相似的题目：

在历史长河中，历史事件之间往往存在着因果关系。下列因果关系对应错误的是

A. 英国资产阶级革命——三角贸易　　
B. 法国大革命——《人权宣言》
C. 美国独立战争——《独立宣言》　　
D. 工业革命——英国殖民印度

近几年，非洲引起国际社会的空前关注，关注的焦点是贫穷问题。在联合国确认的49个最不发达的国家中，非洲占34个。在全世界38个负债最重的国家中，非洲占32个，造成非洲贫穷的根源是

C. 亚历山大大帝东征

拿破仑是叱咤风云的争议性人物。他这样对待别人的评价：“伟大到荒谬只一步之差，让人去评说吧！”他最伟大体现在

B. 成立了法兰西第一帝国
C. 多次打败反法同盟
D. 开创了民主政治的先河

“( 9分）国家强盛和民族发展需要独立、改...”的最新评论

欢迎来到乐乐题库，查看习题“( 9分）国家强盛和民族发展需要独立、改革、创新。独立后的美国经历多次改革，成为当今世界上惟一的超级大国，在国际事务中占有十分重要的地位。阅读下列材料，回答问题。材料一列宁曾说：“现代的文明的美国的历史，是由一次伟大的、真正解放的、真正革命的战争开始的。”材料二美国在19世纪60年代成为了单一的、联合的、强大的国家，这奠定了美国在20世纪成为世界第一强国的基础。如果美国在当时分裂成了两个或者更多的国家，或者北方没有赢得胜利，这是根本不可能实现的。所以，这场战争对美产生了深远的影响。材料三英国资产阶级经济学家凯恩斯在1933年末给罗斯福的信中曾说：“如果你在现行制度范国内试验成功，各国将进行新的更雄心勃勃的实践，而我们也可以把你任总统之日起，作为一个新的开端。”材料四从 20 世纪 90 年代开始，在经济全球化形势下一种以知识经济为基础，以信息技术为主导的新的经济增长模式推动了美国经济实现了长达十年的连续增长。因此，人们认为美国经济进入一个全新的时代。请回答：(l）依据材料一并结合所学知识回答，“真正革命的战争”指的是什么？它为美国资本主义发展扫除了什么障碍？(2）依据材料二并结合所学知识回答，美国面临的“分裂”危险是通过什么战争解决的？废除了什么制度？( 3）材料三中的“试验”是指美国历史上的什么改革？此次改革有何显著特征？(4）材料四中“全新的时代”指的是什么？这种经济的主要特征是什么？”的答案、考点梳理，并查找与习题“( 9分）国家强盛和民族发展需要独立、改革、创新。独立后的美国经历多次改革，成为当今世界上惟一的超级大国，在国际事务中占有十分重要的地位。阅读下列材料，回答问题。材料一列宁曾说：“现代的文明的美国的历史，是由一次伟大的、真正解放的、真正革命的战争开始的。”材料二美国在19世纪60年代成为了单一的、联合的、强大的国家，这奠定了美国在20世纪成为世界第一强国的基础。如果美国在当时分裂成了两个或者更多的国家，或者北方没有赢得胜利，这是根本不可能实现的。所以，这场战争对美产生了深远的影响。材料三英国资产阶级经济学家凯恩斯在1933年末给罗斯福的信中曾说：“如果你在现行制度范国内试验成功，各国将进行新的更雄心勃勃的实践，而我们也可以把你任总统之日起，作为一个新的开端。”材料四从 20 世纪 90 年代开始，在经济全球化形势下一种以知识经济为基础，以信息技术为主导的新的经济增长模式推动了美国经济实现了长达十年的连续增长。因此，人们认为美国经济进入一个全新的时代。请回答：(l）依据材料一并结合所学知识回答，“真正革命的战争”指的是什么？它为美国资本主义发展扫除了什么障碍？(2）依据材料二并结合所学知识回答，美国面临的“分裂”危险是通过什么战争解决的？废除了什么制度？( 3）材料三中的“试验”是指美国历史上的什么改革？此次改革有何显著特征？(4）材料四中“全新的时代”指的是什么？这种经济的主要特征是什么？”相似的习题。

}

1 请简要介绍下SVM，机器学习 ML模型易SVM，全称是support vector machine，中文名叫支持向量机。SVM是一个面向数据的分类算法，它的目标是为确定一个分类超平面，从而将不同的数据分隔开。
扩展：这里有篇文章详尽介绍了SVM的原理、推导，《
》。此外，这里有个视频也是关于SVM的推导：《》

2 请简要介绍下tensorflow的计算图，深度学习 DL框架中

@寒小阳&AntZ：Tensorflow是一个通过计算图的形式来表述计算的编程系统，计算图也叫数据流图，可以把计算图看做是一种有向图，Tensorflow中的每一个节点都是计算图上的一个Tensor, 也就是张量，而节点之间的边描述了计算之间的依赖关系(定义时)和数学操作(运算时)。如下两图表示：

a=x*y; b=a+z; c=/v_july_v/article/details/，在CNN中,卷积计算属于离散卷积, 本来需要卷积核的权重矩阵旋转180度, 但我们并不需要旋转前的权重矩阵形式, 故直接用旋转后权重矩阵作为卷积核表达,
 这样的好处就离散卷积运算变成了矩阵点积运算。
一般而言，深度卷积网络是一层又一层的。层的本质是特征图, 存贮输入数据或其中间表示值。一组卷积核则是联系前后两层的网络参数表达体, 训练的目标就是每个卷积核的权重参数组。
描述网络模型中某层的厚度，通常用名词通道channel数或者特征图feature map数。不过人们更习惯把作为数据输入的前层的厚度称之为通道数（比如RGB三色图层称为输入通道数为3），把作为卷积输出的后层的厚度称之为特征图数。
卷积核(filter)一般是3D多层的，除了面积参数, 比如3x3之外, 还有厚度参数H（2D的视为厚度1). 还有一个属性是卷积核的个数N。
卷积核的厚度H, 一般等于前层厚度M(输入通道数或feature map数). 特殊情况M > H。
卷积核的个数N, 一般等于后层厚度(后层feature maps数，因为相等所以也用N表示)。
卷积核通常从属于后层，为后层提供了各种查看前层特征的视角，这个视角是自动形成的。
卷积核厚度等于1时为2D卷积，也就是平面对应点分别相乘然后把结果加起来，相当于点积运算. 各种2D卷积动图可以看这里/thread-7042-1-/timcompp/article/details/
 


 

 8 说说你知道的核函数。机器学习 ML基础 易
 


 

 通常人们会从一些常用的核函数中选择（根据问题和数据的不同，选择不同的参数，实际上就是得到了不同的核函数），例如：
 


 

 9 LR与线性回归的区别与联系。机器学习 ML模型 中等
@AntZ: LR工业上一般指Logistic Regression(逻辑回归)而不是Linear Regression(线性回归). LR在线性回归的实数范围输出值上施加sigmoid函数将值收敛到0~1范围, 其目标函数也因此从差平方和函数变为对数损失函数, 以提供最优化所需导数（sigmoid函数是softmax函数的二元特例, 其导数均为函数值的f*(1-f)形式）。请注意,
 LR往往是解决二元0/1分类问题的, 只是它和线性回归耦合太紧, 不自觉也冠了个回归的名字(马甲无处不在). 若要求多元分类,就要把sigmoid换成大名鼎鼎的softmax了。
@nishizhen：个人感觉逻辑回归和线性回归首先都是广义的线性回归，
其次经典线性模型的优化目标函数是最小二乘，而逻辑回归则是似然函数，
另外线性回归在整个实数域范围内进行预测，敏感度一致，而分类范围，需要在[0,1]。逻辑回归就是一种减小预测范围，将预测值限定为[0,1]间的一种回归模型，因而对于这类问题来说，逻辑回归的鲁棒性比线性回归的要好。
@乖乖癞皮狗：逻辑回归的模型本质上是一个线性回归模型，逻辑回归都是以线性回归为理论支持的。但线性回归模型无法做到sigmoid的非线性形式，sigmoid可以轻松处理0/1分类问题。

有些模型在各维度进行了不均匀的伸缩后，最优解与原来不等价（如SVM）需要归一化。
有些模型伸缩有与原来等价，如：LR则不用归一化，但是实际中往往通过迭代求解模型参数，如果目标函数太扁（想象一下很扁的高斯模型）迭代算法会发生不收敛的情况，所以最坏进行数据归一化。

 

 补充：其实本质是由于loss函数不同造成的，SVM用了欧拉距离，如果一个特征很大就会把其他的维度dominated。而LR可以通过权重调整使得损失函数不变。
 
 

 27 请简要说说一个完整机器学习项目的流程。机器学习 ML应用 中
@寒小阳、龙心尘
1 抽象成数学问题
明确问题是进行机器学习的第一步。机器学习的训练过程通常都是一件非常耗时的事情，胡乱尝试时间成本是非常高的。
这里的抽象成数学问题，指的我们明确我们可以获得什么样的数据，目标是一个分类还是回归或者是聚类的问题，如果都不是的话，如果划归为其中的某类问题。
 
 

 
数据决定了机器学习结果的上限，而算法只是尽可能逼近这个上限。
数据要有代表性，否则必然会过拟合。
而且对于分类问题，数据偏斜不能过于严重，不同类别的数据数量不要有数个数量级的差距。
而且还要对数据的量级有一个评估，多少个样本，多少个特征，可以估算出其对内存的消耗程度，判断训练过程中内存是否能够放得下。如果放不下就得考虑改进算法或者使用一些降维的技巧了。如果数据量实在太大，那就要考虑分布式了。
 

 3 特征预处理与特征选择
 
良好的数据要能够提取出良好的特征才能真正发挥效力。
特征预处理、数据清洗是很关键的步骤，往往能够使得算法的效果和性能得到显著提高。归一化、离散化、因子化、缺失值处理、去除共线性等，数据挖掘过程中很多时间就花在它们上面。这些工作简单可复制，收益稳定可预期，是机器学习的基础必备步骤。
筛选出显著特征、摒弃非显著特征，需要机器学习工程师反复理解业务。这对很多结果有决定性的影响。特征选择好了，非常简单的算法也能得出良好、稳定的结果。这需要运用特征有效性分析的相关技术，如相关系数、卡方检验、平均互信息、条件熵、后验概率、逻辑回归权重等方法。
 

 
直到这一步才用到我们上面说的算法进行训练。现在很多算法都能够封装成黑盒供人使用。但是真正考验水平的是调整这些算法的（超）参数，使得结果变得更加优良。这需要我们对算法的原理有深入的理解。理解越深入，就越能发现问题的症结，提出良好的调优方案。
 

 
如何确定模型调优的方向与思路呢？这就需要对模型进行诊断的技术。
过拟合、欠拟合 判断是模型诊断中至关重要的一步。常见的方法如交叉验证，绘制学习曲线等。过拟合的基本调优思路是增加数据量，降低模型复杂度。欠拟合的基本调优思路是提高特征数量和质量，增加模型复杂度。
误差分析 也是机器学习至关重要的步骤。通过观察误差样本，全面分析误差产生误差的原因:是参数的问题还是算法选择的问题，是特征的问题还是数据本身的问题……
诊断后的模型需要进行调优，调优后的新模型需要重新进行诊断，这是一个反复迭代不断逼近的过程，需要不断地尝试， 进而达到最优状态。
 

 
一般来说，模型融合后都能使得效果有一定提升。而且效果很好。
工程上，主要提升算法准确度的方法是分别在模型的前端（特征清洗和预处理，不同的采样模式）与后端（模型融合）上下功夫。因为他们比较标准可复制，效果比较稳定。而直接调参的工作不会很多，毕竟大量数据训练起来太慢了，而且效果难以保证。
 

 
这一部分内容主要跟工程实现的相关性比较大。工程上是结果导向，模型在线上运行的效果直接决定模型的成败。 不单纯包括其准确程度、误差等情况，还包括其运行的速度(时间复杂度)、资源消耗程度（空间复杂度）、稳定性是否可接受。
这些工作流程主要是工程实践上总结出的一些经验。并不是每个项目都包含完整的一个流程。这里的部分只是一个指导性的说明，只有大家自己多实践，多积累项目经验，才会有自己更深刻的认识。
 

 故，基于此，七月在线每一期ML算法班都特此增加特征工程、模型调优等相关课。比如，这里有个公开课视频《》。
 
 

 28 逻辑斯特回归为什么要对特征进行离散化。机器学习 ML模型 中等
@严林，本题解析来源：/question/
 
 

 在工业界，很少直接将连续值作为逻辑回归模型的特征输入，而是将连续特征离散化为一系列0、1特征交给逻辑回归模型，这样做的优势有以下几点：
 
 

 /shymi1991/article/details/
/shymi1991/article/details/
关键字值不同的元素可能会映象到哈希表的同一地址上就会发生哈希冲突。解决办法：
1）开放定址法：当冲突发生时，使用某种探查(亦称探测)技术在散列表中形成一个探查(测)序列。沿此序列逐个单元地查找，直到找到给定 的关键字，或者碰到一个开放的地址(即该地址单元为空)为止（若要插入，在探查到开放的地址，则可将待插入的新结点存人该地址单元）。查找时探查到开放的 地址则表明表中无待查的关键字，即查找失败。
2） 再哈希法：同时构造多个不同的哈希函数。
3）链地址法：将所有哈希地址为i的元素构成一个称为同义词链的单链表，并将单链表的头指针存在哈希表的第i个单元中，因而查找、插入和删除主要在同义词链中进行。链地址法适用于经常进行插入和删除的情况。
4）建立公共溢出区：将哈希表分为基本表和溢出表两部分，凡是和基本表发生冲突的元素，一律填入溢出表。
 
 

 
 

 56 说说梯度下降法。机器学习 ML基础 中
 
 

 @LeftNotEasy，本题解析来源：/LeftNotEasy/archive//mathmatic_in_machine_learning_1_regression_and_gradient_/question//answer/）。
一般解释梯度下降，会用下山来举例。假设你现在在山顶处，必须抵达山脚下（也就是山谷最低处）的湖泊。但让人头疼的是，你的双眼被蒙上了无法辨别前进方向。换句话说，你不再能够一眼看出哪条路径是最快的下山路径，如下图（图片来源：/wemedia//u/article/details/）：更进一步，我们来定义输出误差，即对于任意一组权值向量，那它得到的输出和我们预想的输出之间的误差值。定义误差的方法很多，不同的误差计算方法可以得到不同的权值更新法则，这里我们先用这样的定义：
 
 

 
 
上面公式中D代表了所有的输入实例，或者说是样本，d代表了一个样本实例，od表示感知器的输出，td代表我们预想的输出。
这样，我们的目标就明确了，就是想找到一组权值让这个误差的值最小，显然我们用误差对权值求导将是一个很好的选择，导数的意义是提供了一个方向，沿着这个方向改变权值，将会让总的误差变大，更形象的叫它为梯度。
 

 
 
 

 既然梯度确定了E最陡峭的上升的方向，那么梯度下降的训练法则是：
 


 梯度上升和梯度下降其实是一个思想，上式中权值更新的+号改为-号也就是梯度上升了。梯度上升用来求函数的最大值，梯度下降求最小值。
 
 

 这样每次移动的方向确定了，但每次移动的距离却不知道。这个可以由步长（也称学习率）来确定，记为α。这样权值调整可表示为：
 
 

 
 
 

 总之，梯度下降法的优化思想是用当前位置负梯度方向作为搜索方向，因为该方向为当前位置的最快下降方向，所以也被称为是“最速下降法”。最速下降法越接近目标值，步长越小，前进越慢。梯度下降法的搜索迭代示意图如下图所示：
 
 

 
 
 

 正因为梯度度下降法在接近最优解的区域收敛速度明显变慢，所以利用梯度下降法求解需要很多次的迭代。在机器学习中，基于基本的梯度下降法发展了两种梯度下降方法，分别为随机梯度下降法和批量梯度下降法。by@wtq1993，/wtq1993/article/details/
 
 

 
 

 普通的梯度下降算法在更新回归系数时要遍历整个数据集，是一种批处理方法，这样训练数据特别忙庞大时，可能出现如下问题：
 
 

 1）收敛过程可能非常慢；
 
 

 2）如果误差曲面上有多个局极小值，那么不能保证这个过程会找到全局最小值。
 
 

 为了解决上面的问题，实际中我们应用的是梯度下降的一种变体被称为随机梯度下降。
 
 

 上面公式中的误差是针对于所有训练样本而得到的，而随机梯度下降的思想是根据每个单独的训练样本来更新权值，这样我们上面的梯度公式就变成了：
 
 

 
 
 

 经过推导后，我们就可以得到最终的权值更新的公式：
 
 

 
 
 

 有了上面权重的更新公式后，我们就可以通过输入大量的实例样本，来根据我们预期的结果不断地调整权值，从而最终得到一组权值使得我们的算法能够对一个新的样本输入得到正确的或无限接近的结果。

 

 
 
 

 
 

 
 

 i是样本编号下标，j是样本维数下标，m为样例数目，n为特征数目。所以更新一个θj需要遍历整个样本集

 

 
 

 
 

 i是样本编号下标，j是样本维数下标，m为样例数目，n为特征数目。所以更新一个θj只需要一个样本就可以。
 
 

 
 
 

 
 

 牛顿法是一种在实数域和复数域上近似求解方程的方法。方法使用函数f (x)的泰勒级数的前面几项来寻找方程f (x) = 0的根。牛顿法最大的特点就在于它的收敛速度很快。

 

 
 

 
 
 

 我们将新求得的点的 x 坐标命名为x1，通常x1会比x0更接近方程f  (x) = 0的解。因此我们现在可以利用x1开始下一轮迭代。迭代公式可化简为如下所示：
 
 

 
 
 

 已经证明，如果f  ' 是连续的，并且待求的零点x是孤立的，那么在零点x周围存在一个区域，只要初始值x0位于这个邻近区域内，那么牛顿法必定收敛。 并且，如果f  ' (x)不为0, 那么牛顿法将具有平方收敛的性能. 粗略的说，这意味着每迭代一次，牛顿法结果的有效数字将增加一倍。
 
 

 由于牛顿法是基于当前位置的切线来确定下一次的位置，所以牛顿法又被很形象地称为是"切线法"。牛顿法的搜索路径（二维情况）如下图所示：
 
 

 
 
 

 关于牛顿法和梯度下降法的效率对比：
 
 

 a）从收敛速度上看 ，牛顿法是二阶收敛，梯度下降是一阶收敛，前者牛顿法收敛速度更快。但牛顿法仍然是局部算法，只是在局部上看的更细致，梯度法仅考虑方向，牛顿法不但考虑了方向还兼顾了步子的大小，其对步长的估计使用的是二阶逼近。
 
 

 b）根据wiki上的解释，从几何上说，牛顿法就是用一个二次曲面去拟合你当前所处位置的局部曲面，而梯度下降法是用一个平面去拟合当前的局部曲面，通常情况下，二次曲面的拟合会比平面更好，所以牛顿法选择的下降路径会更符合真实的最优下降路径。
 
 

 
 
 

 注：红色的牛顿法的迭代路径，绿色的是梯度下降法的迭代路径。
 
 

 
 

 优点：二阶收敛，收敛速度快；
 
 

 缺点：牛顿法是一种迭代算法，每一步都需要求解目标函数的Hessian矩阵的逆矩阵，计算比较复杂。
 
 

 
 

 共轭梯度法是介于梯度下降法（最速下降法）与牛顿法之间的一个方法，它仅需利用一阶导数信息，但克服了梯度下降法收敛慢的缺点，又避免了牛顿法需要存储和计算Hessian矩阵并求逆的缺点，共轭梯度法不仅是解决大型线性方程组最有用的方法之一，也是解大型非线性最优化最有效的算法之一。在各种优化算法中，共轭梯度法是非常重要的一种。其优点是所需存储量小，具有逐步收敛性，稳定性高，而且不需要任何外来参数。
 
 

     下图为共轭梯度法和梯度下降法搜索最优解的路径对比示意图：
 
 

 
 
 

 注：绿色为梯度下降法，红色代表共轭梯度法
 
 

 62 对所有优化问题来说, 有没有可能找到比現在已知算法更好的算法？机器学习 ML基础 中
@抽象猴，来源：/question//answer/
没有免费的午餐定理：
对于训练样本（黑点），不同的算法A/B在不同的测试样本（白点）中有不同的表现，这表示：对于一个学习算法A，若它在某些问题上比学习算法 B更好，则必然存在一些问题，在那里B比A好。
也就是说：对于所有问题，无论学习算法A多聪明，学习算法 B多笨拙，它们的期望性能相同。
但是：没有免费午餐定力假设所有问题出现几率相同，实际应用中，不同的场景，会有不同的问题分布，所以，在优化算法时，针对具体问题进行分析，是算法优化的核心所在。
 
 

 63 什么最小二乘法？机器学习 ML基础 中
 
 

 我们口头中经常说：一般来说，平均来说。如平均来说，不吸烟的健康优于吸烟者，之所以要加“平均”二字，是因为凡事皆有例外，总存在某个特别的人他吸烟但由于经常锻炼所以他的健康状况可能会优于他身边不吸烟的朋友。而最小二乘法的一个最简单的例子便是算术平均。
 
 

     最小二乘法（又称最小平方法）是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据，并使得这些求得的数据与实际数据之间误差的平方和为最小。用函数表示为：

 

   使误差「所谓误差，当然是观察值与实际真实值的差量」平方和达到最小以寻求估计值的方法，就叫做最小二乘法，用最小二乘法得到的估计，叫做最小二乘估计。当然，取平方和作为目标函数只是众多可取的方法之一。
 
 

    最小二乘法的一般形式可表示为：

 

     有效的最小二乘法是勒让德在 1805 年发表的，基本思想就是认为测量中有误差，所以所有方程的累积误差为

 

     勒让德在论文中对最小二乘法的优良性做了几点说明：

最小二乘使得误差平方和最小，并在各个方程的误差之间建立了一种平衡，从而防止某一个极端误差取得支配地位
计算中只要求偏导后求解线性方程组，计算过程明确便捷
最小二乘可以导出算术平均值作为估计值

 

     对于最后一点，从统计学的角度来看是很重要的一个性质。推理如下：假设真值为 , 为n次测量值, 每次测量的误差为，按最小二乘法，误差累积为

 

 
 

     由于算术平均是一个历经考验的方法，而以上的推理说明，算术平均是最小二乘的一个特例，所以从另一个角度说明了最小二乘方法的优良性，使我们对最小二乘法更加有信心。
    最小二乘法的原理之一：当估计误差服从正态分布时，最小二乘法等同于极大似然估计。 如果 y = f(x) + e, 其中y 是目标值，f(x)为估计值，e为误差项。如果e服从正态分布，那么
 细节可以看：/question//answer/，而由于中心极限定理的原因，很多误差分布确实服从正态分布，这也是最小二乘法能够十分有效的一个原因。
 
 

     最小二乘法发表之后很快得到了大家的认可接受，并迅速的在数据分析实践中被广泛使用。不过历史上又有人把最小二乘法的发明归功于高斯，这又是怎么一回事呢。高斯在1809年也发表了最小二乘法，并且声称自己已经使用这个方法多年。高斯发明了小行星定位的数学方法，并在数据分析中使用最小二乘方法进行计算，准确的预测了谷神星的位置。
对了，最小二乘法跟SVM有什么联系呢？请参见《》。
 
 

 64 看你T恤上印着：人生苦短，我用Python，你可否说说Python到底是什么样的语言？你可以比较其他技术或者语言来回答你的问题。Python Python语言 易
@David 9，/85231/
 
 
 

 69 说说常见的损失函数？机器学习 ML基础 易
 
 

 对于给定的输入X，由f(X)给出相应的输出Y，这个输出的预测值f(X)与真实值Y可能一致也可能不一致（要知道，有时损失或误差是不可避免的），用一个损失函数来度量预测错误的程度。损失函数记为L(Y, f(X))。
 
 

     常用的损失函数有以下几种（基本引用自《统计学习方法》）：

 

 
 

     如此，SVM有第二种理解，即最优化+损失最小，或如@夏粉_百度所说“可从损失函数和优化算法角度看SVM，boosting，LR等算法，可能会有不同收获”。关于SVM的更多理解请参考：）
 
 

 
 

 Logistic回归目的是从特征学习出一个0/1分类模型，而这个模型是将特性的线性组合作为自变量，由于自变量的取值范围是负无穷到正无穷。因此，使用logistic函数（或称作sigmoid函数）将自变量映射到(0,1)上，映射后的值被认为是属于y=1的概率。

 

 
 

 
 

 
 

 
 

 
 

 
 

 
 

 　　生成对抗网络(2014年)
 
 

 　　生成图像描述(2014年)
 
 

 　　空间转化器网络(2015年)
 
 

 
 

 Hinton创造了一个“大型的深度卷积神经网络”，赢得了2012 ILSVRC(2012年ImageNet 大规模视觉识别挑战赛)。稍微介绍一下，这个比赛被誉为计算机视觉的年度奥林匹克竞赛，全世界的团队相聚一堂，看看是哪家的视觉模型表现最为出色。2012年是CNN首次实现Top 5误差率/p/
 
 

 在今年的神经网络顶级会议NIPS2016上，深度学习三大牛之一的Yann
 Lecun教授给出了一个关于机器学习中的有监督学习、无监督学习和增强学习的一个有趣的比喻，他说：如果把智能（Intelligence）比作一个蛋糕，那么无监督学习就是蛋糕本体，增强学习是蛋糕上的樱桃，那么监督学习，仅仅能算作蛋糕上的糖霜（图1）。
 
 

 
 
 

 
 

 以下第69题~第83题来自：/u
 
 

 75 深度学习是当前很热门的机器学习算法，在深度学习中，涉及到大量的矩阵相乘，现在需要计算三个稠密矩阵A,B,C的乘积ABC,假设三个矩阵的尺寸分别为m*n，n*p，p*q，且m<n<p<q，以下计算顺序效率最高的是（）？深度学习 DL基础 中 /question//answer/
 
 

 
 

 下面几种方式,随便选一个,结果基本都差不多。但是一定要做。否则可能会减慢收敛速度，影响收敛结果，甚至造成Nan等一系列问题。
 
 

 下面的n_in为网络的输入大小，n_out为网络的输出大小，n为n_in或(n_in+n_out)*/heyongluoyao8/article/details/
RNNs的目的使用来处理序列数据。在传统的神经网络模型中，是从输入层到隐含层再到输出层，层与层之间是全连接的，每层之间的节点是无连接的。但是这种普通的神经网络对于很多问题却无能无力。例如，你要预测句子的下一个单词是什么，一般需要用到前面的单词，因为一个句子中前后单词并不是独立的。RNNs之所以称为循环神经网路，即一个序列当前的输出与前面的输出也有关。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中，即隐藏层之间的节点不再无连接而是有连接的，并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。理论上，RNNs能够对任何长度的序列数据进行处理。但是在实践中，为了降低复杂性往往假设当前的状态只与前面的几个状态相关，下图便是一个典型的RNNs： 

 

 units)，我们将其输出集标记为，这些隐藏单元完成了最为主要的工作。你会发现，在图中：有一条单向流动的信息流是从输入单元到达隐藏单元的，与此同时另一条单向流动的信息流从隐藏单元到达输出单元。在某些情况下，RNNs会打破后者的限制，引导信息从输出单元返回隐藏单元，这些被称为“Back
 Projections”，并且隐藏层的输入还包括上一隐藏层的状态，即隐藏层内的节点可以自连也可以互连。 
??上图将循环神经网络进行展开成一个全神经网络。例如，对一个包含5个单词的语句，那么展开的网络便是一个五层的神经网络，每一层代表一个单词。对于该网络的计算过程如下：

表示第步(step)的输入。比如，为第二个词的one-hot向量(根据上图，为第一个词)；
为隐藏层的第步的状态，它是网络的记忆单元。根据当前输入层的输出与上一步隐藏层的状态进行计算。，其中一般是非线性的激活函数，如或，在计算时，即第一个单词的隐藏层状态，需要用到，但是其并不存在，在实现中一般置为0向量；
是第步的输出，如下个单词的向量表示，.


 

 93 RNN是怎么从单层网络一步一步构造的？深度学习 DL模型 难
@何之源，本题解析来源：/p/


 

 在学习RNN之前，首先要了解一下最基本的单层网络，它的结构如图：
 
 

 
 
 

 输入是x，经过变换Wx+b和激活函数f得到输出y。相信大家对这个已经非常熟悉了。


 

 在实际应用中，我们还会遇到很多序列形的数据：

自然语言处理问题。x1可以看做是第一个单词，x2可以看做是第二个单词，依次类推。
语音处理。此时，x1、x2、x3……是每帧的声音信号。
时间序列问题。例如每天的股票价格等等。

 

 序列形的数据就不太好用原始的神经网络处理了。为了建模序列问题，RNN引入了隐状态h（hidden state）的概念，h可以对序列形的数据提取特征，接着再转换为输出。先从h1的计算开始看：

圆圈或方块表示的是向量。
一个箭头就表示对该向量做一次变换。如上图中h0和x1分别有一个箭头连接，就表示对h0和x1各做了一次变换。

 

 在很多论文中也会出现类似的记号，初学的时候很容易搞乱，但只要把握住以上两点，就可以比较轻松地理解图示背后的含义。
 
 

 h2的计算和h1类似。要注意的是，在计算时，每一步使用的参数U、W、b都是一样的，也就是说每个步骤的参数都是共享的，这是RNN的重要特点，一定要牢记。
 
 

 
 
 

 依次计算剩下来的（使用相同的参数U、W、b）：
 
 

 
 
 

 我们这里为了方便起见，只画出序列长度为4的情况，实际上，这个计算过程可以无限地持续下去。
 
 

 我们目前的RNN还没有输出，得到输出值的方法就是直接通过h进行计算：
 
 

 正如之前所说，一个箭头就表示对对应的向量做一次类似于f(Wx+b)的变换，这里的这个箭头就表示对h1进行一次变换，得到输出y1。
 
 

 剩下的输出类似进行（使用和y1同样的参数V和c）：
 
 

 OK！大功告成！这就是最经典的RNN结构，我们像搭积木一样把它搭好了。它的输入是x1, x2, .....xn，输出为y1, y2, ...yn，也就是说，输入和输出序列必须要是等长的。
 
 

 由于这个限制的存在，经典RNN的适用范围比较小，但也有一些问题适合用经典的RNN结构建模，如：

计算视频中每一帧的分类标签。因为要对每一帧进行计算，因此输入和输出序列等长。
输入为字符，输出为下一个字符的概率。这就是著名的Char RNN（详细介绍请参考：，Char RNN可以用来生成文章、诗歌，甚至是代码。此篇博客里有自动生成歌词的实验教程《》）。

 

 有的时候，我们要处理的问题输入是一个序列，输出是一个单独的值而不是序列，应该怎样建模呢？实际上，我们只在最后一个h上进行输出变换就可以了：
 
 

 
 
 

 这种结构通常用来处理序列分类问题。如输入一段文字判别它所属的类别，输入一个句子判断其情感倾向，输入一段视频并判断它的类别等等。

 

 输入不是序列而输出为序列的情况怎么处理？我们可以只在序列开始进行输入计算：
 
 

 
 
 

 还有一种结构是把输入信息X作为每个阶段的输入：
 
 

 
 
 

 下图省略了一些X的圆圈，是一个等价表示：
 
 

 这种1 VS N的结构可以处理的问题有：

从图像生成文字（image caption），此时输入的X就是图像的特征，而输出的y序列就是一段句子
从类别生成语音或音乐等

 

 下面我们来介绍RNN最重要的一个变种：N vs M。这种结构又叫Encoder-Decoder模型，也可以称之为Seq2Seq模型。
 
 

 原始的N vs N RNN要求序列等长，然而我们遇到的大部分问题序列都是不等长的，如机器翻译中，源语言和目标语言的句子往往并没有相同的长度。
 
 

 为此，Encoder-Decoder结构先将输入数据编码成一个上下文向量c：
 
 

 
 
 

 得到c有多种方式，最简单的方法就是把Encoder的最后一个隐状态赋值给c，还可以对最后的隐状态做一个变换得到c，也可以对所有的隐状态做变换。
 
 

 拿到c之后，就用另一个RNN网络对其进行解码，这部分RNN网络被称为Decoder。具体做法就是将c当做之前的初始状态h0输入到Decoder中：
 
 

 
 
 

 还有一种做法是将c当做每一步的输入：
 
 

 
 
 

 由于这种Encoder-Decoder结构不限制输入和输出的序列长度，因此应用的范围非常广泛，比如：

机器翻译。Encoder-Decoder的最经典应用，事实上这一结构就是在机器翻译领域最先提出的
文本摘要。输入是一段文本序列，输出是这段文本序列的摘要序列。
阅读理解。将输入的文章和问题分别编码，再对其进行解码得到问题的答案。
语音识别。输入是语音信号序列，输出是文字序列。

 

 
 

 
 

 96 如何解决RNN梯度爆炸和弥散的问题？深度学习 DL模型 难
本题解析来源：
 
 

 为了解决梯度爆炸问题，Thomas Mikolov首先提出了一个简单的启发性的解决方案，就是当梯度大于一定阈值的的时候，将它截断为一个较小的数。具体如算法1所述：
 
 

 算法：当梯度爆炸时截断梯度（伪代码）

 

 下图可视化了梯度截断的效果。它展示了一个小的rnn（其中W为权值矩阵，b为bias项）的决策面。这个模型是一个一小段时间的rnn单元组成；实心箭头表明每步梯度下降的训练过程。当梯度下降过程中，模型的目标函数取得了较高的误差时，梯度将被送到远离决策面的位置。截断模型产生了一个虚线，它将误差梯度拉回到离原始梯度接近的位置。
 
 

 
 

 为了解决梯度弥散的问题，我们介绍了两种方法。第一种方法是将随机初始化改为一个有关联的矩阵初始化。第二种方法是使用ReLU（Rectified Linear Units）代替sigmoid函数。ReLU的导数不是0就是/p/9dc9f41f0b29/
 
 

 人类并不是每时每刻都从一片空白的大脑开始他们的思考。在你阅读这篇文章时候，你都是基于自己已经拥有的对先前所见词的理解来推断当前词的真实含义。我们不会将所有的东西都全部丢弃，然后用空白的大脑进行思考。我们的思想拥有持久性。
传统的神经网络并不能做到这点，看起来也像是一种巨大的弊端。例如，假设你希望对电影中的每个时间点的时间类型进行分类。传统的神经网络应该很难来处理这个问题——使用电影中先前的事件推断后续的事件。
RNN 解决了这个问题。RNN 是包含循环的网络，允许信息的持久化。
 
 

 
 
 

 
 

 在上面的示例图中，神经网络的模块，A，正在读取某个输入 x_i，并输出一个值 h_i。循环可以使得信息可以从当前步传递到下一步。
这些循环使得 RNN 看起来非常神秘。然而，如果你仔细想想，这样也不比一个正常的神经网络难于理解。RNN 可以被看做是同一神经网络的多次复制，每个神经网络模块会把消息传递给下一个。所以，如果我们将这个循环展开：
 
 

 
 
 

 
 

 
链式的特征揭示了 RNN 本质上是与序列和列表相关的。他们是对于这类数据的最自然的神经网络架构。
并且 RNN 也已经被人们应用了！在过去几年中，应用 RNN 在语音识别，语言建模，翻译，图片描述等问题上已经取得一定成功，并且这个列表还在增长。我建议大家参考 Andrej Karpathy 的博客文章—— 来看看更丰富有趣的 RNN 的成功应用。
而这些成功应用的关键之处就是 LSTM 的使用，这是一种特别的 RNN，比标准的 RNN 在很多的任务上都表现得更好。几乎所有的令人振奋的关于 RNN 的结果都是通过 LSTM 达到的。这篇博文也会就 LSTM 进行展开。
 
 

 RNN 的关键点之一就是他们可以用来连接先前的信息到当前的任务上，例如使用过去的视频段来推测对当前段的理解。如果 RNN 可以做到这个，他们就变得非常有用。但是真的可以么？答案是，还有很多依赖因素。
有时候，我们仅仅需要知道先前的信息来执行当前的任务。例如，我们有一个语言模型用来基于先前的词来预测下一个词。如果我们试着预测 “the clouds are in the sky” 最后的词，我们并不需要任何其他的上下文 —— 因此下一个词很显然就应该是 sky。在这样的场景中，相关的信息和预测的词位置之间的间隔是非常小的，RNN 可以学会使用先前的信息。
 
 

 
 
 

 不太长的相关信息和位置间隔
 
 

 
 

 当机器学习性能遭遇瓶颈时，你会如何优化的？机器学习 ML应用 难
可以从这4个方面进行尝试：、基于数据、借助算法、用算法调参、借助模型融合。当然能谈多细多深入就看你的经验心得了。这里有一份参考清单：。
 
 

 
 

 做过什么样的机器学习项目？比如如何从零构建一个推荐系统。机器学习 ML应用 难
这里有一个推荐系统的公开课《》，另，再推荐一个课程：。
 
 

 100 什麽样的资料集不适合用深度学习？深度学习 DL应用 难
@抽象猴，来源：/question/

数据集太小，数据样本不足时，深度学习相对其它机器学习算法，没有明显优势。
数据集没有局部相关特性，目前深度学习表现比较好的领域主要是图像／语音／自然语言处理等领域，这些领域的一个共性是局部相关性。图像中像素组成物体，语音信号中音位组合成单词，文本数据中单词组合成句子，这些特征元素的组合一旦被打乱，表示的含义同时也被改变。对于没有这样的局部相关性的数据集，不适于使用深度学习算法进行处理。举个例子：预测一个人的健康状况，相关的参数会有年龄、职业、收入、家庭状况等各种元素，将这些元素打乱，并不会影响相关的结果。

 

 广义线性模型是怎被应用在深度学习中？深度学习 DL模型 中
@许韩，来源：/question//answer/
A Statistical View of Deep Learning (I): Recursive GLMs
深度学习从统计学角度，可以看做递归的广义线性模型。
广义线性模型相对于经典的线性模型(y=wx+b)，核心在于引入了连接函数g(.)，形式变为：y=g?1(wx+b)。
深度学习时递归的广义线性模型，神经元的激活函数，即为广义线性模型的链接函数。逻辑回归（广义线性模型的一种）的Logistic函数即为神经元激活函数中的Sigmoid函数，很多类似的方法在统计学和神经网络中的名称不一样，容易引起初学者（这里主要指我）的困惑。下图是一个对照表

 

 101 准备机器学习面试应该了解哪些理论知识？机器学习 ML模型 中
@穆文，来源：/question/
 
 

  
看下来，这些问题的答案基本都在本BAT机器学习面试1000题系列里了。
 
 

 102 标准化与归一化的区别？机器学习 ML基础 易
@艾华丰，本题解析来源：/question/
归一化方法：
1、把数变为（0，1）之间的小数主要是为了数据处理方便提出来的，把数据映射到0～1范围之内处理，更加便捷快速。
2、把有量纲表达式变为无量纲表达式 归一化是一种简化计算的方式，即将有量纲的表达式，经过变换，化为无量纲的表达式，成为纯量。
标准化方法：              数据的标准化是将数据按比例缩放，使之落入一个小的特定区间。由于信用指标体系的各个指标度量单位是不同的，为了能够将指标参与评价计算，需要对指标进行规范化处理，通过函数变换将其数值映射到某个数值区间。
 
 

 随机森林如何处理缺失值？机器学习 ML模型 中
方法一（/video/play/18
 
 

 110 你知道有哪些数据处理和特征工程的处理？机器学习 ML应用 中
更多请查看此课程《》第7次课 特征工程。
 
 

 
 

 sigmoid函数又称logistic函数，应用在Logistic回归中。logistic回归的目的是从特征学习出一个0/1分类模型，而这个模型是将特性的线性组合作为自变量，由于自变量的取值范围是负无穷到正无穷。因此，使用logistic函数将自变量映射到(0,1)上，映射后的值被认为是属于y=1的概率。

 

     从而，当我们要判别一个新来的特征属于哪个类时，只需求即可，若大于/s/7DgiXCNBS5vb07WIKTFYRQ
所以，sigmoid函数将输出映射到0-1范围之间，可以被看做是概率，因而，sigmoid函数是Logstic回归模型的激活函数。
但sigmoid函数有如下几个缺点：
正向计算包含指数，反向传播的导数也包含指数计算和除法运算，因而计算复杂度很高。
输出的均值非0。这样使得网络容易发生梯度消失或梯度爆炸。这也是batch normalization要解决的问题。
假如sigmoid函数为f(x)，那么f'(x)=f(x)(1-f(x))，因为f(x)输出在0-1之间，那么f'(x)恒大于0。 这就导致全部的梯度的正负号都取决于损失函数上的梯度。这样容易导致训练不稳定，参数一荣俱荣一损俱损。
同样的，f'(x)=f(x)(1-f(x))，因为f(x)输出在0-1之间，那么f'(x)输出也在0-1之间，当层次比较深时，底层的导数就是很多在0-1之间的数相乘，从而导致了梯度消失问题。
对于tanh来说，同sigmoid类似，但是输出值在-1到1之间，均值为0，是其相对于sigmoid的提升。但是因为输出在-1，1之间，因而输出不能被看做是概率。
对于ReLU来说，相对于sigmoid和tanh来说，有如下优点：
计算量下，没有指数和除法运算。
不会饱和，因为在x>0的情况下，导数恒等于1
收敛速度快，在实践中可以得知，它的收敛速度是sigmoid的6倍。
Relu会使一部分神经元的输出为0，这样就造成了网络的稀疏性，并且减少了参数的相互依存关系，缓解了过拟合问题的发生
但是Relu也有缺点，缺点在于，
如果有一个特别大的导数经过神经单元使得输入变得小于0，这样会使得这个单元永远得不到参数更新，因为输入小于0时导数也是/woaidapaopao/article/details/
 
 

 
 

 114 为什么引入非线性激励函数？深度学习 DL基础 中
@张雨石：第一，对于神经网络来说，网络的每一层相当于f(wx+b)=f(w'x)，对于线性函数，其实相当于f(x)=x，那么在线性激活函数下，每一层相当于用一个矩阵去乘以x，那么多层就是反复的用矩阵去乘以输入。根据矩阵的乘法法则，多个矩阵相乘得到一个大矩阵。所以线性激励函数下，多层网络与一层网络相当。比如，两层的网络f(W1*f(W2x))=W1W2x=Wx。
第二，非线性变换是深度学习有效的原因之一。原因在于非线性相当于对空间进行变换，变换完成后相当于对问题空间进行简化，原来线性不可解的问题现在变得可以解了。
下图可以很形象的解释这个问题，左图用一根线是无法划分的。经过一系列变换后，就变成线性可解的问题了。
@Begin Again，来源：/question/
如果不用激励函数（其实相当于激励函数是f(x) = x），在这种情况下你每一层输出都是上层输入的线性函数，很容易验证，无论你神经网络有多少层，输出都是输入的线性组合，与没有隐藏层效果相当，这种情况就是最原始的感知机（Perceptron）了。
正因为上面的原因，我们决定引入非线性函数作为激励函数，这样深层神经网络就有意义了（不再是输入的线性组合，可以逼近任意函数）。最早的想法是sigmoid函数或者tanh函数，输出有界，很容易充当下一层输入（以及一些人的生物解释）。

 

 第一，采用sigmoid等函数，算激活函数时（指数运算），计算量大，反向传播求误差梯度时，求导涉及除法和指数运算，计算量相对大，而采用Relu激活函数，整个过程的计算量节省很多。

 

 第二，对于深层网络，sigmoid函数反向传播时，很容易就会出现梯度消失的情况（在sigmoid接近饱和区时，变换太缓慢，导数趋于0，这种情况会造成信息丢失），这种现象称为饱和，从而无法完成深层网络的训练。而ReLU就不会有饱和倾向，不会有特别小的梯度出现。
第三，Relu会使一部分神经元的输出为0，这样就造成了网络的稀疏性，并且减少了参数的相互依存关系，缓解了过拟合问题的发生（以及一些人的生物解释balabala）。当然现在也有一些对relu的改进，比如prelu，random relu等，在不同的数据集上会有一些训练速度上或者准确率上的改进，具体的大家可以找相关的paper看。

神经网络的训练中，通过改变神经元的权重，使网络的输出值尽可能逼近标签以降低误差值，训练普遍使用BP算法，核心思想是，计算出输出与标签间的损失函数值，然后计算其相对于每个神经元的梯度，进行权值的迭代。
梯度消失会造成权值更新缓慢，模型训练难度增加。造成梯度消失的一个原因是，许多激活函数将输出值挤压在很小的区间内，在激活函数两端较大范围的定义域内梯度为0，造成学习停止。 @张雨石：简而言之，就是sigmoid函数f(x)的导数为f(x)*(1-f(x))，因为f(x)的输出在0-1之间，所以随着深度的增加，从顶端传过来的导数每次都乘以两个小于1的数，很快就变得特别特别小。

121 什么是梯度消失和梯度爆炸？深度学习 DL基础中 @寒小阳，反向传播中链式法则带来的连乘，如果有数很小趋于0，结果就会特别小（梯度消失）；如果数都比较大，可能结果会很大（梯度爆炸）。 @单车，下段来源：/p/ 层数比较多的神经网络模型在训练时也是会出现一些问题的，其中就包括梯度消失问题（gradient vanishing problem）和梯度爆炸问题（gradient exploding problem）。梯度消失问题和梯度爆炸问题一般随着网络层数的增加会变得越来越明显。

例如，对于下图所示的含有3个隐藏层的神经网络，梯度消失问题发生时，接近于输出层的hidden layer 3等的权值更新相对正常，但前面的hidden layer 1的权值更新会变得很慢，导致前面的层权值几乎不变，仍接近于初始化的权值，这就导致hidden layer 1相当于只是一个映射层，对所有的输入做了一个同一映射，这是此深层网络的学习就等价于只有后几层的浅层网络的学习了。

而这种问题为何会产生呢？以下图的反向传播为例（假设每一层只有一个神经元且对于每一层，其中为sigmoid函数）

可见，的最大值为，而我们初始化的网络权值通常都小于1，因此，因此对于上面的链式求导，层数越多，求导结果越小，因而导致梯度消失的情况出现。

这样，梯度爆炸问题的出现原因就显而易见了，即，也就是比较大的情况。但对于使用sigmoid激活函数来说，这种情况比较少。因为的大小也与有关（），除非该层的输入值在一直一个比较小的范围内。

其实梯度爆炸和梯度消失问题都是因为网络太深，网络权值更新不稳定造成的，本质上是因为梯度反向传播中的连乘效应。对于更普遍的梯度消失问题，可以考虑用ReLU激活函数取代sigmoid激活函数。另外，LSTM的结构设计也可以改善RNN中的梯度消失问题。

122 如何解决梯度消失和梯度膨胀？深度学习 DL基础中根据链式法则，如果每一层神经元对上一层的输出的偏导乘上权重结果都小于1的话，那么即使这个结果是/question/ 根据链式法则，如果每一层神经元对上一层的输出的偏导乘上权重结果都大于1的话，在经过足够多层传播之后，误差对输入层的偏导会趋于无穷大可以通过激活函数来解决，或用Batch Normalization解决这个问题。

首先，要理解反向传播的基本原理，那就是求导的链式法则。下面从损失函数开始用公式进行推导。反向传播是在求解损失函数L对参数w求导时候用到的方法，目的是通过链式法则对参数进行一层一层的求导。这里重点强调：要将参数进行随机初始化而不是全部置0，否则所有隐层的数值都会与输入相关，这称为对称失效。

首先前向传导计算出所有节点的激活值和输出值，
计算整体损失函数：
然后针对第L层的每个节点计算出残差（这里是因为UFLDL中说的是残差，本质就是整体损失函数对每一层激活值Z的导数），所以要对W求导只要再乘上激活函数对W的导数即可

PCA的理念是使得数据投影后的方差最大，找到这样一个投影向量，满足方差最大的条件即可。而经过了去除均值的操作之后，就可以用SVD分解来求解这样一个投影向量，选择特征值最大的方向。 PCA的本质是对于一个以矩阵为参数的分布进行似然估计，而SVD是矩阵近似的有效手段。

125 数据不平衡问题。机器学习 ML基础易

这主要是由于数据分布不平衡造成的。解决方法如下：

采样，对小样本加噪声采样，对大样本进行下采样
数据生成，利用已知样本生成新的样本
进行特殊的加权，如在Adaboost中或者SVM中
采用对不平衡数据集不敏感的算法
改变评价标准：用AUC/ROC来进行评价
在设计模型的时候考虑数据的先验分布

126 简述神经网络的发展历史。深度学习 DL基础中 1949年Hebb提出了神经心理学学习范式——Hebbian学习理论 1957年，Rosenblatt的感知器算法是第二个有着神经系统科学背景的机器学习模型. 3年之后，Widrow因发明Delta学习规则而载入ML史册，该规则马上就很好的应用到了感知器的训练中感知器的热度在1969被Minskey一盆冷水泼灭了。他提出了著名的XOR问题，论证了感知器在类似XOR问题的线性不可分数据的无力。尽管BP的思想在70年代就被Linnainmaa以“自动微分的翻转模式”被提出来，但直到1981年才被Werbos应用到多层感知器(MLP)中，NN新的大繁荣。 1991年的Hochreiter和2001年的Hochreiter的工作，都表明在使用BP算法时，NN单元饱和之后会发生梯度损失。又发生停滞。时间终于走到了当下，随着计算资源的增长和数据量的增长。一个新的NN领域——深度学习出现了。

127 深度学习常用方法。深度学习 DL基础中全连接DNN（相邻层相互连接、层内无连接）：解决全连接DNN的无法对时间序列上变化进行建模的问题—–>RNN—解决时间轴上的梯度消失问题——->LSTM @张雨石：现在在应用领域应用的做多的是DNN，CNN和RNN。 DNN是传统的全连接网络，可以用于广告点击率预估，推荐等。其使用embedding的方式将很多离散的特征编码到神经网络中，可以很大的提升结果。 CNN主要用于计算机视觉(Computer Vision)领域，CNN的出现主要解决了DNN在图像领域中参数过多的问题。同时，CNN特有的卷积、池化、batch normalization、Inception、ResNet、DeepNet等一系列的发展也使得在分类、物体检测、人脸识别、图像分割等众多领域有了长足的进步。同时，CNN不仅在图像上应用很多，在自然语言处理上也颇有进展，现在已经有基于CNN的语言模型能够达到比LSTM更好的效果。在最新的AlphaZero中，CNN中的ResNet也是两种基本算法之一。 GAN是一种应用在生成模型的训练方法，现在有很多在CV方面的应用，例如图像翻译，图像超清化、图像修复等等。 RNN主要用于自然语言处理(Natural Language Processing)领域，用于处理序列到序列的问题。普通RNN会遇到梯度爆炸和梯度消失的问题。所以现在在NLP领域，一般会使用LSTM模型。在最近的机器翻译领域，Attention作为一种新的手段，也被引入进来。

128 神经网络模型（Neural Network）因受人类大脑的启发而得名。深度学习 DL基础易

神经网络由许多神经元（Neuron）组成，每个神经元接受一个输入，对输入进行处理后给出一个输出，如下图所示。请问下列关于神经元的描述中，哪一项是正确的？

A 每个神经元可以有一个输入和一个输出
B 每个神经元可以有多个输入和一个输出
C 每个神经元可以有一个输入和多个输出
D 每个神经元可以有多个输入和多个输出

　　每个神经元可以有一个或多个输入，和一个或多个输出。

129 下图是一个神经元的数学表示。深度学习 DL基础易

　　这些组成部分分别表示为：

　　- x1, x2,…, xN：表示神经元的输入。可以是输入层的实际观测值，也可以是某一个隐藏层（Hidden Layer）的中间值

　　- w1, w2,…,wN：表示每一个输入的权重

　　- bi：表示偏差单元/偏移量（bias unit）。作为常数项加到激活函数的输入当中，类似截距（Intercept）

　　- a：作为神经元的激励函数（Activation），可以表示为

　　- y：神经元输出

　　考虑上述标注，线性等式（y = mx + c）可以被认为是属于神经元吗：

输入只有一个变量，激活函数为线性。所以可以被认为是线性回归函数。

130 在一个神经网络中，知道每一个神经元的权重和偏差是最重要的一步。如果知道了神经元准确的权重和偏差，便可以近似任何函数，但怎么获知每个神经的权重和偏移呢？深度学习 DL基础易 A 搜索每个可能的权重和偏差组合，直到得到最佳值 B 赋予一个初始值，然后检查跟最佳值的差值，不断迭代调整权重 C 随机赋值，听天由命选项B是对梯度下降的描述。

131 梯度下降算法的正确步骤是什么？深度学习 DL基础易

计算预测值和真实值之间的误差
重复迭代，直至得到网络权重的最佳值
把输入传入网络，得到输出值
用随机值初始化权重和偏差
对每一个产生误差的神经元，调整相应的（权重）值以减小误差

143 下图显示了训练过的3层卷积神经网络准确度，与参数数量(特征核的数量)的关系。深度学习 DL基础易

　　从图中趋势可见，如果增加神经网络的宽度，精确度会增加到一个特定阈值后，便开始降低。造成这一现象的可能原因是什么？

A 即使增加卷积核的数量，只有少部分的核会被用作预测
B 当卷积核数量增加时，神经网络的预测能力（Power）会降低
C 当卷积核数量增加时，导致过拟合

网络规模过大时，就可能学到数据中的噪声，导致过拟合

144 假设我们有一个如下图所示的隐藏层。隐藏层在这个网络中起到了一定的降纬作用。假如现在我们用另一种维度下降的方法，比如说主成分分析法(PCA)来替代这个隐藏层。深度学习 DL基础易

　　那么，这两者的输出效果是一样的吗？

sigmoid会饱和，造成梯度消失。于是有了ReLU。
强调梯度和权值分布的稳定性，由此有了ELU，以及较新的SELU。
太深了，梯度传不下去，于是有了highway。
干脆连highway的参数都不要，直接变残差，于是有了ResNet。
强行稳定参数的均值和方差，于是有了BatchNorm。
在梯度流中增加噪声，于是有了 Dropout。
RNN梯度不稳定，于是加几个通路和门控，于是有了LSTM。
LSTM简化一下，有了GRU。
GAN的JS散度有问题，会导致梯度消失或无效，于是有了WGAN。

204 神经网络中激活函数的真正意义？一个激活函数需要具有哪些必要的属性？还有哪些属性是好的属性但不必要的？深度学习 DL基础中说说我对一个好的激活函数的理解吧，有些地方可能不太严谨，欢迎讨论。（部分参考了Activation function。）

DeepFace 先进行了两次全卷积＋一次池化，提取了低层次的边缘／纹理等特征。后接了3个Local-Conv层，这里是用Local-Conv的原因是，人脸在不同的区域存在不同的特征（眼睛／鼻子／嘴的分布位置相对固定），当不存在全局的局部特征分布时，Local-Conv更适合特征的提取。

`210 什么是共线性, 跟过拟合有什么关联?`

`共线性：多变量线性回归中，变量之间由于存在高度相关关系而使回归估计不准确。`

`共线性会造成冗余，导致过拟合。`

`解决方法：排除变量的相关性／加入权重正则。`

277 类域界面方程法中，不能求线性不可分情况下分类问题近似或精确解的方法是？(D) A 伪逆法-径向基（ＲＢＦ）神经网络的训练算法，就是解决线性不可分的情况 B 基于二次准则的H-K算法：最小均方差准则下求得权矢量，二次准则解决非线性问题 D 感知器算法－线性分类算法

278 机器学习中做特征选择时，可能用到的方法有？（E）

279 下列方法中，不可以用于特征降维的方法包括（E） B 线性判别分析LDA D 矩阵奇异值分解SVD SVD和PCA类似，也可以看成一种降维方法 LDA:线性判别分析，可用于降维 AutoEncoder：AutoEncoder的结构与神经网络的隐含层相同，由输入L1,输出 L2组成，中间则是权重连接。Autoencoder通过L2得到输入的重构L3，最小化L3与L1的差别进行训练得到权重。在这样的权重参数下，得到的L2可以尽可能的保存L1的信息。结论：SparseAutoencoder大多数情况下都是升维的，所以称之为特征降维的方法不准确。

280 一般，k-NN最近邻方法在（ A）的情况下效果较好。 A．样本较多但典型性不好 C．样本较少但典型性好 B．样本呈团状分布 D．样本呈链状分布

下列哪些方法可以用来对高维数据进行降维: lasso通过参数缩减达到降维的目的；线性鉴别法即LDA通过找到一个空间使得类内距离最小类间距离最大所以可以看做是降维；小波分析有一些变换的操作降低其他干扰可以看做是降维 D 训练集变大会提高模型鲁棒性。

第一要明确的是神经网络所处理的单位全部都是：向量

下面就解释为什么你会看到训练数据会是矩阵和张量

python代码表示预测的话：

}

完善句子的作者、出处、完整全文或修改错误的作者、出处、内容，请

}

久游无息网