异步随机梯度下降降法和梯度下降法的区别

点击联系发帖人 时间：2016-01-28 05:57

sgd 随机梯度下降

随机梯度下降法,Stochastic gradient-descent,音标,读音,翻译,英文例句,英语词典
说明：双击或选中下面任意单词，将显示该词的音标、读音、翻译等；选中中文或多个词，将显示翻译。
您的位置： ->
-> 随机梯度下降法
1)&&Stochastic gradient-descent
随机梯度下降法
2)&&stochastic gradient descent algorithm
随机梯度下降算法
3)&&stochastic parallel gradient descent algorithm
随机并行梯度下降算法
It is indicated that adaptive optics based on stochastic parallel gradient descent algorithm can be used to beam cleanup.
结果显示,净化后光束质量都得到了提高,甚至β因子大于9的光束在净化后其β因子也减小了58%,表明基于随机并行梯度下降算法的自适应光学方法确实可以用于光束净化。
4)&&stochastic parallel gradient descent(SPGD)algorithm
随机并行梯度下降(SPGD)算法
5)&&stochastic parallel gradient descent
随机并行梯度下降
Based on stochastic parallel gradient descent (SPGD) control algorithm,an adaptive optics test-bed without a wave-front sensor was built with a 32-element deformable mirror and a CCD.
基于随机并行梯度下降(SPGD)算法,32单元变形镜,CCD成像器件等建立了无波前传感自适应光学系统实验平台。
This paper researches the application of the stochastic parallel gradient descent(SPGD)optimization algorithm on the beam cleanup system.
就随机并行梯度下降(SPGD)最优化算法在光束净化系统中的应用展开研究。
6)&&stochastic gradient descending
随机梯度降
补充资料：随机数和伪随机数
随机数和伪随机数
random and pseudo-randan numbers
随机数和伪随机数【喇间佣1 al川牌”山一喇闭..m.山娜;cJI了，a如曰e”nce，口oc月卿成.以叹“c月a】
数亡。(特别，二进制数:。)，其顺序出现，满足某种统计正则性(见概率论(probability Uleory)).人们是这样区别随机数(mndomn切mbe比)和伪随机数(PSeudo一mn由mn切mbe岛)的，前者由随机的装置来生成，而后者是用算术算法构造的.总是假设(出于较好或较差的理由)所得(或所构造)的序列具有频率性质，这些性质对于具有分布函数F(z)的某随机变量心独立实现的一个序列来说是“典型的”;因此人们称作根据规律F(习分布的(独立的)随机数.最经常使用的例子为:在区间【O，l]上均匀分布的随机数亡。，尸(亡。<x)=斌等概率随机二进制数:。，p{“。=o}=p{:。=l}”l/2;均值为o，方差为1的一正态律分布的正态随机数叮。(见均匀分布(山ljlbnndiS州butio们);正态分布(加m司曲颐bution)).具有任意分布函数F(习的随机数否。可以由均匀分布的随机数序列古。通过亡。二F一’(C，)构造出来，即，它们能够从方程心，二F(古。)，。=1，2，二，求出.还有其他构造方法.例如，可由均匀分布随机数利用下面一对解析式简单求得正态分布随机数
C:。一、=护二瓜不万cosZ二心2。一，，
CZ，一了一Zh着2。sinZ二七2。一1.以二进制表示的均匀分布随机数的数字是等概率随机二进位数字;反过来，把等概率二进制随机数组成无穷序列则可得到均匀分布随机数.
随机数和伪随机数实际上应用于对策论(即m巴，t」1印ryof)，数理统计(】仙therr曰tiG习sta山心)，蒙特卡罗方法(Monte一Carlon祖thocl)和密码学等领域中，用于完成不确定算法的具体实现，只限“平均”意义下预测性态.例如，如果下一个，，=O，则局中人选择第一个策略，但若仪。“1，他(她)就选择第二个策略.
可以在严格的数学意义下说明A.H.K~叩。(tZI)和P.Martlll一幼f(仁51)的算法概率论框架中随机数的概念.令H=x二一、{x。:o簇x。簇玛是可数维单位立方体，又是H上的此比gue测度，又令GCH是最大的零测度构造性可测集(它是存在的)，那么任何一个序列{x。}砖G可视为典型的，且可取作均匀分布随机数序列.类似地，可以引人关于全体事件BC{仇1}“系统的、二进制符号“，(j=1，…，N)形成的一个N序列的构造的(。，l)典型性概念:不超过七的测度以及不超过l的描述长度.显然由定义，均匀分布随机数的一个典型序列其本身不会是构造的，甚至随机符号的一个(。，l)典型序列的构造都要求作极大量的探索.所以，人们在实际中使用较简单的算法，允许以少量试验检查其统计“质量”.这样一来，在构造均匀分布随机数时就必须对序列的均匀分布作必要的检验(见〔3】).在一些简单问题中，某些检查的完成实际上能够保证序列的可用性，有时使用由均匀分布随机数序列构造的相关随机数更为有效.
已经发表了随机数和随机数字的表，但是似乎并不能保证，它们会满足一切合理的非相关性统计试验.
说明：补充资料仅用于学习参考，请勿用于其它任何用途。梯度下降法求极值和直接求导求极值的区别在哪?求函数极值的时候有所谓的梯度下降法.那为什么不直接令梯度（即函数的导数）为零得到极值呢?梯度下降法不是也要反复求导迭代后取得收_百度作业帮
梯度下降法求极值和直接求导求极值的区别在哪?求函数极值的时候有所谓的梯度下降法.那为什么不直接令梯度（即函数的导数）为零得到极值呢?梯度下降法不是也要反复求导迭代后取得收
梯度下降法求极值和直接求导求极值的区别在哪?求函数极值的时候有所谓的梯度下降法.那为什么不直接令梯度（即函数的导数）为零得到极值呢?梯度下降法不是也要反复求导迭代后取得收敛值吗?它的优势在哪?
多数函数解不出导数得0的解析解.梯度下降法是种数值算法,一般可以用计算机求出很好的近似解41326人阅读
算法Algorithm（22）
回归(regression)、梯度下降(gradient descent)
本文由LeftNotEasy所有，发布于。如果转载，请注明出处，在未经作者同意下将本文用于商业用途，将追究其法律责任。
上次写过一篇关于贝叶斯概率论的数学，最近时间比较紧，coding的任务比较重，不过还是抽空看了一些机器学习的书和视频，其中很推荐两个：一个是 stanford的machine learning公开课，在verycd可下载，可惜没有翻译。不过还是可以看。另外一个是prml-pattern recognition and machine learning, Bishop的一部反响不错的书，而且是2008年的，算是比较新的一本书了。
前几天还准备写一个分布式计算的系列，只写了个开头，又换到写这个系列了。以后看哪边的心得更多，就写哪一个系列吧。最近干的事情比较杂，有跟机器学习相关的，有跟数学相关的，也有跟分布式相关的。
这个系列主要想能够用数学去描述机器学习，想要学好机器学习，首先得去理解其中的数学意义，不一定要到能够轻松自如的推导中间的公式，不过至少得认识这些式子吧，不然看一些相关的论文可就看不懂了，这个系列主要将会着重于去机器学习的数学描述这个部分，将会覆盖但不一定局限于回归、聚类、分类等算法。
回归与梯度下降：
回归在数学上来说是给定一个点集，能够用一条曲线去拟合之，如果这个曲线是一条直线，那就被称为线性回归，如果曲线是一条二次曲线，就被称为二次回归，回归还有很多的变种，如locally weighted回归，logistic回归，等等，这个将在后面去讲。
用一个很简单的例子来说明回归，这个例子来自很多的地方，也在很多的open source的软件中看到，比如说weka。大概就是，做一个房屋价值的评估系统，一个房屋的价值来自很多地方，比如说面积、房间的数量（几室几厅）、地段、朝向等等，这些影响房屋价值的变量被称为特征(feature)，feature在机器学习中是一个很重要的概念，有很多的论文专门探讨这个东西。在此处，为了简单，假设我们的房屋就是一个变量影响的，就是房屋的面积。
假设有一个房屋销售的数据如下：
面积(m^2)& 销售价钱（万元）
123&&&&&&&&&&& 250
150&&&&&&&&&&& 320
87&&&&&&&&&&&&& 160
102&&&&&&&&&&& 220
…&&&&&&&&&&&&&& …
这个表类似于帝都5环左右的房屋价钱，我们可以做出一个图，x轴是房屋的面积。y轴是房屋的售价，如下：
如果来了一个新的面积，假设在销售价钱的记录中没有的，我们怎么办呢？
我们可以用一条曲线去尽量准的拟合这些数据，然后如果有新的输入过来，我们可以在将曲线上这个点对应的值返回。如果用一条直线去拟合，可能是下面的样子：
绿色的点就是我们想要预测的点。
首先给出一些概念和常用的符号，在不同的机器学习书籍中可能有一定的差别。
房屋销售记录表 - 训练集(training set)或者训练数据(training data), 是我们流程中的输入数据，一般称为x
房屋销售价钱 - 输出数据，一般称为y
拟合的函数（或者称为假设或者模型），一般写做 y = h(x)
训练数据的条目数(#training set), 一条训练数据是由一对输入数据和输出数据组成的
输入数据的维度(特征的个数，#features)，n
下面是一个典型的机器学习的过程，首先给出一个输入数据，我们的算法会通过一系列的过程得到一个估计的函数，这个函数有能力对没有见过的新数据给出一个新的估计，也被称为构建一个模型。就如同上面的线性回归函数。
我们用X1，X2..Xn 去描述feature里面的分量，比如x1=房间的面积，x2=房间的朝向，等等，我们可以做出一个估计函数：
θ在这儿称为参数，在这儿的意思是调整feature中每个分量的影响力，就是到底是房屋的面积更重要还是房屋的地段更重要。为了如果我们令X0 = 1，就可以用向量的方式来表示了：
我们程序也需要一个机制去评估我们θ是否比较好，所以说需要对我们做出的h函数进行评估，一般这个函数称为损失函数（loss function）或者错误函数(error function)，描述h函数不好的程度，在下面，我们称这个函数为J函数
在这儿我们可以做出下面的一个错误函数：
这个错误估计函数是去对x(i)的估计值与真实值y(i)差的平方和作为错误估计函数，前面乘上的1/2是为了在求导的时候，这个系数就不见了。
如何调整θ以使得J(θ)取得最小值有很多方法，其中有最小二乘法(min square)，是一种完全是数学描述的方法，在stanford机器学习开放课最后的部分会推导最小二乘法的公式的来源，这个来很多的机器学习和数学书上都可以找到，这里就不提最小二乘法，而谈谈梯度下降法。
梯度下降法是按下面的流程进行的：
1）首先对θ赋值，这个值可以是随机的，也可以让θ是一个全零的向量。
2）改变θ的值，使得J(θ)按梯度下降的方向进行减少。
为了更清楚，给出下面的图：
这是一个表示参数θ与误差函数J(θ)的关系图，红色的部分是表示J(θ)有着比较高的取值，我们需要的是，能够让J(θ)的值尽量的低。也就是深蓝色的部分。θ0，θ1表示θ向量的两个维度。
在上面提到梯度下降法的第一步是给θ给一个初值，假设随机给的初值是在图上的十字点。
然后我们将θ按照梯度下降的方向进行调整，就会使得J(θ)往更低的方向进行变化，如图所示，算法的结束将是在θ下降到无法继续下降为止。
当然，可能梯度下降的最终点并非是全局最小点，可能是一个局部最小点，可能是下面的情况：
上面这张图就是描述的一个局部最小点，这是我们重新选择了一个初始点得到的，看来我们这个算法将会在很大的程度上被初始点的选择影响而陷入局部最小点
下面我将用一个例子描述一下梯度减少的过程，对于我们的函数J(θ)求偏导J：（求导的过程如果不明白，可以温习一下微积分）
下面是更新的过程，也就是θi会向着梯度最小的方向进行减少。θi表示更新之前的值，-后面的部分表示按梯度方向减少的量，α表示步长，也就是每次按照梯度减少的方向变化多少。
一个很重要的地方值得注意的是，梯度是有方向的，对于一个向量θ，每一维分量θi都可以求出一个梯度的方向，我们就可以找到一个整体的方向，在变化的时候，我们就朝着下降最多的方向进行变化就可以达到一个最小点，不管它是局部的还是全局的。
用更简单的数学语言进行描述步骤2）是这样的：
倒三角形表示梯度，按这种方式来表示，θi就不见了，看看用好向量和矩阵，真的会大大的简化数学的描述啊。
* 以上用户言论只代表其个人观点，不代表CSDN网站的观点或立场
访问：276961次
积分：3310
积分：3310
排名：第5819名
原创：64篇
转载：70篇
评论：69条
(5)(4)(1)(6)(1)(2)(9)(3)(2)(5)(1)(5)(2)(14)(7)(10)(7)(4)(3)(10)(3)(3)(1)(14)(3)(1)(4)(1)(1)(7) 上传我的文档
 下载
 收藏
该文档贡献者很忙，什么也没留下。
 下载此文档
正在努力加载中...
随机梯度下降法的收敛速度
下载积分：800
内容提示：随机梯度下降法的收敛速度
文档格式：PDF|
浏览次数：31|
上传日期： 23:57:31|
文档星级：
该用户还上传了这些文档
随机梯度下降法的收敛速度
官方公共微信二次元同好交流新大陆
扫码下载App
汇聚2000万达人的兴趣社区下载即送20张免费照片冲印
扫码下载App
温馨提示！由于新浪微博认证机制调整，您的新浪微博帐号绑定已过期，请重新绑定！&&|&&
LOFTER精选
网易考拉推荐
用微信&&“扫一扫”
将文章分享到朋友圈。
用易信&&“扫一扫”
将文章分享到朋友圈。
随机梯度下降法随机梯度真正的含义，选取少量样本代表全集，适合线上操作，但是很容易达到局部收敛。如果达到全局收敛，除非是全局只有一个拐点，学习率也是一个需要求解的参数。&
阅读(123)|
用微信&&“扫一扫”
将文章分享到朋友圈。
用易信&&“扫一扫”
将文章分享到朋友圈。
历史上的今天
loftPermalink:'',
id:'fks_',
blogTitle:'梯度下降与随机梯度下降法',
blogAbstract:'&梯度下降法随机梯度下降法随机梯度真正的含义，选取少量样本代表全集，适合线上操作，但是很容易达到局部收敛。如果达到全局收敛，除非是全局只有一个拐点，学习率也是一个需要求解的参数。&',
blogTag:'算法,数学,机器学习',
blogUrl:'blog/static/',
isPublished:1,
istop:false,
modifyTime:8,
publishTime:6,
permalink:'blog/static/',
commentCount:0,
mainCommentCount:0,
recommendCount:0,
bsrk:-100,
publisherId:0,
recomBlogHome:false,
currentRecomBlog:false,
attachmentsFileIds:[],
groupInfo:{},
friendstatus:'none',
followstatus:'unFollow',
pubSucc:'',
visitorProvince:'',
visitorCity:'',
visitorNewUser:false,
postAddInfo:{},
mset:'000',
remindgoodnightblog:false,
isBlackVisitor:false,
isShowYodaoAd:false,
hostIntro:'',
hmcon:'0',
selfRecomBlogCount:'0',
lofter_single:''
{list a as x}
{if x.moveFrom=='wap'}
{elseif x.moveFrom=='iphone'}
{elseif x.moveFrom=='android'}
{elseif x.moveFrom=='mobile'}
${a.selfIntro|escape}{if great260}${suplement}{/if}
{list a as x}
推荐过这篇日志的人：
{list a as x}
{if !!b&&b.length>0}
他们还推荐了：
{list b as y}
转载记录：
{list d as x}
{list a as x}
{list a as x}
{list a as x}
{list a as x}
{if x_index>4}{break}{/if}
${fn2(x.publishTime,'yyyy-MM-dd HH:mm:ss')}
{list a as x}
{if !!(blogDetail.preBlogPermalink)}
{if !!(blogDetail.nextBlogPermalink)}
{list a as x}
{if defined('newslist')&&newslist.length>0}
{list newslist as x}
{if x_index>7}{break}{/if}
{list a as x}
{var first_option =}
{list x.voteDetailList as voteToOption}
{if voteToOption==1}
{if first_option==false},{/if}&&“${b[voteToOption_index]}”&&
{if (x.role!="-1") },“我是${c[x.role]}”&&{/if}
&&&&&&&&${fn1(x.voteTime)}
{if x.userName==''}{/if}
网易公司版权所有&&
{list x.l as y}
{if defined('wl')}
{list wl as x}{/list}}

久游无息网