求助多层线性回归回归分析问题

点击联系发帖人 时间：2015-10-28 04:51

多层回归分析 spss

谢邀。&br&这要看你的面板是怎样的。如果&img src=&///equation?tex=N%5Cgg+T& alt=&N\gg T& eeimg=&1&&，那么单位跟检验、协整检验都是不必要的，多此一举。&br&但是如果你的&img src=&///equation?tex=T%3EN& alt=&T&N& eeimg=&1&&或者&img src=&///equation?tex=T%5Capprox+N& alt=&T\approx N& eeimg=&1&&，那么面板单位根就是一个问题了，这个时候的确需要检验面板单位根。&br&华人计量经济学家Cheng Hsiao、Jushan Bai等在长面板、面板的单位根等方面有很多贡献，可以参考他们的文章。
谢邀。这要看你的面板是怎样的。如果N\gg T，那么单位跟检验、协整检验都是不必要的，多此一举。但是如果你的T&N或者T\approx N，那么面板单位根就是一个问题了，这个时候的确需要检验面板单位根。华人计量经济学家Cheng Hsiao、Jushan Bai等在长面板、面板…
谢邀。非常抱歉刚刚看到这个问题，希望不晚。&br&如果你试过上述方法不行的话，可以考虑一下cross-validation的方法。这个方法很简单，假设你有N个样本，那么对于一个阶数L，你做N次拟合，每次拟合把第i个变量删掉，然后再计算第i个观测的残差的平方和，然后找到那个使得这个数值最小的L。即：&br&&img src=&///equation?tex=%5Cmin_L+%5Cfrac%7B1%7D%7BN%7D%5Csum_%7Bi%3D1%7D%5EN%5Cleft%5B++y_i-%5Csum_%7Bl%3D1%7D%5EL+x_i%5El+b_%7B-i%2Cl%7D+%5Cright%5D+%5E2& alt=&\min_L \frac{1}{N}\sum_{i=1}^N\left[
y_i-\sum_{l=1}^L x_i^l b_{-i,l} \right] ^2& eeimg=&1&&&br&其中&img src=&///equation?tex=b_%7B-i%2Cl%7D& alt=&b_{-i,l}& eeimg=&1&&为删掉第i个观测之后的估计值。&br&这个方法的缺点是比较慢，比如如果你有10000个观测，要做10000*L次拟合。&br&不过优点也是有的，就是总能保证模型不被过度拟合。比如你可以试一下，如果本身这个数据就是多项式生成的，这个方法选出来的阶数跟实际生成数据的阶数是一样的，极少有例外。&br&这里给你一个最小二乘拟合的julia code，你可以参照一下:&br&&div class=&highlight&&&pre&&code class=&language-python&&&span class=&c&&#!/usr/bin/julia&/span&
&span class=&n&&N&/span&&span class=&o&&=&/span&&span class=&mi&&300&/span&
&span class=&n&&x&/span&&span class=&o&&=&/span&&span class=&n&&randn&/span&&span class=&p&&(&/span&&span class=&n&&N&/span&&span class=&p&&)&/span&
&span class=&n&&y&/span&&span class=&o&&=&/span&&span class=&n&&exp&/span&&span class=&p&&(&/span&&span class=&n&&x&/span&&span class=&p&&)&/span&
&span class=&n&&X&/span&&span class=&o&&=&/span&&span class=&n&&ones&/span&&span class=&p&&(&/span&&span class=&n&&N&/span&&span class=&p&&)&/span&
&span class=&n&&last_obj&/span&&span class=&o&&=-&/span&&span class=&n&&log&/span&&span class=&p&&(&/span&&span class=&mi&&0&/span&&span class=&p&&)&/span&
&span class=&n&&obj&/span&&span class=&o&&=&/span&&span class=&mf&&0.0&/span&
&span class=&n&&l&/span&&span class=&o&&=&/span&&span class=&mi&&0&/span&
&span class=&k&&while&/span& &span class=&n&&true&/span&
&span class=&n&&l&/span&&span class=&o&&=&/span&&span class=&n&&l&/span&&span class=&o&&+&/span&&span class=&mi&&1&/span&
&span class=&n&&X&/span&&span class=&o&&=&/span&&span class=&p&&[&/span&&span class=&n&&X&/span& &span class=&n&&x&/span&&span class=&o&&.^&/span&&span class=&n&&l&/span&&span class=&p&&]&/span&
&span class=&n&&sum_resid&/span&&span class=&o&&=&/span&&span class=&mi&&0&/span&
&span class=&k&&for&/span& &span class=&n&&i&/span&&span class=&o&&=&/span&&span class=&mi&&1&/span&&span class=&p&&:&/span&&span class=&n&&N&/span&
&span class=&n&&xx&/span&&span class=&o&&=&/span&&span class=&n&&X&/span&&span class=&s&&'*X&/span&
&span class=&n&&xx&/span&&span class=&o&&=&/span&&span class=&n&&xx&/span&&span class=&o&&-&/span&&span class=&n&&X&/span&&span class=&p&&[&/span&&span class=&n&&i&/span&&span class=&p&&,:]&/span&&span class=&s&&'*X[i,:]&/span&
&span class=&n&&xy&/span&&span class=&o&&=&/span&&span class=&n&&X&/span&&span class=&s&&'*y&/span&
&span class=&n&&xy&/span&&span class=&o&&=&/span&&span class=&n&&xy&/span&&span class=&o&&-&/span&&span class=&n&&X&/span&&span class=&p&&[&/span&&span class=&n&&i&/span&&span class=&p&&]&/span&&span class=&o&&*&/span&&span class=&n&&y&/span&&span class=&p&&[&/span&&span class=&n&&i&/span&&span class=&p&&]&/span&
&span class=&n&&beta&/span&&span class=&o&&=&/span&&span class=&n&&xx&/span&\&span class=&n&&xy&/span&
&span class=&n&&sum_resid&/span&&span class=&o&&=&/span&&span class=&n&&sum_resid&/span&&span class=&o&&+&/span&&span class=&p&&(&/span&&span class=&n&&y&/span&&span class=&p&&[&/span&&span class=&n&&i&/span&&span class=&p&&]&/span&&span class=&o&&-&/span&&span class=&n&&X&/span&&span class=&p&&[&/span&&span class=&n&&i&/span&&span class=&p&&,:]&/span&&span class=&o&&*&/span&&span class=&n&&beta&/span&&span class=&p&&)&/span&&span class=&o&&.^&/span&&span class=&mi&&2&/span&
&span class=&n&&end&/span&
&span class=&n&&obj&/span&&span class=&o&&=&/span&&span class=&n&&sum_resid&/span&&span class=&p&&[&/span&&span class=&mi&&1&/span&&span class=&p&&]&/span&&span class=&o&&/&/span&&span class=&n&&N&/span&
&span class=&n&&println&/span&&span class=&p&&(&/span&&span class=&s&&&l=$(l), obj=$(obj)&&/span&&span class=&p&&)&/span&
&span class=&k&&if&/span& &span class=&n&&last_obj&/span&&span class=&o&&&&/span&&span class=&n&&obj&/span&
&span class=&n&&l&/span&&span class=&o&&=&/span&&span class=&n&&l&/span&&span class=&o&&-&/span&&span class=&mi&&1&/span&
&span class=&k&&break&/span&
&span class=&n&&end&/span&
&span class=&n&&last_obj&/span&&span class=&o&&=&/span&&span class=&n&&obj&/span&
&span class=&n&&end&/span&
&span class=&n&&println&/span&&span class=&p&&(&/span&&span class=&s&&&Optimal l=$(l)&&/span&&span class=&p&&)&/span&
&span class=&n&&Result&/span&&span class=&p&&:&/span&
&span class=&n&&l&/span&&span class=&o&&=&/span&&span class=&mi&&1&/span&&span class=&p&&,&/span& &span class=&n&&obj&/span&&span class=&o&&=&/span&&span class=&mf&&0.3413&/span&
&span class=&n&&l&/span&&span class=&o&&=&/span&&span class=&mi&&2&/span&&span class=&p&&,&/span& &span class=&n&&obj&/span&&span class=&o&&=&/span&&span class=&mf&&0.10396&/span&
&span class=&n&&l&/span&&span class=&o&&=&/span&&span class=&mi&&3&/span&&span class=&p&&,&/span& &span class=&n&&obj&/span&&span class=&o&&=&/span&&span class=&mf&&0.48195&/span&
&span class=&n&&l&/span&&span class=&o&&=&/span&&span class=&mi&&4&/span&&span class=&p&&,&/span& &span class=&n&&obj&/span&&span class=&o&&=&/span&&span class=&mf&&0.342&/span&
&span class=&n&&Optimal&/span& &span class=&n&&l&/span&&span class=&o&&=&/span&&span class=&mi&&3&/span&
&/code&&/pre&&/div&
谢邀。非常抱歉刚刚看到这个问题，希望不晚。如果你试过上述方法不行的话，可以考虑一下cross-validation的方法。这个方法很简单，假设你有N个样本，那么对于一个阶数L，你做N次拟合，每次拟合把第i个变量删掉，然后再计算第i个观测的残差的平方和，然后找…
来自子话题：
工作刚好积累些，希望有帮助。&br&&br&第二步，变量准备。对模型效果提升非常非常重要！我指的是对变量的选择和形式的变换。动态地根据模型的反馈来构造变量，可以贯穿整个建模过程。某名人说过花80%的时间不为过。&br&&br&第三步，除了chi-square test和IV值还有变量相关性。相关性太严重会违背独立假设，当然做预测的话违背可以原谅。但变量太多的时候共线性严重可能导致软件报错进行不下去（猜题主用的SAS）。此外business sense常常起决定性作用。比如客户关系管理中，如果模型显示年龄贡献度很低，一般还是会把它放进去。&br&&br&第四步，检验的参数。&br&1) c统计量，ROC曲线以下的面积，也叫AUC（area under curve）。在应用较成熟的领域比如信用卡评分行业有稍微形成共识——大于或等于0.75——认为行为评分模型是可靠的。但针对marketing等其他领域的数据，这个阈值可以商榷。&br&2) Gini系数，可以同c统计量转化，G=2c-1。&br&3) 提升图（lift chart/gain table），其他名词累积提升图/洛仑兹曲线/收益曲线说的几乎同一种东西。通过和随机选择的效果比较模型好坏，随机就是不用模型。如果对目标数据已经建好了一小撮模型，可以画不同模型的提升效果来比较选最佳。&br&4) ks，响应变量0-1的曲线对比，二者之差画条线就是ks曲线。它的意义是模型把0和1区分开的能力。又比如marketing，前25%的人是预测的响应客户群，对这一群体进行精准营销既有效果又省成本。20～40参考一下就行。&br&&br&最后，模型和参数实际意义还是要想想吧。很多人觉得logistic regression太简单，却连解释都不做，只一味看参数。看看出来的odds ratio和probability，既能给大众解释又不忘建模初衷。&br&&br&感觉有图更清楚，几个不错的中文博客，其他资料不一而足&br&&a href=&///?target=http%3A//cos.name/2008/12/measure-classification-model-performance-confusion-matrix/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&HuJiangtang: 分类模型的性能评估——以SAS Logistic回归为例(1): 混淆矩阵&i class=&icon-external&&&/i&&/a&&br&&a href=&///?target=http%3A//beader.me//auc-roc/%23more& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&AUC与ROC - 衡量分类器的好坏&i class=&icon-external&&&/i&&/a&&br&&a href=&///?target=http%3A//chen.yi.bo./blog/static//& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&二分类模型性能评价（R语言，logistic回归，ROC曲线，lift曲线，lorenz曲线）&i class=&icon-external&&&/i&&/a&
工作刚好积累些，希望有帮助。第二步，变量准备。对模型效果提升非常非常重要！我指的是对变量的选择和形式的变换。动态地根据模型的反馈来构造变量，可以贯穿整个建模过程。某名人说过花80%的时间不为过。第三步，除了chi-square test和IV值还有变量相关性…
来自子话题：
楼上的解释都很新颖，我在这里从统计学模型的角度给出一个回答。&br&&br&Logisitc模型是广义线性模型中的一类。常用于分类。在业界有相关广泛的应用。常见的如信用评分模型，用于判定某个人的违约概率。&br&&br&&br&&b&动机——logit变换&/b&&br&&br&在现实生活中，有时候需要探究某一事件A发生的概率&img src=&///equation?tex=P& alt=&P& eeimg=&1&&与某些因素&img src=&///equation?tex=X+%3D+%28X_1%2CX_2%2C...%2CX_p%29%27& alt=&X = (X_1,X_2,...,X_p)'& eeimg=&1&&之间的关系。考虑到很多情况下，在&img src=&///equation?tex=P%3D0& alt=&P=0& eeimg=&1&&或&img src=&///equation?tex=P%3D0& alt=&P=0& eeimg=&1&&附近，&br&$P$&br&对$X$的变化并不敏感，即这附近，X需要发生很大的变化才能引起P的微弱改变。如，“农药的剂量为X的情况下，杀死害虫的概率P”之间，就具有这种关系。因此，我们要构造这么一个关于P的函数$\theta(P)$，使得它在P=0或P=1附近，P的微小变化对应&img src=&///equation?tex=%5Ctheta%28P%29& alt=&\theta(P)& eeimg=&1&&的较大改变，同时，&img src=&///equation?tex=%5Ctheta%28P%29& alt=&\theta(P)& eeimg=&1&&要尽可能简单。于是，自然有了如下构造的特性&br&&img src=&///equation?tex=%5Cfrac%7B%5Cpartial+%5Ctheta%28P%29%7D%7B%5Cpartial+P%7D+%3D+%5Cfrac%7B1%7D%7BP%7D+%2B+%5Cfrac%7B1%7D%7B1-P%7D& alt=&\frac{\partial \theta(P)}{\partial P} = \frac{1}{P} + \frac{1}{1-P}& eeimg=&1&&&br&于是&br&&img src=&///equation?tex=%5Ctheta%28P%29+%3D+ln%28%5Cfrac%7BP%7D%7B1-P%7D%29& alt=&\theta(P) = ln(\frac{P}{1-P})& eeimg=&1&&&br&&img src=&///equation?tex=theta%28P%29& alt=&theta(P)& eeimg=&1&&就是传说中的Logit变换。&br&&br&&b& 模型——Logistic回归&/b&&br&&br&为了建立因变量P与自变量X之间的合理变动关系，一个很自然的假设就是线性关系。即&br&&img src=&///equation?tex=%0AP+%3D+X%27%5Cbeta& alt=&
P = X'\beta& eeimg=&1&&&br&&br&但是正如前面所说的，某些情况下，在P=0或P=1附近，P对X的变化并不敏感，即这附近，X需要发生很大的变化才能引起P的微弱改变,而上式简单的线性关系是不能反映这一特征的。这个时候，我们构造的&img src=&///equation?tex=%5Ctheta%28P%29& alt=&\theta(P)& eeimg=&1&&就派上用场了，于是有了&br&&br&&img src=&///equation?tex=ln%5Cfrac%7BP%7D%7B1-P%7D+%3D+X%27%5Cbeta& alt=&ln\frac{P}{1-P} = X'\beta& eeimg=&1&&&br&&br&由&br&&img src=&///equation?tex=ln%28%5Cfrac%7BP%7D%7B1-P%7D%29+%3D+%5Cboldsymbol%7BX%5ET+%5Cbeta%7D+%5Cimplies+%5Cfrac%7BP%7D%7B1-P%7D+%3D+e%5E%7B%5Cboldsymbol%7BX%5ET+%5Cbeta%7D%7D+%5Cimplies+P+%3D+%5Cfrac%7Be%5E%7B%5Cboldsymbol%7BX%5ET+%5Cbeta%7D%7D%7D%7B1+%2B+e%5E%7B%5Cboldsymbol%7BX%5ET+%5Cbeta%7D%7D%7D& alt=&ln(\frac{P}{1-P}) = \boldsymbol{X^T \beta} \implies \frac{P}{1-P} = e^{\boldsymbol{X^T \beta}} \implies P = \frac{e^{\boldsymbol{X^T \beta}}}{1 + e^{\boldsymbol{X^T \beta}}}& eeimg=&1&&&br&&br&于是上式等价于&br&&br&&img src=&///equation?tex=P+%3D+%5Cfrac%7Be%5E%7BX%27%5Cbeta%7D%7D%7B1%2Be%5E%7BX%27%5Cbeta%7D%7D& alt=&P = \frac{e^{X'\beta}}{1+e^{X'\beta}}& eeimg=&1&&&br&&br&这就是$Logistic$回归模型。&br&&br&来个例子。&br&&br&&div class=&highlight&&&pre&&code class=&language-text&&```{r,echo=TRUE,message=FALSE}
#logistic example
library(ggplot2)
x&- seq(from = 0, to = 20, 0.01)
p&- exp(-5+0.5*x)/(1+exp(-5+0.5*x))
mydata&-data.frame(x =x , p = p)
ggplot(mydata)+
geom_line(aes(x = x, y = p))+
ggtitle(&The does Vs the probability of insect dying&)
&/code&&/pre&&/div&&img src=&/33b9b50a95a87dab35ab4d34debaef69_b.png& data-rawwidth=&901& data-rawheight=&711& class=&origin_image zh-lightbox-thumb& width=&901& data-original=&/33b9b50a95a87dab35ab4d34debaef69_r.png&&&br&&br&&b& 应用场景&/b&&br&&br&&br&到这里，我们对$Logistic$回归的应用场景就比较明了了。它多用于分类——因变量为定类尺度。在运用模型时，需要注意是否满足隐含假设：在$P=0$或$P=1$附近，$P$对$X$的变化并不敏感。
楼上的解释都很新颖，我在这里从统计学模型的角度给出一个回答。Logisitc模型是广义线性模型中的一类。常用于分类。在业界有相关广泛的应用。常见的如信用评分模型，用于判定某个人的违约概率。动机——logit变换在现实生活中，有时候需要探究某一事件A发生…
mac老用户，数学建模老玩家路过。&br&&br&&br&编程类：&br&&br&&b&matlab&/b&&br&其实大多数做数模的用matlab也就做简单计算和绘图，至于simulink很少见人用到，但其实simulink才是真精髓，如果队伍编程能力不是特别强，simulink可以帮助解决很多代码写不出来的问题。&br&&br&&b&python+scipy+numpy+sympy&/b&&br&比matlab更加方便编程，与matlab类似的工具。其实mac自带python，不过配置全套环境也不简单，这里推荐anaconda，python的一个发行版，安装方便模块齐全。ipython notebook一边整理思路一边编程同时出结果简直不能更方便。&br&&br&写作类：&br&&b&mou+pandoc&/b&&br&markdown写东西方便简单，结合ipython notebook，文本预排版方便，公式输入简单，加上mou这种专门的md工具，完全不输word。但是大多数最终排版还是要用word或者latex的，于是pandoc登场，直接转化md为doc/docx。&br&&br&&b&endnote&/b&&br&参考文献神器，但凡写论文一定用得上。&br&&br&整体建模&br&&b&COMSOL&/b&&br&物理建模真神器，基于fem的复合场仿真，入门容易，用好有点难
mac老用户，数学建模老玩家路过。编程类：matlab其实大多数做数模的用matlab也就做简单计算和绘图，至于simulink很少见人用到，但其实simulink才是真精髓，如果队伍编程能力不是特别强，simulink可以帮助解决很多代码写不出来的问题。python+scipy+numpy+sy…
来自子话题：
你的领导给你一个任务，去调查某个地方算不算美女多的地方。当然，你的领导有自己的美女判定标准，假设评价一个女子的好看程度有三个属性：脸蛋，身材，气质。&br&&br&首先他要给你一些例子，比如她觉得奶茶是美女，高圆圆长的一般，范冰冰长的不好看。从这些例子里面，你大概能知道你领导的审美标准，脸蛋、身材、气质这三个属性大概各占什么样的比例。这就是回归。如果我们最终的美丑得分是把这三个标准的结果线性相加，就是线性回归。&br&&br&现在你能够判断一个女子是否是美女。你来到这个地方，一连碰到5个女子，按之前的标准判断，全是美女，那么你会不会认为这个地方的女子全都是美女呢？一般来说不会。因为经验告诉你，任何地方都有美女和丑女，不太可能只能出现只有美女没有丑女的地方，这个就是先验。如果你按这种方式思考，你会认为这个地方可能美女的比例比较高，但不会认为这里的女子全是美女，这就是贝叶斯的思想。&br&&br&最后，你的领导目的是让你调查这个地方的美女多不多，那么多不多最终是要有一个标准的，而你又没有办法遍历当地的每一个女性。所以你肯定有一套方案，比如说随机访问100个女性，如果超过80个女性是美女，你就认为该地是一个美女多的地方，反之则不是。那么之前提到的方案可以看成是一个假设检验。
你的领导给你一个任务，去调查某个地方算不算美女多的地方。当然，你的领导有自己的美女判定标准，假设评价一个女子的好看程度有三个属性：脸蛋，身材，气质。首先他要给你一些例子，比如她觉得奶茶是美女，高圆圆长的一般，范冰冰长的不好看。从这些例子里…
来自子话题：
无监督算法主要是针对交易模式进行的离群点挖掘，各种技术都有，基于距离、基于密度、基于深度、基于概率、……，但万变不离其宗，都需要通过距离计算来确定点与点之间的相似性，以此判断哪些点属于相对孤立的点。离群点挖掘优点是对任何异常模式都较为灵敏，缺点是噪声大，误判率高，无法确定是何种欺诈类型。&br&有监督算法主要是cart分类树、RBR/CBR技术等，需要从真实案件中提炼关键特征，训练模型，并进行测试。有监督算法的优点是能一案一模型，指向明确，效率很高，缺点是无法识别未知类型欺诈，未加训练的话，碰到新情况就只能抓瞎。&br&目前国内支付宝的风险策略引擎做得不错，前段时间他们还发过一篇吹嘘他们所谓“6维度综合智能判断”风险策略引擎的文章，居然在微信朋友圈里也传的很火，足见其影响力。国际上较为领先的是paypal，据说已经初步具备人工智能判断了，风险判断策略开发得较为完备。&br&所有算法从开发主体看都可分为工程师算法和科学家算法，对于工程师而言，算法都有现成的，关键在于如何与公司业务流程紧密结合，结合得越好，即便最简单的聚类算法也能产生巨大威力，结合不好，光是深入钻研算法里边的奇技淫巧其实是徒劳无功的；对于科学家而言，需要充分借助数学不断拓展算法效率的可能性边界，讲求特定算法普适意义上的性能提升，对于特定公司的具体情况一般不予考虑，这类典型例子是hinton，他几乎是重新发明了ann。&br&我们大多数人都只能做到工程师算法设计，比如特征调参、已有算法并行与串行组合、数据预处理、…等，少数天赋较高、科研条件优裕且耐得住寂寞的高手，可以从事科学家算法研发，不过这是一条极为枯燥且充满风险的道路。&br&最后但并非不重要的是，对于工程师而言：反欺诈算法要真正发挥作用，你的业务直觉至关重要，只有具备良好的业务洞察力——仅基于对数据简单的描述统计就能粗略预估出合适的检测流程与步骤——你才能在各类复杂模型中准确选择最合适的模型。没有良好的业务洞察力与直觉，没有对数据形状天然的敏感，你对算法的选择很可能要么只停留在很粗糙的层面（既做不好特征调参，也做不好算法组合），要么迷失在汗牛充栋长篇累牍的算法文献中无所适从。总之，业务洞察力与数据敏感性是数据科学家最重要的品质，需要经过一万小时不懈的刻意练习才能修炼成。
无监督算法主要是针对交易模式进行的离群点挖掘，各种技术都有，基于距离、基于密度、基于深度、基于概率、……，但万变不离其宗，都需要通过距离计算来确定点与点之间的相似性，以此判断哪些点属于相对孤立的点。离群点挖掘优点是对任何异常模式都较为灵敏…
来自子话题：
首先，神经网络的最后一层，也就是输出层，是一个 Logistic Regression （或者 Softmax Regression ），也就是一个线性分类器。&br&&br&那么，输入层和中间那些隐层又在干吗呢？你可以把它们看成一种特征提取的过程，就是把 Logistic Regression 的输出当作特征，然后再将它送入下一个 Logistic Regression，一层层变换。神经网络的训练，实际上就是同时训练特征提取算法以及最后的 Logistic Regression的参数。&br&&br&为什么要特征提取呢，因为 Logistic Regression 本身是一个线性分类器，所以，通过特征提取，我们可以把原本线性不可分的数据变得线性可分。&br&&br&要如何训练呢，最简单的方法是（随机，Mini batch）梯度下降法（当然有更复杂的例如MATLAB里面用的是 BFGS），那要如何算梯度呢，我们通过导数的链式法则，得出一种称为 back propagation 的方法（BP）。&br&&br&最后，我们得到了一个比 Logistic Regression 复杂得多的模型，它的拟合能力很强，可以处理很多 Logistic Regression处理不了的数据，但是也更容易过拟合（ VC inequality 告诉我们，能力越大责任越大），而且损失函数不是凸的，给优化带来一些困难。&br&&br&所以我们无法回答什么是“优于”，就像我们无法回答“菜刀和火箭筒哪个更好”，使用者对机器学习的理解，以及具体数据的情况，参数的选择，以及训练的方法，都对模型的效果产生很大影响。&br&&br&一个建议，普通问题还是用 SVM 吧 SVM 最好用了。
首先，神经网络的最后一层，也就是输出层，是一个 Logistic Regression （或者 Softmax Regression ），也就是一个线性分类器。那么，输入层和中间那些隐层又在干吗呢？你可以把它们看成一种特征提取的过程，就是把 Logistic Regression 的输出当作特征，然…
来自子话题：
名词修饰名词，第一个名词一般不发生人称和数的变化。除了sports car, women doctor,这种。&br&所以city list里面即使有很多城市city也是单数。&br&参考资料:高中英语笔记。。。
名词修饰名词，第一个名词一般不发生人称和数的变化。除了sports car, women doctor,这种。所以city list里面即使有很多城市city也是单数。参考资料:高中英语笔记。。。
来自子话题：
谢 &a data-hash=&ace55bee53f65086ccd880bf9c94018e& href=&///people/ace55bee53f65086ccd880bf9c94018e& class=&member_mention& data-tip=&p$b$ace55bee53f65086ccd880bf9c94018e&&@朱晋玄&/a&邀请。&br&这个问题已经是知乎上的老大难问题了。为什么成为老大难问题？因为不同的人做回归目的不一样，处理方法是完全不一样的。所以看到这个问题分在机器学习这个类别下，我不是很愿意回答，因为不了解他们究竟做回归为了做什么。不过我愿意从统计学的角度给一点思路。&br&首先要明确一点：&b&变量之间的相关性（只要不是完全相关）是不会影响参数的一致性的&/b&。&br&那么会影响什么呢？&b&影响的是参数估计的方差&/b&。&br&所以，如果你的样本足够大，变量间的相关性不是什么大问题，甚至压根就不是问题。&br&那么如果你的样本没那么大，该怎么处理呢？这个时候就要看你做模型的目的了。简单的区分的话，你究竟关注相关，还是因果，甚至只是想预测？&br&如果你是关注因果，那么不好意思，这个问题没有办法。比如如果在经济学里面，像 &a data-hash=&ace55bee53f65086ccd880bf9c94018e& href=&///people/ace55bee53f65086ccd880bf9c94018e& class=&member_mention& data-tip=&p$b$ace55bee53f65086ccd880bf9c94018e&&@朱晋玄&/a&说的，&b&你如果删掉任何一个变量，都会导致遗漏变量而产生偏误，这个时候你的系数估计是不一致的&/b&。&br&如果仅仅是关注相关，那么主成分分析等是个好的方法。此外如果你觉着有一些系数应该为0，甚至还可以LASSO。&br&如果你是想预测，那么虽然多重共线性导致系数估计方差变大，但是预测能力不会有所降低，所以我觉着这个问题没有那么值得去处理。&br&&br&以上只是个大概，希望题主根据自己面临的现实问题好好思考一下。
谢邀请。这个问题已经是知乎上的老大难问题了。为什么成为老大难问题？因为不同的人做回归目的不一样，处理方法是完全不一样的。所以看到这个问题分在机器学习这个类别下，我不是很愿意回答，因为不了解他们究竟做回归为了做什么。不过我愿意从统计…
## 先说结论&br&方差分析有被试内因素与被试间因素及其交叉的各种复杂情况。出现被试内因素之后，教科书上的方差分析不能用回归分析来替代。但如果只有被试间因素的情形，方差分析只是（单因变量多自变量）回归模型的一个侧面。这样说来，应该说单因变量的回归分析才是方差分析限制在被试间自变量的特例。&br&&br&## 为什么很多研究者会说方差分析是回归的特例&br&会用 R 中anova(lm(...)) 的朋友，自然知道回归分析不论自变量是 nominal 还是 scale 还是二者交互，都可以作Type I、II、III...的ANOVA。说方差分析是回归的特例，通常默认方差分析这个术语限定到有nominal自变量的情形。这有实验设计的背景。实验设计中，scale自变量通常是协自变量（CV），nominal被试间自变量通常叫做因素（factor）。在没有nominal自变量只有scale自变量的情形，通常就不归实验设计势力范围，有些面向实验设计的软件比如SPSS，会特意把「回归分析」作为一个菜单分给这种情形。&br&&br&##为什么回归不能覆盖方差分析&br&被试内因素的方差分析，特别是被试内因素A、B和被试间因素C、D 四个交互在一起的方差分析，似乎是很多统计课担心教不懂而躲开的部分。其实真就是教不懂，上学期我的《心理统计学（二）》考试开卷，最后一题就是写出这种情形各个F的分子分母的自由度，没有一个学生能全写对，最好的学生写对了所有的分子。认为回归模型无所不包的朋友，的确可以用包含被试id作为nominal自变量的回归分析模型把这些SS全拆分出来。麻烦的是，涉及被试内因素情形的F，它分母的SS/df显然不是回归模型的MS_e。从概率的道理上，这是因为被试内与被试间的抽样误差性质不同。有一些前沿文献提到被试内因素的方差分析可以用HLM替代，然而数学上根本不是同样的结果，所谓的替代是把问题也替代了。&br&&br&最后一段看不懂但自信统计学得很清楚的同学，推荐参考： &a href=&///?target=http%3A//www.personality-project.org/r/r.anova.html& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&R Guide -- Analysis of Variance&i class=&icon-external&&&/i&&/a& 以及 Fields的SPSS教材（&a href=&///?target=http%3A///Discovering-Statistics-using-IBM-SPSS-Statistics-Field-Andy/dp//& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&& 的页面&i class=&icon-external&&&/i&&/a&）对应章节
## 先说结论方差分析有被试内因素与被试间因素及其交叉的各种复杂情况。出现被试内因素之后，教科书上的方差分析不能用回归分析来替代。但如果只有被试间因素的情形，方差分析只是（单因变量多自变量）回归模型的一个侧面。这样说来，应该说单因变量的回归…
来自子话题：
&a data-hash=&d8b25f09b7b4d1eba0e9a13d66ad319b& href=&///people/d8b25f09b7b4d1eba0e9a13d66ad319b& class=&member_mention& data-tip=&p$b$d8b25f09b7b4d1eba0e9a13d66ad319b&&@袁树仑&/a& 你老邀请我回答这类问题居心何在？！害我大周末不能安心看电影！&br&&br&我倒是经常尝试跟文科女解释这些东西，以检验是否能通俗解释。&br&&br&好，现在我就假想我要跟文科女解释这几个东西好了，说错了也不要苛责我啊，反正是给文科女解释的，能得到芳心就达到目的了，哇咔咔。。。&br&&br&【线性回归】&br&“越长大越孤单”，如果说年龄大一岁，孤单多一分的话，那这就是孤单和年龄线性回归。&br&【贝叶斯】&br&你原来有三观（先验），但是当你经历一些事后（观察），你的三观会被重新建立，或者被毁三观（后验）。&br&【假设检验】 &br&文科女说：不把工资卡交给老婆的男人有九成可能不会成功。&br&我要反驳她这句话，必须得先假设她是对的。然后再按照她的说法去观察周围的男人，交工资卡和成功的事实都如何，并且默默地记在自己的小本上。&br&如果她说的这句话是对的，那么我小本上记的结果就会很明显，否则的话，哼哼，我就不承认她这句话！
你老邀请我回答这类问题居心何在？！害我大周末不能安心看电影！我倒是经常尝试跟文科女解释这些东西，以检验是否能通俗解释。好，现在我就假想我要跟文科女解释这几个东西好了，说错了也不要苛责我啊，反正是给文科女解释的，能得到芳心就达到目的…
来自子话题：
谢邀。&br&&br&楼上给的历史很好的，我也不知道logistic函数有其生态学背景，大概其意思是&br&&img src=&///equation?tex=%5Cfrac%7Bd+f%7D%7Bdx%7D+%3D+f%281-f%29& alt=&\frac{d f}{dx} = f(1-f)& eeimg=&1&&&br&而f的解就是logistic函数。&br&&br&而在物理学中，费米子在一个态的分配函数是&br&&img src=&///equation?tex=%5Cmathcal%7BZ%7D+%3D+1+%2B+e%5E%7B-%5Cbeta+E%7D& alt=&\mathcal{Z} = 1 + e^{-\beta E}& eeimg=&1&&（一个态只可有一粒子）&br&而其态粒子数的期望值为&br&&img src=&///equation?tex=%5Cfrac%7B1%7D%7B%5Cmathcal%7BZ%7D%7D%280+%2B+1+%5Ccdot+e%5E%7B-%5Cbeta+E%7D%29& alt=&\frac{1}{\mathcal{Z}}(0 + 1 \cdot e^{-\beta E})& eeimg=&1&&&br&做点运算就可得logistic函数，也是物理学家的Fermi-Dirac分布。&br&&br&我会理解为这是一个分类器，其函数给出的是某一数据分类为正的概率。
谢邀。楼上给的历史很好的，我也不知道logistic函数有其生态学背景，大概其意思是\frac{d f}{dx} = f(1-f)而f的解就是logistic函数。而在物理学中，费米子在一个态的分配函数是\mathcal{Z} = 1 + e^{-\beta E}（一个态只可有一粒子）而其态粒子数的期望值为…
Regression这个词之所以被用到统计学领域，最初是因为弗朗西斯高尔顿十九世纪末发表的一篇题为《遗传身高向平均回归》的论文（&i&Regression towards mediocrity in hereditary stature&/i&），论文描述的现象是，父辈中身高比较极端的人，生下的儿子身高会比较接近子辈的平均值。在这篇论文里，高尔顿研究了父亲的身高（与父辈身高平均值的差）对儿子身高（与子辈身高平均值的差）的影响。这种研究方式后来被广泛的应用，也保留了regression这个词，哪怕研究的问题已经不完全是“回归到平均值”这个现象了。&br&这么看来，用回归来翻译regression这个词，和英语的用法是一样的，也有一定的历史因素的考量，非常合适。
Regression这个词之所以被用到统计学领域，最初是因为弗朗西斯高尔顿十九世纪末发表的一篇题为《遗传身高向平均回归》的论文（Regression towards mediocrity in hereditary stature），论文描述的现象是，父辈中身高比较极端的人，生下的儿子身高会比较接…
先列出關於OLS的七大基本假設(Assumption)，這裡使用矩陣法描述：&br&A1、自變量&img src=&///equation?tex=X& alt=&X& eeimg=&1&&非隨機，且行滿秩。&img src=&///equation?tex=X& alt=&X& eeimg=&1&& is not random, and &img src=&///equation?tex=rank%28X%29%3Dk%3E0& alt=&rank(X)=k&0& eeimg=&1&&.&br&A2、誤差項&img src=&///equation?tex=%5Cepsilon& alt=&\epsilon& eeimg=&1&&隨機，並且期望為0。&img src=&///equation?tex=%5Cepsilon& alt=&\epsilon& eeimg=&1&& is random and &img src=&///equation?tex=E%5B%5Cepsilon%5D%3D0& alt=&E[\epsilon]=0& eeimg=&1&&.&br&A3、誤差項齊方差。Homoskedasticity. &img src=&///equation?tex=E%5B%5Cepsilon%5E2_i%5D%3Dvar%5B%5Cepsilon_i%5D%3D%5Csigma%5E2& alt=&E[\epsilon^2_i]=var[\epsilon_i]=\sigma^2& eeimg=&1&&.&br&A4、誤差項不相關。No correlation. &img src=&///equation?tex=E%5B%5Cepsilon_i%5Cepsilon_j%5D%3D0& alt=&E[\epsilon_i\epsilon_j]=0& eeimg=&1&& for &img src=&///equation?tex=i%5Cneq+j& alt=&i\neq j& eeimg=&1&&.&br&A5、參數為常數，且未知。&img src=&///equation?tex=%5Cbeta& alt=&\beta& eeimg=&1&& and &img src=&///equation?tex=%5Csigma& alt=&\sigma& eeimg=&1&& unknown and fixed.&br&A6、線性模型。&img src=&///equation?tex=y%3DX%5Cbeta%2B%5Cepsilon& alt=&y=X\beta+\epsilon& eeimg=&1&&.&br&A7、誤差項服從正態分佈。&img src=&///equation?tex=%5Cepsilon%5Csim+N%280%2C%5Csigma%5E2%29& alt=&\epsilon\sim N(0,\sigma^2)& eeimg=&1&&. （該假設不是最重要的）&br&前六項假設最重要，通過A1-A6，可以證明OLS估計的參數是BLUE (Best Linear Unbiased Estimator)。也就是說， OLS估計的參數是無偏(unbiased)、一致(consistent)、且有效(efficient，方差最小)的。&br&如果加上第七條假設，也就是如果A1-A7成立，則OLS估計的參數是“一致最小方差無偏” (Uniformly Minimum Variance Unbiased) 的。&br&我認為在面試中，一般回答出A2-A4就可以了。即：誤差項隨機、期望為零、齊方差、不相關。
先列出關於OLS的七大基本假設(Assumption)，這裡使用矩陣法描述：A1、自變量X非隨機，且行滿秩。X is not random, and rank(X)=k&0.A2、誤差項\epsilon隨機，並且期望為0。\epsilon is random and E[\epsilon]=0.A3、誤差項齊方差。Homoskedasticity. E[\ep…
谢邀。&br&&br&题主可以先看看在这个问题&a href=&/question/& class=&internal&&线性回归中的 ANOVA 的作用是什么？ - 方差分析&/a&下我和 &a data-hash=&c9cee996cdef11fc& href=&///people/c9cee996cdef11fc& class=&member_mention& data-tip=&p$b$c9cee996cdef11fc&&@慧航&/a&的答案。&br&&br&&a data-hash=&c9cee996cdef11fc& href=&///people/c9cee996cdef11fc& class=&member_mention& data-tip=&p$b$c9cee996cdef11fc&&@慧航&/a& 在这个问题里的回答还是强调ANOVA是线性回归的特例。这当然是对的，但是这并不代表ANOVA就没有存在的价值。例如，ANOVA和线性回归都是广义线性模型(GLM, generalized linear model)的特例，但这就意味着标准的线性回归没有单独存在的价值了吗？显然不是的。比如著名的Least Angle Regressions(LARS)就是基于标准的线性回归，充分利用了correlation在其中的重要性。将LARS扩展到GLM就并不容易，而且会失去很多数学上的直观和美感。&br&&br&ANOVA和线性回归也是一样的。虽然ANOVA是特例，但它还是有存在的价值：&br&1. ANOVA原本是针对试验设计提出的，这个设定直到现在还是有很多实际用途。&br&2. ANOVA在数学上非常简洁，甚至不需要矩阵计算。ANOVA的结果汇总为一张表，清晰易懂。&br&3. ANOVA检验的是一整个factor的显著性，而线性回归一般检验的是单个variable（factor的某个level）。虽然线性回归也可以用来一起检验很多variable，但比ANOVA来得更复杂一些。
谢邀。题主可以先看看在这个问题下我和的答案。在这个问题里的回答还是强调ANOVA是线性回归的特例。这当然是对的，但是这并不代表ANOVA就没有存在的价值。例如，ANOVA和线性回归都是广义线性模型(…
来自子话题：
试着回答一下前两个&br&&br&1）线性回归（Linear Regression）：假设你在纸上画了一堆点，然后打算画一条线，这些点到这条线的距离尽量得短。怎么找这条线呢？方法就是Linear Regression。有了这条线，希望用它来预测之后出现的点都会在它附近。&br&&br&2）贝叶思（Bayes Theorem）：&br&假设说我知道(1)明天是下雨的机率是A，(2)明天打雷的机率是B，(3)如果明天下雨了，那么就会打雷的机率是C。那么Bayes表示，如果明天打雷，那么下雨的机率是C*A/B。概括来讲，就是描述如果X那么Y的机率，和如果Y那么X的机率之间的转换关系。&br&不知道这样讲可以不？
试着回答一下前两个1）线性回归（Linear Regression）：假设你在纸上画了一堆点，然后打算画一条线，这些点到这条线的距离尽量得短。怎么找这条线呢？方法就是Linear Regression。有了这条线，希望用它来预测之后出现的点都会在它附近。2）贝叶思（Bayes Th…
来自子话题：
恭喜你意识到了sklearn的本质。答案是无法查看，因为sklearn是一个机器学习库而非统计库。&br&&br&对于做机器学习的人来说，显著性根本不重要，只要在test score高就行了。真要去掉不怎么相关的feature的话，就加L1 regularization
恭喜你意识到了sklearn的本质。答案是无法查看，因为sklearn是一个机器学习库而非统计库。对于做机器学习的人来说，显著性根本不重要，只要在test score高就行了。真要去掉不怎么相关的feature的话，就加L1 regularization
来自子话题：
1. 引入 prior 的回归/分类，或者说 MAP estimator（最大后验估计）不能算是贝叶斯方法。完整的贝叶斯方法并不止步于算出 posterior 的 mode 或者 mean，而是&b&利用整个 posterior 分布对预测过程进行平滑&/b&，具体来说就是：&br&&br&假设 posterior 为&img src=&///equation?tex=P%28%5Ctheta%7CD%2C+M%29& alt=&P(\theta|D, M)& eeimg=&1&& ，其中 D 是数据集，M 是模型，&img src=&///equation?tex=%5Ctheta& alt=&\theta& eeimg=&1&& 是模型参数；&br&假设给定参数后，对于新数据 x 的预测函数为 &img src=&///equation?tex=P%28x%7C%5Ctheta%2C+M%29& alt=&P(x|\theta, M)& eeimg=&1&&&br&在课本中 M 通常被忽略，因为通常我们只研究一个模型，但是如果要比较多个不同模型，那么 M 不能忽略。&br&&br&所谓贝叶斯回归，就是计算一个预测分布（predictive distribution）：&br&&img src=&///equation?tex=%5Cint+P%28x%7C%5Ctheta%2C+M%29+P%28%5Ctheta%7CD%2CM%29+d%5Ctheta%3DP%28x%7CD%2CM%29& alt=&\int P(x|\theta, M) P(\theta|D,M) d\theta=P(x|D,M)& eeimg=&1&&&br&这个预测分布可以这么理解，将不同&img src=&///equation?tex=%5Ctheta& alt=&\theta& eeimg=&1&&对应的预测结果组合起来，形成最终的预测结果，而组合的权重就根据&img src=&///equation?tex=%5Ctheta& alt=&\theta& eeimg=&1&&的 posterior 的大小，由于&img src=&///equation?tex=%5Ctheta& alt=&\theta& eeimg=&1&&是一个连续的随机变量，所以这个“组合”就是一个积分。 &br&&br&再看MAP，它能够降低过拟合，但是不能避免过拟合，因为 MAP 假定参数只会取一个固定的值，而不是一个分布，这是一种过度自信的表现，更具体来说，MAP 将上面的 &img src=&///equation?tex=P%28%5Ctheta%7CD%2CM%29& alt=&P(\theta|D,M)& eeimg=&1&&近似为一个 delta
函数&img src=&///equation?tex=%5Cdelta%28%5Ctheta+-+%5Chat%7B%5Ctheta%7D%29& alt=&\delta(\theta - \hat{\theta})& eeimg=&1&&，从而忽略了&img src=&///equation?tex=%5Ctheta& alt=&\theta& eeimg=&1&& 的不确定性。（式中&img src=&///equation?tex=%5Chat%7B%5Ctheta%7D& alt=&\hat{\theta}& eeimg=&1&& 是 posterior 的 mode 点）&br&&br&2. 再说边缘似然 &img src=&///equation?tex=P%28D%7CM%29& alt=&P(D|M)& eeimg=&1&&，它实际上可以用上面的预测分布连乘来表示：&br&&img src=&///equation?tex=P%28D%7CM%29+%3D%0AP%28x_1%2Cx_2%2C...%2Cx_n%7CM%29%3D%0AP%28x_1%7CM%29P%28x_2%7Cx_1%2CM%29P%28x_3%7Cx_1%2Cx_2%2CM%29..P%28x_n%7Cx_%7B1..n-1%7D%2CM%29& alt=&P(D|M) =
P(x_1,x_2,...,x_n|M)=
P(x_1|M)P(x_2|x_1,M)P(x_3|x_1,x_2,M)..P(x_n|x_{1..n-1},M)& eeimg=&1&&&br&这个过程可以理解为，我们先计算模型生成 x1 的概率，然后乘以 x1 为训练集时 x2 的预测分布，依次类推。显然，如果一个模型过于复杂，那么预测分布值会较小（因为预测性能不好），那么在连乘后，得到的边缘似然也很小。（这实际上是 MLAPP 上的解释，见公式 5.14），所以边缘似然可以用来做模型选择。&br&&br&最后，为什么似然函数最大值&img src=&///equation?tex=P%28D%7C%5Chat%7B%5Ctheta%7D%2C+M%29& alt=&P(D|\hat{\theta}, M)& eeimg=&1&&不能用来做模型选择呢？因为很可能是由于模型的能力过强，导致它能完美拟合的数据集过多（复杂度过高），所以很容易就 fit 训练集了，而边缘似然呢：&br&&img src=&///equation?tex=%5Cint+P%28D%7C%5Ctheta%2CM%29P%28%5Ctheta%29+d%5Ctheta& alt=&\int P(D|\theta,M)P(\theta) d\theta& eeimg=&1&&&br&它考虑到了参数 &img src=&///equation?tex=%5Ctheta& alt=&\theta& eeimg=&1&& 的分布，并且将每个不同&img src=&///equation?tex=%5Ctheta& alt=&\theta& eeimg=&1&&生成数据集的概率组合起来，和之前一样，这个组合是个积分。你看，如果&img src=&///equation?tex=%5Ctheta& alt=&\theta& eeimg=&1&&的可能性很多（模型复杂），但只有一种的似然函数值大，那么最终积分的结果是很小的。只有【&img src=&///equation?tex=%5Ctheta& alt=&\theta& eeimg=&1&&的可能性相对较少（简单的模型），其中某些&img src=&///equation?tex=%5Ctheta& alt=&\theta& eeimg=&1&&使似然函数较大】的情况下，这个积分才会较大，从而，边缘似然可以来做模型选择。&br&&br&3. 综上所述，贝叶斯方法本质上就是一个平均，平滑（averaging），这里我们只考虑了单层的贝叶斯模型，实际上，贝叶斯方法在多层的超参数存在时照样十分自然优美，不过是多几重积分而已。通过平均，融合了不同的可能性，使得预测结果更加稳定。其实线性回归并不是贝叶斯方法最常用的地方，而是自然语言处理中的语言模型里的 add-x smoothing（加x平滑），所谓加x平滑实际上是 multinomial 分布加上狄利克雷先验后的预测分布。上述所有内容都总结自 MLAPP 第五章，还可以参考这篇教程：&a href=&///?target=http%3A//www.arbylon.net/publications/text-est.pdf& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://www.&/span&&span class=&visible&&arbylon.net/publication&/span&&span class=&invisible&&s/text-est.pdf&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&br&&br&4. 另外，从以上内容可以看出，贝叶斯方法的核心部件，就是 posterior，而对于复杂模型来说，这个 posterior 是很难算的，于是，机器学习中的拉普拉斯近似，变分法，MCMC 采样等就派上了用场。
1. 引入 prior 的回归/分类，或者说 MAP estimator（最大后验估计）不能算是贝叶斯方法。完整的贝叶斯方法并不止步于算出 posterior 的 mode 或者 mean，而是利用整个 posterior 分布对预测过程进行平滑，具体来说就是：假设 posterior 为P(\theta|D, M) ，…
来自子话题：
Logistic Regression是一个单层感知器（Single-Layer Perceptron，或者说单层神经网络），只能对线性可分的数据进行分类。&br&Back Propagation Network是多层感知器（Multi-Layer Perceptron），可以学到任意复杂的函数。&br&&br&你把LR分类器一层一层套起来就变成神经网络了……
Logistic Regression是一个单层感知器（Single-Layer Perceptron，或者说单层神经网络），只能对线性可分的数据进行分类。Back Propagation Network是多层感知器（Multi-Layer Perceptron），可以学到任意复杂的函数。你把LR分类器一层一层套起来就变成神经…}

久游无息网