关于解析回归分析hive查询结果赋值变量的问题，请问价格变量的参数估计值是-0.0006，代表着什么意思？

点击联系发帖人 时间：2018-06-05 16:52

c语言结果赋值给变量

简单线性回归分析【笔记】
简单线性回归分析
1. 摘要 / 引言
回归分析是统计学的核心，是一个广义概念，通常指用一个或多个自变量（也成解释变量、预测变量）来预测应变量（也称因变量、校变量或结果变量）。简单线性回归只包括一个应变量和一个自变量。这种回归也称一元线性回归
2. 算法名称
简单线性回归，一元线性回归描述
回归分析是处理自变量和应变量之间关系的一种统计方法和技术。
4. Metaphor
简单回归是描述自变量和应变量之间的线性关系。其几何意义是用一条直线来近似表示因变量和自变量的关系。而直线上某一点 (x,y^) 对应的y^，为自变量 Y 在x 最有可能出现的值。如图1
5. Strategy
简单线性回归模型为(1)式
yi=β0+β1xi+εi&&&&&&&&(1)
误差项εi是一个随机变量，该误差是y中不能被线性模型解释的变异。回归模型服从以下假设[1]
1. 解析变量x是非随机变量；
2. εi~N(0,σ2)，且彼此独立。
由模型可知，y的期望随着x变化而变化，用回归方程（2）描述这种变化关系
E(yi)=β0+β1xi&&&&&&&&&(2)
因为 εi~N(0,σ2)，因此 yi~N(β0+β1xi,σ2)&&&&&&&&
6. Procedure
简单线性回归分析可分为以下步骤：
1. 针对问题，确定因变量和自变量
2. 收集数据
3. 画散点图，并观察确定因变量和自变量的关系
4. 设计理论模型
5. 参数估计：可以通过最小二乘法或最大似然估计可以估计参数β0和β1
6. 模型检验：模型检验包括拟合度度量、显著性检验、残差分析
7. 预测分析
本文仅讨论一元线性回归，因此对步骤1~4不展开讨论
常用的估计方法有最小二乘法（OLSE）和最大似然法。本文介绍基于最小二乘法的参数估计。
最小二乘法的思想：最小化n个样本的观测值yi和回归值yi^离差平方和
最小二乘法准则Q(β0^&β1^)=minβ0,β1(yi-yi^)2&&&&&&&&&&（3）
对Q(β0^，β1^)求偏导数，并令求导公式为0，如下
?????????∣∣∣?Q?β0∣∣∣=2∑(yi-β0^-β1xi^)=0∣∣∣?Q?β1=∣∣∣2∑(yi-β0^-β1xi^)xi=0&&&&&&&&&&（4）
通过公式（4）可估计出参数
6.2 模型检验
模型检验一般包括显著性检验、拟合度度量、残差分析
6.2.1 回归系数的显著性检验
回归系数显著性检验是检验自变量x对因变量y的影响是否显著。常用的检验方法有t检验、F检验、相关系数检验。在一元线性回归中，t检验、F检验、相关系数检验是等价的。但是在多元线性回归中，三者的意义就不一样了
检验的原假设:H0:β1=0
备择假设：H1:β1≠0
由于β1^~N(β1,σ2∑(xi-x?)2)(参考文献【1】P29)
所以β1^sβ1^是一个自由度为 n-2 的t分布。
其中β1^的标准差sβ1^=σ2∑(xi-x?)2--------√
σ2的无偏估计σ2^=1n-2∑(yi-yi^)2
在一元线性回归中，F检验也可用于回归系数显著性检验。但在多元线性回归中，F检验只能检验回归方程总体的显著关系
检验统计量：F=MSRMSE
其中MSR=SSR回归自由度(即自变量个数)，回归平方和SSR=∑(yi^-yi?)2
MSE=SSEn-2，残差平方和和SSE=∑(yi^-yi)2
相关系数的直观意义如下
6.2.2 拟合度度量
判定系数（样本决定系数）r2是度量回归方程与样本观测值的拟合优度，反映了自变量的变异对因变量的变异的解析程度。
r2=SSRSSE≤1
当r2接近1，说明因变量变化大部分能由线性方程解释
6.2.3 残差分析
残差定义：ei=yi-yi^=yi-β0^-β1^xi
注意和误差项的区别（误差项：εi=β0-β1xi）
残差ei可以看作是误差εi的估计值
残差分析既可用于证实模型的有效性（即误差ε是否满足假设），也可用于检验异常值
残差的相关性质和概念
var(ei)=(1-hi)σ2 其中hi=1n+(xi-x?)2∑(xi-x?)2称为杠杆率。该性质说明远离x?时，相应ei的方差会变小，也就是残差存在方差不等的问题
∑ei=0，∑xiei=0
标准化残差：ZREi=eiσ^
学生化残差：SREi=eiσ1-hi√^，其中hi为杠杆率。学生化残差进一步解决了残差的方差不等问题
实模型的有效性分析
残差图：残差图有关于x的残差图，和关于y的残差图。对于一元线性回归，两种残差图都可用于分析，而y的残差图还能应用到多元线性回归上
正太概率图：详细说明参考文献【2】Page：329-330。这里只说结论。如图，当较多的点聚集在正太概率图的45度线上，说明误差和项ε服从正太分布
异常值检验
一般认为SREi&3的观察值为异常
有影响的观测值
有影响的观测值就是删除该值后，回归方程的估计会发生较大变化。有影响的观测值一般由大的残差和高杠杆率交互作用产生。注意，有影响的观测值不一定是异常值
度量指标：库克D统计量
6.3 预测分析
1.因变量新值的区间预测：详细推导参考【1】。估计y0的置信概率为1-α的置信区间为y0^±tα/21+h0-----√σ^
可以发现，靠近x?附近的预测精度最高
2.因变量新值的平均值的区间预测：置信概率为1-α的置信区间为y0^±tα/2h0--√σ^
7. Summarize Parameters
具体介绍算法参数的变化范围、参数变化对算法性能的影响，以及一些常用的配置方案
相关系数：相关系数r的符号与自变量系数的符号相同。相关系数有个明显确定。样本数n越少|r|越接近1，当n越大|r|容易偏小
由于β1^~N(β1,σ2∑(xi-x?)2)，说明x越分散，β1^的估计越准确
判定系数（样本决定系数）r2在不通的实际问题中，其判断阈值存在很大差异。在社会学科中，0.25是令人满意的。而在自然科学，0.6比较常见。【2】p312
回归分析适用于内推，不适用与外推
References
[1]. 应用回归分析
[2]. 商务与经济统计张建化等
没有更多推荐了，
加入CSDN，享受更精准的内容推荐，与500万程序员共同成长！出自 MBA智库百科()
(重定向自)
多元线性回归分析预测法（Multi factor line regression method，多元线性回归分析法）
　　在市场的经济活动中，经常会遇到某一市场现象的发展和变化取决于几个影响因素的情况，也就是一个和几个有依存关系的情况。而且有时几个影响因素主次难以区分，或者有的因素虽属次要，但也不能略去其作用。例如，某一商品的既与人口的增长变化有关，也与变化有关。这时采用进行是难以奏效的，需要采用多元回归分析预测法。
　　多元回归分析预测法，是指通过对两个或两个以上的自变量与一个因变量的，建立预测模型进行预测的方法。当自变量与因变量之间存在线性关系时，称为多元线性回归分析。
　　一元线性回归是一个主要影响因素作为自变量来解释因变量的变化，在现实问题研究中，因变量的变化往往受几个重要因素的影响，此时就需要用两个或两个以上的影响因素作为自变量来解释因变量的变化，这就是多元回归亦称多重回归。当多个自变量与因变量之间是线性关系时，所进行的就是多元线性回归。
　　设y为因变量，为自变量，并且自变量与因变量之间为线性关系时，则多元线性回归模型为：
　　其中，b0为常数项，为回归系数，b1为固定时，x1每增加一个单位对y的效应，即x1对y的偏回归系数；同理b2为x1,xk固定时，x2每增加一个单位对y的效应，即，x2对y的偏回归系数，等等。如果两个自变量x1,x2同一个因变量y呈线相关时，可用描述为：
　　　　y = b0 + b1x1 + b2x2 + e
　　建立多元性回归模型时，为了保证回归模型具有优良的解释能力和预测效果，应首先注意的选择，其准则是：
　　(1)自变量对因变量必须有显著的影响，并呈密切的；
　　(2)自变量与因变量之间的线性相关必须是真实的，而不是形式上的；
　　(3)自变量之间应具有一定的互斥性，即自变量之间的相关程度不应高于自变量与因变量之因的相关程度；
　　(4)自变量应具有完整的，其预测值容易确定。
　　多元性回归模型的，同一元线性回归方程一样，也是在要求误差平方和()为最小的前提下，用求解参数。以二线性回归模型为例，求解回归参数的标准方程组为
　　解此方程可求得b0,b1,b2的数值。亦可用下列矩阵法求得
　　多元性回归模型与一元线性回归模型一样，在得到参数的最小二乘法的估计值之后，也需要进行必要的检验与评价，以决定模型是否可以应用。
　　1、拟合程度的测定。
　　与一元线性回归中可决系数r2相对应，多元线性回归中也有多重可决系数r2，它是在因变量的总变化中，由回归方程解释的变动(回归平方和)所占的比重，R2越大，回归方各对样本数据点拟合的程度越强，所有自变量与因变量的关系越密切。计算公式为：
　　其中，
　　2.估计
　　估计标准误差，即因变量y的实际值与回归方程求出的估计值之间的标准误差，估计标准误差越小，回归方程拟合程度越程。
　　其中，k为多元线性回归方程中的自变量的个数。
　　3.回归方程的
　　回归方程的显著性检验，即检验整个回归方程的显著性，或者说评价所有自变量与因变量的线性关系是否密切。能常采用，F统计量的计算公式为：
　　根据给定的,自由度(k,n-k-1)查F分布表，得到相应的临界值Fa，若F & Fa，则回归方程具有显著意义，回归效果显著；F & Fa，则回归方程无显著意义，回归效果不显著。
　　4.回归系数的显著性检验
　　在一元线性回归中，回归系数显著性检验()与回归方程的显著性检验(F检验)是等价的，但在多元线性回归中，这个等价不成立。t检验是分别检验回归模型中各个回归系数是否具有显著性，以便使模型中只保留那些对因变量有显著影响的因素。检验时先计算ti；然后根据给定的显著水平a,自由度n-k-1查t分布表，得临界值ta或ta / 2,t & t & a或ta / 2，则回归系数bi与0有显著关异，反之，则与0无。统计量t的计算公式为：
　　其中，Cij是多元线性回归方程中求解回归系数矩阵的逆矩阵(x'x) & 1的主对角线上的第j个元素。对而言，可用下列公式计算：
　　其中，
　　5.多重共线性判别
　　若某个回归系数的t检验通不过，可能是这个系数相对应的自变量对因变量的影平不显著所致，此时，应从回归模型中剔除这个自变量，重新建立更为简单的回归模型或更换自变量。也可能是自变量之间有共线性所致，此时应设法降低共线性的影响。
　　多重共线性是指在多元线性回归方程中，自变量之间有较强的线性关系，这种关系若超过了因变量与自变量的线性关系，则回归模型的稳定性受到破坏，回归系数估计不准确。需要指出的是，在多元回归模型中，多重共线性的难以避免的，只要多重共线性不太严重就行了。判别多元线性回归方程是否存在严惩的多重共线性，可分别计算每两个自变量之间的可决系数r2，若r2 & R2或接近于R2，则应设法降低多重线性的影响。亦可计算自变量间的的特征值的条件数k = &1 / &p(&1为最大特征值，&p为最小特征值),k&100，则不存在多重点共线性；若100≤k≤1000，则自变量间存在较强的多重共线性，若k&1000，则自变量间存在严重的多重共线性。降低多重共线性的办法主要是转换自变量的取值，如变为或，或者更换其他的自变量。
　　当回归模型是根据动态数据建立的，则项e也是一个，若误差序列诸项之间相互独立，则误差序列各项之间没有相关关系，若误差序列之间存在密切的相关关系，则建立的回归模型就不能表述自变量与因变量之间的真实变动关系。D.W检验就是误差序列的自相关检验。检验的方法与一元线性回归相同。
　　一、背景
　　公路客、货运输量的，近几年来在我国领域大面积广泛地开展起来，并有效的促进了的科学化和现代化。
　　关于公路客、货运输量的定量预测方法很多，本文主要介绍多元线性回归方法在公路客货运输量预测中的具体操作。根据笔者先后参加的部、省、市的科研课题的实践，证明了多元线性回归方法是对公路客、货运输量预测的一种置信度较高的有效方法。
　　二、多元线性回归预测
　　线性回归分析法是以相关性原理为基础的．相关性原理是预测学中的基本原理之一。由于公路客、货运输量受社会经济有关因素的综合影响。所以，多元线性回归预测首先是建立公路客、货运输量与其有关影响因素之间线性关系的。然后通过对各影响因素未来值的预测推算出公路客货运输量的预测值。
　　三、公路客、货运输量多元线性回归预测方法的实施步骤
　　1.影响因素的确定
　　影响公路客货运输量的因素很多，主要包括以下一些因素：
　　(1)影响因素
　　人口增长量裤保有量、、工农业总产值，城乡居民储蓄额铁路和水运客运量等。
　　(2)货运量影响因素
　　人口货车保有量(包括拖拉机)，，、工农业总产值，，主要工农业产品产量，，零售总额．铁路和水运货运量菩。
　　上述影响因素仅是对一般而言，在针对具体研究对象时会有所增减。因此，在建立模型时只须列入重要的影响因素，对于非重要因素可不列入模型中。若疏漏了某些重要的影响因素，则会造成预测结果的失真。另外，影响因素太少会造成模型的敏感性太强．反之，若将非重要影响因素列入模型，则会增加计算工作量，使模型的建立复杂化并增大。
　　影响因素的选择是建立预测模型首要的关键环节，可采取定性和定量相结合的方法进行．影响因素的确定可以通过，其目的是为了充分发挥专家的聪明才智和经验。
　　具体做法就是通过对长期从事该地区公路运输企业和部门的领导干部、专家、工作人员和行家进行调查。可通过组织召开座谈会．也可以通过采访，填写等方法进行，从中选出主要影响因素为了避免影响因素确定的随意性，提高回归模型的精度和减少预测工作量，可通过查阅有关后，再对各影响因素进行相关度(或关联度)和共线性分析，从而再次筛选出最主要的影响因素．所谓相关度分析就是将各影响因素的时间序列与公路客货运量的时间序列做相关分杯事先确定—个，对相关系数小于的影响因素进行淘汰．关联度是灰色中反映事物发展变化过程中各因素之间的关联程度，可通过建空公路客、货运量与各影响影响因素之间关联系数矩阵，按一定的标准系数舍去关联度小的影响因素．所谓共线性是指某些影响因素之问存在着线性关系或接近于线性关系．由于公路运输经济自身的特点，影响公路客，货运输量的诸多因素之问总是存在着一定的相关性，持别是与有关的一些价值型指标。
　　我们研究的不是有无相关性问题而是共线性的程度，如果影响因素之间的共线性程度很高，首先会降低参数估计值的精度。其次在回归方程建立后的统计检验中导致舍去重要的影响因素或错误的地接受无显著影响的因素，从而使整个预测工作失去实际意义。关于共线性程度的判定，可利用逐步分析的理论编制计算机程序来实现。或者通过比较rij和R2的大小来判定。在预测学上，一般认为当rij & R2时，共线性是严重的，其含义是，多元线性回归方程中所含的任意两个自变量xi,xj之间的相关系数rij大于或等于该方程的样本可决系数R2时，说明自变量中存在着严重的共线性问题。
　　2.建立经验线性回归方程利用最小二乘法原理寻求使误差平方和达到撮小的经验线性回归方程：
　　y——预测的客、货运量
　　g——各主要影响因数
　　对收集的历年客、货运输量和各主要影响因素的统计资料进行审核和加工整理是为了保证预测工作的质量。
　　资料整理主要包括下列内容：
　　(1)资料的补缺和推算。
　　(2)对不可靠资料加以核实调整．对查明原因的异常值加以修正。
　　(3)对时间序列中不可比的资料加以调整和；对按计算的应折算成按统。
　　4.多元线性回归模型的参数估计
　　在经验线性回归模型中，是要估计的参数，可通过数理统计理论建立模型来确定。在实际预测中，可利用多元线性回归复相关分析的计算机程序来实现·5.对模型参数的估计值进行检验。
　　此项工作的目的在于判定估计值是否满意、可靠。一般检验工作须从以下几方面来进行。
经济意义检验
　　关于的数学模型，首先要检验模型是否有经济意义，&p若参数估计值的符号和大小与公路运输经济发展以及经济判别不符合时，这时所估计的模型就不能或很难解释公路运输经济的一般发展规律．就应抛弃这个模型．需要重新构造模型或重新挑选影响因素。
　　统计检验是数理统计理论的重要内容，用于检验模型估计值的。通常，在公路客、货运量预测中应采用的统计检验是：
拟合度检验
　　所谓拟合度是指所建立的模型与观察的实际情况轨迹是否吻合、接近，接近到什么程度。统计学是通过构造统计量R2来量度的，R2可由样本数据计算得出。若建立的模型愈接近于实际，则R^2愈接近于1。
回归方程的显著性检验
　　回归方程的显著性检验是通过方差分析构造统计量F来进行的，统计量F是通过样本数据计算得出的。当给定某一置信度后，可以通过查阅F表来确定回归模型从总体效果来看是否可以采纳。
参数估计值的检验
　　估计值的标准差是衡量估计值与真实参数值的的一种量度。参数的标准差越大，估计值的可靠性也就越小；反之，如果标准差越小，那么估计值的可靠性也就越大。参数值标准差的检验，可以通过构造大统计量来进行量度。当给定某一置信度后，可以通过查表来确定模型中某个参数估计值的可靠性。
　　应当强调指出．统计检验相对于经济意义检验来说是第二位的。如果经济意义检验不合理，那么即使统计检验可以达到很高的置信度，也应当抛弃这种估计结果，因为用这样的结果来进行经济预测是没有意义的。
　　6.最优回归方程的确定
　　经过上述的经济意义和统计检验后，挑选出的线性回归方程往往是好几个、为了从中优选出用于进行实际预测的方程，我们可以采用定性和定量相结合的办法。
　　从数理统计的原理来讲，应挑选方程的剩余均方和S·E较小为好．但作为经济预'删还必须尽量考虑到方程中的影响因素更切合实际和其未来值更易把握的原则来综合考虑。当然、有时也可以从中挑选出好几个较优的回归方程．通过预测后，分别作为不同的高、中、低方案以供决策人员选择。
　　7.模型的实际预测检验
　　在获得模型参数估计值后，又经过了上述一系列检验而选出的最优(或较优)回归方程，还必须对模型的预测能力加以检验。不难理解、最优回归方程对于样本期间来说是正确的，但是对用于实际预测是否合适呢?为此，还必须研究参数估计值的稳定性及相对于变化时的灵敏度，也必须研究确定估计出来的模型是否可以用于样本观察值以外的范国，其具休做法是：
　　(1)采用把增大样本容量以后模型估计的结果与原来的估计结果进行比较，并检验其差异的显著性。
　　(2)把估计出来的模型用于样本以外某一时间的实际预测，并将这个预测值与实际的观察值作一比较，然后检验其差异的显著性。
　　8.模型的应用
　　公路客、货运输量多元线性回归预测模型的研究目的主要有以下几个方面。
　　(1)进行结构分析，研究影响该地区的公路客、货运输量的主耍因素和各影响因素影响程度的大小，进一步探讨该地区公路运输经济理论。
　　(2)预测该地区今后年份的公路客、货运输量的变化，以便为、公路运输政策及公路运辅建设作出正确决策提供理论依据。另外，还可以通过公路客．货运输量与公路交通量作相关分析来对公路的饱和度发展趋势进行预测。从而为公路的新建、扩建项目的投资提供决策分析。
　　(3)模拟各种下的，以便对有关政策进行评价。
　　四、经调查分析，影响某地区旅客运输量的因素为。
　　x1——国民收入
　　x2——工农业总产值
　　x3——
　　x4——人口
　　x5——客车保有量
　　x6——城乡居民
　　经计算得下列相关系数表：
x1x2x3x4x5x6
Y0.94390.92 87O.90 430.99140.96700.7021
0.97 3 60.96l 4O.932 6O.8645O.93210.6678
　　Y——客运盈
　　若令& = 0.85，则可以舍去x6这个影响因索，也就是认为“城乡居民储蓄存款”不能作为响旅客运输量的主要因素。
　　2.经调查分析、影响某地区旅客运输量的因素为：
　　x1——国民收入
　　x2——工农业总产值
　　x3——社会总产值
　　x4——人口
　　x5——客车保有量
　　x6——国民生产总值
　　x7——公路通车里程
　　经计算得客运量和旅客周转量的经验线性回归方程如下：
　　Y = &0 + &1x1 + &2x2 + &5x5　　R^2=0.9997
　　　　R^2=0.9962
　　Z = &0 + &4x4 + &5x5 + &7x7　　R^2=0.9983
　　　　R2 = 0.9990
　　Y——客运盈
　　Z——旅客周转量
　　各自变量问的相关系数表如下：
　　由上述计算可知，四个方程中均未出现rij & R2的情况．因此可以认为各自方程中的影响因素之间不存在严重共线性问题。
　　3.经调查分析，影响某地区货运周转量的因素为：
　　x1——国民收入
　　x2——工农业总产值
　　x3——基建投资额
　　x4——
　　x5——钢铁、化肥、水泥、粮食总产量
　　x6——国民总产值
　　x7——社会商品零售总额
　　x8——相邻地、市工农业总产值的平均值
　　Y = a0 + a4x4 + a6x6 + a7x7　　(1)
　　其中:R2=0.9875　　F=206.33　　S·E=1673.24
　　t4=-2.8321　　t6=3.1407　　t7=2.7431
　　Y = b0 + b2x2 + b4x4　　(2)
　　其中:R2=0.9764　　F=164.59　　S·E=1044.27
龚曙明.市场调查与预测/清华大学出版社, 2005 ., 5
马进.公路客货运输量多元线性回归预测方法探讨[J].汽车运输研究.1994(1)
本条目对我有帮助169
&&如果您认为本条目还有待完善，需要补充新内容或修改错误内容，请。
本条目由以下用户参与贡献
,,,,,,,,,,,,,,,,,,.
(window.slotbydup=window.slotbydup || []).push({
id: '224685',
container: s,
size: '728,90',
display: 'inlay-fix'
评论(共38条)提示:评论内容为网友针对条目"多元线性回归分析预测法"展开的讨论，与本站观点立场无关。
发表评论请文明上网，理性发言并遵守有关规定。
以上内容根据网友推荐自动排序生成研究生论文中常用的回归分析具体方法研究生论文中常用的回归分析具体方法小懂科技百家号上次明明同学给大家分享的研究生让你paper发发发的几种数据方法，得到大家的广泛关注和好评，这里明明同学谢谢大家对"毕业零距离"的支持。其中的数据方差分析方法明明同学已经给大家分享过，今天明明同学给大家分享回归分析的R语言分析方法。本文主要介绍以下内容：R语言中线性模型lm函数公式及参数一元线性回归实现与检验过程讲解lm()函数R语言中广义线性模型glm()函数R语言中线性回归方程拟合函数lm()Lm()是R语言中拟合线性回归函数。官方文档对他的用法解释是这样的：官方文档用法解释官方文档参数比较多，明明同学感觉没有必要研究那么多，这里明明同学讲解最常用的方法即：lm(formula, data)formula：表示你要拟合的公式，一般有以下几种公式中特殊符号表达的含义为：Data：你要拟合的数据集下面明明同学以一元线性的例子为大家介绍如何使用R语言做回归分析（本部分数据为UsingR包里面的父亲身高和儿子身高数据）。一元线性回归这是最简单的回归形式，用于确定两个变量之间的关系。也就是说，给定一个变量，回归告诉我另外一个变量的期望值是多少。分析中所形成的这种关系称为回归模型，其中以一条直线方程表明两个变量依存关系的模型叫做一元线性模型也称为简单的线性回归。其主要步骤包括：建立回归模型、求解回归模型中的参数、对回归模型进行检验。UsingR包里面的父亲身高和儿子身高数据（单位英尺）用ggplot2包的ggplot函数做散点图查看数据大致趋势R语言代码父亲身高和儿子身高散点图从图中可以看出数字大致成直线分布，此时用ggplot2包中的geom_smooth(method="lm")为图形添加线性回归直线查看直线位置和走势。添加回归模型之后的图到此我们把回归模型的图做出来了，但是这个图并没有把结果提供给我们，所以我们在R语言中用lm()函数来实际计算回归方程。过程如下图从图结果中红色框框可以看出拟合的模型截距项为33.886，fheight的系数为0.51409。所以拟合的方程结果为sheight = 0.51409fheight + 33.886 。从结果中还可以看出R2为0.2513，F检验值为361.2自由度为（1，1076），系数P检验值和模型P检验值都小于0.05，于是在α=0.05水平处拒绝H0，接受H1，即本例回归系数有统计学意义，两个变量之间有显著的回归关系。使用plot(模型拟合结果)查看模型拟合图Q-Q图正态性当预测变量值固定时，因变量成正态分布，则残差值也应该是一个均值为0的正态分布。正态Q-Q图(Normal Q-Q，右上)是在正态分布对应的值下，标准化残差的概率图。若满足正态假设，那么图上的点应该落在呈45度角的直线上;若不是如此，那么就违反了正态性的假设。模型Q-Q图残差图与拟合图变量之间线性是否好，在"残差图与拟合图"( Residuals vs Fitted)中如果是一条直线说明变量之间线性关系很好。模型残差图与拟合图位置尺度图同方差性若满足不变方差假设，那么在位置尺度图(Scale-Location Graph)中，水平线周围的点应该随机分布库克距离用来查看数据是否有异常点，一般指有着很大残差（绝对值）的点，如果对模型的参数估计值影响出现了比例失衡，那么我们称之为强影响点。库克距离能够查看異常点的分布。R语言广义线性模型glm()函数广义线性模型现实生活中并非所有的数据都适合用线性回归模型，像二项分布（真/假）数据、计数数据或者其他的数据形式都不适合。为了模拟这些类型的数据、发展了广义线性模型。广义线性模型glm()：glm(formula , family=gaussian , data,…)formula:的写法可以参考lm()函数，公式写法是一样的。Family 为分布族，包括正态分布（gaussian）、二项分布（binomial）、泊松分布（poisson）和伽马分布（gamma），分布族还可以通过选项Link = 来指定使用的链接函数。常用的链接函数：二项族里有logit 、probit 、 cauchit 、 log 、 cloglog ；伽马族有inverse、identify、log；泊松族有log、identify、和sqrt。Data 是数据框实例：我们对45名驾驶员调查结果进行如下统计：x1 : 表示视力状况，是一个分类变量，1表示好，0表示有问题；x2 : 年龄，数值型x3 : 驾车教育，分类变量 1表示参加过驾车教育， 0 表示没有y ：分类变量表示去年是否出过事故， 1表示出过事故， 0表示没有45名驾驶员调查结果我们这里考查前三个变量x1 , x2 , x3与发生事故的关系这里用逻辑斯蒂进行回归拟合由结果可知，x2 和 x3并没有通过检验，下一步用step()函数，逐步回归在进行变量的筛选。看出最终只有变量x1入选模型。然后对模型就行预测，即对视力正常的和视力有问题的司机分别作预测，即预测发生交通事故的概率。由此可见眼睛有问题的司机的交通事故率是眼睛正常的司机交通事故率的差不多两倍。下次明明同学给大家讲解如何在R语言中轻松实现判别分析。查看历史文章学习更多数据分析技巧、EXCEL和PPT使用技巧有任何问题可以私信明明同学，帮助你解决数据分析的难处。本文由百家号作者上传并发布，百家号仅提供信息发布平台。文章仅代表作者个人观点，不代表百度立场。未经作者许可，不得转载。小懂科技百家号最近更新：简介:挖掘新鲜的科技动态与有趣的科技圈故事作者最新文章相关文章}

久游无息网