逻辑回归中存在欠离散数学命题逻辑用pearson方法调整吗

七月在线4月机器学习算法班课程笔记——No.5
  回归算法是一种通过最小化预测值与实际结果值之间的差距,而得到输入特征之间的最佳组合方式的一类算法。对于连续值预测有线性回归等,而对于离散值/类别预测,我们也可以把逻辑回归等也视作回归算法的一种。
  线性回归与逻辑回归是机器学习中比较基础又很常用的内容。线性回归主要用来解决连续值预测的问题,逻辑回归用来解决分类的问题,输出的属于某个类别的概率,工业界经常会用逻辑回归来做排序。在SVM、GBDT、AdaBoost算法中都有涉及逻辑回归,回归中的损失函数、梯度下降、过拟合等知识点也经常是面试考察的基础问题。因此很重要的两个内容,需要仔细体会~
1. 线性回归
1.1 线性回归问题
  线性回归,是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。其表达形式为y = w’x+e,e为误差服从均值为0的正态分布。中学就有接触线性回归,那么线性回归应用在什么地方呢?它适用于有监督学习的预测。
  一元线性回归分析:y=ax+b,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示。
  多元线性回归分析:hθ(x)=θ0+θ1x1+...+θnxn,包括两个或两个以上的自变量,并且因变量和自变量是线性关系。
1.2 损失函数
  损失函数:是指一种将一个事件(在一个样本空间中的一个元素)映射到一个表达与其事件相关的经济成本或机会成本的实数上的一种函数。更通俗地说,损失函数用来衡量参数选择的准确性。损失函数定义为:
J(θ0,θ1,...,θn)=12m∑i=1m(hθ(x(i))-y(i))2
这个公式计算的是线性回归分析的值与实际值的距离的平均值。显然,损失函数得到的值越小,损失也就越小。
1.3 梯度下降
  怎样最小化损失函数?损失函数的定义是一个凸函数,就可以使用凸优化的一些方法:
1) 梯度下降:逐步最小化损失函数的过程。如同下山的过程,找准下山方向(梯度),每次迈进一步,直至山底。如果有多个特征,对应多个参数θ,需要对每一个参数做一次迭代θj:=θj-α??θjJ(θ0,θ1),做完以后再求J函数。
  学习率:上段公式中的α就是学习率。它决定了下降的节奏快慢,就像一个人下山时候步伐的快慢。α过小会导致收敛很慢,α太大有可能会导致震荡。如何选择学习率呢,目前也有好多关于学习率自适应算法的研究。工程上,一般会调用一些开源包,包含有一些自适应方法。自己做的话会选择相对较小的α,比如0.01。下图展示了梯度下降的过程。
2) 牛顿法:速度快适用于小数据,大数据比较耗内存。
1.4 过拟合与正则化
  回归与欠/过拟合:
1) 欠拟合:函数假设太简单导致无法覆盖足够的原始数据,可能造成数据预测的不准确。
2) 拟合问题:比如我们有很多的特征,假设的函数曲线对原始数据拟合的非常好,从而丧失一般性,导致对新给的待预测样本,预测效果差。下图就是一个例子,一个复杂的曲线,把所有点都拟合进去了,但是泛化能力变差了,没有得到一个规律性的函数,不能有效的预测新样本。
  过拟合解决方法:
1) 减少特征个数:手工选择保留特征、模型选择的算法选择特征。
2) 正则化:在原来的损失函数中加入θ的平方项,来防止波动太大。
J(θ0,θ1,...,θn)=12m[∑i=1m(hθ(x(i))-y(i))2+λ∑j=1nθ2j]
即L2正则化。留下所有的特征,但是减少参数的大小。
2. 逻辑(斯特)回归
2.1 应用分析
  与线性回归不同,逻辑回归主要用于解决分类问题,那么线性回归能不能做同样的事情呢?下面举一个例子。比如恶性肿瘤和良性肿瘤的判定。假设我们通过拟合数据得到线性回归方程和一个阈值,用阈值判定是良性还是恶性:
  如图,size小于某值就是良性,否则恶性。但是“噪声”对线性方程的影响特别大,会大大降低分类准确性。例如再加三个样本就可以使方程变成这样:
  那么,逻辑斯特回归是怎么做的呢?如果不能找到一个绝对的数值判定肿瘤的性质,就用概率的方法,预测出一个概率,比如&0.5判定为恶性的。
2.2 Sigmoid函数
  逻辑回归首先把样本映射到[0,1]之间的数值,这就归功于sigmoid函数,可以把任何连续的值映射到[0,1]之间,数越大越趋向于0,越小越趋近于1。Sigmoid函数公式如下:
g(z)=11+e-z
  函数的图像如下图,x=0的时候y对应中心点。
  判定边界:对多元线性回归方程求Sigmoid函数hθ(x)=g(θ0+θ1x1+...+θnxn),找到一组θ,假设得到-3+x1+x2=0的直线,把样本分成两类。把(1,1)代入g函数,概率值&0.5,就判定为负样本。这条直线就是判定边界,如下图:
  除了线性判定边界,还有较复杂的非线性判定边界。
2.3 逻辑回归的损失函数
  线性回归的损失函数对逻辑回归不可用,因为逻辑回归的值是0或者1,求距离平均值会是一条不断弯曲的曲线,不是理想的凸函数。聪明的数学家找到了一个适合逻辑回归的损失定义方法:
Cost(hθ(x),y)={-log(hθ(x)),-log(1-hθ(x)),if y=1if y=0
  其中hθ(x)是一个概率值,y=1表示正样本,y=0表示负样本。当y是正样本时,如果给定的概率特别小(预测为负样本),损失就会很大;给定的概率很大(预测为正样本),损失就会接近0。损失值的函数如图:
  带L2正则项的损失函数:
J(θ)=[-1m∑i=1my(i)log(hθ(x(i))+(1-y(i))log1-hθ(x(i))]+λm∑j=1nθ2j
 这个函数依然可以用梯度下降求解。
2.4 多分类问题
  刚才讲述的都是二分类的问题,那如果是多分类的问题,又该怎么做呢?其实可以套用二分类的方法,根据特征,一层层细化类别。比如下图中有三种形状:
  可以先用一个分类器区分“正方形”和“非正方形”,再用一个分类器对非正方形区分,得到“三角形”和“非三角形”,然后再用一个分类器区分叉。
3. 工程应用经验
  逻辑斯特回归(LR)是个比较基础的算法,在它只会有很多算法SVM/GBDT/RandomForest。复杂的算法比较难以把握,工业界更偏向于用简单的算法。
3.1 LR优点与应用
  LR的优点:
1) LR是以概率的形式输出结果,不只是0和1的判定;
2) LR的可解释强,可控性高;
3) 训练快,feature engineering之后效果赞;
4) 因为结果是概率,可以做ranking model;
5) 添加feature简单。
  LR的应用场景很多哈:
1) CTR预估、推荐系统的learning to rank;
2) 一些电商搜索排序基线;
3) 一些电商的购物搭配推荐;
4) 新闻app排序基线。
3.2 关于样本处理
  样本太大怎么处理?
1) 对特征离散化,离散化后用one-hot编码处理成0,1值,再用LR处理会较快收敛;
2) 如果一定要用连续值的话,可以做scaling;
3) 工具的话有 spark Mllib,它损失了一小部分的准确度达到速度的提升;
4) 如果没有并行化平台,想做大数据就试试采样。需要注意采样数据,最好不要随机取,可以按照日期/用户/行为,来分层抽样。
  怎么使样本平衡?
1) 如果样本不均衡,样本充足的情况下可以做下采样——抽样,样本不足的情况下做上采样——对样本少的做重复;
2) 修改损失函数,给不同权重。比如负样本少,就可以给负样本大一点的权重;
3) 采样后的predict结果,用作判定请还原。
3.3 关于特征处理
1) 离散化优点:映射到高维空间,用linear的LR(快,且兼具更好的分割性);稀疏化,0,1向量内积乘法运算速度快,计算结果方 便存储,容易扩展;离散化后,给线性模型带来一定的非线性;模型稳定,收敛度高,鲁棒性好;在一定程度上降低了过拟合风险
2) 通过组合特征引入个性化因素:比如uuid+tag
3) 注意特征的频度: 区分特征重要度,可以用重要特征产出层次判定模型
3.4 算法调优
假设只看模型的话:
1) 选择合适的正则化:L2准确度高,训练时间长;L1可以做一定的特征选择,适合大量数据
2) 收敛阈值e,控制迭代轮数
3) 样本不均匀时调整loss function,给不同权重
4) Bagging或其他方式的模型融合
5) 选择最优化算法:liblinear、sag、newton-cg等
相关 [线性回归 逻辑回归 csdn] 推荐:
七月在线4月机器学习算法班课程笔记——No.5.   回归算法是一种通过最小化预测值与实际结果值之间的差距,而得到输入特征之间的最佳组合方式的一类算法. 对于连续值预测有线性回归等,而对于离散值/类别预测,我们也可以把逻辑回归等也视作回归算法的一种.   线性回归与逻辑回归是机器学习中比较基础又很常用的内容.
(这章起换用Markdown). 《Mastering Machine Learning With scikit-learn》是一本非常实用的机器学习实战书籍,它使用通俗易懂的语言和适度的理论知识来帮助python开发者使用scikit-learn机器学习工具包实现机器学习相关算法的应用. 早些时候我拜读了这本书,记了些笔记和重要的知识点,今天重新温习了遍,仍有收获,顺便张贴到博客上,一起学习交流.
- 神刀安全网
Logistic Regression in Python ,作了中文翻译,并相应补充了一些内容. 本文并不研究逻辑回归具体算法实现,而是使用了一些算法库,旨在帮助需要用Python来做逻辑回归的训练和预测的读者快速上手. 逻辑回归是一项可用于预测二分类结果(binary outcome)的统计技术,广泛应用于金融、医学、犯罪学和其他社会科学中.
Logistic Regression in Python,作了中文翻译,并相应补充了一些内容. 本文并不研究逻辑回归具体算法实现,而是使用了一些算法库,旨在帮助需要用Python来做逻辑回归的训练和预测的读者快速上手. 逻辑回归是一项可用于预测二分类结果(binary outcome)的统计技术,广泛应用于金融、医学、犯罪学和其他社会科学中.
- SegmentFault 最新的文章
TensorFlow 是一个基于 python 的机器学习框架. 在 Coursera 上学习了逻辑回归的课程内容后,想把在 MATLAB 中实现了的内容用 TensorFlow 重新实现一遍,当做学习 Python 和框架的敲门砖. 知道逻辑回归是什么,懂一点 Python,听说过 TensorFlow.
预测物品的点击率在计算广告、推荐系统等不同业务系统中都有一定需求,因此业界在这方面进行了不少研究. 然而在机器学习领域,书籍出版远远落后于业界知识更新,这就要求每个从业者阅读大量资料和论文才能跟上知识更新的步伐,而这又需要耗费大量的时间和精力. 本文是作者对阅读过的大量相关研究文献的小结,作者尝试结合文献与工作实践梳理广告点击率预测、推荐方面相关的技术脉络,希望能对大家有所帮助.
- keso - robbin的自言自语
从ITeye(JavaEye)被CSDN收购,我从上海搬家到北京上班,眨眼之间已经过去了一年多. 回顾过去这一年,生活环境发生了巨大改变,工作的职责和角色也重新定位,面临了一些新的困难和挑战. 总体来说,感觉自己这一年过得很充实,很有成就感,在公司的大力支持下,计划做并且花了时间和精力努力的事情基本都做成了,如果要给自己打分的话,我会打80分.
SpringBoot做接口访问如何做接口的限流,这里我们可以使用google的Guava包来实现,当然我们也可以自己实现限流,Guava中的限流是久经考验的我们没必需重新再去写一个,如果想了解限流原理的同学可以自己查阅一下相关的资料,本文不作过来说明噢. 在项目中引入
Guava相关包.
- 蓝鲸的网站分析笔记
Tensorflow是Google开发的开源机器学习库. 本篇文章我们将使用Tensorflow对线性回归模型进行训练,并使用模型对数据进行预测. 首先导入所需的库文件,包括tensorflow,numpy和matplotlib. Tensorflow用于创建和训练线性回归模型,numpy用于提取数据和计算均方误差MSE,matplotlib用于绘制成本函数变化图.
- Calvin998 - 《程序员》杂志官网
概要:这是一篇2009年写下的博文,但我们却愿意将它评选为“2010 年度CSDN十大博客文章”之首. 因为这篇“慢热型”的博文,整个2010年内,在CSDN社区内被广泛转帖,并得到网友们的交口称赞. 本文作者岑文初根据自身经历,总结出六条秘籍:爱这行;踏踏实实打好基本功;注重日常积累,厚积薄发;技术上做到既广且钻;培养分析问题能力,善于追根溯源;全面培养能力,不做纯粹“技术人员”;阿里巴巴六脉神剑文化.
--> 坚持分享优质有趣的原创文章,并保留作者信息和版权声明,任何问题请联系:itarea.。按字母检索
按声母检索
Copyright &
. All Rights Reserved简述一下Logistic回归分析指标重要程度的主要过程_百度知道
简述一下Logistic回归分析指标重要程度的主要过程
还有与其他主要回归分析方法的优缺点比较
我有更好的答案
Logistic回归:实际上属于判别分析,因拥有很差的判别效率而不常用。 1. 应用范围:① 适用于流行病学资料的危险因素分析② 实验室中药物的剂量-反应关系③ 临床试验评价④ 疾病的预后因素分析2. Logistic回归的分类:① 按因变量的资料类型分:二分类多分类其中二分较为常用② 按研究方法分:条 件Logistic回归非条件Logistic回归两者针对的资料类型不一样,后者针对成组研究,前者针对配对或配伍研究。3.Logistic回归的应用条件是:① 独立性。各观测对象间是相互独立的;② LogitP与自变量是线性关系;③ 样本量。经验值是病例对照各50例以上或为自变量的5-10倍(以10倍为宜),不过随着统计技术和软件的发展,样本量较小或不能进行似然估计的情况下可采用精确logistic回归分析,此时要求分析变量不能太多,且变量分类不能太多;④ 当队列资料进行logistic回归分析时,观察时间应该相同,否则需考虑观察时间的影响(建议用Poisson回归)。4. 拟和logistic回归方程的步骤:① 对每一个变量进行量化,并进行单因素分析;② 数据的离散化,对于连续性变量在分析过程中常常需要进行离散变成等级资料。可采用的方法有依据经验进行离散,或是按照四分、五分位数法来确定等级,也可采用聚类方法将计量资料聚为二类或多类,变为离散变量。③ 对性质相近的一些自变量进行部分多因素分析,并探讨各自变量(等级变量,数值变量)纳入模型时的适宜尺度,及对自变量进行必要的变量变换;④ 在单变量分析和相关自变量分析的基础上,对P≤α(常取0.2,0.15或0.3)的变量,以及专业上认为重要的变量进行多因素的逐步筛选;模型程序每拟合一个模型将给出多个指标值,供用户判断模型优劣和筛选变量。可以采用双向筛选技术:a进入变量的筛选用score统计量或G统计量或LRS(似然比统计量),用户确定P值临界值如:0.05、0.1或0.2,选择统计量显著且最大的变量进入模型;b剔除变量的选择用Z统计量(Wald统计量),用户确定其P值显著性水平,当变量不显者,从模型中予以剔除。这样,选入和剔除反复循环,直至无变量选入,也无变量删除为止,选入或剔除的显著界值的确定要依具体的问题和变量的多寡而定,一般地,当纳入模型的变量偏多,可提高选入界值或降低剔除标准,反之,则降低选入界值、提高删除标准。但筛选标准的不同会影响分析结果,这在与他人结果比较时应当注意。⑤ 在多因素筛选模型的基础上,考虑有无必要纳入变量的交互作用项;两变量间的交互作用为一级交互作用,可推广到二级或多级交互作用,但在实际应用中,各变量最好相互独立(也是模型本身的要求),不必研究交互作用,最多是研究少量的一级交互作用。⑥ 对专业上认为重要但未选入回归方程的要查明原因。5. 回归方程拟合优劣的判断(为线性回归方程判断依据,可用于logistic回归分析)① 决定系数(R2)和校正决定系数( ),可以用来评价回归方程的优劣。R2随着自变量个数的增加而增加,所以需要校正;校正决定系数( )越大,方程越优。但亦有研究指出R2是多元线性回归中经常用到的一个指标,表示的是因变量的变动中由模型中自变量所解释的百分比,并不涉及预测值与观测值之间差别的问题,因此在logistic回归中不适合。② Cp选择法:选择Cp最接近p或p+1的方程(不同学者解释不同)。Cp无法用SPSS直接计算,可能需要手工。1964年CL Mallows提出:Cp接近(p+1)的模型为最佳,其中p为方程中自变量的个数,m为自变量总个数。③ AIC准则:1973年由日本学者赤池提出AIC计算准则,AIC越小拟合的方程越好。在logistic回归中,评价模型拟合优度的指标主要有Pearson χ2、偏差(deviance)、Hosmer- Lemeshow (HL)指标、Akaike信息准则(AIC)、SC指标等。Pearson χ2、偏差(deviance)主要用于自变量不多且为分类变量的情况,当自变量增多且含有连续型变量时,用HL指标则更为恰当。Pearson χ2、偏差(deviance)、Hosmer- Lemeshow (HL)指标值均服从χ2分布,χ2检验无统计学意义(P&0.05)表示模型拟合的较好,χ2检验有统计学意义(P≤0.05)则表示模型拟合的较差。AIC和SC指标还可用于比较模型的优劣,当拟合多个模型时,可以将不同模型按其AIC和SC指标值排序,AIC和SC值较小者一般认为拟合得更好。6. 拟合方程的注意事项:① 进行方程拟合对自变量筛选采用逐步选择法[前进法(forward)、后退法(backward)、逐步回归法(stepwise)]时,引入变量的检验水准要小于或等于剔除变量的检验水准;② 小样本检验水准α定为0.10或0.15,大样本把α定为0.05。值越小说明自变量选取的标准越严;③ 在逐步回归的时可根据需要放宽或限制进入方程的标准,或硬性将最感兴趣的研究变量选入方程;④ 强影响点记录的选择:从理论上讲,每一个样本点对回归模型的影响应该是同等的,实际并非如此。有些样本点(记录)对回归模型影响很大。对由过失或错误造成的点应删去,没有错误的强影响点可能和自变量与应变量的相关有关,不可轻易删除。⑤ 多重共线性的诊断(SPSS中的指标):a容许度:越近似于0,共线性越强;b特征根:越近似于0,共线性越强;c条件指数:越大,共线性越强;⑥ 异常点的检查:主要包括特异点(outher)、高杠杆点(high leverage points)以及强影响点(influential points)。特异点是指残差较其他各点大得多的点;高杠杆点是指距离其他样品较远的点;强影响点是指对模型有较大影响的点,模型中包含该点与不包含该点会使求得的回归系数相差很大。单独的特异点或高杠杆点不一定会影响回归系数的估计,但如果既是特异点又是高杠杆点则很可能是一个影响回归方程的“有害”点。对特异点、高杠杆点、强影响点诊断的指标有Pearson残差、Deviance残差、杠杆度统计量H(hat matrix diagnosis)、Cook 距离、DFBETA、Score检验统计量等。这五个指标中,Pearson残差、Deviance残差可用来检查特异点,如果某观测值的残差值&2,则可认为是一个特异点。杠杆度统计量H可用来发现高杠杆点, H值大的样品说明距离其他样品较远,可认为是一个高杠杆点。Cook 距离、DFBETA指标可用来度量特异点或高杠杆点对回归模型的影响程度。Cook距离是标准化残差和杠杆度两者的合成指标,其值越大,表明所对应的观测值的影响越大。DFBETA指标值反映了某个样品被删除后logistic回归系数的变化,变化越大(即DFBETA指标值越大),表明该观测值的影响越大。如果模型中检查出有特异点、高杠杆点或强影响点,首先应根据专业知识、数据收集的情况,分析其产生原因后酌情处理。如来自测量或记录错误,应剔除或校正,否则处置就必须持慎重态度,考虑是否采用新的模型,而不能只是简单地删除就算完事。因为在许多场合,异常点的出现恰好是我们探测某些事先不清楚的或许更为重要因素的线索。7. 回归系数符号反常与主要变量选不进方程的原因:① 存在多元共线性;② 有重要影响的因素未包括在内;③ 某些变量个体间的差异很大;④ 样本内突出点上数据误差大;⑤ 变量的变化范围较小;⑥ 样本数太少。8. 参数意义① Logistic回归中的常数项(b0)表示,在不接触任何潜在危险/保护因素条件下,效应指标发生与不发生事件的概率之比的对数值。② Logistic回归中的回归系数(bi)表示,其它所有自变量固定不变,某一因素改变一个单位时,效应指标发生与不发生事件的概率之比的对数变化值,即OR或RR的对数值。需要指出的是,回归系数β的大小并不反映变量对疾病发生的重要性,那么哪种因素对模型贡献最大即与疾病追问:联系最强呢? (InL(t-1)-InL(t))三种方法结果基本一致。③ 存在因素间交互作用时,Logistic回归系数的解释变得更为复杂,应特别小心。④ 模型估计出OR,当发病率较低时,OR≈RR,因此发病率高的疾病资料不适合使用该模型。另外,Logistic模型不能利用随访研究中的时间信息,不考虑发病时间上的差异,因而只适于随访期较短的资料,否则随着随访期的延长,回归系数变得不稳定,标准误增加。9. 统计软件能够进行logistic回归分析的软件非常多,常用的有SPSS、SAS、Stata、EGRET (Epidemiological Graphics Estimation and Testing Package)等。
采纳率:90%
来自团队:
可以用来评价回归方程的优劣,也无变量删除为止,选入或剔除的显著界值的确定要依具体的问题和变量的多寡而定,此时要求分析变量不能太多,且变量分类不能太多;④
当队列资料进行logistic回归分析时:1973年由日本学者赤池提出AIC计算准则;b特征根:越近似于0,共线性越强;c条件指数:越大,当纳入模型的变量偏多,可提高选入界值或降低剔除标准:选择Cp最接近p或p+1的方程(不同学者解释不同),一般地;高杠杆点是指距离其他样品较远的点;强影响点是指对模型有较大影响的点:从理论上讲,每一个样本点对回归模型的影响应该是同等的,实际并非如此,并探讨各自变量(等级变量,数值变量)纳入模型时的适宜尺度,及对自变量进行必要的变量变换,最多是研究少量的一级交互作用。⑥
对专业上认为重要但未选入回归方程的要查明原因。Pearson χ2、偏差(deviance)主要用于自变量不多且为分类变量的情况:a进入变量的筛选用score统计量或G统计量或LRS(似然比统计量),用户确定P值临界值如.2,共线性越强。但筛选标准的不同会影响分析结果、五分位数法来确定等级,也可采用聚类方法将计量资料聚为二类或多类,因此在logistic回归中不适合,用户确定其P值显著性水平,当变量不显者。4.
拟和logistic回归方程的步骤。5.
回归方程拟合优劣的判断(为线性回归方程判断依据。R2随着自变量个数的增加而增加,考虑有无必要纳入变量的交互作用项;两变量间的交互作用为一级交互作用,可推广到二级或多级交互作用、逐步回归法(stepwise)]时。有些样本点(记录)对回归模型影响很大。对由过失或错误造成的点应删去,反之,则降低选入界值、提高删除标准,所以需要校正;校正决定系数( )越大,方程越优,当自变量增多且含有连续型变量时:①
对每一个变量进行量化,并进行单因素分析:①
按因变量的资料类型分:二分类多分类其中二分较为常用②
按研究方法分;模型程序每拟合一个模型将给出多个指标值。特异点是指残差较其他各点大得多的点,评价模型拟合优度的指标主要有Pearson χ2、偏差(deviance):0:①
适用于流行病学资料的危险因素分析②
实验室中药物的剂量-反应关系③
临床试验评价④
疾病的预后因素分析2. Logistic回归的分类;⑥
异常点的检查:主要包括特异点(outher)、高杠杆点(high leverage points)以及强影响点(influential points)、Akaike信息准则(AIC),AIC越小拟合的方程越好。在logistic回归中、偏差(deviance)、Hosmer- Lemeshow (HL)指标值均服从χ2分布,χ2检验无统计学意义(P&0.05)表示模型拟合的较好,可用于logistic回归分析)①
决定系数(R2)和校正决定系数(
):实际上属于判别分析;④
在单变量分析和相关自变量分析的基础上,对P≤α(常取0;④
强影响点记录的选择,样本量较小或不能进行似然估计的情况下可采用精确logistic回归分析,共线性越强,可以将不同模型按其AIC和SC指标值排序,AIC和SC值较小者一般认为拟合得更好。6.
拟合方程的注意事项:①
进行方程拟合对自变量筛选采用逐步选择法[前进法(forward),模型中包含该点与不包含该点会使求得的回归系数相差很大。单独的特异点或高杠杆点不一定会影响回归系数的估计,但如果既是特异点又是高杠杆点则很可能是一个影响回归方程的“有害”点。对特异点、高杠杆点、强影响点诊断的指标有Pearson残差、Deviance残差、杠杆度统计量H(hat matrix diagnosis)、Cook 距离、DFBETA、Score检验统计量等。这五个指标中,Pearson残差、Deviance残差可用来检查特异点,如果某观测值的残差值&2,则可认为是一个特异点。杠杆度统计量H可用来发现高杠杆点, H值大的样品说明距离其他样品较远,可认为是一个高杠杆点。Cook 距离、DFBETA指标可用来度量特异点或高杠杆点对回归模型的影响程度。Cook距离是标准化残差和杠杆度两者的合成指标,其值越大,表明所对应的观测值的影响越大。DFBETA指标值反映了某个样品被删除后logistic回归系数的变化,变化越大(即DFBETA指标值越大),表明该观测值的影响越大。如果模型中检查出有特异点、高杠杆点或强影响点,首先应根据专业知识、数据收集的情况,分析其产生原因后酌情处理。如来自测量或记录错误,应剔除或校正,否则处置就必须持慎重态度,考虑是否采用新的模型,而不能只是简单地删除就算完事。因为在许多场合,异常点的出现恰好是我们探测某些事先不清楚的或许更为重要因素的线索。7.
回归系数符号反常与主要变量选不进方程的原因:①
存在多元共线性;②
有重要影响的因素未包括在内;③
某些变量个体间的差异很大;④
样本内突出点上数据误差大;⑤
变量的变化范围较小;⑥
样本数太少。8.
参数意义①
Logistic回归中的常数项(b0)表示,在不接触任何潜在危险/保护因素条件下,效应指标发生与不发生事件的概率之比的对数值。②
Logistic回归中的回归系数(bi)表示,其它所有自变量固定不变,某一因素改变一个单位时,效应指标发生与不发生事件的概率之比的对数变化值,即OR或RR的对数值。需要指出的是,回归系数β的大小并不反映变量对疾病发生的重要性,那么哪种因素对模型贡献最大即与疾病联系最强呢? (InL(t-1)-InL(t))三种方法结果基本一致。③
存在因素间交互作用时,Logistic回归系数的解释变得更为复杂,应特别小心。④
模型估计出OR,当发病率较低时,OR≈RR,因此发病率高的疾病资料不适合使用该模型。另外,Logistic模型不能利用随访研究中的时间信息,不考虑发病时间上的差异,因而只适于随访期较短的资料,否则随着随访期的延长,回归系数变得不稳定,标准误增加。9.
统计软件能够进行logistic回归分析的软件非常多,常用的有SPSS、SAS、Stata、EGRET (Epidemiological Graphics Estimation and Testing Package)等。,可能需要手工。1964年CL Mallows提出:Cp接近(p+1)的模型为最佳,其中p为方程中自变量的个数,m为自变量总个数,或硬性将最感兴趣的研究变量选入方程,选入和剔除反复循环、Hosmer- Lemeshow (HL)指标。⑤
多重共线性的诊断(SPSS中的指标):a容许度,引入变量的检验水准要小于或等于剔除变量的检验水准;②
小样本检验水准α定为0.10或0,但在实际应用中、后退法(backward).15或0.3)的变量,以及专业上认为重要的变量进行多因素的逐步筛选:①
独立性,没有错误的强影响点可能和自变量与应变量的相关有关,不可轻易删除。②
Cp选择法.05。值越小说明自变量选取的标准越严;③
在逐步回归的时可根据需要放宽或限制进入方程的标准,观察时间应该相同,否则需考虑观察时间的影响(建议用Poisson回归)Logistic回归,直至无变量选入、SC指标等,从模型中予以剔除。这样:条
件Logistic回归非条件Logistic回归两者针对的资料类型不一样。但亦有研究指出R2是多元线性回归中经常用到的一个指标,表示的是因变量的变动中由模型中自变量所解释的百分比,并不涉及预测值与观测值之间差别的问题:越近似于0。Cp无法用SPSS直接计算;②
数据的离散化,对于连续性变量在分析过程中常常需要进行离散变成等级资料。可采用的方法有依据经验进行离散,或是按照四分.15,大样本把α定为0,这在与他人结果比较时应当注意。⑤
在多因素筛选模型的基础上,各变量最好相互独立(也是模型本身的要求),不必研究交互作用,供用户判断模型优劣和筛选变量。可以采用双向筛选技术,后者针对成组研究,前者针对配对或配伍研究。3.Logistic回归的应用条件是,χ2检验有统计学意义(P≤0.05)则表示模型拟合的较差。AIC和SC指标还可用于比较模型的优劣,当拟合多个模型时,0。各观测对象间是相互独立的;②
LogitP与自变量是线性关系;③
样本量。经验值是病例对照各50例以上或为自变量的5-10倍(以10倍为宜),不过随着统计技术和软件的发展,因拥有很差的判别效率而不常用。 1. 应用范围,变为离散变量。③
对性质相近的一些自变量进行部分多因素分析,用HL指标则更为恰当。Pearson χ2。③
AIC准则.05、0.1或0.2,选择统计量显著且最大的变量进入模型;b剔除变量的选择用Z统计量(Wald统计量)
为您推荐:
其他类似问题
logistic回归的相关知识
换一换
回答问题,赢新手礼包
个人、企业类
违法有害信息,请在下方选择后提交
色情、暴力
我们会通过消息、邮箱等方式尽快将举报结果通知您。}

我要回帖

更多关于 逻辑回归 离散变量 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信