泊松回归spssspss分析结果怎么看看?

点击联系发帖人 时间：2018-08-26 01:15

spsst检验结果怎么看

SPSS数据分析―Poisson回归模型_百度文库
您的浏览器Javascript被禁用，需开启后体验完整功能，
享专业文档下载特权
&赠共享文档下载特权
&100W篇文档免费专享
&每天抽奖多种福利
两大类热门资源免费畅读
续费一年阅读会员，立省24元！
SPSS数据分析―Poisson回归模型
调查分析师中级|
总评分1.3|
用知识赚钱
&&SPSS数据分析―Poisson回归模型
该文档仅有一页，您已阅读完毕，如需下载请购买
定制HR最喜欢的简历
你可能喜欢怎么用spss做泊松回归_百度知道
怎么用spss做泊松回归
答题抽奖
首次认真答题后
即可获得3次抽奖机会，100%中奖。
采纳数：576
获赞数：3029
在regression里面做
为你推荐：
其他类似问题
您可能关注的内容
个人、企业类
违法有害信息,请在下方选择后提交
色情、暴力
我们会通过消息、邮箱等方式尽快将举报结果通知您。当前位置： >>
逆向思维与统计研究
本课内容包含? ? ? ? ? ? ? ? ? ? ? ? 统计回顾方差分析主成分分析和因子分析聚类分析判别分析典型相关分析对应分析列联表 Logistic回归 Poisson对数线性模型时间序列分析。。。。统计基本概念回顾规随律机性性和现实中的随机性和规律性? 从中学起，我们就知道自然科学的许多定律，例如物理中的牛顿三定律，物质不灭定律以及化学中的各种定律等等。 ? 但是在许多领域，很难用如此确定的公式或论述来描述一些现象。比如，人的寿命是很难预先确定的。一个吸烟、喝酒、不锻炼、而且一口长荤的人可能比一个很少得病、生活习惯良好的人活得长。 ? 因此，可以说，活得长短是有一定随机性的 (randomness)。这种随机性可能和人的经历、基因、习惯等无数说不清的因素都有关系。现实中的随机性和规律性 ? 但是从总体来说，我国公民的平均年龄却是非常稳定的。而且女性的平均年龄也稳定地比男性高几年。这就是规律性。 ? 一个人可能活过这个平均年龄，也可能活不到这个年龄，这是随机的。 ? 但是总体来说，平均年龄的稳定性，却说明了随机之中有规律性。这种规律就是统计规律。? 你可能经常听到概率（probability）这个名词。例如在天气预报中会提到降水概率。大家都明白，如果降水概率是百分之九十，那就很可能下雨；但如果是百分之十，就不大可能下雨。 ? 因此，从某种意义说来，概率描述了某件事情发生的机会。 ? 显然，这种概率不可能超过百分之百，也不可能少于百分之零。换言之，概率是在0和1之间的一个数，说明某事件发生的机会有多大。概率和机会有些概率是无法精确推断的? 比如你对别人说你下一个周末去公园的概率是百分之八十。但你无法精确说出为什么是百分之八十而不是百分之八十四或百分之七十八。 ? 其实你想说的是你很可能去，但又没有完全肯定。 ? 实际上，到了周末，你或者去，或者不去；不可能有分身术把百分之八十的你放到公园，而其余的放在别处。有些概率是可以估计的 ? 比如掷骰子。只要没有人在骰子上做手脚，你得到6点的概率应该是六分之一。得到其他点的概率也是一样。 ? 得到6的概率或者机会是可以知道的，但掷骰子的结果还只可能是六个数目之一。 ? 这个已知的规律就反映了规律性，而得到哪个结果则反映了随机性。 ? 如果你掷1000次骰子，那么，大约有六分之一的可能会得到6；这也是随机性呈现有规律的一个体现。变量? 做任何事情都要有对象。比如一个班上注册的学生有200人，这是一个固定的数目，称为常数（constant）或者常量。 ? 但是，如果猜测今天这个班有多少人会来上课，那就没准了。这有随机性。可能有请病假或事假的，也可能有逃课的。这样，就要来上课的人数是个变量(variable)。 ? 另外对于某项政策同意与否的回答，也有 “同意”、“不同意”或者“不知道”三种可能值；这也是变量，只不过不是数量而已。变量? 当变量按照随机规律所取的值是数量时该变量称为定量变量或数量变量（quantitative variable）；因为是随机的，也称为随机变量（random variable）。 ? 象性别，观点之类的取非数量值的变量就称为定性变量或属性变量或分类变量（qualitative variable，categorical variable）。 ? 这些定性变量也可以由随机变量来描述，比如男性和女性的数目，同意某政策人数的比例等等。只有当变量用数量来描述时，才有可能建立数学模型，才可能使用计算机来分析。数据? 有了变量的概念，什么是数据呢？拿掷骰子来说，掷骰子会得到什么值，是个随机变量；而每次取得1至6点中任意点数的概率它在理论上都是六分之一（如果骰子公平）。这依赖于在掷骰子背后的理论或假定；而在实际掷骰子过程中，如果掷100次，会得到100个由1至6点组成的数字串；再掷100次，又得到一个数字串，和前一次的结果多半不一样。这些试验结果就是数据。所以说, 数据是关于变量的观测值. ? 通过数据可以验证有关的理论或假定（比如每一次得到每个点的概率是不是1/6等等）。对于顾客是否喜欢某种饮品的调查也类似，但这里不象掷骰子那样事先可以大致猜测顾客喜欢与否的概率。在问了1000人之后，可能有364人说喜欢，而480人说不喜欢，其余的人可能不回答，或说不知道，或从来没有喝过这种饮料。这些数目就是数据。当然，它仅仅反映了1000个被问到的人的观点；但这对于估计整个消费群体的观点还是有用的。统计和计算机? 现代生活越来越离不开计算机了。最早使用计算机的统计当然更离不开计算机了。 ? 事实上，最初的计算机仅仅是为科学计算而建造的。大型计算机的最早一批用户就包含统计。而现在统计仍然是进行数字计算最多的用户。 ? 计算机现在早已脱离了仅有计算功能的单一模式，而成为百姓生活的一部分。 ? 计算机的使用，也从过去必须学会计算机语言到只需要“傻瓜式”地点击鼠标。结果也从单纯的数字输出到包括漂亮的表格和图形的各种形式。统计软件? 统计软件的发展，也使得统计从统计学家的圈内游戏变成了大众的游戏。只要你输入你的数据，点几下鼠标，做一些选项，马上就得到令人惊叹的漂亮结果了。 ? 你可能会问，是否傻瓜式的统计软件使用可以代替统计课程了？ ? 当然不是。数据的整理和识别，方法的选用，计算机输出结果的理解都不象使用傻瓜相机那样简单可靠。统计软件? 有些诸如法律和医学方面的软件都有不少警告，不时提醒你去咨询专家。 ? 但统计软件则不那么负责。只要数据格式无误、方法不矛盾而且不用零作为除数就一定给你结果，而且没有任何警告。 ? 另外，统计软件输出的结果太多；即使是同样的方法，不同软件输出的内容还不一样；有时同样的内容名称也不一样。这就使得使用者大伤脑筋。即使是统计学家也不一定能解释所有的输出。因此，就应该特别留神，明白自己是在干什么。不要在得到一堆毫无意义的垃圾之后还沾沾自喜。统计软件 ? 统计软件的种类很多。有些功能齐全，有些价格便宜；有些容易操作，有些需要更多的实践才能掌握。还有些是专门的软件，只处理某一类统计问题。面对太多的选择往往给决策带来困难。这里介绍最常见的几种。统计软件? SPSS：这是一个很受欢迎的统计软件；它容易操作，输出漂亮，功能齐全，价格合理。对于非统计工作者是很好的选择。 ? Excel：它严格说来并不是统计软件，但作为数据表格软件，必然有一定统计计算功能。而且凡是有 Microsoft Office的计算机，基本上都装有Excel。但要注意，有时在装Office时没有装数据分析的功能，那就必须装了才行。当然，画图功能是都具备的。对于简单分析，Excel还算方便，但随着问题的深入，Excel就不那么“傻瓜”，需要使用函数，甚至根本没有相应的方法了。多数专门一些的统计推断问题还需要其他专门的统计软件来处理。 ? SAS：这是功能非常齐全的软件；尽管价格不菲，许多公司还是因为其功能众多和某些美国政府机构认可而使用。尽管现在已经尽量“傻瓜化”，仍然需要一定的训练才可以进入。对于基本统计课程则不那么方便。统计软件? S-plus：这是统计学家喜爱的软件。不仅由于其功能齐全，而且由于其强大的编程功能，使得研究人员可以编制自己的程序来实现自己的理论和方法。它也在进行“傻瓜化”以争取顾客。但仍然以编程方便为顾客所青睐。 ? R软件：这是一个免费的，由志愿者管理的软件。其编程语言与S-plus所基于的S语言一样，很方便。还有不断加入的各个方向统计学家编写的统计软件包。同时从网上可以不断更新和增加有关的软件包和程序。这是发展最快的软件，受到世界上统计师生的欢迎。是用户量增加最快的统计软件。对于一般非统计工作者来说，主要问题是它没有“傻瓜化”。统计软件? Minitab：这个软件是很方便的功能强大而又齐全的软件，也已经“傻瓜化”，在我国用的不如SPSS与SAS那么普遍。 ? Statistica：也是功能强大而齐全的“傻瓜化”的软件，在我国用的也不如SAS与SPSS那么普遍。 ? Eviews：这是一个主要处理回归和时间序列的软件。 ? GAUSS：这是一个很好用的统计软件，许多搞经济的喜欢它。主要也是编程功能强大。目前在我国使用的人不多。 ? FORTRAN：这是应用于各个领域的历史很长的非常优秀的编程软件，功能强大，也有一定的统计软件包。计算速度比这里介绍的都快得多。但需要编程和编译。操作不那么容易。 ? MATLAB：这也是应用于各个领域的以编程为主的软件，在工程上应用广泛。编程类似于S和R。但是统计方法不多。统计软件? 当然，还有其他的软件，没有必要一一罗列。其实，聪明的读者只要学会使用一种“傻瓜式”软件，使用其他的仅仅是举一反三之劳；最多看看帮助和说明即可。如果只有英文帮助，那还可以顺便提高你的英文阅读能力。想想看 ? 举出你所知道的统计应用例子。 ? 举出日常生活中随机性和规律性的例子。 ? 你使用过统计软件或者利用过其他软件中的统计功能吗？你有什么经验和体会？数据的收集二手数据? 每天翻开报纸或打开电视，就可以看到各种数据。比如高速公路通车里程、物价指数、股票行情、外汇牌价、犯罪率、房价、流行病的有关数据（确诊病例、疑似病例、死亡人数和出院人数等等）；当然还有国家统计局定期发布的各种国家经济数据、海关发布的进出口贸易数据等等。从中可以选取对自己有用的信息。 ? 这些间接得到的数据都是二手数据。? 获得第一手数据并不象得到二手数据那么轻松。 ? 某些在华的外资企业每年至少要花三四千万元来收集和分析数据。 ? 他们调查其产品目前在市场中的状况和地位并确定其竞争对手的态势； ? 他们调查不同地区，不同阶层的民众对其产品的认知程度和购买意愿以改进产品或推出新品种争取新顾客； ? 他们还收集各地方的经济交通等信息以决定如何保住现有市场和开发新市场。市场信息数据对企业是至关重要的。 ? 他们很舍得在这方面花钱。因为这是企业生存所必需的，绝不是可有可无的。第一手数据观测数据和试验数据? 上面所说的数据是在自然的未被控制的条件下观测到的，称为观测数据 (observational data)。 ? 而对于有些问题，比如在不同的医疗手段下某疾病的治疗结果有什么不同、不同的肥料和土壤条件下某农作物的产量有没有区别、用什么成分可以提高某物质变成超导体的温度等等。这种在人工干预和操作情况下收集的数据就称为试验数据(experimental data)。总体和样本? 要想了解北京市民对建设北京交通设施是以包括轨道运输在内的公共交通工具为主还是以小汽车为主的观点，需要进行调查； ? 调查对象是所有北京市民，调查目的是希望知道市民中对这个问题的不同看法各自占有的比例。 ? 显然，不可能去问所有的北京市民，而只能够问一部分；并且根据这一部分的观点来理解整个北京市民的总体观点。总体和样本? 这种情况下，称所有（每个）北京市民对这个问题的观点为一个总体 (population)，而调查时问到的那部分市民的观点为该总体的一个样本 (sample)。 ? 当然，也有可能调查所有的人（比如人口普查），那叫做普查(census)。 ? 总体是包含所有要研究的个体(element) 的集合。而样本是总体中选中的一部分。随机样本? 在抽取样本时，如果总体中的每一个体都有同等机会被选到样本中，这种抽样称为简单随机抽样（simple random sampling）， ? 而这样得到的样本则称为随机样本（random sample）。随机样本? 就北京交通问题的调查为例，在随机抽样的情况下，如果样本量（ sample size，也就是样本中个体的数目）在总体中的比例为1/5000，那么，无论在东城区或者在延庆县，无论在白领阶层还是蓝领阶层被问到的人的比例都应该大体是 1/5000。 ? 也就是说，这种比例在总体的任何部分是大体不变的。方便样本? 在实践中，得到随机样本不容易。很多搞调查的人就采取简单的办法。 ? 还以北京的交通问题的调查为例。假定按照随机选出的电话号码进行调查。这样肯定节省时间和资源，但这样得到的就不是一个随机样本了。 ? 如果按照随机选择的数字（无论号码本上有没有）打电话，那很多电话是空号或单位电话；显然这种样本也不是随机样本，它称为方便样本（convenience sample）。 ? 在调查中，即使选择对象的确是随机的，最理想的情况所得到的样本也只代表那些愿意回答问题人的观点所组成的总体；没有回答问题的人的观点永远不会被这种调查的样本所代表。方便样本? 这种不回答的问题是抽样调查特有的问题。 ? 在其他问题中，也有使用方便样本的情况。比如在肺癌研究中，人们往往看到吸烟和肺癌的关系的数据；这些数据并不是整个人群中采集的随机样本；它们可能只是医院中的病人记录中得到的。 ? 在杂志和报纸上也有问卷，但得到的只是拥有这份报刊，而且愿意回答的人的观点。误差? 假定在某一职业人群中女性占的比例为60%。如果在这个人群中抽取一些随机样本，这些随机样本中女性的比例并不一定是刚好60％，可能稍微多些或稍微少些。这是很正常的，因为样本的特征不一定和总体完全一样。这种差异不是错误，而是必然会出现的抽样误差（sampling error）。 ? 刚才提到在抽样调查中，一些人因为种种原因没有对调查作出反映（或回答），这种误差称为未响应误差（nonresponse error）。 ? 而另有一些人因为各种原因回答时并没有真实反映他们的观点，这称为响应误差（response error）。 ? 和抽样误差不一样，未响应误差和响应误差都会影响对真实世界的了解；应该在设计调查方案时尽量避免。抽样调查的一些常用方法? 在抽样调查时，最理想的样本是前面提到的随机样本。 ? 但是由于实践起来不方便，在大规模调查时一般不用这种全部随机抽样的方式，而只是在局部采用随机抽样的方法。 ? 下面介绍几种抽样方法。这里没有深奥的理论；读者完全可以根据常识判断在什么情况下简单的随机样本不方便以及下面的每个方法有什么好处和缺陷。对于它们具体的设计、实施与数据分析，有许多专门的书籍，就不在这里赘述了。一些抽样方法? 1．分层抽样（stratified sampling）。这是先把要研究的总体按照某些性质分类（stratum），再在各类中分别抽取样本。在每类中调查的人数通常是按照这该类人的比例，但出于各种考虑，也可能不按照比例，也可能需要加权（加权就是在求若干项的和时，对各项乘以不同的系数，这些系数的和通常为1）。比如可以按照教育程度把要访问的人群分成几类；再在每一类中调查和该类成比例数目的人。这样就确保了每一类都有成比例的代表。一些抽样方法? 2.整群抽样（cluster sampling）。这是先把总体划分成若干群（cluster），再（通常是随机地）从这些群中抽取几群；然后再在这些抽取的群中对个体进行抽样。比如，在某县进行调查，首先在所有村中选取若干村子，然后只对这些村子的人进行调查。显然，如果各村情况差异不大，这种抽样还是方便的。否则就会增大误差了。一些抽样方法? 3.多级抽样（multistage sampling）。在群体很大时，往往在抽取若干群之后，再在其中抽取若干子群，甚至再在子群中抽取子群，等等。最后只对最后选定的最下面一级进行调查。比如在全国调查时，先抽取省，再抽取市地，再抽取县区，再抽取乡、村直到户。在多级抽样中的每一级都可能采取各种抽样方法。因此，整个抽样计划可能比较复杂，也称为多级混和型抽样。一些抽样方法? 4.系统抽样（systematic sampling）。这是先把总体中的每个单元编号，然后随机选取其中之一作为抽样的开始点进行抽样。如果编号是随机选取的，则这和简单随机抽样是等价的。在选取开始点之后，通常从开始点开始按照编号进行所谓等距抽样；也就是说，如果开始点为5号，“距离”为10，则下面的调查对象为15号、25号等等。抽样方法的选择不能一概而论?实际上每个抽样通常都可能是各种抽样方法的组合。既要考虑精确度，还要根据客观情况考虑方便性、可行性和经济性。不能一概而论。计算机中常用的数据形式? 数据是由一些变量和它们的观测值所组成。下面就是调查人们对某个问题观点的一个数据的方阵形式。其中有6个变量：观点（观测值为支持、反对和不知道三种）、教育程度（有高中低三种取值，用H、M、L表示）、月收入（取值为实际数字）、性别（取值有男女两个，用M和F表示）以及地区号（用数字1，2，3，4表示）等。该表一共有1364个观测值（问卷回答）。可以看出这些变量有定性（属性）变量，也有定量（数值）变量。按照这个数据的格式，每一列为一个变量的不同观测值；而每一行则称为一个观测值，它是个由数量值和属性值组成的向量，每一个值相应于一个变量。思考? 1．举出一些观测数据和试验数据的例子。 ? 2．举出简单随机样本的例子。 ? 3．根据你的经验，举出总体和样本的一些具体例子。 ? 4．举出调查抽样时可能发生的各种影响调查结果的问题，并且提出你认为可以减少或避免这些问题的建议。 ? 5．根据你的直觉，本章提到的几种抽样方法的优缺点是什么？原因何在？ ? 6．举出一些书报上发表的数据例子，并指出那些是变量，哪些是观测值。如同给人画像一样数据的描述直方图? 比如某个地区（地区1）学校高三男生的身高；有163个度量如何用图形来表示这个数据，使人们能够看出这个数据的大体分布或“形状”呢？一个办法就是画一个直方图(histogram)。40302010 Std. Dev = 10.91 Mean = 170.9 0 150.0 155.0 160.0 165.0 170.0 175.0 180.0 185.0 190.0 195.0 200.0 N = 163.00地区 1高三男生高度盒型图?比直方图简单一些的是盒形图 (boxplot，又称箱图、箱线图、盒子图)。后面图的左边一个是根据地区1 高三男生的身高数据所绘的盒形图；其右边的图代表另一个地区（地区2）的高三学生的身高210200158 96 5190248 250 259 323180三生高高男身170160150 140N= 163 175地区 1地区 2地区茎叶图 ?地区1高三男生身高数据的茎叶图HEIGHT Stem-and-Leaf Plot Frequency Stem & Leaf 9.00 15 . .00 15 .
16 . .00 16 .
25.00 17 . 4 24.00 17 .
13.00 18 . 3 11.00 18 .
19 . 56 3.00 Extremes (&=198) Stem width: 10.00 Each leaf: 1 case(s)散点图? 往往人们得到的数据有两个变量的，比如美国男士和女士初婚年限的数据。该数据描述了自1900年到 1998年男女第一次结婚延续的时间的中位数。当然，不可能将所有人的婚姻年限都给出来。所以，每年就取了一个中间的值(中位数)作为代表。自1900到 1960年是每十年一个值，以后到1990是每五年取一个数，1995年以后是每年一个数。这里的一个变量为记录年份，另一个是结婚时间长短。由于分男士和女士，因此有两二维数据。这时可以以一个变量为横坐标（如年份），另一个为纵坐标（这里是结婚年限）来点图。这种图称为散点图（scatter plot）。还可以看出在二十世纪六十年代婚姻年限降低，而后来又升高。而男子的年限平均比女性长。这个图是用SPSS画的。2827262524232221 女 20 1900 男 60
定性变量的点图? 定性变量（或属性变量，分类变量）不能点出直方图、散点图或茎叶图，但可以描绘出它们各类的比例。下面用SPSS绘的图表示了说世界各种主要语言的人数的比例饼图中国北方 17.93% 英语 8.57%阿拉伯语 4.27% 德语 2.13% 俄语 4.59% 法语 2.15% 马来－印 2.94% 孟加拉语 3.59% 葡萄牙语 3.24%印地语8.27%33.14%西班牙语 7.09% 日语 2.10%其他日常使用母语中英印西日其葡孟马法俄德语他萄加来语语语阿拉伯语牙拉－语语印班牙地语语语国北方条形图3000200010000语种Mean汇总统计量或概括统计量(summary statistic)汇总统计量（位置）? 均值(mean) ? 中位数(median) ? (第一，第三)四分位数(点)(first quantile, third quantile ) ? k－百分位数(k-percentile) ? 众数(mode)汇总统计量（尺度） (scale statistic)? 极差（range) ? 四分位间距(四分位极差) (interquantile range) ? 标准差(standard deviation) ? 方差(variance)806040200-3-2-10 x1230-320406080-2-10 y123两个尺度不同的数据的直方图，左边的标准差大约只有右边的一半数据的标准得分 (standard score)? 两个水平类似的班级（一班和二班）上同一门课，但是由于两个任课老师的评分标准不同，使得两个班成绩的均值和标准差都不一样(数据：grade.sav)。一班分数的均值和标准差分别为78.53和9.43，而二班的均值和标准差分别为70.19和7.00。那么得到90分的一班的张颖是不是比得到82分的二班的刘疏成绩更好呢？怎么比较才能合理呢？虽然这种均值和标准差不同的数据不能够直接比较，但是可以把它们进行标准化，然后再比较标准化后的数据。一个标准化的方法是把原始观测值（亦称得分，score）和均值之差除以标准差；得到的度量称为标准得分(standard score)。11010090807060250 40N=分得1397 100一班二班2班级10-1-22准分标得-3 -4N=197100一班二班班级思考? 1．根据你的经验，给出定性和定量变量的例子。 ? 2．对于问题1中你的例子，试图画出各种描述性图形并计算汇总统计量。 ? 3．举例说明众数、中位数和均值的优缺点。 ? 4．举例说明尺度统计量说明了数据的什么特性。 ? 5．标准得分实际上是对原始数据的一种标准化。试举出标准得分的用处。结从论数的据过得程到对现实世界的统计推断估计? 总体它代表我们所关心的那部分现实世界。而在利用样本中的信息来对总体进行推断之前人们一般对代表总体的变量假定了分布族。比如假定人们的身高属于正态分布族；对抽样调查假定了二项分布族等等。这些模型基本上是根据经验来假定的，所以仅仅是对现实世界的一个近似。在假定了总体分布族之后，进一步对总体的认识就是要在这个分布族中选择一个适合于我们问题的分布；由于分布族成员是由参数确定的，如果参数能够估计，对总体的具体分布就知道得差不多了。估计? 一种是点估计(point estimation)，也就是用估计量的实现值来近似相应的总体参数。 ? 另一种是区间估计(interval estimation)；它是包括估计量在内（有时是以估计量为中心）的一个区间；该区间被认为很可能包含总体参数。 ? 点估计给出一个数字，用起来很方便；而区间估计给出一个区间，说起来留有余地；不象点估计那么绝对。 ? 无偏估计(大样本性质) ? 区间估计的置信度(大样本性质)估计? 注意置信区间的论述是由区间和置信度两部分组成。有些新闻媒体报道一些调查结果只给出百分比和误差（即置信区间），并不说明置信度，也不给出被调查的人数，这是不负责的表现。因为降低置信度可以使置信区间变窄（显得“精确”），有误导读者之嫌。如果给出被调查的人数，则内行可以由推算出置信度（由后面给出的公式），反之亦然。一个描述性例子? 一个有10000个人回答的调查显示，同意某种观点的人的比例为 70% （有 7000 人同意），可以算出总体中同意该观点的比例的95%置信区间为（0.691，0.709）；另一个调查声称有70%的比例反对该种观点，还说总体中反对该观点的置信区间也是（0.691，0.709）。到底相信谁呢？实际上，第二个调查隐瞒了置信度（等价于隐瞒了样本量）。如果第二个调查仅仅调查了50 个人，有35个人反对该观点。根据后面的公式可以算出，第二个调查的置信区间的置信度仅有11%。假设检验? 在假设检验中，一般要设立一个原假设；而设立该假设的动机主要是企图利用人们掌握的反映现实世界的数据来找出假设和现实的矛盾，从而否定这个假设。在多数统计教科书中（除了理论探讨之外）的假设检验都是以否定原假设为目标。 ? 如果否定不了，那就说明证据不足，无法否定原假设。但这不能说明原假设正确。很多教科书在这个问题上不适当地用“接受原假设”的说法，犯了明显的低级逻辑假设检验的过程和逻辑? 首先要提出一个原假设，比如某正态总体的均值等于5（m=5）。这种原假设也称为零假设（null hypothesis），记为H0。 ? 与此同时必须提出对立假设，比如总体均值大于5（m&5）。对立假设又称为备选假设或备择假设（alternative hypothesis）记为记为H1或Ha。假设检验的过程和逻辑? 根据零假设（不是备选假设！），我们可以得到该检验统计量的分布； ? 然后再看这个统计量的数据实现值（realization）属不属于小概率事件。也就是说把数据代入检验统计量，看其值是否落入零假设下的小概率范畴； ? 如果的确是小概率事件，那么我们就有可能拒绝零假设，否则我们说没有足够证据拒绝零假设。假设检验的过程和逻辑? 注意：零假设和备选假设在假设检验中并不对称。因检验统计量的分布是从零假设导出的，因此，如果发生矛盾，当然就对零假设不利了。 ? 不发生矛盾也不说明备选假设有问题（因为和备选假设无关）。假设检验的过程和逻辑? 检验统计量在零假设下等于这个样本的数据实现值或更加极端值的概率称为p-值（pvalue）。 ? 显然得到很小p-值意味着小概率事件发生了。如果小概率事件发生，是相信零假设，还是相信数据呢？ ? 当然是相信数据。于是就拒绝零假设。但小概率并不能说明不会发生，仅仅发生的概率很小罢了。 ? 拒绝正确零假设的错误常被称为第一类错误（type I error）。假设检验的过程和逻辑? 有第一类错误，就有第二类错误；那是备选零假设正确时反而说零假设正确的错误，称为第二类错误（type II error）。 ? 零假设和备选假设哪一个正确，这是确定性的，没有概率可言。 ? 而可能犯错误的是人。涉及假设检验的犯错误的概率就是犯第一类错误的概率和犯第二类错误的概率。 ? 负责的态度是无论做出什么决策，都应该给出犯错误的概率。假设检验的过程和逻辑? 到底p-值是多小才能够拒绝零假设呢？也就是说，需要有什么是小概率的标准。这要看具体应用的需要。但在一般的统计书和软件中，使用最多的标准是在零假设下（或零假设正确时）抽样所得的数据拒绝零假设的概率应小于0.05（也可能是 0.01，0.005，0.001等等）。这种事先规定的概率称为显著性水平(significance level)，用字母a 来表示。当p-值小于或等于a时，就拒绝零假设。所以，a是所允许的犯第一类错误概率的最大值。当p-值小于或等于a时，我们说这个检验是显著的(significant)。假设检验的过程和逻辑? 归纳起来，假设检验的逻辑步骤为： ? 第一，写出零假设和备选假设； ? 第二，确定检验统计量； ? 第三，确定显著性水平a； ? 第四，根据数据计算检验统计量的实现值； ? 第五，根据这个实现值计算p?值； ? 第六，进行判断：如果p?值小于或等于a，就拒绝零假设，这时犯错误的概率最多为a；如果p?值大于a，就不拒绝零假设，因为证据不足。假设检验的过程和逻辑? 实际上，计算机软件仅仅给出p-值，而不给出a。这有很多方便之处。比如a=0.05，而假定我们得到的p-值等于0.001。这时我们如果如果采用p-值作为新的显著性水平，即a=0.001，于是可以说，我们拒绝零假设，显著性水平为0.001。拒绝零假设时犯错误的概率实际只是千分之一而不是百分之五。在这个意义上，p-值又称为观测的显著性水平（observed significant level）。在统计软件输出p-值的位置，有的用“p-value”，有的用significant的缩写“Sig”就是这个道理。假设检验的过程和逻辑? 展示结果的精确性（根据数据减少a的值）总是没有害处的。这好比一个身高180厘米的男生，可能愿意被认为高于或等于180厘米，而不愿意说他高于或等于155厘米，虽然这第二种说法数学上没有丝毫错误。假设检验的过程和逻辑? 关于“临界值”的注：作为概率的显著性水平a实际上相应于一个检验统计量取值范围的一个临界值（critical value），它定义为，统计量取该值或更极端的值的概率等于a。也就是说，“统计量的实现值比临界值更极端”等价于“p-值小于a”。使用临界值的概念进行的检验不计算p-值。只比较统计量的取值和临界值的大小。 ? 使用临界值而不是p-值来判断拒绝与否是前计算机时代的产物。当时计算p-值不易，只有采用临界值的概念。但从给定的a求临界值同样也不容易，好在习惯上仅仅在教科书中列出相应于特定分布的几个有限的a临界值（比如a=0.05，a=0.025，a=0.01，a=0.005，a=0.001 等等），或者根据分布表反过来查临界值（很不方便也很粗糙）。 ? 现在计算机软件都不给出a和临界值，但都给出p-值和统计量实现值，让用户自己决定显著性水平是多少。假设检验的例子? 汽车厂商声称其发动机排放标准的一个指标平均低于20个单位。在抽查了10台发动机之后，得到下面的排放数据：17.0、21.7、17.9、22.9、20.7、 22.4、17.3、21.8、24.2、25.4。该样本均值为 21.13。究竟能否由此认为该指标均值超过20？这次我们的假设检验问题就是H0 : m ? 20 ? H1 : m ? 20假设检验的例子? 检验统计量为t?x ? m0 s/ n? 1.234? 我们可以发现p-值为0.1243，因此，我们没有证据否定零假设。Tail Probability for t(9) 0.4 0.35 0.3 0.25 0.2 0.15 0.1 p-value=0. t=1.234 0 -5 -4 -3 -2 -1 0 t value 1 2 3 4 5Density of t(9)结从论数的据过得程到对现实世界的统计推断估计? 总体它代表我们所关心的那部分现实世界。而在利用样本中的信息来对总体进行推断之前人们一般对代表总体的变量假定了分布族。比如假定人们的身高属于正态分布族；对抽样调查假定了二项分布族等等。这些模型基本上是根据经验来假定的，所以仅仅是对现实世界的一个近似。在假定了总体分布族之后，进一步对总体的认识就是要在这个分布族中选择一个适合于我们问题的分布；由于分布族成员是由参数确定的，如果参数能够估计，对总体的具体分布就知道得差不多了。估计? 一种是点估计(point estimation)，也就是用估计量的实现值来近似相应的总体参数。 ? 另一种是区间估计(interval estimation)；它是包括估计量在内（有时是以估计量为中心）的一个区间；该区间被认为很可能包含总体参数。 ? 点估计给出一个数字，用起来很方便；而区间估计给出一个区间，说起来留有余地；不象点估计那么绝对。 ? 无偏估计(大样本性质) ? 区间估计的置信度(大样本性质)估计? 注意置信区间的论述是由区间和置信度两部分组成。有些新闻媒体报道一些调查结果只给出百分比和误差（即置信区间），并不说明置信度，也不给出被调查的人数，这是不负责的表现。因为降低置信度可以使置信区间变窄（显得“精确”），有误导读者之嫌。如果给出被调查的人数，则内行可以由推算出置信度（由后面给出的公式），反之亦然。一个描述性例子? 一个有10000个人回答的调查显示，同意某种观点的人的比例为 70% （有 7000 人同意），可以算出总体中同意该观点的比例的95%置信区间为（0.691，0.709）；另一个调查声称有70%的比例反对该种观点，还说总体中反对该观点的置信区间也是（0.691，0.709）。到底相信谁呢？实际上，第二个调查隐瞒了置信度（等价于隐瞒了样本量）。如果第二个调查仅仅调查了50 个人，有35个人反对该观点。根据后面的公式可以算出，第二个调查的置信区间的置信度仅有11%。假设检验? 在假设检验中，一般要设立一个原假设；而设立该假设的动机主要是企图利用人们掌握的反映现实世界的数据来找出假设和现实的矛盾，从而否定这个假设。在多数统计教科书中（除了理论探讨之外）的假设检验都是以否定原假设为目标。 ? 如果否定不了，那就说明证据不足，无法否定原假设。但这不能说明原假设正确。很多教科书在这个问题上不适当地用“接受原假设”的说法，犯了明显的低级逻辑假设检验的过程和逻辑? 首先要提出一个原假设，比如某正态总体的均值等于5（m=5）。这种原假设也称为零假设（null hypothesis），记为H0。 ? 与此同时必须提出对立假设，比如总体均值大于5（m&5）。对立假设又称为备选假设或备择假设（alternative hypothesis）记为记为H1或Ha。假设检验的过程和逻辑? 根据零假设（不是备选假设！），我们可以得到该检验统计量的分布； ? 然后再看这个统计量的数据实现值（realization）属不属于小概率事件。也就是说把数据代入检验统计量，看其值是否落入零假设下的小概率范畴； ? 如果的确是小概率事件，那么我们就有可能拒绝零假设，否则我们说没有足够证据拒绝零假设。假设检验的过程和逻辑? 注意：零假设和备选假设在假设检验中并不对称。因检验统计量的分布是从零假设导出的，因此，如果发生矛盾，当然就对零假设不利了。 ? 不发生矛盾也不说明备选假设有问题（因为和备选假设无关）。假设检验的过程和逻辑? 检验统计量在零假设下等于这个样本的数据实现值或更加极端值的概率称为p-值（pvalue）。 ? 显然得到很小p-值意味着小概率事件发生了。如果小概率事件发生，是相信零假设，还是相信数据呢？ ? 当然是相信数据。于是就拒绝零假设。但小概率并不能说明不会发生，仅仅发生的概率很小罢了。 ? 拒绝正确零假设的错误常被称为第一类错误（type I error）。假设检验的过程和逻辑? 有第一类错误，就有第二类错误；那是备选零假设正确时反而说零假设正确的错误，称为第二类错误（type II error）。 ? 零假设和备选假设哪一个正确，这是确定性的，没有概率可言。 ? 而可能犯错误的是人。涉及假设检验的犯错误的概率就是犯第一类错误的概率和犯第二类错误的概率。 ? 负责的态度是无论做出什么决策，都应该给出犯错误的概率。假设检验的过程和逻辑? 到底p-值是多小才能够拒绝零假设呢？也就是说，需要有什么是小概率的标准。这要看具体应用的需要。但在一般的统计书和软件中，使用最多的标准是在零假设下（或零假设正确时）抽样所得的数据拒绝零假设的概率应小于0.05（也可能是0.01， 0.005，0.001等等）。这种事先规定的概率称为显著性水平(significant level)，用字母 a来表示。当p-值小于或等于a时，就拒绝零假设。所以，a是所允许的犯第一类错误概率的最大值。当p-值小于或等于a时，我们说这个检验是显著的(significant)。假设检验的过程和逻辑? 归纳起来，假设检验的逻辑步骤为： ? 第一，写出零假设和备选假设； ? 第二，确定检验统计量； ? 第三，确定显著性水平a； ? 第四，根据数据计算检验统计量的实现值； ? 第五，根据这个实现值计算p?值； ? 第六，进行判断：如果p?值小于或等于a，就拒绝零假设，这时犯错误的概率最多为a；如果p?值大于a，就不拒绝零假设，因为证据不足。假设检验的过程和逻辑? 实际上，计算机软件仅仅给出p-值，而不给出a。这有很多方便之处。比如a=0.05，而假定我们得到的p-值等于0.001。这时我们如果如果采用p-值作为新的显著性水平，即a=0.001，于是可以说，我们拒绝零假设，显著性水平为0.001。拒绝零假设时犯错误的概率实际只是千分之一而不是百分之五。在这个意义上，p-值又称为观测的显著性水平（observed significant level）。在统计软件输出p-值的位置，有的用“p-value”，有的用significant的缩写“Sig”就是这个道理。假设检验的过程和逻辑? 展示结果的精确性（根据数据减少a的值）总是没有害处的。这好比一个身高180厘米的男生，可能愿意被认为高于或等于180厘米，而不愿意说他高于或等于155厘米，虽然这第二种说法数学上没有丝毫错误。假设检验的过程和逻辑? 关于“临界值”的注：作为概率的显著性水平a实际上相应于一个检验统计量取值范围的一个临界值（critical value），它定义为，统计量取该值或更极端的值的概率等于a。也就是说，“统计量的实现值比临界值更极端”等价于“p-值小于a”。使用临界值的概念进行的检验不计算p-值。只比较统计量的取值和临界值的大小。 ? 使用临界值而不是p-值来判断拒绝与否是前计算机时代的产物。当时计算p-值不易，只有采用临界值的概念。但从给定的a求临界值同样也不容易，好在习惯上仅仅在教科书中列出相应于特定分布的几个有限的a临界值（比如a=0.05，a=0.025，a=0.01，a=0.005，a=0.001 等等），或者根据分布表反过来查临界值（很不方便也很粗糙）。 ? 现在计算机软件都不给出a和临界值，但都给出p-值和统计量实现值，让用户自己决定显著性水平是多少。假设检验的例子? 汽车厂商声称其发动机排放标准的一个指标平均低于20个单位。在抽查了10台发动机之后，得到下面的排放数据：17.0、21.7、17.9、22.9、20.7、 22.4、17.3、21.8、24.2、25.4。该样本均值为 21.13。究竟能否由此认为该指标均值超过20？这次我们的假设检验问题就是H0 : m ? 20 ? H1 : m ? 20假设检验的例子? 检验统计量为t?x ? m0 s/ n? 1.234? 我们可以发现p-值为0.1243，因此，我们没有证据否定零假设。Tail Probability for t(9) 0.4 0.35 0.3 0.25 0.2 0.15 0.1 p-value=0. t=1.234 0 -5 -4 -3 -2 -1 0 t value 1 2 3 4 5Density of t(9)变量间的关系直到现在我们所涉及的仅仅是对一些互相没有关系的变量的描述。但是现实世界的问题都是相互联系的。不讨论变量之间的关系，就无从谈起任何有深度的应用；而没有应用，前面讲过的那些基本概念就仅仅是摆设而已。变量间的关系? 人们每时每刻都在关心事物之间的关系。 ? 比如，职业种类和收入之间的关系、政府投入和经济增长之间的关系、广告投入和经济效益之间的关系、治疗手段和治愈率之间的关系等等。 ? 这些都是二元的关系。 ? 还有更加复杂的诸多变量之间的相互关系， ? 比如企业的固定资产、流动资产、预算分配、管理模式、生产率、债务和利润等诸因素的关系是不能用简单的一些二元关系所描述的。例1广告投入和销售之间的关系（数据ads.sav）70 605040302010SALE0 0 2 4 6 8 10 12 14AD? 这两个变量是否有关系？显然，它们有关系；这从散点图就很容易看出。基本上销售额是随着广告投入的递增而递增。 ? 如果有关系，它们的关系是否显著？这也可以从散点图得到。当广告投入在6万元以下，销售额增长很快；但大于这个投入时，销售额增长就不明显了。因此，这两个变量的关系是由强变弱。 ? 这些关系是什么关系，是否可以用数学模型来描述？本例看上去是可以拟合一个回归模型（后面会介绍），但绝不是线性的（用一条直线可以描述的）。具体细节需要进一步的分析这是什么关系？这是什么关系？? 这个关系是否带有普遍性？也就是说，仅仅这一个样本有这样的关系，还是对于其他企业也有类似的规律。这里的数据还不足以回答这个问题。可能需要考虑更多的变量和收集更多的数据。一般来说，人们希望能够从一些特殊的样本，得到普遍的结论，以利于预测。 ? 这个关系是不是因果关系？在本问题中，看来有因果关系。这类似于一种试验；而试验时是容易找到因果关系的。但是，一般来说，变量之间有关系但绝不意味着存在因果关系。定性变量间的关系（关于某项政策调查所得结果:table7.sav）观点：赞成低收入男女观点：不赞成低收入中等收入高收入中等收入高收入20 2510 155 75 28 710 9大致可以看出女性赞成的多，低收入赞成的多定性和定量变量间的混和关系假想关于高等学校的数据的一些指标包括:在校生人数(S), 研究生比例(G), 教师人数(F), 职工人数(ST),SCI和SSCI文章数目(P), SCI和SSCI文章引用数目(Q), 科研项目数(PR), 科研经费(B),总经费及招生范围(N)等从这个数据很难马上看到任何关系。但是从这个数据可以得到许多有用的关系和结论。比如，可以得到任何一个变量和其余变量之间的定量关系或者多个变量之间的定量关系（因而可以建立模型，进行预测和各种推断）；也可以利用其中一些变量把各个高等学校分类；还可以把众多的变量用少数几个变量代替以利于分析和理解；此外这个数据可以作为高校排名的根据之一。所有这些都是未来章节的内容。相关和回归分析相关和回归分析? 顾客对商品和服务的反映对于商家是至关重要的,但是仅仅有满意顾客的比例是不够的, 商家希望了解什么是影响顾客观点的因素以及这些因素是如何起作用的。 ? 一般来说，统计可以根据目前所拥有的信息（数据）建立人们所关心的变量和其他有关变量的关系（称为模型）。 ? 假如用Y表示感兴趣的变量，用X表示其他可能有关的变量（可能是若干变量组成的向量）。则所需要的是建立一个函数关系Y=f(X) 。这里Y称为因变量或响应变量，而X称为自变量或解释变量或协变量。 ? 建立这种关系的过程就叫做回归。相关和回归分析 ? 一旦建立了回归模型 ? 可以对各种变量的关系有了进一步的定量理解 ? 还可以利用该模型（函数）通过自变量对因变量做预测。 ? 这里所说的预测，是用已知的自变量的值通过模型对未知的因变量值进行估计；它并不一定涉及时间先后的概念。例1 有50个从初中升到高中的学生.为了比较初三的成绩是否和高中的成绩相关,得到了他们在初三和高一的各科平均成绩(数据:highschool.sav)50名同学初三和高一成绩的散点图10090807060一绩高成5040 40 50从这张图可以看出什么呢?60 70 80 90 100 110初三成绩问题是 ? 怎么判断这两个变量是否相关? ? 如何相关? ? 相关的度量是什么? ? 进一步的问题是能否以初三成绩为自变量，高一成绩为因变量来建立一个回归模型以描述这样的关系，或用于预测。还有定性变量 ? 该数据中，除了初三和高一的成绩之外，还有一个定性变量 ? 它是学生在高一时的家庭收入状况；它有三个水平：低、中、高，分别在数据中用1、2、3表示。还有定性变量下面是对三种收入对高一成绩和高一与初三成绩差的盒形图110 1003020一绩初成之高成与三绩差90 80 70 60100-1050 40 30N= 11 27 12 39 25一绩高成-20-30N= 11 27 12123123家庭收入家庭收入例2 这是200个不同年龄和性别的人对某项服务产品的认可的数据(logi.sav). 年龄是连续变量,性别是有男和女( 分别用1和0表示)两个水平的定性变量,而(定性)变量“观点”则为包含认可(用1表示)和不认可(用0表示)两个水平的定性变量。120年龄和观点的散点图1.2100-.2 10 20 30 40 50 60 70Count点 0为可 1为认）观（认，不可1.080.8.660.440.20.0OPINIO N20 .00 0 .00 1.00 1.0080年龄性别（ 0:女， 1:男）从这两张图又可以看出什么呢?两个定量变量的相关?如果两个定量变量没有关系，就谈不上建立模型或进行回归。 ?但怎样才能确定两个变量有没有关系呢? ?最简单的办法就是画出它们的散点图。四组数据(每个有两个变量的样本)的散点图(a)2 2(b)10y-1y -2-3 -2 -1 x 0 1 2-2-101-2-1 x012(c)2(d)1y0y-2 -1 0 x 1 2-1-20-32468-2-10 x123几种相关的度量? Pearson相关系数,又叫相关系数或线性相关系数。它一般用字母r表示. ? Kendall t 相关系数(Kendall’s t)这里的度量原理是把所有的样本点配对,看每一对中的x和y是否都增加来判断总体模式. ? Spearman 秩相关系数,它和Pearson相关系数定义有些类似,只不过在定义中把点的坐标换成各自样本的秩. ? 它们各自都有以不相关为零假设的检验,即p-值小则相关.但各自的相关含义不尽相同. ? 现在再来看例1的数据(highschool.sav).关于初三和高一成绩的相关系数的结果是Pearson相关系数，Kendall t 和Spearman 秩相关系数分别为 0.795, 0.595和0.758。定量变量的线性回归分析? 对例1中的两个变量的数据进行线性回归，就是要找到一条直线来最好地代表散点图中的那些点。y ? ?0 ? ?1 x ? eS1 60 70 80 90100y ? 26.44 ? 0.65 x40 50 60 70 J3 80 90 1004050检验问题等? 对于系数?1=0的检验 ? 对于拟合的F检验 2(决定系数)及修正的R2. ?R多个自变量的回归y ? ?0 ? ?1 x1 ? ?2 x2 ? ? ? ?k xk ? e如何解释拟合直线?什么是逐步回归方法?自变量中有定性变量的回归? 例1的数据中,还有一个自变量是定性变量“ 收入 ” , 以虚拟变量或哑元 (dummy variable)的方式出现;这里收入的“低”,“ 中”,“高”，用1,2,3来代表.所以,如果要用这种哑元进行前面回归就没有道理了. ? 以例1数据为例,可以用下面的模型来描述:y ? ? 0 ? ?1 x ? a1 ? e , 代表家庭收入的哑元＝1 时，＝? 0 ? ?1 x ? a 2 ? e , 代表家庭收入的哑元＝2 时，＝? 0 ? ?1 x ? a 3 ? e , 代表家庭收入的哑元＝3 时。自变量中有定性变量的回归? 现在只要估计?0, ?1,和a1, a2, a3即可。 ? 哑元的各个参数a1, a2, a3本身只有相对意义，无法三个都估计，只能够在有约束条件下才能够得到估计。 ? 约束条件可以有很多选择，一种默认的条件是把一个参数设为0，比如a3=0，这样和它有相对意义的a1 和a2 就可以估计出来了。 ? 对于例1，对?0, ?1, a1, a2, a3的估计分别为28.708, 0.688, -11.066, -4.679, 0。这时的拟合直线有三条，对三种家庭收入各有一条:y ? 28.708 ? 0.688 x ? 11.066, （低收入家庭）， y ? 28.708 ? 0.688 x ? 4. 679, （中等收入家庭）， y ? 28.708 ? 0.688 x, （高收入家庭）。SPSSS实现(hischool.sav)? Analize－General linear model－Univariate ， ? 在Options中选择Parameter Estimates， ? 再在主对话框中把因变量（ s1 ）选入 Dependent Variable，把定量自变量(j3)选入Covariate，把定量因变量（income）选入Factor中。 ? 然后再点击Model，在Specify Model中选 Custom， ? 再把两个有关的自变量选入右边，再在下面Building Term中选Main effect。 ? Continue-OK，就得到结果了。输出的结SPSS Syntax: UNIANOVA s1 BY income WITH j3 /METHOD = SSTYPE(3) /INTERCEPT = INCLUDE /CRITERIA = ALPHA(.05) /DESIGN = income j3 .注意 ? 这里进行的线性回归，仅仅是回归的一种，也是历史最悠久的一种。 ? 但是，任何模型都是某种近似； ? 线性回归当然也不另外。 ? 它被长期广泛深入地研究主要是因为数学上相对简单。 ? 它已经成为其他回归的一个基础。 ? 总应该用批判的眼光看这些模型。Logistic 回归? 例2是关于200个不同年龄,性别的人对某项服务产品的观点(二元定性变量)的数据 (logi.sav). ? 这里观点是因变量, 只有两个值;所以可以把它看作成功概率为p的Bernoulli试验的结果. ? 但是和单纯的Bernoulli试验不同，这里的概率p为年龄和性别的函数. ? 可以假定下面的(logistic回归)模型? p ? ln ? ? ? ? 0 ? ?1 x ? ai , 这里i ? 0,1 代表女性和男性 ? 1? p ?Logistic 回归? 为了循序渐近，先拟合没有性别作为自变量（只有年龄x）的模型? p ? ln ? ? ? ? 0 ? ?1 x 或者等价地 ? 1? p ? e p? ?0 ? ?1x 1? e?0 ? ?1xLogistic模型拟合结果? 依靠计算机，很容易得到?0和?1的估计分别为0.520和-0.069。拟合的模型为? p ? ln ? ? ? 0.520 ? 0.069x ? 1? p ?p 0.2 0.0 0.1 0.3203040 age506070Logistic模型拟合结果再加上性别变量进行拟合,得到的?0, ?1和a0, a1的估计(同样事先确定为a1=0)分别为1.722, -0.072, 1.778, 0.可以看出年龄影响对男女混和时(0.069) 差不多,而女性相对于男性认可的可能性大(a0a1=1.778)。? p ? ln ? ? ? 1.722 ? 0.072 x ? 1.778 ? 1? p ? ? p ? ln ? ? ? 1.722 ? 0.072 x ? 1? p ?拟合的年龄-概率图0.8 p 0.0 0.2 0.4 0.6203040 age506070? Analize－Regression－Binary Logistic， ? 再把因变量 (opinion) 选入 Dependent Variable ，把自变量（ age 和 sex ）选入 Covariates， ? Categorical ，再把定性变量 sex 选入 Categorical Covariate， ? 回到主对话框，点击OK即可得到结果。 ? 注:SPSS的syntax:LOGISTIC REGRESSION VAR=opinion /METHOD=ENTER age sex /CONTRAST (sex)=Indicator /CRITERIA PIN(.05) POUT(.10) ITERATE(20) CUT(.5) .SPSSS实现(logi.sav)实事求是(三个真实数据)对数据的理解(昌都数据例)图1. 总人口变化情况60 58561990年人口减少了吗?5452人 (万总口）5048 46 198 0 198 2 198 4 198 6 198 8 199 0 199 2 199 4 199 6 199 8 200 0 200 2年份对数据的理解(昌都数据例)图5. 固定资产投资情况16 14 12 10 8 6 4 2 0 198 0 198 2 198 4 198 6 198 8 199 0 199 2 199 4 199 6 199 8 200 0 200 21993,94年投资为什么波动?定产资亿）固资投（元年份对数据的理解(昌都数据例)图8. 公路客运总量增长情况301993,94年总运量怎么搞的那么高?20运量人客总 (万 )100 198 0 198 2 198 4 198 6 198 8 199 0 199 2 199 4 199 6 199 8 200 0 200 2年份SPSS的数据输入? 数据的键入(T01.sav) ? 数据从其他文本读入:File-Open-Data-文件类型(Sav,Excel,SAS,dBase,TXT等等) (T02.txt);散点图 ? 定性变量的加权(每一行的权数等于该行被观测到的次数)(T03.sav)和不加权(T04.sav); 条形图,饼图 ? 数据的变换(T01.sav)(多重散点图,图的编辑 )SPSS的相关分析? 相关分析(hischool.sav） ? 利用 SPSS 选项： Analize － Correlate － Bivariate ? 再把两个有关的变量(这里为j3和s1)选入，选择Pearson，Spearman和Kendall就可以得出这三个相关系数和有关的检验结果了( 零假设均为不相关)。SPSS的回归分析? 自变量和因变量都是定量变量时的线性回归分析(hischool.sav) ? 利用 SPSS 选项： Analize － Regression － Linear ? 再把有关的自变量选入Independent，把因变量选入Dependent，然后OK即可。如果自变量有多个（多元回归模型），只要都选入就行。SPSS的回归分析? 自变量中有定性变量（哑元）和定量变量而因变量为定量变量时的线性回归分析 (hischool.sav) ? 利用SPSS选项：Analize－General linear model －Univariate， ? 在Options中选择Parameter Estimates， ? 再在主对话框中把因变量（s1）选入Dependent Variable，把定量自变量(j3)选入Covariate，把定性因变量（income）选入Factor中。 ? 点击Model，在Specify Model中选Custom，再把两个有关的自变量选入右边，再在下面Building Term中选Main effect。然后就Continue-OK。SPSS的Logistic回归(logi.sav)? 自变量为定量变量时：利用SPSS选项：Analize －Regression－Binary Logistic， ? 再把因变量 (opinion) 选入 DependentVariable ，把自变量（age）选入Covariates，OK即可得到结果。 ? 自变量为定量变量及定量变量时：利用SPSS选项：Analize－Regression－Binary Logistic， ? 再把因变量 (opinion) 选入 DependentVariable ，把自变量（age和sex）选入Covariates，然后点 Categorical，再把定性变量sex选入Categorical Covariate，回到主对话框，点击OK即可得到结果。2检验和对数线性模型列联表、c三维列联表（关于某项政策调查所得结果:table7.sav）观点：赞成低收入男女观点：不赞成低收入中等收入高收入中等收入高收入20 2510 155 75 28 710 9列联表? 前面就是一个所谓的三维列联表 (contingency table). ? 这些变量中每个都有两个或更多的可能取值。这些取值也称为水平；比如收入有三个水平，观点有两个水平，性别有两个水平等。该表为3?2?2列联表 ? 在SPSS数据中，表就不和课本印的一样，收入的“低”、“中”、“高”用代码1、 2、3代表；性别的“女”、“男”用代码0 、1代表；观点“赞成”和“不赞成”用1 、0代表。有些计算机数据对于这些代码的形式不限（可以是数字，也可以是字符串列联表? 列联表的中间各个变量不同水平的交汇处，就是这种水平组合出现的频数或计数（count）。 ? 二维的列联表又称为交叉表（cross table）。 ? 列联表可以有很多维。维数多的叫做高维列联表。 ? 注意前面这个列联表的变量都是定性变量;但列联表也会带有定量变量作为协变量。二维列联表的检验?研究列联表的一个主要目的是看这些变量是否相关。比如前面例子中的收入和观点是否相关。 ?这需要形式上的检验二维列联表的检验? 下面表是把该例的三维表简化成只有收入和观点的二维表(这是SPSS自动转化的 :Analyze-Descriptive Statistics-Crosstabs…..).OPINION * INCOME Crosstabulation Count 1 OPINION Total 0 1 7 45 52 INCOME 2 15 25 40 3 19 12 31 Total 41 82 123? 对于上面那样的二维表。我们检验的零假设和备选假设为? H0:观点和收入这两个变量不相关;H1:这两个变量相关。二维列联表的检验? 这里的检验统计量在零假设下有（大样本时）近似的c2分布。 ? 当该统计量很大时或p-值很小时，就可以拒绝零假设，认为两个变量相关。 ? 实际上有不止一个c2检验统计量。包括 Pearson c2统计量和似然比（likelihood ratio ）c2统计量；它们都有渐近的c2分布。 ? 根据计算可以得到（对于这两个统计量均有）p-值小于0.001。因此可以说，收入高低的确影响观点。Pearson c2统计量Q??i ?1n? Oi ? Ei ?Ei2似然比c2统计量Oi T ? 2? Oi ln Ei i ?1n? 刚才说，这些c2统计量是近似的，那么有没有精确的统计量呢？ ? 当然有。这个检验称为Fisher精确检验；它不是c2分布，而是超几何分布。 ? 对本问题,计算Fisher统计量得到的p-值也小于0.001。 ? 聪明的同学必然会问，既然有精确检验为什么还要用近似的c2检验呢？ ? 这是因为当数目很大时，超几何分布计算相当缓慢（比近似计算会差很多倍的时间）；而且在计算机速度不快时，根本无法计算。因此人们多用大样本近似的c2统计量。而列联表的有关检验也和c2检验联系起来了。二维列联表的检验Fisher精确检验SPSS: Weight-Describ-crosstab-exact…Chi -Squar e Tes ts Value 10.288b 9.107 10.496 df Asymp. Sig. (2-sided) .001 .003 .001 Exact Sig. (2-sided) .002 Exact Sig. (1-sided) .001Pearson Chi-Square 1 a Continuity Correction 1 Likelihood Ratio 1 .002 .001 Fisher's Exact Test .002 .001 N of Valid Cases 113 a. Computed only for a 2x2 table b. 0 cells (.0%) have expected count less than 5. The minimum expected count is 23.45.[table7.sav] 其中有变量性别(sex)、观点(opinion) 和收入(income)；每一列相应于其代表的变量的水平;每一行为一种水平的组合(共有2?3?2＝12 种组合(12行), 而每种组合的数目(也就是列联表中的频数)在 number那一列上面，这就是每种组合的权重 (weight),需要把这个数目考虑进去,称为加权 (weight).如果不加权，最后结果按照所有组合只出现一次来算(也就是说，按照列联表每一格的频数为1).由于在后面的选项中没有加权的机会,因此在一开始就要加权.方法是点击图标中的小天平 (“权”就是天平的意思),出现对话框之后点击 Weught cases，然后把“number”选入即可。加权之后，按照次序选Analyze－Descriptive Statistics－Crosstabs。在打开的对话框中，把opinion和income分别选入 Row（行）和Column（列）；至于哪个放入行或哪个放入列是没有关系的。如果要Fisher精确检验则可以点Exact，另外在 Statistics中选择Chi-square，以得到c2检验结果。最后点击OK之后，就得到有关Pearson c2统计量、似然比c2统计量以及Fisher统计量的输出了(这里的Sig就是p-值)。下面就是SPSS计算机对于这个问题的输出Chi-Square Tests Value 20.456a 21.190 20.713 20.290bdf 2 2 1Pearson Chi-Square Likelihood Ratio Fisher's Exact Test Linear-by-Linear Association N of Valid CasesAsymp. Sig. (2-sided) .000 .000 .000Exact Sig. (2-sided) .000 .000 .000 .000Exact Sig. (1-sided)Point Probability.000.000123a. 0 cells (.0%) have expected count less than 5. The minimum expected count is 10.33. b. The standardized statistic is -4.504.高维列联表和(多项分布)对数线性模型? 前面例子原始数据是个三维列联表，对三维列联表的检验和对两维类似。 ? 但高维列联表在计算机软件的选项上有所不同，而且可以构造一个所谓(多项分布)对数线性模型 (loglinear model)来进行分析。 ? 利用对数线性模型的好处是不仅可以直接进行预测，而且可以增加定对数线性模型? 现在简单直观地通过二维表介绍一下对数线性模型，假定不同的行代表第一个变量的不同水平，而不同的列代表第二个变量的不同水平。用mij 代表二维列联表第i行，第j列的频数。人们常假定这个频数可以用下面的公式来确定：ln(mij ) ? ai ? ? j ? eij这就是所谓的对数线性模型。这里ai为行变量的第i个水平对ln(mij)的影响，而?j为列变量的第j 个水平对ln(mij)的影响，这两个影响称为主效应（main effect）；eij代表随机误差。(多项分布)对数线性模型? 这个模型看上去和回归模型很象，但由于对于分布的假设不同，不能简单地用线性回归的方法来套用(和 Logistic回归类似)；计算过程也很不一样。当然我们把这个留给计算机去操心了。只要利用数据来拟合这个模型就可以得到对于参数m的估计（没有意义），以及 ai和?j的“估计”。 ? 有了估计的参数，就可以预测出任何i，j水平组合的频数mij了（通过其对数）。 ? 注意，这里的估计之所以打引号是因为一个变量的各个水平的影响是相对的,因此,只有事先固定一个参数值( 比如a1=0),或者设定类似于Sai=0这样的约束，才可能估计出各个的值。没有约束，则这些参数是估计不出来的。（多项分布）对数线性模型? 二维列联表的更完全的对数线性模型为ln(mij ) ? ai ? ? j ? (a? )ij ? eij? 这里的(a??ij代表第一个变量的第i个水平和第二个变量的第j个水平对ln(mij)的共同影响，称为交叉效应。也就是说，当单独作用时，每个变量的一个水平对ln(mij)的影响只有ai(或?j)大，但如果这两个变量一同影响就不仅是ai+?j，而且还多出一项。 ? 这里的交叉项的诸参数的大小也是相对的，也需要约束条件来得到其“估计”；涉及的变量和水平越多，约束也越多。注意，无论你对模型假定了多少种效应，并不见得都有意义；有些可能是多余的。本来没有交叉影响，但如果写入，也没有关系，在分析过程中一般可以知道哪些影响是显著的，而那些是不显著的。对数线性模型? 常用的对数线性模型主要是两种 ? 一类为Poisson对数线性模型.它假定每个格子里面的频数满足一个Poisson分布（后面再介绍）. ? 一种是多项分布对数线性模型,假定所有的可能格子里面的频数满足多项分布。 ? 在统计软件的选项中会有关于分布的选项的。 ? 高维表的检验统计量和二维表一样也包含了Pearson c2 统计量和似然比c2统计量, 检验对数线性模型拟合的好坏程度的。 ? 就我们这里的三维列联表问题，如果只考虑各个变量单独的影响，而不考虑变量组合的综合影响，其SPSS输出的Pearson c2 统计量和似然比c2 统计量得到的p-值分别为0.1。用table7.sav数据拟合对数线性模型? 假定（多项分布）对数线性模型为ln(mijk ) ? ai ? ? j ? g k ? eijk? 这里ai为收入（i?1?2?3代表收入的低、中、高三个水平），?j为观点（j?1?2代表不赞成和赞成两个水平），gk为性别（k?1?2代表女性和男性两个水平）? mij代表二维列联表对于三个变量的第 ijk水平组合的出现次数，eijk为残差 ? 而从相应的参数估计输出结果，可以得到对ai的三个值的估计为0.9,0.0000,对?j的两个值的估计为-0.0,对gk的两个值的估计为 0.0。(多项对数线性模型无常数项)Poison对数线性模型? 有的时候，类似的高维表并不一定满足多项分布对数线性模型。下面看一个例子。这是关于哮喘病人个数和空气污染程度，年龄和性别的数据（asthma.sav） ? 下面表格表示了某地在一段时间记录下来的60组在不同空气污染状态的不同年龄及不同性别的人的发生哮喘的人数。 ? 其中性别为定性变量S（sex, 1代表女性，2代表男性）， ? 空气污染程度P也是定性变量（polut, 1、2、3分别代表轻度、中度和严重污染）， ? 年龄A (age)为定量变量，为那一组人的平均年龄； ? 还有一列数目C (count)为这一组的哮喘人数。 ? 这个表格和前面的列联表的不同点在于每一格的计数并不简单是前面三个变量的组合的数目（某个年龄段，某种性别及某种污染下的人数），而是代表了某个年龄段，某种性别及某种污染下发生哮喘的人数。SPSS的实现? [数据table7.sav] 假定已经加权 (加权一次并存盘了既可) ? 这时的选项为Analyze－Loglinear－General, ? 首先选择格子中频数的分布,这里是多项分布 (其默认值是Poisson对数线性模型). ? 然后把三个变量(sex,opinion,income)选入Factors(因子); ? 再选Model(模型)，如果选Saturated(饱和模型),那就是所有交叉效应都要放入模型;但如果不想这样,可以选 Custom(自定义),在Building Terms(构造模型的项)选 Main effect(主效应),再把三个变量一个一个地选进来(如果两个或三个一同选入，等于选入交叉效应). ? 如果想要知道模型参数，在Options中选择Estimates。 ? 最后Continue-OK即可得出结果. ? 在结果中可以找到有关的结果。 ? 如果SPSS的Viewer输出不完全，可以选中不完全的输出，利用Edit-Copy Objects来复制到例如记事本那样的文件中，就可以看到完整输出了
Poisson 对数线性模型简介：在某些固定的条件下, 人们认为某些事件出现的次数服从Poisson分布, 比如在某一个时间段内某种疾病的发生病数, 显微镜下的微生物数, 血球数, 门诊病人数, 投保数, 商店的顾客数, 公共汽车到达数, 电话接通数等等. 然而, 条件是不断变化的. 因此, 所涉及的Poisson分布的参数也随着Poisson对数线性模型? 假定哮喘发生服从Poisson分布；但是由于条件不同，Poisson分布的参数l也应该随着条件的变化而改变。这里的条件就是给出的性别、空气污染程度与年龄。当然，如何影响以及这些条件影响是否显著则是我们所关心的。这个模型可以写成ln(l ) ? m ? ai ? ? j ? g x ? eij? 这里m为常数项，ai为性别（i=1,2分别代表女性和男性两个水平），?j为空气污染程度（j=1,2,3代表低、中高三个污染水平），x为连续变量年龄，而g为年龄前面的系数，eij为残差项。Poisson对数线性模型? 从对于数据(asthma.sav)的Poisson对数线性模型的相应SPSS输出，可以得到对m的估计为4?9820，对 ai 的两个值的“估计”为-0.0608、 0.0000，对?j 的三个值的“估计”为-0.3、0.0000 ，对g的估计为 0.0126。 ? 注意，这里的对主效应aI 和?j 的估计只有相对意义；它们在一个参数为0的约束条件下得到的。 ? 从模型看上去，年龄和性别对哮喘影响都不那么重要。轻度污染显然比中度污染和严重污染哮喘要好。但是似乎严重污染时哮喘稍微比中度污染少些(差别不显著)。 ? 通过更进一步的分析（这里不进行），可以发现，中度和严重空气污染（无论单独还是一起）和轻度空气污染比较都显著增加哮喘人数，而中度及严重污染时的哮喘人数并没有显著区别。SPSS的实现? ? ? ? [数据asthma.sav] 假定已经加权这时的选项为Analyze－Loglinear－General, 首先选择格子中频数的分布,这里是Poisson分布。然后把两个变量（sex，polut）选入Factors（因子），把age选入Cell Covariate(s)。 ? 再选Model（模型），这里以选Custom（自定义），在 Building Terms（构造模型的项）选Main effect（主效应），再把三个变量一个一个地选进来。 ? 如果想要知道模型参数，在Options中选择Estimates。最后Continue-OK即可得出结果。 ? 在结果中可以找到有关Pearson c2统计量和似然比c2统计量的检验结果及参数的估计（如果SPSS的Viewer输出不完全，可以选中不完全的输出，利用Edit-Copy Objects来复制到例如记事本那样的文件中，就可以看到完整输出了）。思考：列联表与Poisson 对数线性模型，以及后面要介绍的试验设计的数据表有什么区别？因主子成分分析分析和汇报什么？? 假定你是一个公司的财务经理，掌握了公司的所有数据，比如固定资产、流动资金、每一笔借贷的数额和期限、各种税费、工资支出、原料消耗、产值、利润、折旧、职工人数、职工的分工和教育程度等等。 ? 如果让你向上面介绍公司状况，你能够把这些指标和数字都原封不动地摆出去吗？ ? 当然不能。 ? 你必须要把各个方面作出高度概括，用一两个指标简单明了地把情况说清楚。? 每个人都会遇到有很多变量的数据。 ? 比如全国或各个地区的带有许多经济和社会变量的数据；各个学校的研究、教学等各种变量的数据等等。 ? 这些数据的共同特点是变量很多，在如此多的变量之中，有很多是相关的。人们希望能够找出它们的少数“代表”来对它们进行描述。 ? 本章就介绍两种把变量维数降低以便于描述、理解和分析的方法：主成分分析（ principal component analysis ）和因子分析（ factor analysis）。实际上主成分分析可以说是因子分析的一个特例。在引进主成分分析之前，先看下面的例子。主成分分析成绩数据（student.sav）? 100个学生的数学、物理、化学、语文、历史、英语的成绩如下表（部分）。从本例可能提出的问题? 目前的问题是，能不能把这个数据的6个变量用一两个综合变量来表示呢？ ? 这一两个综合变量包含有多少原来的信息呢？ ? 能不能利用找到的综合变量来对学生排序呢？这一类数据所涉及的问题可以推广到对企业，对学校进行分析、排序、判别和分类等问题。主成分分析? 例中的的数据点是六维的；也就是说，每个观测值是6维空间中的一个点。我们希望把6维空间用低维空间表示。 ? 先假定只有二维，即只有两个变量，它们由横坐标和纵坐标所代表；因此每个观测值都有相应于这两个坐标轴的两个坐标值；如果这些数据形成一个椭圆形状的点阵（这在变量的二维正态的假定下是可能的） ? 那么这个椭圆有一个长轴和一个短轴。在短轴方向上，数据变化很少；在极端的情况，短轴如果退化成一点，那只有在长轴的方向才能够解释这些点的变化了；这样，由二维到一维的降维就自然完成了。主成分分析? 当坐标轴和椭圆的长短轴平行，那么代表长轴的变量就描述了数据的主要变化，而代表短轴的变量就描述了数据的次要变化。 ? 但是，坐标轴通常并不和椭圆的长短轴平行。因此，需要寻找椭圆的长短轴，并进行变换，使得新变量和椭圆的长短轴平行。 ? 如果长轴变量代表了数据包含的大部分信息，就用该变量代替原先的两个变量（舍去次要的一维），降维就完成了。 ? 椭圆（球）的长短轴相差得越大，降维也越有道理。-4-2024-4-2024主成分分析 ? 对于多维变量的情况和二维类似，也有高维的椭球，只不过无法直观地看见罢了。 ? 首先把高维椭球的主轴找出来，再用代表大多数数据信息的最长的几个轴作为新变量；这样，主成分分析就基本完成了。 ? 注意，和二维情况类似，高维椭球的主轴也是互相垂直的。这些互相正交的新变量是原先变量的线性组合，叫做主成分(principal component)。主成分分析 ? 正如二维椭圆有两个主轴，三维椭球有三个主轴一样，有几个变量，就有几个主成分。 ? 选择越少的主成分，降维就越好。什么是标准呢？那就是这些被选的主成分所代表的主轴的长度之和占了主轴长度总和的大部分。有些文献建议，所选的主轴总长度占所有主轴长度之和的大约85%即可，其实，这只是一个大体的说法；具体选几个，要看实际情况而定。? 对于我们的数据，SPSS输出为Tot al Va rianc e Exp laine d Initial Eigenvalues Component Total % of Variance Cumulative % 1 3.735 62.254 62.254 2 1.133 18.887 81.142 3 .457 7.619 88.761 4 .323 5.376 94.137 5 .199 3.320 97.457 6 .153 2.543 100.000 Extraction Method: Principal Component Analysis. Extraction Sums of Squared Loadings Total % of Variance Cumulative % 3.735 62.254 62.254 1.133 18.887 81.142? 这里的Initial Eigenvalues就是这里的六个主轴长度，又称特征值（数据相关阵的特征值）。头两个成分特征值累积占了总方差的81.142%。后面的特征值的贡献越来越少。? 特征值的贡献还可以从SPSS的所谓碎石图看出Scree Plot43210 1 2 3 4 5 6Component Number? 怎么解释这两个主成分。前面说过主成分是原始六个变量的线性组合。是怎么样的组合呢？SPSS可以输出下面的表。a Com ponent Matr ixComponent 1 2 3 4 MATH -.806 .353 -.040 .468 PHYS -.674 .531 -.454 -.240 CHEM -.675 .513 .499 -.181 LITERAT .893 .306 -.004 -.037 HISTORY .825 .435 .002 .079 ENGLISH .836 .425 .000 .074 Extraction Method: Principal Component Analysis. a. 6 components extracted. 5 .021 -.001 .002 .077 -.342 .276 6 .068 -.006 .003 .320 -.083 -.197? 这里每一列代表一个主成分作为原来变量线性组合的系数（比例）。比如第一主成分为数学、物理、化学、语文、历史、英语这六个变量的线性组合，系数（比例）为 -0.806, -0.674, -0.675, 0.893, 0.825, 0.836。? 如用x1,x2,x3,x4,x5,x6分别表示原先的六个变量，而用y1,y2,y3,y4,y5,y6表示新的主成分，那么，第一和第二主成分为y1 ? -0.806 x1 - 0.674 x2 - 0.675 x3 ? 0.893x4 ? 0.825 x5 ? 0.836 xy2 ? 0.353x1 ? 0.531x2 ? 0.513x3 ? 0.306 x4 ? 0.435 x5 ? 0.425 x? 这些系数称为主成分载荷（loading），它表示主成分和相应的原先变量的相关系数。 ? 比如y1 表示式中x1 的系数为-0.806，这就是说第一主成分和数学变量的相关系数为-0.806。 ? 相关系数越大，主成分对该变量的代表性也越大。可以看得出，第一主成分对各个变量解释得都很充分。而最后的几个主成分和原先的变量就不那么相关了。?可以把第一和第二主成分的载荷点出一个二维图以直观地显示它们如何解释原来的变量的。这个图叫做载荷图。Component Plot1.0.5phys chem mathhistory english literat0.0该图左面三个点是数学、物理、化学三科，右边三个点是语文、历史、外语三科。图中的六个点由于比较挤， -.5 不易分清，但只要认识到这些点的坐标是前面的第一二主成分载荷，坐标是前面表中第一二列中的数目，还是可以识别的。-1.0 -1.0 -.5 0.0 .5 1.0Component 1因子分析? 主成分分析从原理上是寻找椭球的所有主轴。因此，原先有几个变量，就有几个主成分。 ? 而因子分析是事先确定要找几个成分，这里叫因子（ factor）（比如两个），那就找两个。 ? 这使得在数学模型上，因子分析和主成分分析有不少区别。而且因子分析的计算也复杂得多。根据因子分析模型的特点，它还多一道工序：因子旋转（ factor rotation）；这个步骤可以使结果更好。 ? 当然，对于计算机来说，因子分析并不比主成分分析多费多少时间。 ? 从输出的结果来看，因子分析也有因子载荷（factor loading）的概念，代表了因子和原先变量的相关系数。但是在输出中的因子和原来变量相关系数的公式中的系数不是因子载荷，也给出了二维图；该图虽然不是载荷图，但解释和主成分分析的载荷图类似。? 主成分分析与因子分析的公式上的区别y1 ? a11 x1 ? a12 x2 ? ? ? a1 p x p y2 ? a21 x1 ? a22 x2 ? ? ? a2 p x p ?? y p ? a p1 x1 ? a p 2 x2 ? ? ? a pp x p主成分分析x1 ? m ? a11 f1 ? a12 f 2 ? ? ? a1m f m ? e1 x2 ? m ? a21 f1 ? a22 f 2 ? ? ? a2 m f m ? e 2 ?? x p ? m ? a p1 f1 ? a p 2 f 2 ? ? ? a pm f m ? e p因子分析(m&p)f1 ? ?11 x1 ? ?12 x2 ? ? ? ?1 p x p f 2 ? ? 21 x1 ? ? 22 x2 ? ? ? ? 2 p x p ?? f m ? ? m1 x1 ? ? m 2 x2 ? ? ? ? mp x p因子得分? 对于我们的数据，SPSS因子分析输出为R o t a t e d C o m p o n e n t M a t r iax Component 1 2 MATH -.387 .790 PHYS -.172 .841 CHEM -.184 .827 LITERAT .879 -.343 HISTORY .911 -.201 ENGLISH .913 -.216 Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization. a. Rotation converged in 3 iterations.? 该输出说明第一和第二主因子为（习惯上用字母f来表示因子）可以按照如下公式计算，该函数称为因子得分（factor score）。f1 ? -0.387 x1 - 0.172 x2 - 0.184 x3 ? 0.879 x4 ? 0.911x5 ? 0.913x6 f 2 ? 0.790 x1 ? 0.841x2 ? 0.827 x3 ? 0.343x4 ? 0.201x5 ? 0.216 x6这里，第一个因子主要和语文、历史、英语三科有很强的正相关；而第二个因子主要和数学、物理、化学三科有很强的正相关。因此可以给第一个因子起名为“理科因子”，而给第二个因子起名为“文科因子”。从这个例子可以看出，因子分析的结果比主成分分析解释性更强。? 这两个因子得分函数的系数所形成的散点图（虽然不是载荷，在SPSS中也称载荷图，Component Plot in Rotated Spacemath phys chem 1.0.50.0 history english literat -.5-1.0 -1.0 -.5 0.0 .5 1.0Component 1 可以直观看出每个因子代表了一类学科计算因子得分? 于是可以根据前面的公式，算出每个学生的第一个因子和第二个因子的大小，即算出每个学生的因子得分f1和f2 。 ? 人们可以根据这两套因子得分对学生分别按照文科和理科排序。当然得到因子得分因子分析和主成分分析的一些注意事项? 可以看出，因子分析和主成分分析都依赖于原始变量，也只能反映原始变量的信息。所以原始变量的选择很重要。 ? 另外，如果原始变量都本质上独立，那么降维就可能失败，这是因为很难把很多独立变量用少数综合的变量概括。数据越相关，降维效果就越好。 ? 在得到分析的结果时，并不一定会都得到如我们例子那样清楚的结果。这与问题的性质，选取的原始变量以及数据的质量等都有关系 ? 在用因子得分进行排序时要特别小心，特别是对于敏感问题。由于原始变量不同，因子的选取不SPSS实现(因子分析与主成分分析)? 拿student.sav为例，选Analyze－Data Reduction－Factor进入主对话框； ? 把math、phys、chem、literat、history、english选入Variables，然后点击Extraction， ? 在Method选择一个方法（如果是主成分分析，则选Principal Components）， ? 下面的选项可以随意，比如要画碎石图就选Scree plot，另外在 Extract选项可以按照特征值的大小选主成分（或因子），也可以选定因子的数目； ? 之后回到主对话框（用Continue）。然后点击Rotation，再在该对话框中的Method选择一个旋转方法（如果是主成分分析就选 None）， ? 在Display选Rotated solution（以输出和旋转有关的结果）和 Loading plot（以输出载荷图）；之后回到主对话框（用 Continue）。 ? 如果要计算因子得分就要点击Scores，再选择Save as variables（因子得分就会作为变量存在数据中的附加列上）和计算因子得分的方法（比如Regression）；之后回到主对话框（用Continue）。这时点OK即可。主成分分析(Principal Components Analysis)洛衫矶对12个人口调查区的数据编号总人口总雇员数中等校专业服务中等房价平均校龄项目数 1 2 3 4 00
10.9 8.8 13.6 0
56 7400012.88.3 11.4160014060 102500089 10 11 12910000 940011.512.5 13.7 9.6 11.4330000 400060180 390 80 10014000
动机? 对于具有许多变量的一个现象, 人们往往希望能够用较少的几个综合变量来描述. 这是一种简化. ? 显然, 如果这些变量互相独立, 则每一个都必须在综合后的变量中有同等份额 ; 这时无简化可言. ? 当这些变量很相关时,则有可能用综合变量来大大简化. 一些可以被其它变量代表的变量甚至能省略掉. 主成分分析就是这样一种简化方法.? 如果有变量x1,...,xp,数学上可以把它们变换成一组新的变量(称为成分） y1,...,yp,使得: ? (1)每一个y是那些x的线性组合,即 yi=ai1x1+…+ ? (2)系数aij的平方和为1,即ai= (ai1,...,aip)T是单位向量; ? (3)y1是这样的线性组合中方差最大的, y2为和y1不相关的线性组合中使方差最大的,如此下去,一般地, yj为与 y1,y2,…,yj-1都不相关的方差最大的线性组合.头几个变量（主成分）由于其方差最大,往往包含了绝大部分信息,人们就可以用它们来描述原来用p个变量所代表的现象. 简化也就完成了.矩阵情况? 上面这种理论上的变换仅仅在一些关于x变量的假设下才能实现.在实际应用中,如果每个变量有n个观察值,人们得到的是n×p数据阵. ? 这时就要用代数的办法来解出这些系数ai来.这时主分量的方差相当于 (或成比例于)样本相关阵(或协方差阵)的特征值, 而相应的系数为和这些特征值对应的特征向量.关于特征值和特征向量特征方程|B-lI|=0的解为特征值l, 这里B为一个p维正定方阵. l通常有p个根l1≥ l2≥… ≥ lp. 满足(B-liI)xi=0的向量xi为li的特征向量. 对任意向量x 有性质x ' Bx lp ? ? l1 x'x? 为了我们简化的目的,通常选取特征值最大的几个特征向量作为代表. ? 利用计算机软件就自动地得到这些特征值和特征向量. ? 由于变量不同的尺度会影响结果, 因此, 在各变量尺度差别大时, 一般可以用样本相关阵而不是协方差阵来做(这通常在软件的选项之中).步骤? 按照矩阵记号, 求A使得y=Ax , 这里 y为主成分向量, A为主成分变换矩阵, x为原始变换向量. ? 我们需要求出x的相关阵, 但是通常不知道, 但是有了观测值矩阵X之后, 可用样本相关阵R来近似x的相关阵. ? 步骤: 取R最大的几个特征根所相应的特征向量作为A的行即可.X=(X1,…, Xp)的相关阵为第(ij)-元素为 Cov ( xi , x j )Var ( xi ) Var ( x j )的p×p矩阵. 而对于观测值X=(x1,…, xp), 其中 xi =(x1i,…, xni), i=1,…,p, 的相关阵第(ij)-元素 sij 为rij ?sii s jj的p×p矩阵,其中sij为第i和第j观测的样本相关系数 n1 sij ? ? (xki ? xi )( xkj ? x j ) n k ?1相关阵R的特征值 l1≥ l2≥… ≥ lp,而相应的特征向量为下面矩阵的列向量: ? a11 a21 ? a p1 ? ? ? a12 a22 ? a p 2 ? ? ? ? ? ? ? ? ? ? ?a a2 p ? a pp ? ? 1p ?取上面几个行向量组成所需的主成分变换矩阵. 主成分i为: yi=ai1x1+…+aipxp (yi贡献率为li/∑j lj )第一主成分:使Var(a1’X)最大的单位向量a1 (a1’a1=1);而l1=a1’Ra1 =Var(a1’X); 这里R为X的相关阵. 第二主成分:满足Cov(a1’X,a2’X)=0 而且使Var(a2’X)最大的单位向量a2 (a2’a2=1);而l2=a2’Ra2=Var(a2’X) …………………………………………. 第k主成分:满足Cov(ai’X, ak’X)=0 (i=1,…,k-1), 而且使Var(ak’X)最大的单位向量ak(ak’ak=1);而 lk=ak’Rak =Var(ak’X).头m个主成分的累积贡献率:? l ? a ' Ra ? l ? a ' Rai ?1 i i ?1 i i ?1 p imm?i ?1 piii这里R为X的样本相关阵,第i个特征值 li=ai’Rai=V(ai’x); ai为第i个特征向量. Cov(ai’x,aj’x)=0.主成分负荷(载荷,loading):Yi与Xj的相关系数:r (Yi , X j ) ? li aij这里aij为第i个特征向量的第j个分量; 第i个主成分的载荷平方和为该主成分的方差,等于其特征值li.所选的m个主成分对变量xj的总方差贡献为?ri ?1m2(Yi , X j ) ? ? l ai ?1m2 i ij洛衫矶对12个人口调查区的数据(data15-01)编号总人口总雇员数中等校专业服务中等房价平均校龄项目数 1 2 3 4 00
10.9 8.8 13.6 0
56 7400012.88.3 11.4160014060 102500089 10 11 12910000 940011.512.5 13.7 9.6 11.4330000 400060180 390 80 10014000
相关阵的特征值: (S-plus输出) 2.7 0.9 0.0153 特征向量矩阵(列向量) A (S-plus输出)0.343 -0.5 -0.4970.453 0.8 0.8610.397 -0.0 -0.014 0.550 0.1 0.1240.467 0.6 -0.425Eigen Value 0.01 2 3 4 50.51.01.52.02.53.0LA dataIndexC umulative Eigen Values 0.01 2 3 4 50.20.40.60.81.0LA dataIndex(SAS输出)The SAS System 11:15 Sunday, September 22, 2002Eigenvalues of the Correlation Matrix Eigenvalue PRIN1 PRIN2 PRIN3 PRIN4 PRIN5 2.66 0.93 0.01526 Difference 1.82 0.68 . Eigenvectors PRIN1 X1 X2 X3 0...396695 PRIN2 0.601629 -..541665 PRIN3 0...247958 PRIN4 0.204033 -..022937 PRIN5 0..174861 -.698014 Proportion 0.....003051 Cumulative 0.99 0.95 1.00000X4X50.5500570.466738-.077817-.416429-.664076-.139649-.5003860.763182-.000124-.082425Statistics→Data Reduction →Factor: Variables:pop,school,employ,service,houseDescriptive: Extraction: correlation, Eigenvalue&1 (默认) Rotation: (我加入loading plot) Options:特征值、累积贡献率Total Variance Explained Initial Eigenvalues % of Cumulative Variance % 57.466 57.466 35.933 93.399 4.297 97.696 1.999 99.695 .305 100.000 Extraction Sums of Squared Loadings % of Cumulative Total Variance % 2.873 57.466 57.466 1.797 35.933 93.399Component 1 2 3 4 5Total 2.873 1.797 .215 9.993E-02 1.526E-02Extraction Method: Principal Component Analysis.Scree Plot3.5 3.02.5特征值图2.01.51.0.5 0.0 1 2 3 4 5Component NumberComponent Plot1.0.5二主成分因子负荷图总口人总员雇数0.0专服项数业务目-.5r (Yi , X j ) ? li aij中校等价等中房平校均龄-1.0 -1.0 -.5 0.0 .5 1.0Component 1主成分的因子负荷(每列平方和为相应特征值, 而每列除以相应特征值的平方根为相应的特征向量)这是主成分与各个变量的相关系数Component Matrixa Component 1 专服项数业务目中房等价中校均龄等平校总口人总员雇数 .932 .791 .767 .581 .672 2 -.104 -.558 -.545 .806 .726r (Yi , X j ) ? li aij有的书把它当成}

久游无息网