SPSS金融时间序列分析析中以年为时间单位，怎么可以拟合曲线而非直线？？？？？

点击联系发帖人 时间：2018-02-10 07:53

python 时间序列分析

SPSS 教程第一课：统计分析利器 SPSS 入门虽然现在 SPSS 最高版本已经到 11.5 了，但是现在 9.0 还是使用最广，不过 SPSS 的性能从 7.0 到 10.0 基本没有太大的进步，功能也没有增强多少，但是从 11.0 后性能明显增强，运算速度加快，统计上也增加了不少实用性功能，稳住了全球老二的位置，仅次于 SAS，但易用性则排在第一位。生物谷内以前已经多次介绍。 SPSS(Statistical Package for the Social Science)社会科学用软件包是世界上著名的统计分析软件之一。它和 SAS（Statistical Analysis System，统计分析系统）、BMDP （Biomedical Programs，生物医学程序）并称为国际上最有影响的三大统计软件。SPSS 名为社会学统计软件包，这是为了强调其社会科学应用的一面（因为社会科学研究中的许多现象都是随机的，要使用统计学和概率论的定理来进行研究），而实际上它在社会科学、自然科学的各个领域都能发挥巨大作用，并已经应用于经济学、生物学、教育学、心理学、医学以及体育、工业、农业、林业、商业和金融等各个领域。以下，我们来介绍 SPSS9.0 的功能（9.0 后的版本菜单稍有区别，但变化不大）。在开始\程序菜单中双击 “Spss for Windows”，就进入了 SPSS。SPSS 有两个窗口，一个是 SPSS 数据编辑窗口，另一个是 SPSS 输出航海家窗口，与 Netscape 的 Navigator 同名。以下分别加以介绍。一、 SPSS 数据编辑窗口：这个窗口与微软的 Excel 有些相似，一些功能也相同。实际上 Excel 也提供了一些基本的统计功能，但这些功能与 SPSS 相比，可能会让比尔.盖茨脸红。整个数据编辑窗口分为标题栏、菜单栏、工具栏、编辑栏、内容区和状态栏。SPSS 程序很大，命令和功能也很多，我们主要介绍菜单栏上的 10 个菜单命令。 1、File（文件）菜单：文件菜单提供了对数据文件进行打开、保存、调用、打印、退出等 12 条命令。值得一担的是：SPSS 不仅能调用 SPSS 不同版本生成的数据文件，还能调节器用 Excel、Lotus、Dbase、 SYLK、Tab-delimited、Syntax 等生成的各类文件，也可以使用 ODBC 的文件数据源，能够调用 ABCII 的数据。“吃所能吃，胃口极好”。当然，也可以直接在内容区中输入数据，但要注意先定义变量。 2、Edit（编辑）菜单：编辑菜单提供了剪切、复制、粘贴、删除、查找、后悔、功能 7 条命令。其中功能项类似于 WORD 中的选项命令，可以对系统的各方面设置进行调节，如果用户不理解其中的一些命令，请昼选择系统的默认值。 3、View（视图）菜单视图菜单提供了开关状态栏、工具栏、内容区网格线等 5 条命令。 4、Data（数据）菜单数据菜单提供了定义变量、定义数据、模板、插入变量、插入个案、查找个案、个案排序、增加个案、增加变量等 13 条命令，其性质类似于数据库的编辑与管理。 5、Transform（转换）菜单转换菜单提供了个案排序、随机测定、替换缺省值等 9 项实用功能。 6、Analysis（统计）菜单这才是 SPSS 的精华所在，它提供了强大、完备的统计方法。 1）Summaries 基本统计分析包括：Frequencies 维频数分布表；Descriptives 求描述统计量的过程；Case Report 个案报告；Report Summaries in Rows 行形式输出报告；Report Summaries in Columns 列形式输出报告。这一部分主要是对原始数据作整理和初步分析。 2）Custom Tables 定义表包括：Basi_Tables 基本表、General Tables 总表、Tables of Frequencies 频数表。它们以表的形式将功能反映出来。 3）Compare Means 比较平均数包括：Means 分组计算指定变量的描述统计量；One-Sample T Test 独立样本 T 检验；Paired-Samples T Test 配对样本 T 检验；One-Way ANOVA 一元方差分析。这是数据比较、求平均数、标准差、做 T 检验和简单方差分析等。 4）General Linear Model 一般线性模式包括单因素、多因素、重复测量的 GLM 和 MANOVA，分类非常细，也可以作协方差分析（ANCNOVA），这些统计方法是做实验经常用到的，你若想证明节食确实比运动更容易减肥，就用它来做吧。 5）Correlate 相关分析 Bivariate 项计算两个变量间的相关系数并进行检验；Partial 项计算两个变量在控制了其它变量的影响下的相关系数；Distance 项对变量或观测量进行相似性或不相似性测量。相关分析实际上就是想证明人也长与树也长之间存在一定的关系。 6）Regression 回归分析包括：Lingear 线性回归、Curve Estimation 曲线回归、Logistic 逻辑分析、Probit 概率分析、Weight Estimation 权重分析，@ Stage least Square 最小二乘法、 Nonlinear 非线性回归。你可以通过你的年龄、受教育程度、工作年限及能力专长来推测你在事业上可能达到的成就水平。 7）Loglinear 逻辑线性分析包括：General 项、Logist 项和 Model Selection 项。 8）CLASIFY 聚类和判别分析包括 K
Means Cluster 项执行快速聚类过程、Hierarchical Cluster 执行分层聚类过程、 Discriminent 执行叛别分析过程。 “马家军”中的屡破世界记录者估计就是用聚类和判别分析所做的选材模型挑选出来的。9）此外，统计菜单中还包括： Factor 因子分析、 Nonparametric Test 非参数检验、 Time Series 时间序列、Scale 比如、Multiple Response 多元反应项等，可谓应有尽有。 7、Graphs(图形)菜单这是 SPSS 成名的又一法宝，与 Excel 的制图功能相比，无论是功能还是在效果上都要强的多，堪称其它软件无法逾越的颠峰（统计之星工作室注：可能作者不太了解专业统计软件的作图功能，SPSS 在其中只算平平）。用 SPSS 图形菜单制作图形可分为三步：建立数据文件，在数据窗口中录入数据，或是从其他数据文件中调用数据；生成图形；修饰生成的图形。只要看看 SPSS 能做出什么图形，你就会知道我对它的赞誉绝非夸张。 Bar 选项可以生成简单条形图、分组条形图和分段条形图。 Line 选项可以生成单线图、多结图和垂线图。 Area 选项可以生成简单面积图和堆栈面积图。 Pie 选面可以生成单圆图。 High-Low 选项可以生成高-低-收盘图、极差图和距限图。 Pareto 选项可以生成排列图或 Pareto 帕雷托图。 Control 选项可以生成最常见的工序控制图。 Boxplot 选项可以生成探查数据的箱线图。 Error Bar 选项可以生成探杳数据的误差条图。 Scatter 选项可以生成简单散点图、重叠散点图、矩阵散点图和三维散点图。 Histogram 选项可以生成直方图。 Normal P-P 选项可以生成变量分布的分位数对正态分布的分位数的图形。 Normal Q-Q 选项可以生成变量分布的分位数对正态分布的分位数的图形。 Sequence 选项可以生成变量分布分位数对正态分布分位数的图形。 Time Series 选项可以生成自相关图、偏相送图和互相关图。 8、Utility（实用程序）菜单实用程序菜单提供了变量信息、文件信息、定义设置、用户设置和自动增加新个案 5 个命令。 9、Windows（窗口）菜单窗口菜单提供了 SPSS 最小化、SPSS 数据编辑窗口和 SPSS 输出窗口的切换言之功能。 10、Help（帮助）菜单帮助菜单提供了帮助主题、SPSS 教程、SPSS 语句指南、SPSS 漫游、关于 SPSS 等 5 个功能。二、SPSS 输出窗口 SPSS 输出窗口是用于展示 SPSS 的统计分析结果。其菜单命令与数据编辑窗口相似，只是减少了几个菜单项，而啬加了一个 INSERT 菜单项，其中提供了插入新标题、插入新文本、插入图表、插入文本文件、插入对象等，所以需要用这些菜单命令进行调整修饰，在图形编辑窗口中，可以作图形转换，加入图形要素，展示图列和做图属性的修改（包括对图形颜色、标记符号、图线样式、标签、字体字号的选择和立方体图形旋转、分离圆图等），功能超级强大。 SPSS9.0 的窗口化和点取操作大大方便了我们的统计分析过程。要注意的是有些统计程序仍然需要你编写语句。此外，切记 SPSS 只是提供了强大的统计分析程序，至于选取哪种统计方法处理你的数据，还得劳你费心，最好以统计学权威书刊为主，如果选错了，小则闹笑话，大则就出事故！三新版本的 SPSS 输出的数据和表格直接可以与 Excel 兼容，方便转换。第二课：SPSS 的安装与概貌第一章 SPSS 的安装与概貌第一节 SPSS 的安装1.1.1 SPSS 简介SPSS 的全称是：Statistical Program for Social Sciences，即社会科学统计程序。该软件是公认的最优秀的统计分析软件包之一。SPSS 原是为大型计算机开发的，其版本为 SPSSx，80 年代初，微机开始普及以后，它率先推出了微机版本（版本为 SPSS/PC+ x.x），占领了微机市场，大大地扩大了自己的用户量。 80 年代末， Microsoft 发表 Windows 后， SPSS 迅速向 Windows 移植。 1993 至年 6 月，正式推出 SPSS for Windows 6.0 版本。该版本不仅修正了以前版本的错误，改写一些模块使运行速度大大提高。而且根据统计理论与技术的发展，增加了许多新的统计分析方法，使之功能日臻完善。与以往的 SPSS for DOS 版本相比，SPSS for Windows 显得更加直观易用。首先，它采用现今广为流行的电子表格形式作数据管理器，使用户变量命名、定义数据格式、数据输入与修改等过程一气呵成，免除了原 DOS 版本在文本方式下数据录入的诸多不便；其次，采用菜单方式选择统计分析命令，采用对话框方式选择子命令，简明快捷，无需死记大量繁冗的语法语句，这无疑是计算机操作的一次解放；第三，采用对象连接和嵌入技术，使计算结果可方便地被其他软件调用，数据共享，提高工作效率。作为统计分析工具，理论严谨、内容丰富，数据管理、统计分析、趋势研究、制表绘图、文字处理等功能，几乎无所不包。本使用指导以 SPSS for Windows 6.0 为蓝本，以医学领域的相关资料为例子，简单明了地介绍它的具体使用方法。1.1.2 SPSS 的安装SPSS for Windows 6.0 共有 7 个部分，包括：Base、Pro.Stats、Adv.Stats、 Tables、Trends、Categeries 和 LISREL。具体内容介绍如下，用户可根据自身需求选择性安装，这样既节省硬盘空间，又方便使用。Base system（基本统计系统） ACF（时间序列研究中的自动相关分析） 97KAggregate（数据文件的汇总） Anova（方差分析） Autorecode（变量自动赋值处理） Correlations（相关分析） Crosstabs（列联表处理） Curvefit（11 种曲线模型的拟合） Date（变量定义与数据录入） Descriptives（均数、标准差等的描述性统计及 Z-分数转换） Examine（数值分布形式的探究） Fit（定义程序运行条件） Flip（数据行列转换） Frequencies（频数表分析） Graph（统计图制作） List（原始数据显示） Matrix Data（数据的矩阵处理） Mconvert（矩阵转化） Means（均数及均数差别的显著性检验） Mult Response（多变量数据的处理） Nonpar Corr（非参数资料的相关分析） Npar Tests（非参数检验） Oneway（单因素方差分析） Partial Corr（偏相关分析） Plot（曲线绘制） Rank（等级排序、计算正态分数、百分比等分析） Regression（回归分析） Report（结果输出） Sort（数据排序） SP Chart（高分辨率的统计制图） Sysfile Info（显示 SPSS 格式的系统文件信息） TS Plot（时间序列资料的统计制图） T-Test（t-检验）基本统计系统共需硬盘空间106K 137K 49K 73K 302K 125K 155K 79K 290K 94K 44K 121K 219K 52K 81K 42K 140K 90K 80K 199K 160K 90K 118K 57K 453K 226K 43K 94K 35K 190K 77K 4.1 MProfessional Statistics option（专业统计系统）Alscal（利用最小二乘法处理多等级测量资料） Cluster（聚类分析） Discriminant（判别分析） Factor（因子分析） Proximities（资料相似性分析） Quick Cluster（快速聚类分析） Reliability（可靠性分析） 2SLS（两级最小二乘法分析） WLS（加权最小二乘法分析）专业统计系统共需硬盘空间404K 166K 435K 296K 117K 104K 164K 107K 94K 1.9 MAdvanced Statistics option（高级统计系统） Cox Regression（Cox 回归模型） Hiloglinear（多因子系统模式的对数线性模型） Kaplan-Meier（Kaplan-Meier 生存时间模型） Loglinear（对数线性模型及最优化检验） Logistic（Logistic 模型） Manova（协方差分析） Matrix（高级矩阵转换） Nonlinear（非线性分析） Probit（依照所需概率作拟合最优化分析） Survival（寿命表方式的生存分析）高级统计系统共需硬盘空间 374K 155K 160K 207K 351K 738K 490K 147K 134K 178K 2.9 MTables option（制表系统）共需硬盘空间1.0 MTrends option（趋势分析系统） Arima（Arima 时间序列分析） Exsmooth（指数平滑拟合） Model Name（定义程序运行过程需调用的模块） Season（季节模型） 332K 123K 58K 60KSpectra（光谱时间序列分析） X11 Arima（X11 Arima 时间序列分析）趋势分析系统共需硬盘空间138K 435K 1.1 MCategories option（项目分类分析系统）本系统只提供键盘录入式的语法命令，共需硬盘空间 0.99 MLISREL option（线性结构方程式模型分析系统）本系统只提供键盘录入式的语法命令，共需硬盘空间 0.64 MSPSS 的安装步骤： 1、启动 Windows，在程序管理器中选“文件”菜单的“运行”项，弹出“运行”对话框，点击“浏览...”钮，根据安装盘所在的驱动器（A：或 B：或光盘）及其路径，找到 SPSSINST.EXE 文件，点击“确定”钮返回“运行”对话框，再点击“确定”钮，即运行安装程序。 2、安装程序运行后，出现安装选项对话框（如图 1.1 所示）。用户可根据自己的需要选择欲安装的模块：即在所需的模块名前“ ”内点击，使“ ”内出现“ ”表明选中；若再点击使“ ”转为“ ”表明取消选择。选择完毕后点击 OK 钮。 3、指定安装的目标盘和安装文件的路径。 4、输入软件系列号码、用户姓名和单位名称。 5、根据安装过程的提示，依次顺序插换原盘直至安装完成。最小安装大约需要 15M 硬盘空间（含必需中心系统 14.2M 和求助系统 1.2M），完全安装大约需要 28M 硬盘空间。第二节 SPSS 的界面初识1.2.1 SPSS 的启动在 Windows 的程序管理器中双击 SPSS FOR WINDOWS 图标以打开 SPSS 程序组，选择 SPSS 图标并双击之，即可启动 SPSS。SPSS 启动成功后出现 SPSS 的封面及主窗口，5 秒钟后或点击鼠标左键，封面消失，呈现 SPSS 的预备工作状态（如图 1.2 所示）。1.2.2 SPSS 的主窗口SPSS 的主窗口名为 SPSS for Windows，此为窗口的标题栏，当它呈蓝底白字时，表示该窗口为活动窗口，意即用户可对之进行操作。非活动窗口的标题栏呈白底黑字，用户对之不能操作。激活窗口的方法是点击该窗口的标题栏。标题栏的左侧（即窗口的左上角）为窗口控制钮，点击它选择窗口的还原、移动、大小变换、最小化、最大化、关闭和与其它窗口的切换。标题栏右侧（即窗口右上角）的两个钮：箭头向下的为最小化钮，点击它使窗口缩小为图标（但不是关闭窗口）；箭头向上的为最大化钮，点击它使窗口充满整个屏幕。该窗口的底部为系统状态栏，显示系统即刻的工作状况，这对用户了解系统情况十分有益。1.2.3 SPSS 的菜单菜单栏共有 9 个选项： 1、File：文件管理菜单，有关文件的调入、存储、显示和打印等； 2、Edit：编辑菜单，有关文本内容的选择、拷贝、剪贴、寻找和替换等； 3、Data：数据管理菜单，有关数据变量定义、数据格式选定、观察对象的选择、排序、加权、数据文件的转换、连接、汇总等； 4、Transform：数据转换处理菜单，有关数值的计算、重新赋值、缺失值替代等； 5、Statistics：统计菜单，有关一系列统计方法的应用； 6、Graphs：作图菜单，有关统计图的制作； 7、Utilities：用户选项菜单，有关命令解释、字体选择、文件信息、定义输出标题、窗口设计等； 8、Windows：窗口管理菜单，有关窗口的排列、选择、显示等； 9、Help：求助菜单，有关帮助文件的调用、查寻、显示等。点击菜单选项即可激活菜单，这时弹出下拉式子菜单，用户可根据自己的需求再点击子菜单的选项，完成特定的功能。1.2.4 SPSS 的其他窗口在 SPSS 的主窗口中还有两个窗口，一个是数据管理窗口，其标题名称是 “Newdata”，且默认为激活状态。数据管理器是一种典型的电子表格形式，用户可通过定义变量名、格式化数据类型后输入原始数值，并可根据需要对数据进行增删、剪贴、修改、存储等操作。另一个是结果输出窗口，标题名称是“!Output1”，启动时为非活动窗口，只有当完成一项处理后，才在该窗口显示处理过程提示和计算结果。当进行某项具体的统计方法操作时，可点击对话框的“Paste”钮激活命令编辑窗口，其标题名称是“!Syntax1”，或选 Window 菜单的!Syntax1 项也可激活命令编辑窗口。用户可利用该窗口进行 SPSS 命令的输入、编辑和运行，这对熟悉 DOS 版本的 SPSS 用户是十分方便的。上述三个窗口在实际操作时，经常因为内容很多，一个窗口中无法看到全部内容。有两种方法可帮助用户看到全部内容： 1、使用窗口的滚动条每个窗口的右侧有一个垂直滚动条，用鼠标点击滚动条上下两头的箭号钮或用鼠标按住滚动条中的方块上下拖动，可使窗口中的内容前后翻滚；底边有一个水平滚动条，用鼠标点击滚动条左右两头的箭号钮或用鼠标按住滚动条中的方块左右拖动，可使窗口中的内容左右移动。如此，用户便可看清所有内容。 2、改变窗口的大小一般情况下，鼠标指针是一个朝左上方的箭头，当把鼠标指针指向窗口边界时，鼠标指针变成双向箭头形。这时，若按住鼠标左键移动，可改变窗口的大小，同样可看清窗口内容。1.2.5 SPSS 的退出完成 SPSS 的统计分析后，退出该系统的方法是：选 File 菜单的 Exit 项，回答系统提出的有关是否需要存储原始数据、计算结果和 SPSS 命令之后，即退到 Windows 的程序管理器中。1.2.6 SPSS 的求助系统SPSS 提供了丰富且详尽的在线帮助。主要有下列几种方式：1、主窗口的 Help 菜单：在软件运行的任何时候，点击 Help 菜单选相关的子菜单，可得到所需的各种帮助。 2、主窗口的 Utilities 菜单：在 Utilities 菜单中，有 Command index... 子菜单，它提供有关 SPSS 各项统计分析技术能解决什么问题的信息。 3、各种对话框中的 Help 钮：在具体操作过程中，当弹出某一对话框时，一般总有 Help 钮，点击该钮，用户可得到这一对话框选项内容的详细帮助。 4、结果输出窗口中的 Grossary 钮：当用户在浏览计算结果时，可点击结果输出窗的 Grossary 钮，它显示各种专用统计术语的解释信息以便用户理解。 5、命令编辑窗口中的 Syntax 钮：激活命令编辑窗，可见一 Syntax 钮，点击该钮，可得到与用户正在编辑的命令相关的命令语法提示。第三课：SPSS 的数据管理统计分析离不开数据，因此数据管理是 SPSS 的重要组成部分。详细了解 SPSS 的数据管理方法，将有助于用户提高工作效率。SPSS 的数据管理是借助于数据管理窗口和主窗口的 File、Data、Transform 等菜单完成的。第一节数据的输入2.1.1 变量的定义先激活数据管理窗口，然后选 Data 菜单的 Define Variable...命令项，弹出 Define Variable 对话框（见图 1.1），在 Variable Name:框内输入变量名，如本例为 x1。2.1.2 数据格式化在 Define Variable 对话框中点击 Type...钮，弹出 Define Variable Type 对话框（如图 1.2 所示）用户可根据具体资料的属性对数据进行格式化。， Define Variable Type 对话框中列出如下 7 种数据类型：1、Numeric：数值型，同时定义数值的宽度（Width），即整数部分+小数点 +小数部分的位数，默认为 8 位；定义小数位数（Decimal Places），默认为 2 位。 2、Comma：加显逗号的数值型，即整数部分每 3 位数加一逗号，其余定义方式同数值型。 3、Dot：3 位加点数值型，无论数值大小，均以整数形式显示，每 3 位加一小点（但不是小数点），可定义小数位置，但都显示 0，且小数点用逗号表示。如 1.2345 显示为 12.345,00（实际是 12345E-4). 4、Scientific notation：科学记数型，同时定义数值宽度（Width）和小数位数（Decimal Places），在数据管理窗口中以指数形式显示。如定义数值宽度为 9，小数位数为 2，则 345.678 显示为 3.46E+02。 5、Date：日期型，用户可从系统提供的日期显示形式中选择自己需要的。如选择 mm/dd/yy 形式，则 1995 年 6 月 25 日显示为 06/25/95。 6、Dollar：货币型，用户可从系统提供的日期显示形式中选择自己需要的，并定义数值宽度和小数位数，显示形式为数值前有＄。 7、Custom currency：常用型，显示为整数部分每 3 位加一逗号，用户可定义数值宽度和小数位数。如
显示为 12,345.678。 8、String：字符型，用户可定义字符长度（Characters）以便输入字符。用户选择完毕可点击 Continue 钮返回 Define Variable 对话框。2.1.3 数据的输入定义好变量并格式化数据之后，即可向数据管理窗口键入原始数据。数据管理窗口的主要部分就是电子表格，横方向为电子表格的行，其行头以 1、 3、 2、 …… 表示，即第 1、2、3、……行；纵方向为电子表格的列，其列头以 var00001,var00002,var00003……表示变量名。行列交叉处称为单元格，即保存数据的空格。鼠标一旦移入电子表格内即呈十字形，这时按鼠标左键可激活单元格，被激活的单元格以加粗的边框显示；用户也可以按方向键上下左右移动来激活单元格。单元格被激活后，用户即可向其中输入新数据或修改已有的数据。图 1.3 所示即为一个已输入数据的数据管理窗口。为方便起见，用户亦可省略定义变量和数据格式化两个步骤，一启动 SPSS 即向数据管理窗口中键入原始数据，这时，变量名默认为 var00001,var00002,var00003……2.1.4 缺失值处理在实际工作中，因各种原因会出现数值缺失现象，为此，SPSS 提供缺失值处理技术。在 Define Variable 对话框中点击 Missing Value...钮，弹出 Define Missing Values 对话框（图 1.4），用户有 4 个可选项：1、No missing values：没有缺失值； 2、Discrete missing values：可定义 1-3 个。如测量身高（厘米）的资料，可定义 999 为缺失值；性别的资料（男为 1、女为 2），可定义－1 为缺失值； 3、Range of missing values：可定义缺失值的范围。如脉搏资料，可定义 0―9 为缺失值； 4、Range plus one discrete missing value：可定义缺失值的范围，同时定义另外 1 个不是这一范围的缺失值。如定义 0―9 为脉搏的缺失值，同时定义 999 为身高的缺失值。2.1.5 变量标签在 Define Variable 对话框中点击 Labels...钮，弹出 Define Labels 对话框（图 1.5），用户可定义变量标签和特定变量值的标签。如定义变量 hb 的标签为“血红蛋白值”，同时定义 12.36 为“正常”，则可在 Define Labels 对话框中的 Variable Label 处输入变量标签名，在 Value Labels 框中的 Value 处指定变量值，在 Value Label 处输入变量值标签，点击 Add 钮表示加入这种标签定义，点击 Change 表示更改原有标签，用户重新定义，点击 Remove 钮表示取消原有标签。2.1.6 数据管理器列宽定义在 Define Variable 对话框中点击 Column Format...钮，弹出 Define Column Format 对话框（图 1.6），用户可定义数据管理器纵列的宽度，以便显示较长的数值或文字；同时用户还可指定数值或文字在数据管理器单元格中的位置：Left 表示靠左、Center 表示居中、Right 表示靠右（此为默认方式）。第二节数据的编辑输入的原始数据，经常在统计分析前或统计分析过程中，需要作一些特殊的处理。为此，系统提供了如下主要方法。2.2.1 数据的增删2.2.1.1 增加一个新的变量列例如要在第 2 列前增加一个新的列，使原来的第 2 列右移变成第 3 列，则可先激活第 2 列的任一单元格，然后选 Data 菜单的 Insert Variable 命令项，系统自动为用户在第 2 列前插入一个新的变量列，原第 2 列自动向右移一列成为第 3 列。2.2.1.2 增加一个新的观察单位（即增加一个新的行）例如要在第 6 个观察单位前增加一个观察单位（亦即在第 6 行前增加一行，使原来的第 6 行下移成为第 7 行），则可先激活第 6 行的任一单元格，然后选 Data 菜单的 Insert Case 命令项，系统自动为用户在第 6 行前插入一个新的行，原第 6 行列自动向下移一行成为第 7 行。 2.2.1.3 增加一个新的观察值例如由于输入错误，造成第 7 个观察单位的第 4 个变量值漏输，结果第 8 个观察单位的第 4 个变量值误为第 7 个观察单位的第 4 个变量值，这样的情形使得数据管理器中的第 4 个变量值从第 7 行起全部上移，而合计例数少一个。于是希望在第 7 行的第 4 列处插入 1 个单元格，原有数据依次下移恢复正常。可先将鼠标指向在第 7 行第 4 列交叉处的单元格，然后按住鼠标左键向下拖动鼠标直至第 4 列从第 7 行起的所有数据被选中（黑底白字），选 Edit 菜单的 Cut 命令项，选中的数据被剪切入剪贴板，再激活第 8 行第 4 列交叉处的单元格，选 Edit 菜单的 Paste 命令项，可将剪贴板中的原第 7 行起的所有数据下移自第 8 行开始，并空出第 7 行第 4 列的单元格以便补入漏输的数值。 2.2.1.4 删除一个行例如要删除第 9 行（即删除这个观察单位的所有观察值），则可先点击第 9 行的行头，这时整个第 9 行被选中（呈黑底白字状）然后按 Delete 键或选 Edit ，菜单的 Clear 命令项，该行即被删除。 2.2.1.5 删除一个变量列例如要删除第 4 个变量列，则可先点击第 4 列的列头，这时整个第 4 列被选中（呈黑底白字状），然后按 Delete 键或选 Edit 菜单的 Clear 命令项，该列即被删除。 2.2.1.6 删除一个观察值例如由于输入错误，造成第 6 个观察单位的第 2 个变量值重复输入，结果第 7 个观察单位的第 2 个变量值误为第 6 个观察单位的第 2 个变量值，第 8 个观察单位的第 2 个变量值误为第 7 个观察单位的第 2 个变量值，……，这样的情形使得数据管理器中的第 2 个变量值从第 7 行起全部下移，而合计例数多一个。于是希望将第 7 行第 2 列的单元格删除，原有数据依次上移恢复正常。可先将鼠标指向在第 8 行第 2 列交叉处的单元格，然后按住鼠标左键向下拖动鼠标直至第 2 列从第 8 行起的所有数据被选中（黑底白字），选 Edit 菜单的 Cut 命令项，选中的数据被剪切入剪贴板，再激活第 7 行第 2 列交叉处的单元格，按 Del 键删除该单元格的数值，选 Edit 菜单的 Paste 命令项，可将剪贴板中的原第 8 行起的所有数据上移自第 7 行开始，既填补第 7 行第 2 列的单元格，又恢复原有下移的数值。2.2.2 数据的整理2.2.2.1 数据的排序用户可按要求对数据管理器的数据进行排序。选 Data 菜单的 Sort Cases... 命令项，弹出 Sort Cases...对话框（图 1.7），在变量名列框中选 1 个需要按其数值大小排序的变量（用户也可选多个变量，系统将按变量选择的先后逐级依次排序），点击钮使之进入 Sort by 框，然后在 Sort Order 框中确定是按升序（Ascending，从小到大）或降序（Descending，从大到小），点击 OK 钮即可。2.2.2.2 数据的行列互换有时，用户需要将数据管理器中原先按行（列）方向排列的数据转换成按列（行）方向排列的数据，这时可选 Data 菜单的 Transpose...命令项，弹出 Transpose...对话框（图 1.8）在变量名列框中选 1 个或多个需要转换的变量，，点击钮使之进入 Variable(s)框，再点击 OK 钮即可。产生的新数据会在第 1 列出现一个 case_lbl 新变量，用于放置原来数值的变量名。若要将数据再转换回原来的排列方式，方法与上述过程相同。2.2.2.3 数据的分组汇总用户还可对数据管理器中的数据按指定变量的数值进行归类分组汇总，汇总的形式十分多样。例如，要对下列数据（图 1.9）按变量 group 的大小，把变量 x1 作平均值汇总、把变量 x2 作求和汇总。选 Data 菜单的 Aggregate...命令项，弹出 Aggregate Data 对话框（图 1.10），在变量名列框中选 group 变量，点击钮使之进入 Break Variable(s)框，选 x1 变量进入 Aggregate Variable(s) 框，因 x1 欲作平均值汇总，故点击 Function...钮弹出 Aggregate Data: Aggregate Function 对话框（图 1.11）选 Mean of values 项点击 Continue 钮返回；选 x2 变量进入 Aggregate Variable(s)框，因 x2 变量欲作求和汇总，故点击 Function...钮选 Sum of values 项点击 Continue 钮返回。再点击 OK 钮即可。结果如图 1.12 所示。分组汇总提供的函数形式有： 1、Mean of values：求该组的平均值； 2、Standard deviation：求该组的标准差； 3、First value：只保留该组的第 1 个数值；4、Minimum value：只保留该组的最小值； 5、Last value：只保留该组的最后 1 个数值； 6、Maximum value：只保留该组的最大值； 7、Number of cases：合计该组的观察例数； 8、Sum of values ：求该组所有观察值的和。 9、Percentage above ：先确定 1 个数值，求大于该数值的所有例数占总例数的百分比（0-100%）； 10、Percentage below：先确定 1 个数值，求小于该数值的所有例数占总例数的百分比（0-100%）； 11、Fraction above：先确定 1 个数值，求大于该数值的所有例数占总例数的百分比（0-1）； 12、Fraction below：先确定 1 个数值，求小于该数值的所有例数占总例数的百分比（0-1）； 13、Percentage inside：先确定 1 个下限，再确定 1 个上限，求数值在该区间内的例数占总例数的百分比（0-100%）； 14、Percentage outside：先确定 1 个下限，再确定 1 个上限，求数值在该区间外的例数占总例数的百分比（0-100%）； 15、Fraction inside：先确定 1 个下限，再确定 1 个上限，求数值在该区间内的例数占总例数的百分比（0-1）； 16、Fraction outside：先确定 1 个下限，再确定 1 个上限，求数值在该区间外的例数占总例数的百分比（0-1）。 2.2.2.4 数据的分割数据也可根据需要，事先按用户的指定作分组（这种分组是系统内定义的，在数据管理器中并不一定明确体现，故亦可称之为分割），此后的所有分析都将按这种分组进行，除非取消数据分割的命令。选 Data 菜单的 Split File...命令项，弹出 Split File 对话框（图 1.13），选 Repeat analysis for each group 表示此后都按指定的分组方式作相同项目的分析，用户可从变量名列框中选 1 个或多个变量点击钮使之进入 Groups Based on 框来作分组的依据。若在数据分割之后要取消这种分组，可选 Analyze all cases 项，则系统恢复如初。调用 Split File 命令完成定义后，SPSS 将在主窗口的最下面状态行中显示 Split File On 字样；若调用该命令后的数据库被用户存盘，则当这个数据文件再次打开使用时，仍会显示 Split File On 字样，意味着数据分割命令依然有效。 2.2.2.5 数据的选择除按要求作数据分组分别作分析外（但这依然是将所有的资料全部代入分析），还可从所有资料中选择一些数据进行统计分析。选 Data 菜单的 Select Cases...命令项，弹出 Select Cases 对话框（图 1.14），系统提供如下几种选择方法：1、All cases：表示所有的观察例数都被选择，该选项可用于解除先前的选择； 2、If condition is satisfied：表示按指定条件选择，点击 If...钮，弹出 Select Cases:If 对话框（图 1.15），先选择变量，然后定义条件； 3、 Random sample of cases：表示对观察单位进行随机抽样，点击 Sample... 钮，弹出 Select Cases:Random Sample 对话框，有两种选择分式，一是大概抽样（Approximately）即键入抽样比例后由系统随机抽取，另一是精确抽样（Exactly）即要求从第几个观察值起抽取多少个； 4、Based on time or case range：表示顺序抽样，点击 Range...钮，弹出 Select Cases:Range 对话框，用户定义从第几个观察值抽到第几个观察值； 5、Use filter variable：表示用指定的变量作过滤，用户先选择 1 个变量，系统自动在数据管理器中将该变量值为 0 的观察单位标上删除标记，系统对有删除标记的观察单位不作分析。若用户在 Select Cases 对话框的 Unselected Cases Are 框中选 Deleted 项，则系统将删除所有被标上删除标记的观察单位。调用 Select Cases 命令完成定义后，SPSS 将在主窗口的最下面状态行中显示 Filter On 字样；若调用该命令后的数据库被用户存盘，则当这个数据文件再次打开使用时，仍会显示 Filter On 字样，意味着数据选择命令依然有效。2.2.2.6 观察单位的秩次确定为了解在指定条件下某个或某些变量值的大小顺序，可选 Transform 菜单的 Rank Cases...命令项，弹出 Rank Cases 对话框（图 1.16），从变量名列框中选 1 个或多个变量点击钮使之进入 Variable(s)框作为按该变量值大小排序的依据。若选 1 个或多个变量使之进入 By 框，则系统在排序时将按进入 By 框的变量值分组排序。排序的结果将在数据管理器中新建 1 个变量名为原排序变量前加一特定排序类型字母（如原变量为 x，则普通排序时变量为 rx）的变量用于放置秩次。用户可在 Rank Cases 对话框的 Assign Rank 1 to 框中指定秩次排列方式：Smallest value 表示最小值用 1 标注，之后为 2、3、4……；Largest value 表示最大值用 1 标注，之后为 2、3、4……。若点击 Rank Cases 对话框的 Rank Types...钮，可选择排序类型（图 1.17）： 1、Rank：普通秩次，排序类型字母 r； 2、Fractional Rank as percent；累积百分秩次，排序类型字母 p； 3、Savage score：以指数分布为基础的原始分秩次，排序类型字母 s； 4、Sum of case weights：分组例数之和的权重秩次，排序类型字母 n； 5、Fractional Rank：分组例数之和占总例数累积百分比秩次，排序类型字母 r； 6、Ntiles：先给定一个大于 1 的整数，系统按此数范围确定排序的秩次，排序类型字母 n。2.2.3 数据的算术处理2.2.3.1 变量的加权选 Data 菜单的 Weight Cases...命令项，可对指定的数值变量进行加权。在弹出的 Weight Cases 对话框中（图 1.18），Do not weight cases 表示不做加权，这可用于对做过加权的变量取消加权；Weight cases by 表示选择 1 个变量做加权。在加权操作中，系统只对数值变量进行有效加权，即大于 0 的数按变量的实际值加权，0、负数和缺失值加权为 0。加权操作在 χ 检验中是必不可少的，且一旦该变量做过加权操作，那么，一方面系统自动根据用户对已加权变量值的修改做加权变换，另一方面用户除非取消加权，否则即使改变变量名，系统依然对该变量进行加权操作。2调用 Weight Cases 命令完成定义后，SPSS 将在主窗口的最下面状态行中显示 Weight On 字样；若调用该命令后的数据库被用户存盘，则当这个数据文件再次打开使用时，仍会显示 Weight On 字样，意味着数据加权命令依然有效。2.2.3.2 数据的运算与新变量的生成选 Transform 菜单的 Compute...命令项，既可对选定的变量进行运算操作，又可通过运算操作让系统生成新的变量。在弹出的 Compute Variable 对话框中（图 1.19），用户首先在 Target Variable 指定一个变量（可以是数据管理器中已有的变量，也可是用户欲生成的新变量），然后点击 Type&Label...钮确定是数值型变量，还是字符型变量，或加上变量标签。在 Numeric Expression 框中键入运算公式，系统提供计算器和 82 种函数（在 Functions 框内）让用户使用；若点击 If...钮会弹出 Compute Variable:If Cases 对话框（类似于图 1.15 的选择条件对话框），用户可指定符合条件的变量参与运算。如本例是要求系统生成一个新变量 x1，x1 = x 的绝对值＋y－0.123×z。点击 OK 钮即可。结果在数据管理器中产生一个新变量 x1。2.2.3.3 变量值个数的清点对于数值型变量，某个或某些值在各观察单位中的出现次数可以作清点。选 Transform 菜单的 Count...命令项，在弹出的 CountOccurrences of Value within Cases 对话框中（图 1.20），先在 Target Variable 指定一个变量（可以是数据管理器中已有的变量，也可是用户欲生成的新变量），然后指定需要清点的变量，即在变量名列中选择 1 个或多个变量点击钮使之进入 Numeric Variable(s)框，再点击 Define Values...钮，弹出 Count Value within Cases:Value to Count 对话框，确定哪些数值作为清点对象。选 Value 表示单一数值为清点对象；选 System-missing 或 System-or user missing 表示系统或用户指定的缺失值为清点对象；选 Range 表示指定数值范围为清点对象。还可点击 If...钮指定条件来确定参与清点的观察单位。2.2.3.4 变量的重新赋值在数据管理器中，用户可对各单元的数值重新赋予新值。这种操作只适用于数值型变量。选 Transform 菜单的 Recode 命令项，此时有两种选择：一是对变量自身重新赋值（Into Same Variables...），一是对其它变量或新生成的变量进行赋值（Into Different Variables...）。若选第一种赋值方法，在弹出的 Recode into Same Variables 对话框中（图 1.21），先在变量名列中选 1 个或多个变量点击钮使之进入 Numeric Variables 框，然后点击 Old and New Values...钮弹出 Recode into Same Variables:Old and New Value 对话框，用户根据实际情况确定旧值和新值，点击 Continue 钮返回，再点击 OK 钮即可。若选第二种赋值方法，在弹出的 Recode into Different Variables 对话框中（图 1.22），先在变量名列中选 1 个或多个变量点击钮使之进入 Numeric Variable Output Variable 框，同时在 Output Variable 框确定一赋值变量（可以是数据管理器中已有的变量，也可以是用户要求生成的新变量），然后点击 Old and New Values...钮弹出 Recode into Different Variables:Old and New Value 对话框，用户根据实际情况确定旧值和新值，点击 Continue 钮返回，再点击 OK 钮即可。在两种赋值情况下，用户均可点击 If...钮指定条件来确定参与清点的观察单位。与 Compute 方法不同的是：Recode 方法不能进行运算，只能根据指定变量值作数值转换，且这种转换是单一数值的转换。2.2.3.5缺失值的替代对于缺失值，可采取多种手段进行科学替代。选 Transform 菜单的 Replace Missing Values...命令项，在弹出的 Replace Missing Values 对话框中（图 1.23）先在变量名列中选 1 个或多个存在缺失值的变量点击钮使之进入 New ， Variable(s)框，这时系统自动产生用于替代缺失值的新变量，用户也可在 Name框处自己定义替代缺失值的新变量名。然后点击 Method 的下箭头选择缺失值的替代方式：1、Series mean：用该变量的所有非缺失值的均数做替代； 2、Mean of nearby points：用缺失值相邻点的非缺失值的均数做替代，取多少个相邻点可任意定义； 3、Median of nearby points：用缺失值相邻点的非缺失值的中位数做替代，取多少个相邻点可任意定义； 4、Linear interpolation：用缺失值相邻两点非缺失值的中点值做替代； 5、Linear trend at point：用线性拟合方式确定替代值。第三节数据文件的管理2.3.1 数据文件的调用选 File 菜单的 Open 命令项，再选 Data...项，弹出 Open Data File 对话框，用户确定盘符、路径、文件名后点击 OK 钮，即可调入数据文件。系统支持如下格式的数据文件： 1、SPSS：SPSS for WINDOWS 版本的数据文件，后缀为.sav； 2、SPSS/PC+ ：SPSS for DOS 版本的数据文件，后缀为.sys； 3、SPSS portable：SPSS 的 ASCII 格式的机器码，可用于网络传输，后缀为.4、Excel：微软公司电子表格的数据文件，后缀为. 5、Lotus：莲花公司电子表格的数据文件，后缀为.w*; 6、SYLK：扩展格式电子表格的 ASCII 格式, 后缀为. 7、dBASE：数据库的数据文件，后缀为. 8、Tab-delimited：以空格为分隔的 ASCII 格式的数据文件，后缀为.dat。2.3.2 数据文件的连接2.3.2.1 纵向连接――观察单位的追加利用数据连接功能可以将两个或两个以上的具有相同变量格式的数据文件连在一起。选 Data 菜单的 Merge Files 命令项，选 Add Cases...项，弹出 Add Cases:Read File 对话框（类似于图 1.24），用户确定盘符、路径、文件名后点击 OK 钮，即完成连接。如本例有两个数据文件：data1.sav 和 data3.sav（图 1.25），它们具有共同的变量 name、x1、x2，将之连接后如图 1.26 所示。2.3.2.2 横向连接――变量值的合并利用数据连接功能还可以将两个或两个以上的具有相同观察单位的数据文件连在一起。选 Data 菜单的 Merge Files 命令项，选 Add Variables...项，弹出 Add Variables:Read File 对话框（类似于图 1.24），用户确定盘符、路径、文件名后点击 OK 钮，即完成连接。如本例有两个数据文件：data1.sav 和 data2.sav （图 1.27）它们具有共同的观察单位 zhangsan、， lisi、 wanwu、 maliu，将之连接后如图 1.28 所示。2.3.3 数据文件的保存输入数据管理器中的数据，无论什么时候（完成统计后或未作任何分析前或数据尚未输完，等），用户均可对之进行保存，以便于再使用（可以用于下次再追加数据、或作其他统计处理、或转成其他格式的数据文件供别的软件使用，等）都可以将数据文件保存起来。选 File 菜单的 Save As... 命令项，弹出 Newdata:Save Data As 对话框（图 1.29）, 用户确定盘符、路径、文件名以及文件格式后点击 OK 钮，即可保存数据文件。系统可由用户通过点击 Save File as Type 框的下箭头，选择确定完成下列格式数据文件的存放：1、SPSS(*.sav)：SPSS for WINDOWS 版本的数据格式； 2、SPSS/PC+(*.sys)：SPSS for DOS 版本的数据格式； 3、SPSS Portable(*.por)：SPSS for WINDOWS 版本的 ASCII 码数据格式； 4、Tab-delimited(*.dat) ：用空格分割的 ASCII 码数据格式； 5、Fixed ASCII(*.dat) ：混合 ASCII 码数据格式； 6、Excel(*.xls) ：Excel 的数据格式； 7、1-2-3 Rel 3.0(*.wk3) ：Lotus 3.0 版本的数据格式； 8、1-2-3 Rel 2.0(*.wk1) ：Lotus 2.0 版本的数据格式； 9、1-2-3 Rel 1.0(*.wks) ：Lotus 1.0 版本的数据格式； 10、SYLK(*.slk) ：扩展方式电子表格的数据格式； 11、dBASE Ⅳ(*.dbf) ：dBASE Ⅳ版本的数据格式； 12、dBASE Ⅲ(*.dbf) ：dBASE Ⅲ版本的数据格式； 13、dBASE Ⅱ(*.dbf) ：dBASE Ⅱ版本的数据格式。第四课：SPSS 文本文件的编辑生物谷分享| 收藏上一章介绍了 SPSS 数据管理窗口的使用方法。在第一章中，我们还提到过 SPSS 的其他窗口，如结果输出窗口（图 3.1）和命令编辑窗口（图 3.2），这两个窗口是系统用于接收或输出文本的。用户经常在实际工作中需要对之进行必要的编辑。SPSS 的文本编辑是借助于主窗口的 File、Edit 等菜单完成的，本章介绍 SPSS 的文本编辑方法。第一节文本文件的管理3.1.1 文件的生成SPSS 文本文件主要有两种生成方法：1、在进行统计分析时，系统会将出错信息、数据转换情况、统计运算的中间环节和最终结果送到结果输出窗口中，这就是结果文本的内容； 2、在调用 Statistics 菜单的统计过程命令项时，会弹出统计过程对话框，这时若点击 Paste 钮就会出现命令编辑窗口，在该窗口中显示了与 SPSS For DOS 相类似的 SPSS 语法命令，这就是命令文本的内容。无论是结果文本还是命令文本，用户都可以对之进行必要的编辑。3.1.2 文件的保存对于出现在结果输出窗口和命令编辑窗口的文本内容，用户可以将之保存起来以便日后查阅。方法是：先激活该窗口（窗口标题栏为蓝底白字时，即为活动窗口），然后选 File 菜单的 Save As...命令项，弹出 Save As 对话框，用户指定盘符、路径和文件名后点击 OK 钮即可保存文件。系统对结果文本的文件名默认后缀为.lst，对命令文本的文件名默认后缀为.sps。3.1.3 文件的调用对存盘的文本文件，可以在需要时调用它。选 File 菜单的 Open 命令项，再选 SPSS Syntax...项，弹出 Open SPSS Syntax 对话框，用户指定盘符、路径和文件名后点击 OK 钮即可调用后缀为.lst 的结果文本文件；若选 File 菜单的 Open 命令项，再选 SPSS Output...项，弹出 Open Output 对话框，用户指定盘符、路径和文件名后点击 OK 钮即可调用后缀为.sps 的语法文本文件。3.1.4 文件的打印用户还可将文本打印出来以便阅读或保存。先激活需要打印的窗口，然后选 File 菜单的 Print...命令项，弹出 Print 对话框，用户确定是全部打印（All）还是选择部分打印（Selection），并确定打印份数（Copies）后，点击 OK 钮即可将文本内容送往打印机。系统在 File 菜单中还提供 Printer Setup...命令项，选择命令项可对打印机类型、纸张尺寸、打印边界、打印输出方向、打印分辩率和打印颜色深浅度进行设定。第二节文本文件的编辑显示在结果输出窗口和命令编辑窗口的文本内容，就象任何显示在文字处理器中的文字内容一样，可以按用户的需要做修改、增删、移动、查找、替换等操作。但 SPSS 毕竟不是专门的文字处理器，而是统计分析软件，因此，其文本编辑的功能相对有限。对其文本内容，尤其是运算结果的有关内容，用户经常需将之体现在专业报告中。如果用户想仅仅依靠 SPSS 有限的文本编辑功能直接就着输出的结果进行文章撰写，那么会发现其排版功能的不足让人捉襟见肘。本节介绍 SPSS 的文本编辑的功能，旨在让用户对输出结果或统计命令作必要的编辑，以便直接打印或通过 WINDOWS 的剪贴板剪切或拷贝后供其他文字处理器（如 Word、Wordperfect 等）使用。3.2.1 文本中文字的增删与修改激活结果输出窗口或命令编辑窗口后，用户可使用方向键和 Home、End、 PageUp、PageDown 键或直接用鼠标（在文本区内，鼠标呈“I”状）移动和确定光标位置，以便进行文字的增删与修改。其中键为光标左移；键为光标右移；键为光标上移；键为光标下移；Home 键为光标移至行头；End 键为光标移至行尾； Ctrl+Home 键为光标移至篇头； Ctrl+End 键为光标移至篇尾； PageUp 键为上翻一页；PageDown 键为下翻一页。移动光标至所需位置时，即可进行文字的增删与修改。在默认情况下，编辑处于插入状态，用户在光标位置上击键即可插入文字；若想覆盖原有的文字，可先按 Insert 键关闭插入状态，这时键入的文字将逐一取代光标位置之后的原有文字；若想删除文字，则可使用 Delete 键和 Backpace 键，用 Delete 键可删除光标后面的文字，用 Backpace 键可删除光标前面的文字。在结果输出窗口中，每隔几行文字，其最左边会显示一个 ? 符号，这是打印分页符（有的是 ? 符号，两个 ? 之间的内容为一次完整统计过程的结果输出块）。对于一般的打印纸，当保留系统提供的分页符时，会出现每打印十数行就换页的情况，这样十分浪费纸张。故一般需要将分页符删除：即将光标移至分页符后按 Backpace 键即可消除分页符。必要时，用户可重新对文本加入 ? 符号和 ? 符号。选 Edit 菜单的 Add Page Break 命令项可加入 ? 符号；选 Edit 菜单的 Add Output Break 命令项可加入 ? 符号。3.2.2 文本的选择上面所讲的方法用于少数几个文字的删除是很方便的，但实际工作中需要对几行或数段文字（即文本块）进行删除或移动，这时就需要应用文本选择方法。将鼠标移至需选择的文本块之首，按住鼠标左键拖动鼠标，直至所需文本块全部选中后放开鼠标左键，被选中的文本块呈黑底白字；若感到拖动鼠标的操作有困难，也可改用键盘选择方式，即先将光标移至需选择的文本块之首，然后按住 Shift 键不放，再同时按方向键移动光标，便可选择所需的文本块。还可调用 Edit 菜单的 Select 命令项进行文本块选择，它有几个选项： 1、All：窗口里的内容全部选择，可用于结果文本也可用于命令文本； 2、Page：窗口里当前区域内显示的一个页面的内容（即两个分页符之间的内容）被选择，只适用于结果文本； 3、Output Block：窗口里当前区域内显示的一个输出块的内容（即两个 ? 符之间的内容）被选择，只适用于结果文本； 4、Command：窗口里当前区域内显示的一个命令段的内容被选择，只适用于命令文本。3.2.3 文本块的删除、移动与复制完成文本块的选择之后，就可以进行所需的删除、移动或复制操作了。 1、删除：选好文本块后，按 Del 键或选 Edit 菜单的 Clear 命令项，即可将选好的文本块删除； 2、移动：已有的文本可能需要移到另一处，这时可先选好需要移到别处的文本块，再选 Edit 菜单的 Cut 命令项，将该文本块剪切送入 Windows 的剪贴板中（该文本块从原处消失），然后将光标移到所需的位置，选 Edit 菜单的 Paste 命令项，即完成文本块的移动； 3、复制：已有的文本可能在另一处也需要，这时可先选好该文本块，再选 Edit 菜单的 Copy 命令项，将该文本块拷入 Windows 的剪贴板中（该文本块在原处仍保留），然后将光标移到所需的位置，选 Edit 菜单的 Paste 命令项，即完成文本块的复制。3.2.4 文本块的打印被选取的文本块，可直接送打印机输出。选 File 菜单的 Print...命令项，弹出 Print 对话框，系统默认选 Selection 项，用户确定打印份数后点击 OK 钮即可。3.2.5 文本中文字的查找激活结果输出窗口或命令编辑窗口，选 Edit 菜单的 Search For Text...命令项，弹出 Serach For Text 对话框（图 3.3），用户在 Serach for 框中输入需要查找的文字，然后确定是否忽略字母的大小写（Ignore case）点击 Serach ， Forward 钮可要求系统向后查找，点击 Search Backward 钮可要求系统向前查找。3.2.6 文本中文字的替换激活结果输出窗口或命令编辑窗口， Edit 菜单的 Replace Text...命令项，选弹出 Replace Text 对话框（图 3.4），用户在 Serach for 框中输入替换前的文字， Replace with 框中输入替换后的文字，在确定是否忽略字母的大小写（Ignore case），并确定系统的查找方向（向后为 Serach Forward，向前为 SearchBackward）。点击 Search 钮，系统找到替换处时会暂停询问用户是否做替换操作，若要点击 Replace then Search 钮，系统替换后继续再查找；若不要可点击 Search 钮再查找或点击 Close 钮结束替换操作。用户在十分肯定的情况下可点击 Replace All 钮，系统将不做任何询问快速自动地全部替换。第五课：摘要性分析生物谷摘要性分析是对原始数据进行描述性分析，这是统计工作的出发点。统计学的一系列基本描述指标，不仅让人了解资料的特征，而且可启发人们对之作进一步的深入分析。通过调用摘要性分析的诸个过程，可完成许多统计学指标，对于计量资料，可完成均数、标准差、标准误等指标的计算；对于计数和一些等级资料，可完成构成比、率等指标的计算和 χ 检验。本章将介绍其操作方法。2第一节 Frequencies 过程4.1.1 主要功能调用此过程可进行频数分布表的分析。频数分布表是描述性统计中最常用的方法之一，此外还可对数据的分布趋势进行初步分析。4.1.2 实例操作[例 4-1]调查 100 名健康女大学生的血清总蛋白含量（g%）如下表，试作频数表分析。7.437.886.887.807.04 8.05 7.20 7.20 7.58 6.80 7.58 7.35 7.04 6.80 7.65 7.43 6.50 7.27 7.72 7.27 7.35 7.43 7.27 7.048.056.977.127.357.957.567.507.887.207.207.437.127.507.357.887.436.507.437.126.977.357.507.206.438.036.977.437.357.587.586.887.657.128.127.507.047.047.207.657.437.766.737.207.507.357.957.357.477.658.167.547.276.727.657.277.046.886.736.736.737.587.357.507.277.357.278.167.037.357.957.047.657.728.437.507.654.1.2.1 数据准备激活数据管理窗口，定义血清总蛋白含量的变量名为 X，然后输入血清总蛋白含量的原始数据，结果见图 4.1。4.1.2.2 统计分析激活 Statistics 菜单，选 Summarize 中的 Frequencies...命令项，弹出 Frequencies 对话框（图 4.2）。现欲对血清总蛋白含量值进行频数表分析，故在对话框左侧的变量列表中选 x，点击钮使之进入 Variable(s)框。同时可点击 Format...钮弹出 Frequencies：Format 对话框，在 Order by 栏中有四个选项： Ascending values 为根据数值大小按升序从小到大作频数分布；Descending values 为根据数值大小按降序从大到小作频数分布；Ascending counts 为根据频数多少按升序从少到多作频数分布；Descending counts 为根据频数多少按降序从多到少作频数分布。在 Page Formal 栏中可定义结果输出的格式。本例选 Ascending values 项后点击 Continue 钮返回 Frequencies 对话框。点击 Statistics...钮，弹出 Frequencies:Statistics 对话框（图 4.3），可点击相应项目，要求系统在作频数表分析的基础上，附带作各种统计指标的描述，特别是可进行任何水平的百分位数计算。本例要求计算四分位数 (Quartiles)、均数(Mean)、中位数(Median)、众数(Mode)、总和(Sum)、标准差 (Std.deviation)、方差(Variance)、全距 (Range)、最小值(Minimum)、最大值 (Maximum)、标准误(S.E.mean)、偏度系数（Skewness）和峰度系数(Kurtosis)，选好后点击 Continue 钮返回 Frequencies 对话框。点击 Charts...钮，弹出 Frequencies:Charts 对话框，用户可选两种图形，一是直条图（Bar chart）适用于非连续性的变量；，另一是直方图（Histogram），适用于连续性的变量。本例要求对变量 x 绘制直方图，故选择 Histogram 项，并要求绘制正态曲线（With normal curve），点击 Continue 钮返回 Frequencies 对话框，再点击 OK 钮即可。4.1.2.3 结果解释在输出结果窗口中将看到如下统计数据：系统对变量 x 的原始数据作频数分布表，Value 为原始值、Frequency 为频数、Percent 为各组频数占总例数的百分比、Valid percent 为各组频数占总例数的有效百分比、Cum Percent 为各组频数占总例数的累积百分比。X Cum Value Label Value Frequency Percent 6.43 1.0 6.50 3.0 6.72 4.0 6.73 8.0 6.80 10.0 6.88 13.0 6.97 16.0 7.03 17.0 7.04 24.0 7.12 28.0 7.20 35.0 7.27 42.0 7.35 1 PercentValidPercent1.01.022.02.011.01.044.04.022.02.033.03.033.03.011.01.077.07.044.04.077.07.077.07.01111.011.053.0 7.43 61.0 7.47 62.0 7.50 69.0 7.54 70.0 7.56 71.0 7.58 76.0 7.65 83.0 7.72 85.0 7.76 86.0 7.80 87.0 7.88 90.0 7.95 93.0 8.03 94.0 8.05 96.0 8.12 8 8.0 8.011.01.077.07.011.01.011.01.055.05.077.07.022.02.011.01.011.01.033.03.033.03.011.01.022.02.011.01.097.0 8.16 99.0 8.43 100.0 2 2.0 2.011.01.0-----Total 100------100.0------100.0接着输出各基本统计指标，其中均数为 7.366, 标准误为 0.039, 中位数为 7.350, 众数为 7.350, 标准差为 0.394, 方差为 0.155, 峰度系数为 0.034, 峰度系数的标准误为 0.478, 偏度系数为 0.06, 偏度系数的标准误为 0.241, 全距为 2.000, 最小值为 6.430, 最大值为 8.430, 25%位数为 7.120, 50%位数为 7.350, 75%位数为 7.580，共 100 个观察值，无缺失值。Mean7.366Std err 7.350 7.350 Variance .034 Skewness Std dev .155 S E Kurt .060.039MedianMode.394Kurtosis.478S E Skew.241Range 6.430 Maximum 8.4302.000MinimumPercentileValuePercentile Value 50.00ValuePercentile25.007.1207.35075.007.580Valid cases100Missing cases0最后系统输出带有正态曲线的直方图。从上述内容可知，系统在未特别指定的情形下，频数分布表是按照原始数值逐一作频数分布的，这与日常需要的等距分组、且组数保持在 8～15 组的要求不符。为此，在调用 Frequencies 过程命令之前，可先对原始数据进行算术处理：已知最小值为 6.430，最大值为 8.430，全距为 2.000，故可要求分成 10 组，起点为 6.4，组距为 0.2。 Transform 菜单 Recode 项的 Into Different Variable... 选命令项，在弹出的 Recode Into Different Variable 对话框中选 x 点击钮使之进入 Numeric Variable→Output Variable 框，在 Output Variable 栏的 Name 处输入 x1，点击 Change 钮表示新生成的变量名为 x1。点击 Old and New Values 钮弹出 Recode Into Different Variable:Old and New Values 对话框，在 Old value 栏内选 Range 项，输入第一个分组的数值范围： 6.4～6.599， New value 在栏内输入新值：6.4，点击 Add 钮，依此将各组的范围及对应的新值逐一输入，最后点击 Continue 钮返回 Recode Into Different Variable 对话框，再点击 OK 钮即完成。系统在原数据库中生成一新变量为 x1，这时调用 Frequencies 过程命令将输出等距分组且组数为 10 的频数分布表。X1 Valid Cum Value Label Value Frequency Percent 6.40 3.0 6.60 8.0 6.80 3 Percent Percent3.03.055.05.088.08.016.0 7.00 28.0 7.20 53.0 7.40 76.0 7.60 86.0 7.80 93.0 8.00 99.0 8.40 100.0 12 12.0 12.02525.025.02323.023.01010.010.077.07.066.06.011.01.0------Total 100------100.0------100.0Valid cases100Missing cases0第二节 Descriptives 过程4.2.1 主要功能调用此过程可对变量进行描述性统计分析，计算并列出一系列相应的统计指标，且可将原始数据转换成标准 Z 分值并存入数据库，所谓 Z 分值是指某原始数值比其均值高或低多少个标准差单位，高的为正值，低的为负值，相等的为零。4.2.2 实例操作[例 4-2]调查 20 名男婴的出生体重（克）资料如下，试作描述性统计。27702915279525 69 2970308731262272350334184218370723104.2.2.1 数据准备激活数据管理窗口，定义男婴出生体重的变量名为 X，然后输入男婴出生体重的原始数据。4.2.2.2 统计分析激活 Statistics 菜单选 Summarize 中的 Descriptives...命令项，弹出 Descriptives 对话框（图 4.5）。现欲对男婴出生体重进行描述性分析，故在对话框左侧的变量列表中选 x,点击钮使之进入 Variable(s)框；本例要求将原始数据转换成 z 分值，故选 Save standardized value as variables 项。点击 Options...钮，弹出 Descriptives:Options 对话框（图 4.6）。框中各指标的意义请读者参阅本章第一节。选好项目后点击 Continue 钮返回 Descriptives 对话框，再点击 OK 钮即可。4.2.2.3 结果解释在结果输出窗口中将看到如下统计数据：均数为 , 标准误为 140.681, 标准差为 629.146, 方差为 , 峰度系数为 0.118, 峰度系数的标准误为 0.992, 偏度系数为 0.732, 偏度系数的标准误为 0.512, 全距为 , 最小值为 2272, 最大值为 4654, 有效例数为 100，无缺失值。 Number of valid observations (listwise) = Variable X 20.00Mean Std Dev Kurtosis Skewness Range.146 .118 .732
Maximum .000S.E. Mean Variance S.E. Kurt S.E. Skew Minimum Sum140.681
.992 .512 2272Valid observations -20 0Missing observations -此外，系统以 zx 为变量名将原始数据转换成标准 z 分值，存放在原数据库中（图 4.7）。例如，已知均数为，标准差为 629.146，故原始值 2770 的 Z 分值为 = - 0.66511；原始值 2770 的 Z 分值为 = 1.10078。新变量具有均值为 0、标准差为 1 的特征，亦即变量的标准化过程。第三节 Explore 过程4.3.1 主要功能调用此过程可对变量进行更为深入详尽的描述性统计分析，故称之为探索性统计。它在一般描述性统计指标的基础上，增加有关数据其他特征的文字与图形描述，显得更加细致与全面，有助于用户思考对数据进行进一步分析的方案。4.3.2 实例操作[例 4-3]下表为 30 名 10 岁少儿的身高（cm）资料，试作探索性分析。编号男孩身高女孩1 2 3 4 5 6 7 8 9 10 11 12 13 14 15121.4 131.5 132.6 129.2 134.1 135.8 140.4 136.0 128.2 137.4 135.5 129.0 132.2 140.9 129.3133.4 132.7 130.1 136.7 139.7 133.0 140.3 124.0 125.4 137.5 120.9 138.8 138.6 141.4 137.54.3.2.1 数据准备激活数据管理窗口，定义少儿身高的变量名为 X，然后再定义一个变质为 SEX，用于作性别分组。顺序输入少儿身高的原始数据，在变量 SEX 中，男孩输入 1、女孩输入 2。4.3.2.2 统计分析激活 Statistics 菜单选 Summarize 中的 Explore...项，弹出 Explore 对话框（如图 4.8），现欲对少儿身高资料进行分组的探索性分析，故在对话框左侧的变量列表中选 x 点击钮使之进入 Dependent List 框，再选 sex 点击钮使之进入 Factor List 框。点击 Statistics...钮，弹出 Explore:Statistics 对话框（图 4.9），有如下选项： 1、Descriptives：输出均数、中位数、众数、5%修正均数、标准误、方差、标准差、最小值、最大值、全距、四分位全距、峰度系数、峰度系数的标准误、偏度系数、偏度系数的标准误； 2、M-estimators：作中心趋势的粗略最大似然确定，输出四个不同权重的最大似然确定数； 3、Outliers：输出五个最大值与五个最小值； 4、Percentiles：输出第 5%、10%、25%、50%、75%、90%、95%位数； 5、Grouped Frequency tables：输出分组的例数与数值范围表。本例全部选择，之后点击 Continue 钮返回 Explore 对话框。点击 Plot...钮弹出 Explore:Plot 对话框（图 4.10），在 Boxplot 栏内选 Factor levels together 项要求按组别进行箱图绘制；在 Descriptive 栏内选 Stem-and-leaf 项要求作茎叶情形描述。之后点击 Continue 钮返回 Explore 对话框，再点击 OK 钮即可。4.3.2.3 结果解释在结果输出窗口中将看到如下统计数据：先输出男孩的数据。共 15 例，无缺失值，其均数为 132.9，中位数为 132.6， 5%修正均数为 133.0944，均数的 95%置信区间为 130.94，标准误为 1.3192，方差为 26.1043，标准差为 5.1092，最小值为 121.4，最大值为 140.9，全距为 19.5，四分位全距为 6.8，偏度系数为-0.4239，偏度系数的标准误为 0.5801，峰度系数为 0.4961，峰度系数的标准误为 1.1209。接着输出四个不同权重下作中心趋势的粗略最大似然确定数，对于伴有长拖尾的对称分布数据或带有个别极端数值的数据，用粗略最大似然确定数替代均数或中位数，结果更准确。系统还进行数据的茎叶情形描述。如系统指出男孩的身高资料中，有一个数值是茎为 12，叶为 1，其实该数值是 121.4；有四个数值是茎为 12，叶为 8999，其实这些数值是 129.2、128.2、190.0、129.3。再接着输出百分位数：第 5%位数是 121.4，第 10%数是 125.48，第 25%位数是 129.2，第 50%位数是 132.6，第 75%位数是 136，第 90%位数是 140.6。并输出最大五个数和最小五个数：最大五个数是 140.9， 140.4， 137.4， 136.0， 135.8；最小五个数是 121.4，128.2，129.0，129.2，129.3。最后输出频数分布表。X By Valid cases: 15.0 SEX Missing cases: missing: .0 1 .0 PercentMean132.9000Std Err1.3192 -.3 .5801Min121.4000SkewnessMedian132.6000Variance Skew Std Dev KurtosisMax140.9000S E5%Trim133.09445. IQRRange19.500095% CI for Mean (130.94) 1.12096.8000S E KurtM-Estimators -----------Huber ( 1.339) 132.1 Tukey ( 4.685)Hampel ( 1.700, 3.400, 8.500) 133.4Andrew ( 1.340 * pi )Frequency 1.00 4.00 4.00 4.00 2.00 Stem width: Each leaf:Stem & 12 * 12 . 13 * 13 . 14 *Leaf 1 67 0010.0 1 case(s)Percentiles ----------Percentiles 5.0 25.0 95.0 129.0 129.0 75.0000Haverage121.4000132.6000136.0000Tukey's Hinges132.6000135.9000Extreme Values ------- -----5 Highest 140.9 Case # Case: 14 5 Lowest 121.4 Case # Case: 1140.4 137.4 136.0 135.8Case: 7 Case: 10 Case: 8 Case: 6128.2 129.0 129.2 129.3Case: 9 Case: 12 Case: 4 Case: 15Frequency Table --------- ----Bin Center 126.4 136.4 Freq 5.00 10.00 Pct 33.33 66.67 Valid Pct 33.33 66.67 Cum Pct 33.33 100.00下一部分为系统输出的女孩资料分析结果，其意义同上述。X By Valid cases: 15.0 SEX .0 2 Percent missing: .0Missing cases:Mean -.8937134.0000Std Err1.6428Min120.9000SkewnessMedian136.7000Variance Skew Std Dev40. 6.3626Max141.4000S E5% Trim134.3167Range20.5000Kurtosis-.2747 95% CI for Mean (130.35) 1.1209 IQR 8.7000 S E KurtM-Estimators -----------Huber ( 1.339) 135.4 Tukey ( 4.685)Hampel ( 1.700, 3.400, 8.500) 135.7Andrew ( 1.340 * pi )Frequency 2.00 1.00 4.00 6.00 2.00 Stem width: Each leaf:Stem & 12 * 12 . 13 * 13 . 14 *Leaf 04 5
0110.0 1 case(s)Percentiles ----------Percentiles 5.0 25.0 130.0 75.0Haverage120.9000122.7600136.7000138.8000140.7400Tukey's Hinges131.4000136.7000138.7000Extreme Values ------- -----5 Highest 141.4 140.3 139.7 138.8 138.6 Case # Case: 29 Case: 22 Case: 20 Case: 27 Case: 28 5 Lowest 120.9 124.0 125.4 130.1 132.7 Case # Case: 26 Case: 23 Case: 24 Case: 18 Case: 17Frequency Table --------- ----Bin Center 125.9 135.9 145.9 Freq 4.00 10.00 1.00 Pct 26.67 66.67 6.67 Valid Pct 26.67 66.67 6.67 Cum Pct 26.67 93.33 100.00此外，按用户要求，系统输出箱图。图中方箱为四分位数，中心粗线为中位数，两端线为最大值与最小值。150140130120X110N= 15 1512SEX图 4.11 性别分组少儿身高资料的箱图第四节 Crosstabs 过程4.4.1 主要功能调用此过程可进行计数资料和某些等级资料的列联表分析，在分析中，可对 2 二维至 n 维列联表（RC 表）资料进行统计描述和χ 检验，并计算相应的百分数指标。此外，还可计算四格表确切概率（Fisher’s Exact Test）且有单双侧（ One-Tail、 Two-Tail），对数似然比检验（Likelihood Ratio）以及线性关 2 系的 Mantel-Haenszelχ 检验。4.4.2 实例操作[例 4-4]用两组大白鼠诱发鼻咽癌的动物实验中，一组单纯用亚硝胺鼻注，另一组附加维生素 B , 生癌率如下表，问两组生癌率有无差别？12动物分组亚硝胺组亚硝胺+B 组12生癌鼠数 52 39 91未生癌鼠数 19 3 22合计 71 42 113生癌率(％) 73.2 92.9 80.5合计4.4.2.1 数据准备激活数据管理窗口，定义变量名：count 为频数变量（行列对应的频数值）， group 为组变量（行），test 为试验结果变量（列）。按顺序输入相应的变量（图 4.12）。4.4.2.2 统计分析在进行计数资料的分析前，应对频数变量的值进行加权处理。先激活 Data 菜单, 选 Weight Cases...项，弹出 Weight Cases 对话框，选 Weight cases by，再选变量 count 点击钮使之进入 Frequence Variable 框中，点击 OK 钮完成加权。激活 Statistics 菜单， Summarize 中的 Crosstabs...项，选弹出 Crosstabs 对话框（如图 4.13 示）在 Crosstabs 对话框中， group 点击钮使之进入 Row(s) 。选框，选 test 点击钮使之进入 Column(s)框。点击 Statistics...钮，弹出 Crosstabs:Statistics 对话框（图 4.14）, 其中 Chi-square 即为读者所熟悉的 2 2 χ 检验。由于在实际研究中，变量间的依赖强度和特征也是需要考虑的，χ 值不是列联强度的好的度量，故用户可根据实际需要选择其他相关的指标：1、定距变量的关联指标 Correlations：可作列联表行、列两变量的 Pearson 相关系数或作伴随组秩次的 Spearman 相关系数。 2、定类变量的关联指标Contingency coefficient：列联系数，其值 = 1 之间，其中 N 为总例数；，界于 0～2Phi and Cramer's V：ψ系数 = ，用于描述相关程度，在四格表χ 2 检验中界于-1～1 之间，在 RC 表χ 检验中界于 0～1 之间；Cramer's V =，界于 0～1 之间，其中 k 为行数和列数较小的实际数； Lambda：λ值，在自变量预测中用于反映比例缩减误差，其值为 1 时表明自变量预测应变量好，为 0 时表明自变量预测应变量差； Uncertainty coefficient：不确定系数，以熵为标准的比例缩减误差，其值接近 1 时表明后一变量的信息很大程度来自前一变量，其值接近 0 时表明后一变量的信息与前一变量无关。 3、定序变量的关联指标Gamma： γ值 =，为同序对子数，为异序对子数， P Q 界于 0～1 之间，所有观察实际数集中于左上角和右下角时，其值为 1；Somers'D：Somers'D 值 =，T为独立变量上不存在同分的偶对中，同序对子数超过异序对子数的比例；Kendall's tau-b：Kendall τ = 在 V1 变量上是同序在 V2 变量上不是的对子数， T，T为为在 V2 变量上是同序在 V1变量上不是的对子数，Kendall τ 值界于-1～1 之间；Kendall's tau-c：Kendall τ = 际数，Kendall τ 值界于-1～1 之间。 4、其他指标 Kappa：内部一致性系数；，m 为行数和列数较小的实Eta：Eta 值，其平方值可认为是应变量受不同因素影响所致方差的比例； Risk：相对危险度。点击 Cells...钮,弹出 Crosstabs:Cells 对话框（图 4.15），用于定义列联表单元格中需要计算的指标。Observed 为实际观察数，Expected 为理论数，Row 为行百分数，Column 为列百分数，Total 为合计百分数，Raw 为实际数与理论数的差值，Standardized 为实际数与理论数的差值除理论数，Adj. Standardized 为由标准误确立的单元格残差。选择后点击 Continue 钮返回 Crosstabs 对话框，再点击 OK 钮即可。4.4.2.3 结果解释在结果输出窗中，系统先输出四格表资料，包括实际观察数、理论数、行百分数、列百分数和合计百分数。TESTbyGROUP GROUP Count |Exp Val | Row Pct | Col Pct | RowTot Pct | TEST1|2| Total--------+--------+--------+ 1 | | 52 57.2 | | 39 33.8 | 91| 80.5% | | || 57.1% | 73.2% | 46.0%| 42.9% | 92.9% | 34.5%+--------+--------+ 2 | | 19 13.8 | | 3 8.2 | 22| 19.5% | | || 86.4% | 26.8% | 16.8%| 13.6% | | 7.1% 2.7%+--------+--------+ Column Total 71 62.8% 42 37.2% 113 100.0%接着输入有关统计数据，Pearson χ 值为 6.47766，P 值为 0.01092，可认 2 为亚硝胺+B 组的生癌率较高；校正χ 值为 5.28685，P 值为 0.02149；M-T 检验 2 χ 值为 6.42034，P 值为 0.01128；最小理论数为 8.177，故不需作精确概率计算。（如果四格表中有理论频数小于５时，Crosstabs 命令会自动进行 Fisher 精确概率计算）。122内部一致性系数为-0.21731，Pearson 相关系数和 Spearman 相关系数均为 0.23943。第一组对第二组的相对危险性 RR 值为 21％左右（0.21053），即可认为第二组生癌的相对危险性为第一组的 4.75 倍。Chi-Square SignificanceValueDF----------------------------------------Pearson Continuity Correction Likelihood Ratio Mantel-Haenszel test for 6.85 7.34 1 1 1 1----.0 .0linear associationMinimum Expected Frequency -8.177 ApproximateStatistic -------------------Kappa Pearson's R Spearman CorrelationValue ---------ASE1 -------.21731Val/ASE0 -------.07083Significance -------------2.5 *4 .01065 *4-.23943 -.23943.0-2.507*4 VAL/ASE0 is a t-value based on a normal approximation, as is the significanceStatisticValue95% Confidence Bounds---------------------------------------------------Relative Risk Estimate (TEST 1 / TEST 2) : case control cohort (GROUP 1 Risk) cohort (GROUP 2 Risk) .2 3.1 .40 .7 9.23654Number of Missing Observations:0SPSS 教程第六课：平均数的比较生物谷分享| 收藏在正态或近似正态分布的计量资料中（如临床常见的体温、血压、脉搏、身高、体重等测量值，几乎均为此类资料），经常在使用前一章计量资料描述过程分析后，还要进行组与组之间平均水平的比较。本章将分四节分别介绍这一统计方法：即常用的ｔ检验和单因素方差分析。第一节 Means 过程5.1.1 主要功能与第四章中 Descriptives 过程相比，若仅仅计算单一组别的均数和标准差， Means 过程并无特别之处；但若用户要求按指定条件分组计算均数和标准差，如分性别同时分年龄计算各组的均数和标准差，则用 Means 过程更显简单快捷。5.1.2 实例操作［例５.1］某医师测得如下血红蛋白值（g%），试作基本的描述性统计分析：对象编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20性别女男女女男男女男女女男男男女女女男男女男年龄 18 16 18 17 16 18 16 18 18 17 18 18 16 17 17 17 17 16 16 18血红蛋白值 12.83 15.50 12.25 10.06 10.88 9.65 8.36 11.66 8.54 7.78 13.66 10.57 12.56 9.87 8.99 11.35 14.56 12.40 8.05 14.03对象编号 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40性别女男男女女女女男男男男女女女男男男男女男年龄 16 16 18 18 17 18 17 16 16 18 16 16 18 18 18 18 17 17 16 16血红蛋白值 11.36 12.78 15.09 8.67 8.56 12.56 11.56 14.67 7.88 12.35 13.65 9.87 10.09 12.55 16.04 13.78 11.67 10.98 8.78 11.355.1.2.1数据准备激活数据管理窗口，定义变量名：性别为 sex，年龄为 age，血红蛋白值为 hb。按顺序输入数据(sex 变量中，男为 1，女为 2)，结果见图 5.1。5.1.2.2统计分析激活 Statistics 菜单选 Compare Means 中的 Means...项，弹出 Means 对话框（如图 5.2 示）。今欲分性别同时分年龄求血红蛋白值的均数和标准差，故在对话框左侧的变量列表中选 hb，点击钮使之进入 Dependent List 框，选 sex 点击钮使之进入 Independent List 框，点击 Next，可选定分组的第二层次（Layer 2 of 2)，选 age 点击钮亦使之进入 Independent List 框。点击 Options...可选统计项目：在 Cell Displays 项中，Mean 为均数、Standard deviation 为标准差、Variance 为方差、Count 为观察单位数、Sum 为观察值总和，在 Statistics for First Layer 项中，将为第一层次的分组计算方差分析（ANOVA table and eta）和线性检验（Test of linearity）选好后点击 Continue 。钮返回 Means 对话框，点击 OK 钮即可。5.1.2.3结果解释在结果输出窗口中将看到如下统计数据：- - Description of Subpopulations - Summaries of By levels of HB SEX AGEVariableValueLabel VarianceSum Cases 457.79 40 12.6529MeanStd DevFor Entire Population 5.1484 SEX 1 265.71 21 111.67 9 37.21 311.44482.26902.05314.2154AGE1612.40782.24555.0423AGE1712.40331.89933.6074AGE18116.83 912.98112.09334.3821SEX2192.08 19 46.42 5 68.17 7 77.49 710.10951.69892.8863AGE169.28401.34941.8209AGE179.73861.40361.9700AGE1811.07001.91583.6703Total Cases = 40For Entire Population 一行表示 40 个观察值合计为 457.79，均数为 11.4448，标准差为 2.2690，方差为 5.1484，例数为 40；接下去各行分别表示先按性别分组（分男性与女性），再按年龄分组（16，17，18 岁三组）的观察值合计、均数、标准差、方差和例数。若在 Independent List 中未分层次，即 sex 和 age 一起放在 Layer 1 of 1 中，则结果是分别计算男性与女性（不作年龄分组）、16，17，18 岁三组（不作性别分组）的观察值合计、均数、标准差、方差和例数（如下所示）。- - Description of Subpopulations - -Summaries of By levels of Variable Value LabelHB SEX Sum Mean Std DevVariance For Entire Population 5.1484 SEX 1 4.2154 SEX 2 2.8863Cases 457.79 40 265.71 21 192.08 19 11.012.65292.053110.10951.6989Total Cases = 40Summaries of By levels of Variable Value Label VarianceHB AGE Sum Cases 457.79 40 11.2921 Mean Std DevFor Entire Population 5.1484 AGE 16 158.09 14 105.38 10 194.32 1611.44482.26902.46496.0759AGE1710.53801.94213.7719AGE1812.14502.18274.7640Total Cases = 40第二节 Independent-Samples T Test 过程5.2.1 主要功能调用此过程可完成两样本均数差别的显著性检验，即通常所说的两组资料的 t 检验。5.2.2 实例操作［例５.2］分别测得 14 例老年性慢性支气管炎病人及 11 例健康人的尿中 17 酮类固醇排出量（mg/dl）如下，试比较两组均数有无差别。病人健康人2.90 5.185.41 8.795.48 3.144.60 2.37 6.464.03 2.095.10 7.104.97 5.92 5.604.24 4.574.36 7.712.72 4.993.72 6.64 4.015.2.2.1数据准备激活数据管理窗口，定义变量名：把实际观察值定义为 x，再定义一个变量 group 来区分病人与健康人。输入原始数据，在变量 group 中，病人输入 1，健康人输入 2。结果如图 5.3 所示。5.2.2.2统计分析激活 Statistics 菜单选 Compare Means 中的 Independent-samples T Test... 项，弹出 Independent- samples T Test 对话框（如图 5.4 示）。从对话框左侧的变量列表中选 x，点击钮使之进入 Test Variable(s)框，选 group 点击钮使之进入 Grouping Variable 框，点击 Define Groups...钮弹出 Define Groups 定义框，在 Group 1 中输入 1，在 Group 2 中输入 2，点击 Continue 钮，返回 Independent-samples T Test 对话框，点击 OK 钮即完成分析。5.2.2.3结果解释在结果输出窗口中将看到如下统计数据：t-tests for independent samples ofGROUPNumber Variable of Cases Mean Mean SD SE of--------------------------------------------------------------X GROUP 1 1.450 GROUP 2 1.735 14 .387 11 .523 4.37795.5282--------------------------------------------------------------Mean Difference = -1.1503 Levene's Test for Equality of Variances: F= .440 P= .514这一部分显示两组资料的例数（Numbers of cases）、均数（Mean）、标准差（SD）和标准误（SE of Mean），显示两均数差值为 1.1503，经方差齐性检验： F= .440 P= .514，即两方差齐。t-test for Equality of Means Variances t-value df 2-Tail Sig SE of Diff95% CI for Diff---------------------------------------------------------------------Equal -1.81 23 (-2.468, .167) 19.47 (-2.513, .213) .084 .637Unequal-1.77.093.651----------------------------------------------------------------------这一部分显示 t 检验的结果，第一行表示方差齐情况下的 t 检验的结果，第二行表示方差不齐情况下的 t 检验的结果。依次显示值（t-value）自由度、（df）、双侧检验概率（2-Tail Sig）、差值的标准误（SE of Diff）及其 95%可信区间（Cl for Diff）。因本例属方差齐性，故采用第一行（即 Equal）结果： t=1.81,P=0.084,差别有显著性意义，即老年性慢性支气管炎病人的尿中 17 酮类固醇排出量低于健康人。第三节 Paired-Samples T Test 过程5.3.1 主要功能调用此过程可完成配对资料的显著性检验，即配对 t 检验。在医学领域中，主要的配对资料包括：同对（年龄、性别、体重、病况等非处理因素相同或相似者）或同一研究对象分别给予两种不同处理的效果比较，以及同一研究对象处理前后的效果比较。前者推断两种效果有无差别，后者推断某种处理是否有效。5.3.2 实例操作［例５.2］某单位研究饲料中缺乏维生素 E 与肝中维生素 A 含量的关系，将大白鼠按性别、体重等配为 8 对，每对中两只大白鼠分别喂给正常饲料和维生素 E 缺乏饲料，一段时期后将之宰杀，测定其肝中维生素 A 含量（?mol/L）如下，问饲料中缺乏维生素 E 对鼠肝中维生素 A 含量有无影响？大白鼠对肝中维生素 A 含量（?mol/L）别 1 2 3 4 5 6 7 8正常饲料组 37.2 20.9 31.4 41.4 39.8 39.3 36.1 31.9维生素 E 缺乏饲料组 25.7 25.1 18.8 33.5 34.0 28.3 26.2 18.35.3.2.1数据准备激活数据管理窗口，定义变量名：正常饲料组测定值为 x1，维生素 E 缺乏饲料组测定值为 x2，数据输入后结果如图 5.5 所示。5.3.2.2统计分析激活 Statistics 菜单选 Compare Means 中的 Paired-samples T Test...项，弹出 Paried-samples T Test 对话框（如图 5.6 示）。从对话框左侧的变量列表中点击 x1，这时在左下方的 Current Selections 框中 Variable 1 处出现 x1，再从变量列表中点击 x2，左下方的 Current Selections 框中 Variable 2 处出现 x2。点击钮使 x1、x2 进入 Variables 框，点击 OK 钮即完成分析。5.3.2.3结果解释在结果输出窗口中将看到如下统计数据：- - - t-tests for paired samples - - Number of Variable pairs Corr Sig of Mean 2-tail Mean SD SE------------------------------------------------------------------------------------------------------------X1 2.351 8 .586 .127 34.X2 2.05826.23755.821------------------------------------------------------------------------------这段结果显示本例共有 8 对观察值，相关系数（C）为 0.586，相关系数的显著性检验表明 P=0.127；变量 x1 的均数（Mean）、标准差（SD）、标准误（SE of Mean）分别为 34.、2.351，变量 x2 的均数、标准差、标准误分别为 26.、2.058。Paired Differences Mean SD SE of Mean | t-value| df 2-tail Sig----------------------------------------------------|-------------------------------------------------8. 2.022 | 4.21 | 7 .00495% CI (3.730, 13.295)这段结果显示变量 x1、x2 两两相减的差值均数、标准差、标准误 95%可信区间（95% Cl）分别为 8.、2.022，95%可信区间（95% Cl）为 3.730， 13.295。配对检验结果为：t=4.21, P=0.004, 差别具高度显著性意义，即饲料中缺乏维生素 E 对鼠肝中维生素 A 含量确有影响。第四节 One-Way ANOVA 过程5.4.1 主要功能在实际研究中，经常需要比较两组以上样本均数的差别，这时不能使用 t 检验方法作两两间的比较（如有人对四组均数的比较，作 6 次两两间的 t 检验），这势必增加两类错误的可能性（如原先 α 定为 0.05，这样作多次的 t 检验将使最终推断时的 α&0.05）。故对于两组以上的均数比较，必须使用方差分析的方法，当然方差分析方法亦适用于两组均数的比较。方差分析可调用此过程可完成。本过程只能进行单因素方差分析，即完全随机设计资料的方差分析。对于随机区组设计资料方差分析的方法，将在第五章介绍。5.4.2 实例操作［例５.4］某单位研究两种不同制剂治疗钩虫的效果，用大白鼠作试验。11 只大白鼠随机分配于 3 组：一组为对照组、另外二组分别为使用甲、乙制剂的实验组。试验方法是：用药前每鼠人工感染 500 条钩蚴，感染后第 8 天实验组}

久游无息网