根据样本资料的总体特征推论总体均数的可信区间,此种统计学方法属于?

《卫生统计学》重点内容

(一)医学统计学发展史

(1)法国数学家Pierre-Simon Laplace (),认为“概率论,可以应用于整个人类知识系统”,曾预言“医疗是概率论应用的一个重要领域”,Laplace被誉为“法国的牛顿”。

(2)临床医生Pierre-Charles-Alexandre Louis (),研究了放血疗法,Louis强调用数据表达疗效,被认为是循证医学思想的早期奠基人之一。

(3)Galton(达尔文表弟),首创问卷调查。Galton的学生Karl Pearson是现代统计学之父,开创了统计学方法,让统计学由描述性统计学改变为推断性统计学。相关与回归,卡方检验等假设检验和统计决策理论都是由他奠基的。

(4)Fisher提出了减弱误差了三项原则:重复、随机化和适当的组织实验。

(5)John Graunt()编制了寿命表,创造了人口统计学科。William Farr()进一步改进寿命表方法,在英国创造了最好的官方生命统计系统。

(6)1848年,John Snow首次详细研究了伦敦霍乱流行。

(1)应用统计学:侧重于统计理论与方法在各个实践领域中的应用,较少涉及统计公式推导及理论上的证明,着重介绍各种统计方法在各学科中的应用条件和具体应用,及其统计计算结果的解释。应用统计学包括:生物统计学(biostatistics);医学统计学(medicinal statistics);卫生统计学(hygeian statistics)。

(2)统计设计(statistical design):是根据研究目的确定研究总体、进行样本含量估计、拟定随机抽样与随机分组及统计分析方法等,旨在保证研究结果的经济性、可靠性、科学性、可重复性。

(3)统计描述(statistical description)旨在描述数据分布形态特征与规律,揭示数据基本特征。

(4)统计推断(statistical inference):参数估计,以样本统计量推断总体参数范围;假设检验,利用样本信息,根据一定的概率水准,推断指标间差别有无统计学意义的分析方法。

(1)总体(population):根据研究目的确定的同质研究对象的全体。

同质(homogeneity):同一总体中的主要性质相同;

变异(variation):指同质的个体间存在的差异;

(2)样本(sample):从统计总体中随机抽取的,具有代表性的部分观测单位的集合。

(3)样本量(sample size):样本所包含的观测单位数。

(4)参数(parameter):描述总体分布特征的指标,通常确切值未知。多为小写希腊字母。

(5)统计量(statistics):描述样本分布特征的指标,随样本改变而改变,多为小写拉丁字母。

(6)误差(error):实际观测值与真值之差或样本指标与总体指标之差。

系统误差(systematic error):由于受试对象,仪器设备,研究方法等确定因素造成的误差;

随机误差:由于多种无法控制的偶然因素引起的误差;

抽样误差(sampling error):由于生物固有的个体差异的存在,从某总体随机抽取一个样本所得样本统计量与相应总体参数往往不同,这种差异为抽样误差(标准误,用来反应抽样误差的大小)。

仪器,方法,试剂,理论和实验方法差异

系统性;规律性或周期性偏离真实值

通过实验对比,理论分析,完善实验设计和技术措施,可以消除或减小

由实验或观测条件的随机波动造成的误差

误差变量一般服从正态分布,可以通过统计处理估计随机误差

(7)频率(frequency):在相同条件的控制下对某随机事件进行n次重复试验,某种结果出现的次数称为频数,频数与总试验次数之比为频率。

(8)概率(probability):某随机事件发生的可能性大小。

(9)因果与联系:因为不能控制所有的、重要的混杂因素,单靠调查和数据的统计学分析只能考察变量之间的联系。因果关系必定表现为数量间的联系,但是存在数量间联系未必是因果关系。

(1)定量变量(quantitative variable):也称为数值变量,计量资料,其变量值是定量的,所获资料为计量资料。即对每一个观察对象用定量的方法测定某项指标量的大小。有度量衡单位。如身高、体重。定量变量分为,连续型变量,身高;离散型变量,一年的新生儿数量。

无序变量:也称为计数资料,将观察单位按某种属性或类别分组,然后清点数目所得各组的观察单位数。无序变量分为,二项分类:两类观察结果互相对立,例,有无;无序多分类:观察结果表现为互不相容的多个属性或类别,例,职业。

有序变量(ordinal variable):也称为等级资料,将观察单位按某种属性的不同程度分组,然后清点各组数目,但所分各组之间有等级顺序。

(3)变量类型的转化:“定量→有序→分类→二值”。

①表号:位于顶线上方、标题的左侧,与标题之间空2个字符,以阿拉伯数字表示。

②标题:位于顶线上方、表号之后,简明扼要的说明表的内容(因素、对象、效应),流行病学研究必须注明时间和地点。

③标目:横标目是统计表的主语,用以表示被说明事物的主要标志(被观察的对象);纵标目是统计表的谓语,说明主语的各项指标。对标目的要求是:文字简明,层次清楚,一张表内不要安排过多的标目。有单位的标目应注明单位,如有效率(%),发病率(1/10万),血压值(mmHg/kPa)。

④线条:一般只能出现顶线、标目线、底线3条等长线。顶线、底线应加粗(1.5磅);标目线采用默认值(0.5磅);组合表可在标目线上出现小标目线。

⑤数字:一律采用阿拉伯数字,同一指标的小数位数应一致,位次对齐。表内不留空格,暂缺或未记录用“……”表示,无数字时用“—”表示,数字为“0”则填写“0”。

⑥备注:一般不列入表内,必要时可用“﹡”等符号标出,写在表的下面。

(2)统计表的制表原则

重点突出,简单明了:文字、数字和线条都尽量从简,使人一目了然。要求每张表都要有自明性。主谓分明,层次清楚:表的内容要按照逻辑顺序合理安排,主语、谓语划分清楚,由左向右阅读表格时能构成一个完整的语句。

①图形:根据资料的性质和分析目的选择适宜的统计图形。图不宜过大,一般双栏不超过7.5cm,通栏不超过15.5cm。

②标题:位于图的下方。要求简明扼要地说明资料的时间、地点和内容,并标出图的序号。

③内容:具有“自明性”,即只看图、图题和图例,不阅读正文,就可理解图意。

④坐标:纵、横轴应有标目、刻度、单位,标注的量的符号和缩略词必须与正文中一致。纵、横轴之比一般为5︰7;横轴标目一般表示主语,对应统计表中的横标目;纵轴标目表示谓语,对应统计表中的纵标目。

⑤图例:比较不同的事物时,应用不同线条或颜色表示,附图例说明。图例通常置于图的右上角或四个角中空间较大的位置。

(4)直方图(histogram):以长方形面积代表数量,各直方形面积与各组的数量成正比关系,用于表示连续性计量资料的频数分布情况。

(5)直条图(bar graph):也称条图,用等宽直条的长短来表示相互独立的若干事物的某项指标数值大小,适用于离散型定量资料和定性资料。

(6)箱式图(box plot):箱式图可综合描述定量变量的平均水平和变异程度,还可显示数据中的离群值或极端值。用于各组数据的直观比较。

(7)散点图(scatter diagram):以直角坐标系中各点的密集程度和趋势来表示两现象间的关系,常用于双变量资料的相关分析。

(8)线图(line graph):用线段的升降来表示事物随时间的变化,或某现象随另一现象变化的情况,适用于连续性资料。根据纵轴尺度的不同,可分为:普通线图:表示时间变化趋势和变化幅度;半对数线图:表示消长趋势或变化速度。

(9)圆图(pie chart):用途与百分条图相同,以圆形总面积作为事物的整体,即100%,以圆内各扇形的面积表示事物内部各部分所占的比重。

(10)百分条图(percent bar chart):用于表示事物的内部构成,可直观显示各部分所占的比例或比重,特别适用于性质相同的多组资料内部构成的比较。

(11)人口金字塔(age-sex?pyramid):是按人口年龄和性别表示人口分布的特种塔状条图,它形象地表示了某地人口的年龄和性别的构成。人口金字塔以年龄为纵轴,以人口数或频率(%)为横轴,按男左女右绘制图形,形如金字塔。

第二章 定量资料的统计描述

(1)对称分布:指集中位置居中、左右两侧的频数分布基本对称的频数分布。总体峰度系数>0为尖峭峰,<0为平阔峰,等于0为正态峰。

(2)非对称分布:指集中位置偏倚、左右两侧的频数分布不对称的频数分布。总体偏度系数>0为正偏态,<0为负偏态,等于0为对称。

(二)定量资料的统计描述指标

(1)算数均数的加权计算方法(k:频数表的组段数;f:频数;X:组中值):

(2)几何均数的计算方法:

(3)频率表百分位数计算方法:

(4)变异系数(coefficient of variation,CV):常用于比较度量单位不同或均数相差悬殊的两组(或多组)资料的变异程度。

(5)定量资料的统计描述小结

简称均数 (mean)

适用于对称或近似对称分布资料的平均水平描述

原始值不对称,变量值呈倍数关系,经过对数转换后呈对称分布

[1]变量值中出现极端值;[2]资料的分布呈明显偏态;

[3]变量值分布一端或两端无确定数值;[4]资料的分布不清。

两组样本量相近,有度量衡单位的资料

偏态分布,有度量衡单位的资料,特别是服从偏峰分布的变量,常把中位数和百分位数结合起来M(P25~P75)

适用于对称或近似对称分布资料的离散水平描述s2=

总体标准差:σ样本标准差:s

适用于对称或近似对称分布资料的离散水平描述(x±??)

单位不同或均数相差悬殊资料(不同变量间的变异程度比较)

第三章 定性资料的统计描述

(1)绝对数可反映事物的规模(如某病的治愈人数、未愈人数等),而相对数可用于比较(如率、构成比和相对比等指标)。

(2)频率型指标:相对数中最常见的一种,表示某事件的发生频率。

(3)强度(intensity)型指标:单位时间内某事件的发生频率,与频率型指标的区别在于“单位时间”的限定,本质为频率的强度,如,发病率,死亡率。

(4)相对比型指标:指两个有关联的指标A和B之比,实际应用简称比(ratio),如男女比。

(5)频率型指标与相对比型指标的区别:频率型的分子包含于分母,相对比型分子和分母是对比关系。

(二)常用的相对数指标--率(rate)

(1)率(rate):表示某现象发生的频率或强度,是频率指标。常以百分率、千分率、万分率或十万分率来表示。计算公式为:

率=某现象的实际发生例数观察到的总例数

K为比例基数,可取100%、1 000‰、10 000/万或100 000/10万。选择K的依据:①习惯用法,如恶性肿瘤死亡率、意外伤害发生率或死亡率、孕产妇死亡率多选用十万分率,婴儿死亡率、5岁以下儿童死亡率多选用千分率等。②读、写、计算的方便,计算结果一般保留1-2位整数。如0.089%可用8.9/万表示。③观察单位总数n的多少。

(2)发病率(incidence rate):某一时期内(一般为一年)某人群中发生某病新病例的频率。

发病率=某人群某时期内某病新病例数该人群同期暴露人口数k

新发病例数的理解,若该病未愈再就诊,以第一次为准,不再算作新病例,若治愈再患,则需要算两个新病例。发病率是表示疾病发病风险的直接指标,可用于探讨疾病的危险因素,评价疾病防治效果。特殊情况下,特别要注意分母中“暴露人口”的含义,它指的是对某病具有发病风险的人,而不包括不可能发生某病的人(如,计算麻疹的发病率)。

(4)患病率(prevalence rate):某一时点某人群某病的(新、旧)病例数与同期平均人口数之比。又称为现患率,指某时点上受检人数中出现患某病的频率,通常用于描述病程较长或发病时间不易明确的疾病患病情况,如慢性病在某一时间横断面的患病情况。

患病率的调查时间不能拖得太长,一般应在一至数月内完成,不得超过一年。按一段时间计算的患病率称为“时点患病率”,按一年时间计算的患病率称为“时期患病率”。在一定的人群和时间内,发病率和患病率有密切关系,两者与病程的关系是:患病率=发病率×病程。

平均人口数:①通常指相邻两年年末(12月31日)人口数的平均值;②当人口数在一年中是均匀变动时,也可以用年中(7月1日零时)人口数代表全年的平均人口数。

(6)死亡率(death rate):即粗死亡率,指某地某人群在一定时间内(一般为一年)的总死亡人数与该地同期平均人口数之比。

死亡率是常用的死亡统计指标,可反映当地居民总的死亡水平。在计算死亡率时按不同性别、年龄和死因计算的死亡率,称为死亡专率,如男性死亡率、15-60岁年龄组死亡率等。

(7)死因别死亡率(death rate):指按不同死因类别统计的死亡率。

死因别死亡率可以展示不同疾病对人群健康危害程度,为疾病预防控制优先领域的确定提供依据。

(8)病死率(fatality rate):一定时期内,某病患者中因某病死亡的频率。

某病病死率=某时期某病死亡人数

其高低受疾病严重程度、早期诊断水平和医院治疗水平的影响。可说明一种疾病的严重程度,也可反映一个医疗单位的医疗水平和质量。

(9)治愈率(cure rate):表示医疗机构一定时间内接受某病治疗的病人中治愈的人数所占的比例。

某病治愈率=某时期内该病的治愈人数

治愈率主要用于对急性疾病治疗效果的评价。对于慢性疾病,计算治愈率时要明确治愈标准,不同医疗机构或地区比较时,治愈标准应相同。并且要考虑年龄、性别和病情轻重等因素的分布在不同医疗机构或地区是否均衡,若不均衡,则需调整后再比较。

(10)生存率(survival rate):是指观察对象从某个规定时刻(如发病、确诊、开始治疗或手术时间等)开始,随访到一定时间的生存百分比。

生存率通常随随访时间的变化而变化。一般计算1年、3年、5年生存率等。常用于对慢性疾病如恶性肿瘤及心血管病等的治疗效果评价或预后估计。

构成比(Constituent Ratio)或百分比:表示事物内部某一部分的个体数与该事物各部分个体数的总和之比,用来说明各构成部分在总体中所占的比重或分布。

常用的人口学特征指标中,老年人口系数(≥65岁人口占总人口的百分比)、少儿人口系数(≤14岁人口占总人口的百分比)就属于构成比。

死亡统计中,死因构成比也属于构成比。

死因构成比:指某年某地区全部死亡者中,由于某死因死亡者所占的比例,可说明各死因死亡的相对重要性。死因构成比按大小排序的位次即为死因顺位。

相对比(relative ratio):描述两个有关指标的比例关系。

常用的人口学特征指标中,负担系数(包括总负担系数、少儿负担系数和老年负担系数)、老少比和性别比(包括出生性别比)都属于相对比。

注意事项:计算相对数时总观察单位数应足够多;正确计算合计率;注意资料的可比性;不能以构成比代替率;应考虑存在抽样误差;甲、乙两指标可以是绝对数、相对数或平均数;在计算相对比时,若甲指标大于乙指标,结果用倍数表示;若甲指标小于乙指标,结果用百分数表示。相对比的分子和分母不一定有相同的度量衡单位。

(1)在进行两个或多个率(或构成比)比较时,用以比较的资料应该是同质的,即除了被研究的因素之外,其余可能影响指标的重要因素应控制在“齐同对比”的条件下。例:比较三种治疗高血脂的药物疗效,则各组疗效的观察时间应相同,因为疗效与时间有关。

(2)率和构成比的区别

合计率不一定,0~100%

(1)率的标准化法:即采用统一标准计算各率的标准化率,使各率具有可比性,目的是在比较总率时消除混杂因素(即内部构成不同)的影响。

(2)例:分析下表给出的甲、乙两个医院采用不同疗法治疗某病的治愈情况,比较两种疗法治愈率高低。

从表中可看出,各年龄别西医疗法的治愈率都比中西医结合疗法低,但总治愈率却比中西医结合高,造成此现象的原因在于甲、乙两个医院病例的年龄构成存在明显差异,故应进行标化后再做比较。标化资料见表12-2,可得出标化发病率。

(3)应用标准化法的注意事项

①标准化法的应用范围:当某分类变量在各组间的分布不同时,该变量就成为各组频率比较的混杂因素,此时可使用标准化法。

②标准化率的意义:不能反映当时当地事物的实际水平或真实水平,只能表示各比较组间的相对水平,即只具有比较的意义。

③选择的“标准”不同,计算得到的标准化率也不同,因此报告比较结果时应说明所选择的“标准”和理由。(标准化法的关键是选择一个“标准”,各组资料在这个共同的平台上进行比较。以两组资料的比较为例,通常有三种做法:选定两组之一,将其作为“标准”;②两组合并作为“标准”;③在两组之外选择具有代表性的、较稳定的数量较大的资料为标准。)

④样本标准化率的比较结果与总体标准化率间存在抽样误差。因样本标准化率为样本指标,与总体标准化率存在抽样误差,在样本含量小时应进行假设检验。

(1)动态数列:是按时间顺序将一系列统计指标(可以是绝对数、相对数或平均数)排列起来,用以反映事物随时间的变化和发展趋势。

(2)动态数列的作用:

①总结过去:即反映事物在过去时间内的变化规律;

②预测将来:注意预测的前提条件,即假定事物在预测期间仍保持同样的平均发展速度。

(3)动态数列的描述方法

线图:用于事物绝对变化幅度或数值的比较;半对数图:用于事物相对变化速度的比较。

(1)二项分布(Binomial distribution):是对只具有两种互斥结果的离散型随机事件(如检查结果的阳性与阴性,生存与死亡等)的规律性进行描述的一种概率分布。

(2)二项分布概念:当某随机试验的结果是互斥的两种结果之一,其阳性率π恒定,且各次试验相互独立,若重复进行n次试验,则出现阳性数为X(X=0,1,…,n)的概率分布为二项分布,记为B(n,π)。

(3)二项分布成立条件:

①试验(观测)结果是相互排斥的,如阳性与阴性、生存与死亡等二分类变量。

②每次试验(观测)的条件不变,即每个试验(观测)对象阳性结果的发生概率均为π,阴性结果的发生概率均为(1-π)。

③各试验(观测)结果相互独立,即任何一个试验(观测)的结果不影响其他试验(观测)的结果。如要求疾病无传染性、无家族性等。

(4)二项分布的均数和标准差

①对二项分布B(n,π),当π和n已知时,阳性结果出现数X的总体均数和标准差如下:

②若将阳性率记为P=X/n,则P的总体均数与标准差可由以上公式分别除以n,得:

σp是样本率的标准误的理论值,反映阳性率的抽样误差的大小,当π未知时,常用样本率p作为π的估计值。

(5)二项分布的图形特征

①二项分布B(n,π)的形态取决于π和n的大小,高峰在μ=nπ处。

②当π接近0.5时,其图形对称;π离0.5愈远,对称性愈差。

③对二项分布B(n,π),只要π不太靠近0或1,随着n的增大,分布逐渐逼近正态。

④当np和n(1-p)都>5时,二项分布近似于正态分布。

①二项分布最多有k例阳性的概率(左侧累积概率)

②二项分布最少有k例阳性的概率(右侧累积概率)

(1)泊松分布(Poisson distribution):是一种常见的离散型分布,用来描述单位面积、体积、时间、人群内等稀有/罕见事件发生数的分布规律。如分析单位面积或容积内细菌数的分布,人群中遗传缺陷、癌症等发病率很低的非传染性疾病的发病或患者数的分布等。也可用是否符合Poisson分布来判断某些病是否具有传染性、聚集性等。

(2)Poisson分布的概率密度函数

式中:e为自然对数的底,约为2.71828;??是Poisson分布的总体均数,也是Poisson分布唯一的参数,称为事件的平均发生数。罕见事件的发生数X服从以??为参数的泊松分布,记为X~P(??)。

(3)泊松分布的总体均数与总体方差

泊松分布的总体均数为单位面积、空间、时间、人群内某随机事件的平均发生数,用??= nπ来表示。值得注意的是泊松分布的总体均数和总体方差是相等的,均为??=nπ,据此可以大致判断某一离散型随机变量是否服从泊松分布。

(4)Poisson分布与二项分布

当二项分布中n很大、π很小时,二项分布演变为泊松分布,故泊松分布实际上是二项分布的极限分布,二者的应用条件相同。此外,泊松分布还要求观测单位数n很大,且事件发生的概率π很小,接近于0。

(5)Poisson分布与正态分布

当??增大时,泊松分布越来越趋向于对称,所以在实际工作中,当??≥20时,就可以用正态分布来近似处理泊松分布的问题。

Poisson分布的观察结果有可加性。即对于服从Poisson分布的m个互相独立的随机变量X1,X2…Xm,它们之和也服从Poisson分布,其均数为这m个随机变量的均数之和。例,从同一水源独立地取水样5次,进行细菌培养,每次水样中的菌落数分别为Xi,i=1,2,…,5,均服从Poisson分布,把5份水样混合,其合计菌落数也服从Poisson分布,其均数为(??1+??2+…+??5)。医学研究中常利用该特性,将小的观测单位合并使泊松分布的值大于20,然后用正态近似法处理。

(7)Poisson分布的应用:累积概率的计算:可利用泊松分布的概率函数计算其累计概率,常用的有左侧累计和右侧累计概率两种。

①泊松分布最多有k例阳性的概率(左侧累计概率)。

②泊松分布最少有k例阳性的概率(右侧累计概率)。

(1)正态曲线(Normal curve):是一条高峰位于中央,两侧逐渐下降并完全对称,曲线两端永远不与横轴相交的钟形曲线。

(2)正态分布(standard normal distribution):又称高斯分布,是以均数为中心,左右两侧对称的钟形分布,是自然界最常见的一种分布。

(3)正态分布的概率密度函数

π为圆周率;e为自然对数的底;μ为总体均数;σ为总体标准差;公式所描述的正态曲线,由σ和μ两个参数决定。

(4)正态分布的图形特点

②集中性(均数所在的位置最高)、对称性(以均数为中心,左右对称且曲线两端永远不与横轴相交)和均匀变动性(由均数所在处开始,分别向左右两侧逐渐均匀下降);

③曲线取决于两个参数,及总体均数μ与总体标准差σ:μ为正态分布的位置参数,决定曲线在横轴上的位置;σ为正态分布的形状参数,决定曲线的“高矮胖瘦”。

①对于任何分布类型未知的资料,无论其偏离正态的程度有多大,中心极限定理都适用。

②中心极限定理保证:只要我们取得样本数足够多,无论原始数据分布形态如何,其样本均数的分布都会接近正态分布。

(6)正态曲线下某区间的面积

可以通过对正态变量x的累计分布函数F(x)的积分来求得,它反映了在正态曲线下,横轴尺度自-∞到x的面积,即下侧(左侧)累计面积。正态分布曲线下面积的分布规律由μ和σ决定。

①标准正态分布是正态分布的一种,当μ=0,σ=1时,及N(0,1)的正态分布,统计学上称为标准正态分布。任何一种正态分布都可以通过z转换变换为标准正态分布。

②若进行变量变换,令z=x-μσ,并使μ=0,σ=1,正态分布曲线的中心位置就由μ移到

③标准正态分布也称为z分布,其概率密度函数为:

标准正态分布的表示:N(0,1)

(8)正态分布和标准正态分布曲线下面积分布规律

(9)标准正态分布的应用

例,某地120名正常成人血清铜含量的x=14.46μmol/L,s=2.26μmol/L,已知健康成人的血清铜含量符合正态分布,试估计该地120名正常成人血清铜含量在15.60μmol/L以下者的人数。

②查表:先在“附表4标准正态分布界值表”的左侧找到-0.5,再从表的上方找到0.00,两者相交处0.3085,即正常成人血清铜含量在15.60μmol/L以下者占该地成人总数的69.15%。

(10)正态变量的和与差的分布

服从正态分布的随机变量X1、X2的和(X1+X2)与差(X1-X2)的分布仍然服从正态分布。

①X1、X2的和与差的均数就等于均数的和与差

②X1、X2的和与差的方差都等于方差的和

(11)正态分布的应用

医学参考值范围:又称参考值范围或正常值范围,是指特定健康人群(排除了对所研究指标有影响的疾病和有关因素的特定人群)的解剖、生理、生化等各种数据的波动范围。习惯上是确定包括95%的人的界值。

应用条件:任何分布资料

计算公式:双侧界值:P2.5-P97.5;单侧上界:P95;单侧下界:P5

①基本原理:在临床医学、预防医学、卫生管理或医学检验中的诸多指标,当影响某一数量指标的随机因素很多,而每个因素所起的作用均不大时,该指标的随机波动属于随机误差,其误差分布往往满足正态分布。相反,若除随机误差之外,还存在其他影响较大的因素,如:环境、设备或人为因素所导致的误差(即系统误差),则指标的波动就不再服从正态分布。

质量控制主要通过控制图来实现。控制图的基本原理是:若某一变动仅仅由个体变异或随机误差所致,则该指标的观察结果服从正态分布。

②质量控制图的构成:控制图有7条水平线:中心线位于总体均数μ处,警戒限位于μ±2σ处,控制限位于μ±3σ处,另外两条线位于μ±σ处;若总体均数和标准差未知,可用x和s来估计,此时,7条水平线分别为:x,x±s,x±2s,x±3s。

1.有一点距中心线的距离超过3个标准差,即位于控制限以外

2.在中心线的一侧连续有9个点

3.连续6个点稳定的增加或减少

4.连续14个点交替上下

5.连续3个点中有2个点距中心线距离超过2个标准差,即位于警戒限外

6.连续5个点中有4个点距中心线距离超过1个标准差

7.中心线一侧或两侧连续15个点距中心线距离都在1个标准差以内

8.中心线一侧或两侧连续8个点距中心线距离都超出1个标准差范围

(四)医学参考值范围与置信区间的区别

(1)含义不同,医学参考值范围:又称参考值范围或正常值范围,是指特定健康人群(排除了对所研究指标有影响的疾病和有关因素的特定人群)的解剖、生理、生化等各种数据的波动范围。习惯上是确定包括95%的人的界值;置信区间:指按预先给定的概率(1-α)估计总体参数的可能范围,该范围就称为总体参数的1-α置信区间,α一般取0.05或0.01。

(2)计算方法不同,例如95%医学参考值范围: = 1 \* GB3 ①正态分布或近似正态分布资料应用“正态分布法”:双侧95%医学参考值范围:(x±1.96s); = 2 \* GB3 ②“百分位数法”可用于各种分布估计。

总体均数的置信区间: = 1 \* GB3 ①如果σ已知,利用正态近似法,按标准正态分布原理计算; = 2 \* GB3 ②如果σ未知,但是样本含量足够大(n>50)可利用正态近似法或t分布法; = 3 \* GB3 ③如果σ未知,但是样本含量较小,可利用t分布法;置信区间的宽度小于医学参考值范围的宽度,因为标准误小于标准差。

(3)用途不同,医学参考值范围:绝大多数(95%)观察对象个体的的某指标的分布范围(个体值的波动范围);总体均数的置信区间:用于总体均数的区间估计(均数的波动范围),总体概率的置信区间:用于总体概率的区间估计(概率的波动范围)。

从正态分布N(μ,σ2)抽得样本的均数也服从正态分布,记为N(μ,),对正态变量做Z转换,便有Z=;

实际工作中,由于未知,用代替,则不再服从标准正态分布,而服从t分布。

英国统计学家W.S.Gosset于1908年以“Student”笔名发表论文,证明它服从自由度ν=n-1的t分布,即t分布,又称Student t分布(Student’s t-distribution);t分布十分有用,它是小样本统计推断的理论基础。

(2)t分布曲线特点:

①t分布不是一条曲线,而是一簇曲线。(样本s受抽样影响,具有不确定性)

②t分布曲线是单峰分布,它以0为中心,左右对称。

③t分布的形状与样本例数n有关。自由度越小,则越大,t值越分散,曲线的峰部越矮,尾部翘的越高。

④当n→∞时,则s逼近σ,t分布逼近标准正态分布。

(二)抽样分布与抽样误差

(1)抽样:指从总体中随机抽取有代表性的部分观测单位的过程。

(2)抽样研究:即根据样本信息推断总体特征与规律的研究方法。

(4)抽样误差:因抽样产生的样本统计量与样本统计量之间、样本统计量与总体参数之间的差异。

①均数的抽样分布特点:

1.样本均数等于总体均数的情况极其罕见;

2.样本均数之间存在差异;

3.样本均数围绕总体均数,呈近似正态分布;

4.样本均数的标准误小于原始变量的标准差。

中心极限定理:从正态分布的总体N(μ,σ2)中随机抽取例数为n的多个样本,样本的均数服从正态分布,即使是从偏态的总体中随机抽样,当n足够大时(n>30),样本均数也近似正态分布,且样本均数等于原分布均数。

样本频率围绕总体频率呈近似对称分布。

样本均数的均数:等于总体均数。

样本均数的标准差:也称均数的标准误(standard error of mean,SEM):它不但反映样本均数间的离散程度,而且反映样本均数与相应总体均数间的差异,因而说明了均数抽样误差的大小。其统计符号是,计算方法见公式:

由公式可知,样本均数的标准差与总体标准差σ成正比,与样本量n的平方根成反比。在实际工作中难以取得σ,故常用s来代替σ,用以下公式求得标准误的估计值:

由公式可见,样本均数的标准误与样本量的平方根成反比,如果增加样本量则可减小样本均数的抽样误差。

由于抽样所造成的样本频率与样本频率之间、样本频率与总体概率之间的差异称为频率的抽样误差,其统计指标为频率的标准误(standard error of rate),统计符号为是样本率的标准误的理论值,反映阳性率的抽样误差的大小。

由于π为总体率,在实际工作中往往不知道它的具体数值,故常用样本频率p来代替,从而计算出频率的标准误的估计值计算公式见公式:

式中:为样本频率的标准误;p为样本的阳性率;q为样本阴性率(q=1-p)。

样本频率的标准误越小,用样本频率估计总体概率的可靠性越好,反之越差。由公式可见,样本频率的标准误与样本量的平方根成反比,如果增加样本量则可减小样本频率的抽样误差。

(1)参数估计(estimation of parameter):以样本为基础,进行关于总体特征或参数的推断,即根据样本的统计量估计总体参数的过程。

①点估计:用样本统计量直接作为总体参数的点估计值。(未考虑抽样误差,无法评价其可信度,无法确定估计值与真值之间的差距)。例,某市随机调查了50岁以上的中老年妇女776人,其中患有骨质疏松症者322人,患病率为41.5%。试估计该市所有50岁以上的中老年妇女骨质疏松症的总体患病率π约为41.5%,未考虑抽样误差。

②区间估计:按预先给定的概率估计总体参数的可能范围。

(2)总体参数的1-α置信区间(confidence interval, CI):按预先给定的概率(1-α)估计总体参数的可能范围。

预先给定的概率(1-α)称为置信度,用大写的C表示,α一般取0.05或0.01,因此置信度常取95%或99%。如无特别说明,一般取双侧95%。

置信区间CI由两个数值即置信限构成,其中最小值称为下限,最大值称为上限。置信区间不包括上下限两个端点值。

(3)置信区间的准确度和精密度

①准确度(accuracy):是CI包含参数的概率大小,用可信度(1-α)表示。可信度越接近1,准确度越高,如可信度99%比95%准确度高。

②精密度(precision):是对参数估计的范围或长度的度量。CI长度越小,其估计精密度越高。

③准确度与精密度的关系:准确度与精密度是相互对立、相互矛盾的,即在样本例数一定的情况下,准确度越高则精密度越低。若为提高准确度而减小α,CI势必变得更长,导致精密度下降。此时虽提高了准确度,却损失了精密度。

①当n确定后,CI范围的大小与1-α的高低呈正比,与估计结果的精密度呈反比。

②当1-α确定后,n的大小与CI范围的大小呈反比;与估计结果的精密度呈正比。

(1)总体σ已知,按标准正态分布原理计算

从正态分布N(μ,σ2)抽得样本的均数也服从正态分布,记为N(μ,),对正态变量做Z转换,便有Z=;且均数的标准误:

由Z分布,标准正态曲线下有95%的Z值在±1.96之间;99%的Z值在±2.58之间。

(2)总体σ未知,但n>50

t分布近似标准正态分布,可以利用正态近似法:

从正态分布N(μ,σ2)抽得样本的均数也服从正态分布,记为N(μ,),对正态变量做Z转换,便有Z=;且均数的标准误:,但,σ未知,故常用s来代替σ,用以下公式求得标准误的估计值:。

(3)总体σ未知,且n≤50

①t分布界值表:统计学家将t分布曲线下的尾部面积(即概率P)与横轴t值间的关系编制了不同自由度ν下的t界值表。t界值表:横标目为自由度,纵标目为概率P。t临界值:表中数字表示当ν和P确定时,对应的t值。单侧概率(one-tailed probability):用tα,ν表示;双侧概率(two-tailed probability):用tα/2,ν表示。

①在相同自由度时,│t│值越大,概率P越小;

②总体σ未知,则未知,用代替,则不再服从标准正态分布,而服从t分布。

③例,已知某地27例健康成年男性血红蛋白量的均数为125g/L,标准差s=15g/L ,试问该地健康成年男性血红蛋白量的95%和99%置信区间。

总体概率的置信区间与样本含量n,阳性频率p的大小有关,可根据n和p的大小选择以下两种方法。正态近似法;查表法。

当样本含量足够大,且p和1-p不太小,即np与n(1-p)均大于5,则样本率的分布近似正态分布。公式为:

当n较小,如n≤50,特别是p和1-p接近0或1时,应按照二项分布的原理估计总体率的可信区间。例,某医院对39名前列腺癌患者实施开放手术治疗,术后有合并症者2人,试估计该手术合并症的发生概率。

点估计,查二项分布π置信区间表,n=39与X=2而概率的真值却有可能在1%到17%之间,甚至还要小或还要大。总体频率与样本频率之间的差距就是抽样误差的存在。

(1)假设检验(hypothesis testing):是利用样本信息,根据一定的概率水准,推断样本与样本、样本与总体之间的差异是来自于抽样误差还是处理因素的统计推断方法。

(2)假设检验的过程基于数学上的反证法,做出判断的依据是基于小概率事件原理:即首先假设两总体无差别(反证法),然后根据样本资料计算获得这样一份样本的概率值,当概率值特别小时,根据小概率事件在一次实验中不(大)可能发生的推断原理(小概率事件原理)就推翻原先建立的假设,而认为两总体有差别。

(3)无效假设(null hypothesis):也称为零假设,或原假设,记为H0。表示差别是由抽样误差引起,差异无统计学意义。

(4)对立假设(alternative hypothesis):也称为备择假设,记为H1。表示差别为处理因素所致,差异有统计学意义。

(5)双侧检验,想要证明(检验)大于或小于这两种可能性中的任何一种是否成立,则需建立的原假设与备择假设分别为:H0:μ=μ1;H1:μ≠μ1

(6)单侧检验,凭借专业知识有充分把握可以排除某一侧,则需建立的原假设与备择假设分别为:H0:μ=μ1;H1:μ<μ1或μ>μ1

研究者需根据分析目的和专业知识等信息进行选择。双侧检验的特点是思路比单侧检验宽,且无限制条件,故较为常用,特别适用于对预试验结果进行分析。在同一检验水准下,单侧检验比双侧检验更易得出拒绝H0,差别有统计学意义的结论。

(7)P值定义:在零假设成立的条件下,出现统计量目前值及更不利于零假设数值的概率。

P值是我们来选择究竟放弃原假设,还是放弃备择假设的标准。P值可以理解为差异来源于抽样误差的概率,即原假设成立的概率。

尽管α的大小是根据研究目的与分析要求,在研究设计时就确定的,不宜在统计分析时随意变动。但是,根据实际工作中对不同分析目的和要求,所选用α的大小往往有一定的灵活性。

需控制假阳性错误时,α可小;需控制假阴性错误时,α可大。

P越小,越有理由认为被比较的总体参数之间有差异(定性的推断),但不能认为总体参数之间的差别越大(定量的推断)。

换言之,相较于P≤0.05而言P≤0.01只能说明相互比较的总体间有差别的可能性越大,而不是说差异越大或越显著。

(8)假设检验基本流程总结

统计推断的结论是依据现有的设计,现有的研究方法与条件,现有的资料及其分析目的和要求,所取的检验水准,所采用的统计分析方法等所做出的具有相应概率意义的解释。有统计学意义不一定有专业意义。

若样本足够大或标准差特别小,即使两均数间相差很小,也可能得出P≤0.05的结果。

例,用某种降血压药物后舒张压平均下降6mmHg,经t检验得P≤0.05,并不意味着此药在临床上有应用价值。

(9)置信区间具有假设检验的主要功能:置信区间可回答假设检验的问题,置信区间若包含了H0,按α水准,不拒绝H0;若不包含H0,按α水准,拒绝H0,接受H1;

(10)置信区间可提供假设检验没有提供的信息:置信区间不但能回答差别有无统计学意义,还能提示差别有无实际专业意义。

(11)统计推断的两类错误

如果检验假设H0实际是正确的,由样本数据计算获得的检验统计量却得出了拒绝H0的结论。即统计推断结果拒绝了实际上成立的H0,犯的“弃真”的错误。

即组间差异实际上不存在,统计推断的结果却错误地认为存在组间差异,是以假(差异)为真(差异)的错误。亦称假阳性错误,其概率用α表示

检验假设H0原本不正确(H1正确),由于样本数据计算获得的检验统计量却得出不拒绝H0的结论,即统计推断的结果不拒绝实际上是不成立的H0,犯了“存伪”的错误。

即组间确实存在差异,而统计推断结果却未检出该差异。称这种以真(差异)为假(差异)的错误为假阴性错误。其概率用β表示。

检验决策与两类错误的关系

减少I型错误的主要方法:假设检验时设定?值;减少II型错误的主要方法:增加样本量。若要同时减小I型错误及Ⅱ型错误,唯一的办法就是增加样本含量n。

(12)检验效能(power of test):亦称检验功效或把握度,统计符号为1-β。即当组间确实存在差异时(即备择假设设H1为μ≠μ0成立时),按所规定的α水平能发现组间差异的能力,或者说是当H0不成立时拒绝H0的概率。

α增大,β就会缩小,检验效能1-β亦随之增强,但α是主要应避免的错误,应考虑取较小的值,增强检验效能唯一的办法就是增大样本容量,故把握度越高,所需样本含量越大。

(13)影响检验效能的主要因素

①总体参数:总体参数间的差值越大,检验效能越大

②个体差异:个体差异越小,检验效能越大

③样本量:样本量越大,检验效能越大

④检验水准:检验水准α越高,检验效能越大

⑤设计类型:匹配做的越好的设计,检验效能越大

⑥检验方法:同组资料,参数检验效能高于非参数检验

(14)应用检验方法必须符合其适用条件

是依赖总体分布的具体形式的统计方法,其着眼点在于总体参数的比较。常用的参数法有u检验、t检验、F检验等。其优点是信息利用充分,检验效能高。

是一类不依赖总体分布的具体形式的统计方法,其着眼点在于分布位置的比较。常用的非参法有秩和检验、符号检验、等级相关分析等。其优点是不拘于总体分布,应用范围广、简便、易掌握。

(二)正态性检验与方差齐性检验

①P-P 图(proportion-proportion plots):以样本的实际累计频率(百分比)为横坐标,以按照正态分布计算的期望/理论累计频率为纵坐标,把样本中的观测值表现为直角坐标系中的散点,所得到的图为P-P图。若资料服从正态分布,则样本中的观测值应围绕第一象限对角线散布。

②Q-Q 图(quantile-quantile plots):以样本的实际百分位数为横坐标,以按照正态分布计算的期望/理论百分位数为纵坐标,把样本中的观测值表现为直角坐标系中的散点,所得到的图为Q-Q图。

③茎叶图(steam-and-leaf graph):绘制直方图时需要先对数据进行分组汇总,因此对于样本量较小的情形,直方图会损失一部分信息,此时可以选用茎叶图来进行更精确的描述。

第一列为频数:表示所在行的观察值频数。

第二列为茎:表示实际观察值除以图下方的茎宽后的整数部分。

第三列为叶:表示实际观察值除以茎宽后的小数部分。

总体偏度系数γ1=0为对称,γ1﹥0为正偏态,γ1﹤0为负偏态;

总体峰度系数γ2=0为正态峰,γ2﹥0为尖峭峰,γ2﹤0为平阔峰;

当同时满足对称和正态峰两个条件时,才能认为该资料服从正态分布。

当样本量非常大时,不太适合非参数检验,因为统计学功效高,有差异就能被检出。

①F检验:两个样本的方差齐性检验的适用条件是两个样本均来自正态分布的总体。用两样本方差之比构造的检验统计量F,通常是用较大的方差比较小的方差。

②Bartlett检验:该法的应用前提是各样本服从正态分布,用于两个或多个总体方差齐性检验。

③Levene检验:既可用于两总体或多个总体方差齐性检验,所分析的资料可不具正态性。

(1)完全随机设计(completely random design),是最常见的一种考察单因素两水平或多水平的实验设计方法。它是将同质的受试对象完全随机地分配到各处理组,然后观察其实验效应。

各组样本含量可以相等,也可以不等,但相等时统计分析效率最高。

(2)配对设计(paired design):将受试对象按照某种特征相同或相近的原则配成对子,每对中的两个受试对象随机分配到两个不同处理组或实验组和对照组中,分别给予不同的处理,称配对设计。配对设计优点:由于同对的受试对象间均衡性较好,可减少非研究因素对结果的影响,提高统计处理的效率。

同源配对:同一受试对象处理前后;同一受试对象的对称部位;同一样本用不同的仪器检验。

异源配对:病种,病程,动物窝别,体重,性别;

(1)适用于:某样本均数x与已知总体均数μ0的比较(总体均数μ0:一般指理论值、标准值或经过大量观察所得的稳定值)

(2)应用条件:资料服从正态分布

(3)若总体方差未知,样本均数的抽样分布服从t分布,则用样本方差代替总体方差,检验统计量按下式计算:

①当样本量n较小时,未经正态性检验就采用单样本t检验,当数据中有极端数据时,往往会导致得出错误的检验结论;

②当样本量n较大时,根据中心极限定理,可以不考虑样本所来自总体是否服从正态分布,可以直接进行单样本t检验,但是需要考虑均数是否能代表相应数据的集中趋势。

(五)两独立样本t检验

(1)独立样本t检验(independent sample t test):亦称两样本t检验或成组t检验,适用于完全随机设计两独立样本的比较,目的是检验两独立样本均数所代表的未知总体均数是否有差别。

①样本来自同分布的总体,即同质性;

②样本个体测量值相互独立,即独立性;

③两个样本所代表的总体均数服从正态分布,即正态性;

④两总体方差相等(σ1=σ2),即方差齐性。

独立样本均数的比较,如果服从正态分布,但方差不齐,可以采用3种方式处理:

①采用近似t检验——t’检验

②经过数据变换后使方差齐,然后进行t检验

③基于秩次的非参数检验方法——Wilcoxon秩和检验

①独立样本资料,首先要进行正态性检验与方差齐性检验,进行正态性检验时应对分组数据进行检验,而不是对合计数据进行检验。

②应注意判定各观察值之间是否相互独立,一般依据专业知识对资料的性质进行判断,如遗传性疾病的数据可能存在非独立的问题,就不适宜用独立样本资料的分析方法。

(1)配对t检验(paired sample t test):又称配对样本均数的t检验,适用于配对设计数值资料均数比较。配对设计数据的特点是一一对应,研究者关注的是各对子的效应差值,而非各对子的效应值。

(2)应用条件:研究变量的差值d服从正态分布

(3)基本原理:假设两种处理的效应相同,μ1-μ2=0,即配对对子的差值均数 的总体均数μd=0。这就将配对设计资料的t检验变成了单样本t检验。其计算公式为:

①不能把配对设计资料错当成两组完全随机设计资 料进行统计分析,即将成对数据分开;

②同单样本t检验一样,需要先对差值数据进行正态性检验。

(1)方差分析(analysis of variance, ANOVA)是由英国统计学家R . A . Fisher首先提出,亦称 F 检验(F test)或变异数分析,是定量资料的重要统计推断方法,主要应用于两个及两个以上样本均数之间的差别比较,目的是推断两个及两个以上总体均数之间是否相等。

(2)因素(factor):亦称为处理因素(study factor, treatment),指根据不同的研究目的欲施加给受试对象的某些干预措施。方差分析的主要目的是通过分析各处理组均数之间的差别大小,推断k个总体均数间有无差别,从而说明处理因素有无作用。

(3)水平(level):处理因素的强度或不同等级,是因素的具体表现。(单因素单水平;单因素多水平;多因素单水平;多因素多水平)

(4)交互作用(interaction):若一个因素的效应大小在另一个因素不同水平下明显不同,则称为两因素间存在交互作用。

组内变异只是由随机因素造成的,即:

组间变异即有随机因素,也有教材种类不同造成的变异:

(2)方差分析的基本思想:方差分析的基本思想是将所有测量值间的总变异按照其变异的来源分解为多个部分,然后将各部分的变异与随机误差进行比较,以推断各处理组间的差异有无统计学意义。

方差分析就是根据F分布对检验统计量F值是否在统计学意义上>1(单侧检验)进行假设检验。

①样本来自同分布的总体,即同质性;

②样本个体测量值相互独立,即独立性;

③样本所代表的总体均数服从正态分布,即正态性;

④方差相等,即方差齐性。

(三)完全随机设计资料的方差分析

(1)例将40只接种肿瘤的小白鼠随机分成4组,分别给予不同剂量的三菱莪术注射液,半月后称量瘤重,其数据见表7-1。表中1组为接种后不加任何处理,2组、3组、4组分别为接种后注射0.5ml,1.0ml,1.5ml三菱莪术液。试比较各组瘤重间差别有无意义?

①建立检验假设,确定检验水准

H0:4组小鼠瘤重的总体均数相等

H1:4组小鼠瘤重的总体均数不等或不全相等

α=0.05(多组比较无单、双侧之分)

②选择检验方法,计算统计量

根据ν组间=3和ν组内=36,查F 界值表,得F0.05,(3,36)=4.38,12.99>4.38,P<0.05;按α=0.05水准拒绝H0,差别有统计学意义,提示4组总体均数不等或不全相等,即4个剂量组小鼠的瘤重并不完全相等。

①适用条件必须先进行正态性检验和方差齐性检验,再进行完全随机设计资料的方差分析。

②禁止拆分,不能将资料拆分为多个两组资料并应用两样本均数t检验进行分析。

(四)随机区组设计资料的方差分析

(1)随机区组设计又称配伍组设计,是配对设计的扩展。先按影响试验结果的非处理因素(如性别、体重、年龄、职业、病情、病程等)将受试对象配成区组,再将每一区组的受试对象随机分配到各个处理组中。实验效率高于完全随机设计的实验。

优点:处理组间的可比性更强;增加了区组信息,实验效率较高。

缺点:受配伍条件限制,样本难获得;分组较繁,要求单位组内实验单位数与处理数相同,有时实际应用有一定困难;实验结果终若有数据缺失,统计分析较麻烦。

①设计方案,完全随机设计方案与随机区组设计方案混淆不清,错用完全随机设计处理数据。

②适用条件,处理组间和区组间都必须服从正态分布以及总体方差齐。

(五)多个样本均数的多重比较

(1)方差分析的结果提供了各组均数间差别的总的信息,但尚未提供各组间差别的具体信息,即尚未指出哪几个组均数之间的差别具有或不具有统计学意义。为得到这方面的信息,可进行多个样本均数间多重比较(multiple comparison)。

适用范围:适用于多个样本均数间任意两组的比较,对于k个样本均数,需进行次比较。

适用范围:适用于多个实验组均数与一个对照组均数的两两比较。

注意事项:应用Dunnett-t检验进行推断时,应将计算所得的tD值与Dunnett-t检验界值比较。而Dunnett-t界值与t检验的t界值不同,其值大小除与误差自由度(ν误差)大小有关外,还与处理组的组数多少有关。两者不能误用。

适用范围:适用于所有的多重比较类型。

注意事项:Bonferroni法是多重比较方法中最保守的类型。当比较次数m不多时,效果较好;当比较次数m较大(如m>10),调整后的检验水准α’过小,较难得到阳性结论,故结论偏保守。此时需对α’进行校正:

基本原理:最小显著差法,是最简单的比较方法之一,对所有试验组都进行了两两比较。


}

  (一)统计学中的几个基本概念

  根据研究目的确定的、同质的全部研究对象称作总体。如研究 2003 年中国 45 岁以上者的血清总胆固醇含量,测定值的全部构成了一个总体。总体中的个体数有限,称为有限总体;总体中的个体数无限,则为无限总体(假设总体、虚拟总体)。如研究糖尿患者的空腹血糖测定值,由于对时间和空间未加限制,全部糖尿患者的空腹血糖测定值则是一个无限总体。根据随机化的原则从总体中抽出的有代表性的一部分观察单位组成的子集称作样本,如从糖尿病患者中随机抽取的一组患者,测得的空腹血糖测定值。抽取样本的过程称为抽样。用样本来推断总体的特征称作统计推断。

  严格地讲,除了实验因素外,影响被研究指标的非实验因素相同被称为同质,但在人群健康的研究中有些非实验因素是难以控制或未知的,如遗传、营养、心理等。

  因此,在实际研究工作中,对被观测指标有影响的、主要的、可控制的非实验因素达到相同或基本相同就可以认为是同质。同质是研究的前提。在同质的基础上,被观察个体之间的差异被称作变异。如同性别、同年龄、同地区同体重儿童的肺活量有大有小,称为肺活量的变异。变异性是统计数据的特性。

  总体的统计指标称为参数,如总体均数(∪),总体率(丌),总体标准差(巧)等;样本的统计指标称为统计量,如样本均数(x),样本率(p),样本标准差(s)等。如某地 1995 年全部正常成年男子的平均红细胞数(_u)即为总体参数,而从该总体中随机抽取的 144 名正常成年男子的平均红细胞数(s)为样本统计量。一般情况下,参数是未知的,需要用统计量去估计。用统计量推论参数的方法,统计学上称为参数估计和参数检验。

  医学科学研究中的误差,通常指测量值与真值之差,其中包括系统误差和随机测量误差;以及样本指标与总体指标之差,即抽样误差。

  抽样研究时,只对样本进行观察研究,然后用样本信息推断总体特征。从同一总体中抽样,得到某变量值的统计量和总体参数之间有差别,称为随机抽样误差,简称抽样误差。抽样误差同样是不可避免的,但有一定的规律性。统计学中可以根据抽样误差的分布规律,对总体进行统计掌推断。

  概率是描述随机事件发生可能性大小的度量,常用 P 表示。P 值的范围在 0 和 l之间,P≤0. 05 或 P≤0.01 的随机事件,通常称作小概率事件,即发生的可能性很小,统计学上认为一次抽样是不可能发生的。

  (二)统计资料的类型

  统计分析需要有足够量的反映不确定性的数据。无论用何种方式收集数据,都应根据研究目的,划清同质总体的范围,确定研究对象和观察单位。观察对象的特征或指标称为变量。对变量的测量或观察结果称为变量值。变量值可以是定量的,也可以是定性的,分为数值变量和分类变量。数值变量的变量值是定量的,表现为数值的大小,一般有度量衡单位。如溃疡患者的年龄(岁)、身高(cm)、体重(kg)、血压(mmHg)等。这类变量的观察值构成的资料也被称为计量资料或定量资料。分类变量的变量值是定性的,表现为互不相容的类别或属性。

  根据类别之间是否有程度上的差别,又分为无序分类变量和有序分类变量。

  无序分类变量的各类别之间无程度上的差别,有二分类和多分类两种情况。二分类观察结果只有两种相互对立的属性,如阴性和阳性、男性和女性、死亡和存活、正常和异常等。多分类的定性观察结果有两种以上互不包容的属性,如血型分为 A、B、O、AB 型等;然后分别清点各类别中的例数,这样得到的数据资料称为计数资料或无序分类资料。计数资料一般没有度量衡单位,是一种间断性的资料。

  有序分类变量的各类别之间有程度上的差别,如对患者的治疗效果,可分为显效、有效、无效和恶化 4 个等级,然后分别清点各等级中的患者人数,这种数据资料称为等级资料。等级资料是介于计量资料和计数资料之间,通过半定量方法测定得到的,也称半定量资料或有序分类资料。

  (三)统计工作的基本步骤

  研究设计、收集资料、整理资料和分析资料是统计工作的 4 个基本步骤。这 4 个步骤是紧密联系不可分割的,某一环节发生问题,都将影响最终的统计分析结果。

  1.设计统计工作最关键的一步,是整个研究工作的基础。通常包括调查设计和实验设计。调查设计主要是了解现场工作的实际情况。实验设计主要是了解干预措施的效果,主要特点是随机、对照、干预、前瞻。

  2.收集资料指选择得到资料的最佳途径和获取完整、准确、可靠资料的过程。

  3.整理资料资料整理的目的是将收集到的原始资料系统化、条理化,便于进一步计算统计指标和深入分析。

  4.分析资料根据研究设计的目的、要求、资料的类型和分布特征,选择正确的统计方法进行分析。常常从两个方面分析,一是进行统计描述,即计算平均值、发病率等;二是进行统计推断,即推断总体的特征,如推断总体均数等。

   查看试题答案视频解析,请进入:  预测考点、考题、命题 、接近考试原题,获取在线题库咨询 全国统一服务热线

}

我要回帖

更多关于 可信赖程度和样本量关系 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信