第一章 导论
统计学:一门阐明如何去采集、整理、显示、描述、分析数据和由数据得出结论的一系列概念、原理、原则、方法和技术的科学,是一门的、实用性很强的通用方科学。
教育统计学:专门研究如何搜集、整理、分析在心理和教育方面对实验或调查所获得的数字资料,如何根据这些资料所传递的信息,进行数学推论,找出客观规律的一门科学。
描述统计:对实验或调查所获得的数据加以整理(如制表、绘图),并计算其各种代表量数(如集中量数、差异量数、相关量数等),其基本思想是平均,如在集中量数中将原始数据进行平均,在差异量数中将离均差进行平均,在相关量数中将积差进行平均等等。
推断统计:又称抽样统计。它是根据对部分个体进行观测所得到的信息,通过概括性的分析、论证,在一定可靠程度上去推测相应团体。换言之,就是根据已知的情况推测未知情况。
实验设计:研究如何更加合理、有效地获得观测资料,如何更正确、更经济、更有效地达到实验目的,以揭示试验中各种变量关系的实验计划。
统计常态法则:从总体中随机抽取一部分个体所组成的样本,差不多可以保持总体的特征。这种样本特性保持着总体特性的现象叫做统计常态法则。
小数永存法则:第一个样本中所表现出的特性,在其他样本中也会存在,这就是小数永存法则。此处“小数”是指小数量的意思。
大量惰性原则:某一事物的某一性质或状态,在反复观察或试验中是保持不变的。
有效数字:指能影响测量准确性的数字。
变量:又称随机变量。具有变异性的数据。三个特性,离散型,变异性,规律性。
数据:某个数值一旦被取定了,则称这个数值为随机变量的一个观察值。即数据。
总体:性质相同的一类事物的全体。 个体:构成总体的每一基本单位或单元。 样本:总体抽出的部分个体。
参数:表示总体特征的量数。
统计量:直接从样本计算出的量数,代表样本的特征。
名称变量:指一事物与其他事物在属性、类别上不同。
顺序变量:事物的某一属性的多少或大小按顺序排列起来的变量。既无相等的单位又无绝对的零点的变量。
等距变量:只具有相等的单位,而没有绝对的零点的变量。 比率变量:既有相等的单位,又有绝对的零点的变量。
连续变量:指取值可以是某区间内任一数值的随机变量,它是指测量单位之间可以划分成无限多个细小单位,其数字形式多取小数。
离散变量:指测量单位之间不能再细分的数字资料,其数字形式常取整数。
计数数据:计算人或物的个数所获得的数据。
度量数据:用一定的测量工具或测量标准测量时所获得的数据。
指标:表明总体数量特征的概念和具体数值,又称统计指标,它是把各个个体的特征加总起来的综合结果。
标志:指统计总体中各个个体共同具有的属性和特征,它是说明个体属性和特征的名称。
绝对数:用来表明在一定时间、地点条件下某种教育、心理现象的总体规模和发展水平的统计指标,又称总量指标。
相对数:指教育与心理现象中两个单位相同的相互联系的指标数值的比率。
品质标志:是表明个体属性特征的,不能用数量说明,只能用文字说明。 数量标志:是表明个体数量特征的标志,是用数值表示的。 第二章 数据的搜集、整理与表达
次数:某一事件在某一类别中出现的数目,又叫频数,用f表示。
频率:指每一组的数据个数除以数据的总和,又称相对次数。用符号p表示。 百分频率:频率与百分数的乘积。
组中值:每一组的中点值,常用m或Xc表示。
全距:全部数据的距离,也称极差,是用一群数据中的最大值减去最小值。 组距:指每一组所包含的间隔或数据单位,用i表示。 组限:指每一组的起止点或每一组的界限。
统计表:以表格的形式表达统计资料数量关系的方式或工具。 统计图:以几何图形和形象图形表示统计资料数量关系的工具。
次数分布
累积次数:以简单次数为基础,从最低组开始逐级累加直至最高组,或从最高组开始逐级累加直至最低组,用符号cum﹒f或F表示。
累积百分频率:各组累计次数与总次数的比值。
一时性资料:在一定时限内所收集的有关问题的资料为一时性资料。来源三个方面,教育与心理调查,教育与心理测量和教育与心理实验。
经常性资料:主要是日常工作中的记录和统计报表等。
直条图:用直条(或矩形)的长短表示统计数据多少的图形。 直方图:以矩形面积表示连续变量的统计图。
折线图:以纵轴的高度表示次数,并将各点用线段连接的统计图形。 散点图:表示事物相互关系的图形。
圆形图:用圆的面积表示一组数据的整体,用扇形表示各组成部分所占比重或百分比的统计图。
枝叶图:把首位数字或首几位数字定位枝,其他位数定为叶的一种数字图。 第三章 集中量数
集中量数:一组数据的代表值,用以说明一组数据分布的典型情况或一般水平,它比个别数据更能反映客观现象或事物的实际情况。
集中趋势:在实验、测量或调查中获得的大量观测数据,具有一种向数据某一点靠拢的趋势。
平均数:所有观测值(或变量值)的总和除以总个数所得的商。 中数:按一定顺序排列的一组数的位置的数值。 众数:一群数据中出现次数最多的那个数值,又称范数。
几何平均数:几个变量值乘积的n次方根。
调和平均数:指一群数据倒数的算术平均数的倒数,又称倒数平均数。
百分位数:任意百分位上的数值。
四分位数:1/4位置上的数值和3/4位置上的数值。
第四章 差异量数 离中趋势:
差异量数:描述一组数据离中趋势的量数。
方差(S2/V/MS):一列数据离差平方的算术平均数。一列数据平均差距地平方。
标准差(S/SD):方差的算术平方根。一列数据的平均差距。 平均差(AD):离差绝对值的平均数。 全距(Rg):最大值与最小值的差。 偏态量(SK/α3):三级中心动差。 峰态量(α4):四级中心动差。
百分位差:表示某两个百分位数之间差异程度的指标。
四分位差:是百分位差的特例。用于分析P75与P25之差的一半。
统计动差:在统计学上,借用物理学中的动势(或动差)概念而称为统计动差。
中心动差:以平均数所在的位置为原点,以各组观测值与均数的差(X-X)为力臂,各组次数为作用力来计算动差。这种以均数为原点计算的统计动差叫做中心动差。
第五章 相对量数
相对地位量数:就某一特质来描述个体在团体中所占的地位的量数。 相对差异量数:指差异量数与集中量数的百分比,又叫差异系数。用符号CV表示。
标准差系数:标准差与平均数的百分比,用符号CVS表示。
百分等级:指把一组观测值先按高低次序排列起来,然后计算出某个个体的分数在百分位上超出多少人,或是在此分数下占多少百分比的一种量数,用符号
PR表示
标准分数:它有许多变形,其中最典型的标准分数为Z分数。以标准差为单位所表示的“原始分数”与平均数的偏差,亦即原始分数与其平均数之差除以标准差所得的商。
第六章 相关量数
相关量数:分析或研究两个或两个以上变量之间相互关系的量数。
正相关:指一列变量由大到小或由小而大变化时,另一列变量亦由大而小或由小而大的变化,即两列变量是同方向变化的,属“同增共减”的关系。
负相关:指一列变量由小到大或由大而小变化时,另一列变量却由小而大或由大而小的变化,即两列变量是反方向变化的,属“此增彼减”的关系。
零相关:又称无相关,指两列变量的变化看不出一定的趋势。
相关系数:表示相关方向和大小的一种数值。用符号r表示。
直线相关:指两列变量中的一列变量在增加时,另一列变量随之而增加;或一列变量在增加,另一列变量却相应的减少,形成一种直线关系。
曲线相关:指两列相伴随变化的变量,未能形成直线关系。
简相关:指只有两个变量的相关。
复相关:指有三个或三个以上变量的相关。
积差相关:直线相关中最基本的方法。利用离差乘积的关系来说明事物的关系,是将原始记分转换为离差乘积,再转换为标准积差后所求得的标准积差的平均数。用符号rXY表示
斯皮尔曼等级相关:根据两列变量的成对等级差数计算的相关系数,又称“等级差数法”,用符号rp或rs表示。
肯德尔W系数:用于描述多列等级变量相关程度或一致性程度的相关方法。
点二列相关:研究一列等距或比率变量与一列“二分”名称变量之间相关的统计方法。rpb
二列相关:研究一列正态的比率或等距变量和一列人为“二分”名称变量之间相互关系的统计方法。用符号rb或rbis表示
phi系数:专门研究两列“二分”变量之间相关的统计方法,衡量两个分类变量均分为两类时其关联程度的指标。即Φ相关。用符号rΦ或Φ表示。
第七章 概率分布及其应用
二项分布:二项试验结果的概率分布。
正态分布:就是中间量数次数分布多,两端量数次数分布少,呈对称型的概率分布。又叫高斯分布。
t分布:由小样本统计量形成的概率分布。
频率:一种随机事件发生的次数与总试验次数的比值。
概率:随机事件在试验中发生可能的程度或可能性的大小,用P表示。概率的统计定义是指通过频率来计算的概率;又称经验概率。概率的古典定义是根据问题本身所具有的“对称性”特点直接计算事件的概率;又称先验概率。
中心极限定理:推断统计中最基本的理论与方法,用极限的方法所求得随机变量分布的一系列定理。
随机抽样:
随机样本:指按照概率的规律抽取的样本,即随机样本所包含的研究对象不是由某个人或集体的意向所决定的,只能凭各研究对象相互的机会而定。
抽样误差:由于抽样的随机性所引起的样本统计量与总体参数之间的不同。 标准误:样本统计量分布的标准差或某统计量在抽样分布上的标准差。用符号SE或σx表示。
自由度:在推断统计中,把一群数据或观测值可以自由变动的数目称为自由度。df /n’
确定性事件:指在一定条件下必然会发生或必然不会发生的事件。分为必然事件和不可能事件。
必然事件:指在一定条件下必然会发生的事件。 不可能事件:指在一定条件下必然不会发生的事件。
随机事件:在一定条件下,可能发生,也可能不发生的事件。 模糊事件:指对象类属边界和性态不确定的事件。 第八章 参数估计
参数估计:根据样本统计量去估计相应总体的参数。 总体平均数估计:用样本的均数去估计总体的均数。
点估计:在参数估计中直接以样本的统计量作为总体参数的估计值。 区间估计:以统计量的区间值来估计相应总体。
置信系数:指被估计的总体参数落在置信区间内的概率D,或以1-α表示,又叫置信水平,置信度,可靠性系数,置信概率。
置信区间:指在特定的可靠性(即置信系数)要求下,估计总体参数所落得区间范围,亦即进行估计的全距。
置信限:被估计的总体参数所落区间的上、下界限。
推断统计:指由样本资料区推测相应总体情况的理论与方法,也就是部分推全体,由已知推未知的过程。
无偏估计量:用统计量估计总体参数必然存在一定误差,恰好相等的情形是极少见的,当然,无偏性并不是说没有一点误差,而是要求用各个样本的统计量作为估计值,其偏差为0。即∑(X-μ)=0。这时的统计量被称为无偏估计量。
第九章 参数检验
假设检验:由于在进行差异检验时需要先对事物是否存在差异作出假设,然
后再作统计检验,因此称为假设检验,又称差异的显著性检验。
α错误:指虚无假设本身是正确的,但由于抽样的随机性而使检验值落入了拒绝虚无假设的区域,致使做出了拒绝虚无假设的结论,又称Ⅰ型错误。
β错误:指虚无假设本身不正确,但由于抽样的随机性而使检验值落入了接受虚无假设的区域,致使作出了接受虚无假设的结论,又称Ⅱ型错误。
双侧检验:把拒绝性概率值置于理论分布的两端或两侧。 单侧检验:把拒绝性概率值置于理论分布的一尾或一侧。
虚无假设:研究人员为了证实研究假设是真的而利用概率论的反证法所进行的假设。根据检验结果予以接受或拒绝的假设。用Ho表示。
研究假设:研究者希望证实的假设。用Ha表示。
显著性水平:拒绝虚无假设,接受研究假设的小概率值。 方差齐性:
样本:指从两个无关的总体中随机抽取的两个或多个样本,或者说是抽取的,彼此间的数据不存在对应关系的样本。
相关样本:从具有一定程度相关的总体中抽取的两个或多个样本,亦即彼此的观测值之间存在一一对应的关系的样本。
第十章 方差分析
方差分析:就是对多个平均数进行比较的一种统计方法,又称变异数分析。
变异率:根据方差分析的原理,需比较组间变异和组内变异,若用一个统计量来揭示组间变异,则称这一统计量为变异率。
组间变异:组与组之间的差异称组间变异,它反映各组平均数的不同。
组内变异:同一组内部被试(个体)之间的差异称组内变异,它反映每一个人分数的不同。
区组变异:
多重比较:F检验的后续检验。
因素:自变量(实验者所操作的变量)。 水平:自变量的配置或范围。 处理:不同因素水平的组合。
F检验:F值中分子大于分母的一种检验方法。 第十一章 回归分析
回归分析:根据一个已知变量来预测另一个变量平均值的统计方法。 回归线:分别用两列变量做横、纵轴描点。如没有随机误差的影响,这些点将落在一条直线上,此直线叫回归线。
回归系数:线性回归方程中自变量的系数。
最小二乘法:找到这样一条直线,使所有的点到直线的垂直距离(与X轴垂直)的平方和最小。
线性方程: 一元线性方程: 多元线性方程:
预测标准误:能够估计自变量与因变量接近程度的统计值就是预测的标准误。
测定系数:相关系数的平方,用于说明一个变量由另一个变量解释的程度。
偏回归系数:
偏相关:排除一个(或两个)变量后再求另两个变量的相关。
多元测定系数:多元相关系数R是指三个或更多变量之间相互关联的程度,又称复相关系数。其平方(R2)则为多元测定系数。
复相关:三个及三个以上的变量相关。 第十二章 χ2检验——计数数据分析方法 χ2检验
适合性检验:检验实际的观察次数与某一理论模型是否相符,又称为1×c表的χ2检验。
性检验:处理二元分类资料的χ2检验方法。
χ2分布:如果从总体中随机抽取若干个样本,每一样本的实测次数与理论次数相比较都可以得到一个χ2值,若干个样本就可以计算出若干个χ2值,于是一切可能的χ2值就组成了一个抽样分布,即χ2分布。
正态拟合性检验:检验实际次数分布是否符合正态分布。 第十三章 非参数检验 参数检验: 非参数检验:
符号检验:指利用正负号为资料检验两个相关样本差异显著性的统计方法。 符号等级检验:利用成对数据的符号及差值大小顺序检验两个相关样本差异显著性的统计方法。
秩和检验:以秩和概率分布检验两总体是否为同一分布的统计方法。 中位数检验:检验两个以上样本差异的方法。 等级方差分析:
名词解释:
医学统计学:用统计学的原理和方法研究生物医学问题的一门学科。 变量(variable):观察单位的某项特征
变量值(value of variable):变量的观察结果(测量值)
总体(population):是根据研究目的确定的同质的观察单位的全体,确切的说是同质的所有的观察单位某种变量值的集合。
样本(sample)从总体中随机抽取部分由代表性的观察单位,其测量值的集合称为样本。
随机抽样(random sample):按随机化原则从总体中抽取部分观察单位的过程。
同质(homogeneity):是针对被研究指标来讲,其影响因素相同。简单地理解就是指对研究指标影响大约可以控制的主要因素应尽可能相同。
变异(variation):指在自然地状态下,个体测量结果在同质基础上的差异。 等级资料(ordinal data):将观察单位按测量结果的某种属性的不同程度分组,所得各组的观察单位称为等级资料,如患者的治疗结果可分为治愈,好转,有效,无效,死亡。有序变量(定性变量的一种)。
概率(probability):是度量某一随机事件A发生可能性大小的一个数值,记为P(A),P(A)越大,说明A事件发生的可能性越大,0
频率(frequency):在相同的条件下,重复做n次实验,事件A出现了m次,比值m/n称为随机事件A在n次实验中出现的频率。
随机误差(random error):排除了系统误差后的尚存的误差,受多种因素影响,使观察值不按照方向性和系统性而随机的变化,误差变量一般服从正态分布,可以通过统计处理来估计。
系统误差(system error):由于受试对象,研究者,仪器设备,研究方法等非实验因素影响等确定性原因造成,有一定倾向性或规律性的误差,可以避免。
随机变量(random variable):是指取值不能事先确定的观察结果,不能用一个正常数来表示,每个变量的取值服从特定的概率分布。
参数(parameter):根据总体分布特征而计算的总体统计指标。 统计量(statistic):由总体中随机抽取样本而计算的相应样本指标。 频数表(frequency table):将各变量值及其相应的频数列出表格形式,用来表示一批数据各观察值出现的频繁程度。
算术均数(arithmetic mean):描述一组数据在数量上的平均水平。总体均
数用µ表示,样本均数用X表示。
几何均数(geometric mean):描述对数正态分布或数据呈倍数变化资料的水平,记为G.
中位数(median),将一组观察值由小到大排列,n为奇数时取位次居中的变量值,为偶数时,取位次居中的两个变量的平均值。
极差(range):又称全距,为最大值与最小值之差,用于资料的粗略分析,计算简便但稳定性较差。符号R.
百分位数(percentile):将n个观察值从小到大依次排列,再把它们的位次转化为百分位。
四分位数间距(inter quarnle range):表示百分位数P75和百分位数P25之差,定义为Q=P75-P25.。
方差(variance):表示一组数据的平均离散情况,由离均差的平方和除以样本个数得到。
标准差(standard deviation):是描述反映正态分布计量资料离散程度的指标。是方差的正平方根,使用的量纲与原量纲相同,适用于近似正态分布的资料,大小样本均可,最为常用。
变异系数(coefficient of variation):用于量纲不同和变量间或均数相差较大的变量间变异程度的比较,其计算公式为:
CV=
S100% X正态曲线(normal curve)是函数f(X)=
12e(x)222 对应的曲线,此曲线
是一条高峰位于,两侧逐渐下降并完全对称,曲线两端永远不与横轴相交的钟形曲线。
正态分布(normal distribution):若指标X的频率曲线对应于正态曲线,则称该指标服从正态分布,通常用记号N(µ,σ2)表示均数为标准差为的正态分布。
标准正态分布(standard normal distribution):均数为0标准差为1的正态分布为标准正态分布,记为N(0,1).
标准化转换(standardized transformation):若随机变量X服从正态分布N
(µ,σ2),经过标准化转换Z=
,就服从标准正态分布。
统计推断(statistical inference):通过样本指标来说明总体特征,这种从样
X本获取有关总体信息的过程为统计推断。
抽样误差(sampling error):由个体差异产生,由于抽样而造成的样本统计量与样本统计量及样本统计量与总体参数之间的差异称为抽样误差,无倾向性,不可避免。
均数的标准误(standard error of mean SEM):用于表示均数抽样误差的指标,反映样本均数之间的离散程度和样本均数抽样误差的大小。
可信区间(confidence interval CI):为按预先给定的概率确定的包含未知总体参数的可能范围,含义是包含总体参数的可能性是1-a。
自由度:n个变量中,可自由取值的变量的个数。
参数估计:用样本指标(统计量)估计总体指标(参数),有点估计和区间估计两种。
假设检验中P的含义:指从H0规定的总体随机抽得的等于及大于(或等于及小于)现有样本获得的检验统计量值的概率。
I类错误:拒绝了实际上成立的H0这类弃真的错误称为I类错误,概率大小用alfa表示。
II类错误:接受了实际上不成立的H0这类存伪的错误称为II类错误,概率大小用β表示。
检验效能:是指当两总体确有差别,按规定的检验水准所能发现该差异的能力。数值表示:1-β
检验水准:是预先规定的,当假设检验结果拒绝H0接受H1下有差别的结论时犯错误的概率称为检验水准,记为α
均方:有离均差平方和被自由度相除而得。
方差分析:根据资料的设计类型,即变异的不同来源将全部观察值总的离均差平方和与自由度分解为两个或多个部分,除随机误差外,其余每个部分的变异可由某个或某几个因素的作用加以解释,通过各变异来源地均方与误差均方比值的大小,借助F分布做出统计推断,判断各因素对观测指标有无影响。
总变异:样本中全部实验单位差异称为总变异,其大小可用全部观察值的均
方表示。
组间变异:各处理组间观察值大小不等,这种变异称为组间变异,可用组间均方表示。
组内变异:各处理组内部观察值大小不等,这种变异称为组内变异,可用组内均方表示。
完全随机设计:只考虑一个处理因素,将全部受试对象随机分配到各处理组,然后观察实验效应。
随机区组设计:事先将全部受试对象按自然属性分为若干区组,原则是各区组内的受试对象的特征相同或相近,且受试对象数与处理因素的水平相等,然后将每个区组内的观察对象随机地分配到各处理组。
相对数:是两个有联系的指标之比,是分类变量常用的描述性统计指标,常用相对数有“率,构成比,比”等。
率:频率指标,说明一定时期内某现象发生的频率或强度,计算公式为发生某现象的观察单位数除以可能发生某现象的观察总体值*100% 表示方式有百分率%,千分率。
构成比:构成指标。说明某一事物内部的各组成部分所占的比重或分布,计算公式为:某一组分的观察单位数除以同一事物各组分的观察单位总数*100%,表示方法有百分数等。
比相对比。是AB两个有关指标之比,说明A是B的若干倍或百分之几,计算公式为比等于
A。 B标准化法:常用于内部构成不同的两个或多个率比较的一种方法,基本思想是指定一个统计标准,按指定标准计算调制率,使之具备可比性以后再比较,以消除由于内部构成不同对总率比较带来的影响。
定基比:统一用某个时间的指标作为基数,其它各时间的指标与之相比。 环比:以前一个时间的指标作基数,以相邻的后一个时间的指标与之相比。
平均增长速度:用于概括某一时期的平均速度变化,即该时期环比的几何均
an1 数减1。计算公式为平均增长速度=平均发展速度-1=a0n粗死亡率(crude death rate CDR):或死亡率(mortality rate),指某地某年
平均每千人口中的死亡数,它反映居民总的死亡水平。
发病率(incidence rate IR):表示一定时期内,可能发生某病的一定人群中新发生某病的强度。
患病率(prevalence rate PR):又称现患率,指某时刻点上受检人群中现患某种疾病的频率,通常用于描述病程较长或发病时间不明确的疾病的患病情况。
动态数列(dynamic series)按一定的时间顺序,将一系列描述事物的统计指标依次排列起来,就可以观察和比较该事物在时间上的变化和发展趋势。
标化死亡率(standardized mortality rate SMR):寻找一个统一的分布作为标准组,然后每个比较组均按照该分布标准计算相应的死亡率,所得到的死亡率是相对于标准组的,故称为标化死亡率,由于采取了统一的标准,消除了内部分布不同对总死亡率的影响,使算得的标化死亡率具有可比性。
二项分布(Binomial distribution):如果每一次实验只有阳性或阴性两种可能的结果,每次实验阳性结果的发生概率均为π,阴性结果均为1-π,每次实验结果是相互的,那么重复n次实验,发生阳性结果次数X的概率分布称为二项分布。
拟合优度:指一种度量某事物的频数分布是否符合某一理论分布或数据是否与模型吻合的方法。
非参数统计:不依赖于总体分布类型,也不对总体参数进行统计推断的假设检验。
参数统计:通常要求样本来自总体分布型是已知的,在这种假设的基础上,对总体参数进行估计和检验。
秩次:变量值按从小到大顺序所编的秩序号。
秩和:各组秩次的合计称为秩和,是非参数检验的基本统计量。
直线回归:建立一个描述应变量依自变量而变化的直线方程,并要求各点与该直线纵向距离的平方和为最小。
回归系数:即直线的斜率,直线回归方程中用b表示,其统计意义为X每增减一个单位,Y平均改变b个单位。
直线相关:用于双变量正态分布资料,有正相关,负相关和零相关等关系。零相关表示两变量之间美欧直线相关系数。
相关系数或积差相关系数:以符号γ表示样本相关系数,p表示总体相关系数,它是说明具有直线关系的两个变量间相关关系的密切程度与相关方向的指标。
秩相关或等级相关:用双变量等级数据作直线相关分析,适用于1,不服从双变量正态分布而不宜作积差相关分析,2,总体分布型未知,3,用等级表示原始数据。
统计图:将统计指标用几何图形表达,即以点的位置,线段的升降,直条的长短和面积的大小等形式直观的表示事物间的数量关系。
安慰剂对照:在实验研究中,对照组使用一种外形与实验药物完全相同而毫无药理作用的物质,这种对照称为安慰剂对照。
随机化:指研究对象中或总体中每一个观察单位都有同等的机会被选入样本或实验研究的各处理组中。
混杂因素:指实验研究中由于某些非实验因素与实验因素同时并存的作用影响到观察的结果,这种非实验因素称为混杂因素。
偏倚:指在实验中由于某些非实验因素的干扰而形成的系统误差,歪曲了处理因素的真实效应。
实验研究:是指研究者根据研究目的主动加以干预措施,并观察总结结果,回答假设研究所提出的问题的一种研究方法。
调查研究:是指对特定对象群体进行调查,影响被调查的因素是客观存在的,研究者只能被动地观察和如实记录。调查时的研究条件往往难以控制,一般只有通过合理分组,设置对照等手段尽可能的减少干扰。
简答 1,
统计工作的步骤:统计工作全过程可分为:统计设计,搜集资料,
整理资料和分析资料四个步骤。它们相互联系,缺一不可。
设计:是整个统计研究实施的依据,是最关键的一环,在设计时应对后三个步骤进行周密的设想和安排。
搜集资料:是统计工作的基础。是根据设计取得准确可靠地原始数据,按其来源时间分为经常性资料和一时性资料。资料要求完整,准确和及时。
整理资料:对原始资料进行审核、校正、整理并使之系统化、条理化,便于统计分析。
分析资料:计算统计指标,反映数据的综合特征,阐明事物内在的联系和规律,得出科学结论,统计分析包括统计描述和统计推断。
2, 表。
3,
频数表的用途:解释频数的分布特征和类型:便于进一步计算统计制作频数表的步骤:求全距,定组段数和组距;划组段;绘制整理
指标和进行统计分析处理;便于发现某些特大或特小的可疑值。
4,
标准差的用途:表示观察值得平均离散程度:结合均数可疑描述正
态资料频数分布的特征和估计医学参考值范围:结合样本均数可疑计算变异系数;结合样本含量可疑计算标准误。
5,
变异系数的应用:比较度量衡单位不同的多组资料的变异度:比较
均数相差悬殊的多组资料的变异度。
6,
正态分布的特征:以μ为中心,左右对称,均数处于曲线最高,两
边逐渐下降;正态分布曲线下面积分分布有一定规律:有两个参数μ和σ,位置参数μ和变异参数σ决定了曲线的变异度和位置。
7, 制
8,
标准误的用途:反映了样本均数间的离散程度及样本均数抽样误差正态分布的应用:估计频数分布:制定医学参考值范围;做质量控
的大小;推算可信区间;进行假设检验。
9,
t分布的特征:单峰分布,以O位中心,左右对称,类似于标准正态
分布;t分布形状与n有关,自由度越小,标准误越大,t值越分散,曲峰越矮,尾翘越高;n趋于无穷时,样本标准差逼近总体标准差,t分布逼近标准正态分布,t分布不是一条曲线,而是一簇曲线。
10, 假设检验的基本思想:基于反证法思想和小概率思想。反证法思想:首先提出假设,用适当的统计方法确定假设成立的可能性大小,如果可能性小,
则认为假设不成立,拒绝它,如果可能性大,还不能认为它不成立;小概率思想:是指小概率事件在一次随机实验中认为基本上不会发生,在进行统计分析时要事先规定概率,即检验水准a
11, 假设检验的基本步骤:建立假设;确定检验水准;选定检验方法;计算检验统计量;确定P值,做出推断结论。
12, t检验的应用条件:当样本含量较小时,理论上要求样本取自正态总体,两样本均数比较时还要求两样本方差相等,(u检验应用条件:样本含量较大,或n虽小但总体标准差已知)。
13, 配对设计的几种情形:两个同质受试对象分别接受两种不同的处理;同一受试对象分别接受两种不同的处理;同一受试对象处理前后
14, 配对t检验的基本原理:设两种处理的效应相同,即u1=u2,即看成是差值的样本均数d所代表的未知总体均数与已知总体均数的比较
15, 假设检验注意的问题:要有严密的研究设计:不同变量或资料选用不同的检验方法;正确理解显著性一词的含义;做结论不能绝对化;统计显著性对应于统计结论,医学临床生物学显著性对应于专业结论。
16, 参数检验和非参数检验的区别及各自优缺点:参数检验:以已知分布为假设条件,对总体参数进行估计或检验;非参数检验:不依赖总体分布的具体形式和检验分布是否相同。参数检验优点是符合条件时检验效率高,缺点是对资料要求严格而且要求资料的分布型已知和总体方差相等。
非参数检验优点是计算简单便于掌握;应用广泛;收集资料方便,缺点是容易损失信息。检验效率低。
17, 可信区间与假设检验的区别和联系:可信区间用于说明量的大小即推断总体均数的范围,而假设检验用于推断质的不同即判断两总体均数是否不同,两者相互联系又相互区别;可信区间亦可回答假设检验的问题;可信区间比假设检验可提供更多的信息,但并不意味着可信区间能够完全代替假设检验;可信区间只能在预先规定的概率——检验水准的前提下进行计算,而假设检验能够获得较为确切的P值,故两者结合起来次才是完整的分析。
18, 方差分析的基本思想:根据资料的设计类型,即变异的不同来源将全部观察值总的离均差平方和和自由度分解为两个或多个部分,除随机误差外,
其余每个部分的变异可由某个或几个因素的作用加以解释,通过比较不同变异来源地均方,借助F分布做出统计推断,从而了解该因素对观测指标有无影响。
19, 方差分析的应用条件:1各次观察,即任何两个观察值之间均不相关,2同一水平下的观察值Xij分别服从总体均数μ的正态分布。3各总体的方差基本相等,概括的表达为:任何观察值都是的来自于具有等方差的正态总体。
20, 应用相对数的注意事项:计算相对数的分母一般不宜过小;分析是不能以构成比代替率,应当注意不能用构成比的动态分析代替率的动态分析;对观察单位不等的几个率,不能直接相加求其总率,在比较相对数时应注意可比性;对样本率(构成比)的比较应随机抽样,并做假设检验。
21, 四格表2检验的适用条件:1,当n>=40且所有T>=5时,用普通的
2检验,若所得的P约等于0时,改用确切概率法,2,当n>=40但1<=T<=5时,用校正2检验;3当n<40或T<1时,不能用2检验,改用确切概率法。
22, 秩和检验的基本思想:假定从一总体中,随机抽取一个样本,可以求出T+和T-,当重复所有可能组合的样本,得T+和T-的分布,T的分布以均数为中心对称的非连续分布,当H0成立,从总体随机抽取任一样本,所得T值在均数附近的概率最大,当T值远离均数概率较小,随着n增大,T的分布逐渐逼近均数n(n+1)/4,方差n(n+1)(2n+1)/24的正态分布,当n<25时,T的分布已较好地近似正态分布。
23, 成组设计两个样本比较的秩和检验的基本思想n1和n2两个样本,来自同一总体和分布相同的两个总体,即假设检验H0成立,则n1样本的秩和T与平均秩和n1(N+1)/2一般相差不大,也就是u值小于u,若T与平均秩和n1(N+1)/2相差很大,则表示筹得的样本统计量T值的概率很小,因而拒绝检验假设H0。
24, 直线回归方程的应用:描述两变量的依存关系;利用回归方程进行预测;利用回归方程进行统计控制。
25, 应用直线回归应注意的问题:做回归分析要有实际意义,不能把毫
无关联的两种现象勉强做回归分析,即使有回归关系也不一定是因果关系,还必须对两种现象间的内在联系有所认识,能从专业理论上做出合理解释或有所依据,在进行直线回归分析前,应绘制散点图,当观察点的分布有直线趋势,才适宜直线回归分析;直线回归方程的适用范围一般以自便量的取值为限,不能任意外延。
26, 直线回归与相关的区别1资料要求不同:回归要求变量Y服从正态分布,X是可以精确测量和严格控制的变量,相关要求两个变量X,Y服从双变量正态分布,2应用情况不同:说明两变量间依存变化的数量关系用回归,说明变量间的相关关系用相关3,意义不同:回归系数b表示自变量X每变化一个单位后应变量Y的平均变化量,相关系数r表示两变量相关的方向和密切程度,4取值范围不同:-1<=r<=1;b负无穷到正无穷大。5单位不同,回归系数b有单位,相关系数r没单位。
27, 直线回归与相关的联系:1两者都是研究两个数值变量的关系的统计方法,2方向一致:对一组数据若同时计算r与b,他们的正负号一致,r为正说明两变量间的相互关系是同向变化的,b为正号说明X增减一个单位,Y平均增减b个单位,3假设检验对同一样本,r与b的假设检验得到的t值相等,由于r的假设检验简单,故在实际应用中常用以前法代替后法,4用回归解释相关,决定系数P2=SS回/SS总,回归平方和越接近总平方和,R2越接近1。
28, 列表的原则1重点突出,简单明了2主次分明,层次清楚,符合逻辑。
29, 列表的基本要求1标题,概括表的内容,写于表的正上方,必要时注明时间地点。主要内容2标目 以横纵向标目分别说明主语与谓语,文字简明,层次清楚,有单位用()3,线条 用三线条表示,粗略的顶端线及纵标下的横线,其余一律省去,4数字 以阿拉伯数字表示,暂缺或无数字分别以“”、“——”表示,不应有空项,为核实与分析,表常应有合计。5不列备注,必要说明者表*,于表下方说明。
30, 实验的基本原则 随机化,对照,重复。 31, 对照的种类:空白,安慰剂,自身,实验,标准
32, 实验设计的基本步骤:建立研究假设,明确研究范围,确立处理因
素,明确观察指标,控制误差和偏倚。
33, 常用的实验设计方法:完全随机设计,配对设计,交叉设计,随机区组设计,析因设计。
34, 确定样本含量时应具备的条件:建立假设检验,定出检验水准,提出所期望的检验效能,必须知道有样本推断总体的一些信息。
35, 常用的估计样本含量的方法:两样本均数比较,配对实验和交叉试验,样本均数与总体均数的比较,两样本率的比较,配对分类资料多用X2检验进行处理,估计总体均数的样本含量,估计总体率的样本含量。
36, 实验设计和调查设计的主要区别:调查设计1在研究过程中没有人为施加的干预措施,而是客观的观察记录某些现象的现状及其相关特征,2不能采用随机分配的方法来平衡或消除非研究因素对研究结果的影响;实验设计1研究者根据研究目的主动加以干预措施,并观察总结其结果,回答研究假设所提出的问题,2按随机分配的方法去除混杂因素。
37, 标准误与标准差的区别与联系 区别
1概念不同:标准差是描述样本中个体值间的变异程度指标,标准差越小,表示变量值围绕均数波动越小,标准误是描述样本均数间的变异程度指标,标准差越小,表示变量值围绕均数波动越小。
2用途不同:标准差用于表示变量值对均数波动的大小,当资料呈正态分布时,与均数结合可估计正常值范围,计算变异系数等,标准误常用于表示样本统计量和总体参数的波动情况,可估计参数可信区间进行假设检验。
3与例数的关系不同,当样本含量足够大时,标准差趋向稳定,而标准误随例数增大而减小,甚至趋向于0,若样本含量趋向于总例数,标准差趋近于0或更高。
38, 非参数检验的适应情况:1分布型未知,2能以严重程度,优劣等级,效果大小和名次先后等划分的等级资料。3分布极度偏态。4本组内个别变量偏离越大,远离本组其他变量值,5,方差不齐时,6筛选或只需获得初步结果。
39, 如何正确选用单侧检验和双侧检验:单侧检验首先应根据专业知识
来确定,同时也应考虑所要解决问题的目的,若从转押知识判断一种方法的结果可能低于或高于另一种方法的结果,则用单侧检验;在尚不能从专业知识判断两种结果高低时,用双侧检验,若研究者对于低于或高于两种结果都关心时,则用双侧检验,若只关心其中一种可能,则取单侧检验,一般认为双侧检验较保守和稳妥,单侧检验由于充分利用了另一侧的不可能性,更易得出有差别的结论,但应慎用。
40, 配对t检验与配伍组设计的方差分析之间有何联系?两样本t检验与完全随机设计的方差分析有何联系?
配伍组设计的方差分析是配对t检验的推广,他们的基本原理相同。完全随机设计的方差分析是两样本t检验的推广,他们的基本原理相同。不管是配伍组设计害死完全随机设计,当对比样本为两组,可用t检验也可以用方差分析,他们是等价的,当对比样本在两组以上只能用方差分析。
41, P 0.05拒绝H0的理论根据。P值是指从H0规定的总体随机抽取等于及大于(或等于及小于)现有样本统计量的概率,P 0.05,说明在H0成立的条件下,得到现有检验结果的概率小于小概率事件标准0.05.因小概率事件在一次实验中几乎不可能发生,现的确发生了,说明样本信息不支持H0,所以怀疑假设H0不成立,故拒绝H0。
42, 配对比较的假设检验,能否出现t检验结果P>0.05,而非参数检验结果P<0.05?
答:可能出现。配对t检验的统计量t=
ds/n,式中d为差值均数,
当Sd固定时,t的大小取决于d,差值均数小,t值就小,表明每个对子是接近的,故检验结果为P>0.05。推断两总体差值为0的假设未能拒绝,在参数检验中,综合了差数大小与方向的全部信息,差数大小更能提供两组数据之差有无实际意义的信息,而配对秩和检验更侧重方向的作用,设想当n对差数全部为正号时,尽管两组数据非常接近,也会出现T+很大,T-为零的局面,即P<0.05的结果,这种局面虽然可以出现,但随n的增大,如果H0为真,则差数的方向是随机出现的,故T+和T-一般相差不大,其
检验结果与参数检验结果多数情况下还是一致的。 43, 参数检验和非参数检验所得结果不一致,以何为准?
仅供参考
第一章 绪论
统计学(statistics),是研究数据的收集、整理、分析的一门科学,帮助人们分析占有信息。达到去伪存真、去粗存精、争取认识世界的一种重要手段。
卫生统计学(health statistics):是研究居民健康状况以及卫生服务领域中数据的收集、整理和分析的一门科学。
统计描述(descriptive statistics)用统计指标、统计表、统计图等方法,对资料的数量特征及其分布规律进行滴定和描述。
统计推断(statistical inference):通过样本指标来说明总体特征,从样本获取有关总体信息的过程
总体(population):是根据研究目的确定的同质观察单位的全体。 样本(sample)从总体中随机抽取部分由代表性的观察单位,其测量值的集合称为样本。
变量(variable):在确定总体之后,研究者则应对每个观察单位的某项特征进行测量和观察,这种特征称为变量。
变异(variation):指在自然地状态下,个体测量结果在同质基础上的差异。 随机抽样(random sample):按随机化原则从总体中抽取部分观察单位的过程。以避免误差和偏倚对研究结果有所影响。
样本含量或样本大小(sample size):样本包含的观察单位数称为样本含量,医学上也称为样本例数。
定量资料(quantitative data)是测量每个观察单位某项指标大小所得到的资料,一般均有度量衡单位。
分类资料(categorical data):观察值是定性的,表现为互不相容的类别或属性。
有序分类(ordinal categories):各类之间有程度的差别,给人以“半定量”
的概念。
概率(probability):是度量某一随机事件A发生可能性大小的一个数值,记为P(A),P(A)越大,说明A事件发生的可能性越大,0
统计工作的步骤:设计(design),收集资料(collection),整理资料(sorting data),分析资料(analysis of data)(统计描述descriptive statistics)、统计推断(inferential statistics)
第二章 定量资料的统计描述
对称分布:是指集中位置在中间,左右两侧频数大体对称。
偏态分布:指集中位置偏向一侧,频数分布不对称,分为正偏态和负偏态。 均数(mean):描述一组数据在数量上的平均水平,适用于对称分布,特别是正态或者近似正态分布的定量资料。
中位数(median),是指将一组观察值从小到大排列后,居于中间位置的那个数值。将一组观察值由小到大排列,n为奇数时取位次居中的变量值,为偶数时,取位次居中的两个变量的平均值。
极差(range):是全部数据中最大值与最小值之差,它描述了数据变异的程度。又称全距,为最大值与最小值之差,用于资料的粗略分析,计算简便但稳定性较差。符号R.
标准差:反映定量资料离散趋势的指标,它能反映每一个变量值与均值的平均的离散程度,S越小,变量值与均值离散程度越小,均数代表性越好。
变异系数(coefficient of variation CV):标准差与算术均数的比值。
频数分布表的用途: 1揭示资料的分布类型
2由频数分布表可以看到频数分布的两个重要特征:集中趋势和离散趋势。 3便于发现某些特大或特小的可疑值。 4便于进一步计算统计指标和做统计处理。
描述集中趋势的指标:均数X,几何均数G,中位数M
描述离散趋势的指标:极差,方差,标准差,四分位数间距IQR,变异系数CV
第三章 正态分布
正态分布: 若X的频数曲线对应于数学上的正态分布曲线(曲线呈钟型,两头低中间高,左右对称)则称该指标服从正态分布。
正态分布的应用:归频数分布:制定参考值范围,作质量控制,统计处理方法的基础。
第四章 总体均数的估计和假设检验
抽样误差(sampling error):是由个体变异产生的,抽样造成的样本统计量与总体参数的差异。
标准误(standard error)是样本统计量的标准差。
均数的标准误(standard error of mean SEM)用于表示均数抽样误差的指标,反映样本均数之间的离散程度和样本均数抽样误差的大小。
参数估计:是指用样本指标值(统计量)估计总体指标值(参数)。 点估计:就是用样本统计量直接作为总体参数的估计值。
区间估计confidence interval CI:按预先给定的概率(1-a)确定的包含未知总体参数的可能范围。该范围通常称为参数的可信区间或置信区间。
I类错误:拒绝了实际上成立的H0这类弃真的错误称为I类错误,概率大小用α表示。
II类错误:接受了实际上不成立的H0这类存伪的错误称为II类错误,概率大小用β表示。
可信度:预先给定的1-a。为按预先给定的概率确定的包含未知总体参数的可能范围,含义是包含总体参数的可能性是1-a。
检验效能(power of a test)(1-β)当两总体确有差异,按规定检验水准,
所能发现该差异的能力。
中心极限定理:
1从正态总体N(μ,σ)中,随机抽取例数为n的样本,样本均数也服从正态分布,即使从偏态总体中随机抽取,当n是足够大时(如n>50),X也近似正态分布。
2从均数µ,标准差σ的正态或偏态总体,抽取例数为n的样本,样本均数
X的总体均数也为µ,标准差用σ(X)=n
统计推断包括:参数估计和假设检验。
标准误的用途:可反映样品均数与总体均数距离远近,反映可靠性:与样本均数结合估计总体均数的可信区间;进行假设检验。
假设检验应注意的问题:1,要有严密的研究设计2,不同变量或资料应选择不同的检验方法3,正确理解“显著性”一词的含义4,做结论不能绝对化5,统计“显著性”与医学临床/生物学“显著性”。
可信区间与假设检验:1可信区间亦可回答假设检验的问题,2可信区间比假设检验可提供更多的信息。
第五章 方差分析
变量变换:将原始数据做某种函数转换,使各组达到方差齐性,也可使资料转换为正态分布。
方差分析的基本思想:就是把全部观察值间的变异(总变异)按设计和需要分解成两个或多个组成部分,总自由度也分解成相应的几个部分,再做分析。分解的每一部分代表不同的含义,其中至少有一部分代表各均数间的变异情况,另一部分代表误差。离均差平方和除以自由度得均方,组间均方与误差均方之比为F值,F值远大于1,表示各组均数间差别有显著性,F值远小于1,表示各组均数间差别无显著性,可查F界表确定P。
方差分析的用途:两个或多个样本均数的比较,分析两个或多个研究因素的交互关系以及回归方程的线性假设检验。
方差分析的应用条件:1,各样本是相互的随机样本,2各样本来自正态总体,3各处理组总体方差齐性。
变量变换:1目的:使方差性齐;资料正态化;还可用于曲线直线化;2类型:对数变换:平方根变换;倒数变换;平方根反正弦 变换等。
第六章 分类资料的统计描述
Relative number相对数:由两个有联系的指标之比组成的用以描述分类变量的统计指标。
Rate率:又称频率指标,说明某现象发生的频率或强度。率=发生某现象的观察单位数/可能发生某现象的观察单位总数×100%
Proportion构成比:又称构成指标,说明某一事物内部组成部分所占的比重或分布。构成比=某一组成部分的观察单位数/同一事物各组成部分的观察单位总数×100%
Ratio比:又称相对比。是A,B两个有关指标之比,说明A是B的若干倍或百分之几。比=A/B
Standard mortality ratio SMR标准化死亡比:指被标化组实际死亡数与预期死亡数之比。若SMR>1,表示被标化人群的死亡率高于标准组:反之若SMR<1,表示被标化人群的死亡率低于标准组。
Dynamic series动态数列:是一系列按时间顺序排列起来的统计指标,包括绝对数、相对数或平均数,用以说明事物在时间上的变化和发展趋势。
定基比:即统一用某个时间的指标作基数,以各时间的指标与之相比,是常用的动态数列分析指标之一。
环比:以前一个时间的指标作基数,以相邻的后一个时间的指标与之相比。是常用的动态数列分析指标之一。
应用相对数应注意的问题:计算相对数的分母一般不宜过小,当例数小于30时,宜用绝对数表示为好;分析时不能以构成比代替率,应当注意不能用构成比的动态分析代替率的动态分析;对观察单位不等的几个率,不能直接相加求其总率,在比较相对数时应注意可比性;对样本率(构成比)的比较应随机抽样,并做假设检验。
标准化法的基本思想:当两组或多组率之间比较,其内部各小组的率明显不同,且各小组的观察例数的构成比也明显不同时,则不能直接比较两组或多组的总率,得出结论。为消除构成不同造成的影响。采取统一的标准构成进行调整,使之标准化,以具有可比性。
N标准化率的计算(直接法):p’=
ipiNN或p’=iPi
NNi:标准组个小组例数:pi:被标化组各小组的率,N:标准组总例数 平均发展速度=nanao a0=基期指标;an:第n年指标
平均增长速度=平均发展速度-1
第九章 秩和检验
参数统计:通常要求样本来自总体分布型是已知的,在这种假设的基础上,对总体参数进行估计和检验。
非参数统计:当样本来自总体分布型是未知的或总体分布与检验所要求的条件不符时,所使用的统计方法。不依赖于总体分布类型,也不对总体参数进行统计推断的假设检验。
非参数统计的优缺点:1应用范围广,简便,易掌握,对资料分布特征无特殊要求。
2当资料适合参数统计,而用非参数统计会损失部分
信息,减低检验效能。
秩和检验方法 号 秩和检验 假设 H0M=0 H1M≠0 α =0.05 H0两总体分布相同 H1两总体分布不同 α =0.05 H0总体分布均相同 H1总体分布不同或不完全相同 α =0.05 方法 1, 差值由小到1.所有数据由小到大编1.所有数据由小到大编配对设计差值的符成组设计两样本比较的秩和检验 成组设计多样本比较的秩和检验 大编秩,人去T+或T-,查表确定p值。 2, 检验 N>25,用μ秩,小ni组秩和为T。查表确秩,求出各组秩和Ri计算H定p值。 2. n1>10或n2-n1>10时,用μ检验 值。 2.当k=3,n≤5时查H界值表确定p,当最小n>5时,v=k-1. 查X2表,确定p。 注编秩时,绝对值相等1.编秩时,相同数据在不同组内取平均秩次 2.相同秩次较多时,需要校正。 1,编秩时,相同数据在不同组内取平均秩次。 2.相同秩次较多时,需校正。 意事项 者,取平均秩次
第十一章 回归和相关
直线相关:或简单相关,描述两变量的相互关系,用于双变量正态分布资料。有正相关、负相关和零相关(非直线相关)系。
相关系数:或累积相关系数,说明具有直线关系的两个变量间,相关关系的
密切程度与相关方向的指标。样本相关系数用r表示,总体相关系数用ρ表示。
直线回归:描述两变量间的依存关系。利用回归分析方法能够找到一个描述变量之间的变化关系的数学表达式。
回归系数:或直线的斜率,样本回归系数b,总体回归系数β,b的统计学意义为:X每增加/减少一个单位时,Y平均改变b个单位。
剩余:或残差,即实际值与估计值之差。SSB即(YY)2,为Y的离均差平方和。说明未考虑X与Y的回归关系时Y的变异。
剩余平方和:SS剩,即(YY)2,它反映X对Y的线性影响之外的一切因素对Y的变异情况。也就是在总平方和中无法用X解释的部分,其值越小,说明直线回归的估计误差越小。
回归平方和:SS回,即(YY)2, 它反映由于X与Y的直线关系而使Y的总变异减小的部分。也就是在总平方和中可以用X解释的部分,其值越大,说明回归效果越好。
剩余标准差:指当X对Y的影响被扣除后,Y仍存在变异,此变异由抽样误差造成,与X无关。用来反映Y的剩余变异。
预测:吧预报因子(X)代入回归方程对预报量(Y)进行估计,其波动范围可按求个体Y值容许区间方法计量。
统计控制:利用回归方程进行逆估计,要求Y在一定范围内波动,可以通过控制X的取值来实现。
决定系数:即r2=SS回/SS总.当总平方和固定不变时,回归平方和的大小取决于r2。
秩相关:又称等级相关,用双变量等级数据作直线相关分析,适用于1,不服从双变量正态分布而不宜作积差相关分析,2,总体分布型未知,3,用等级表示原始数据。
等级相关系数:即rs,说明两个变量间相互关系的密切程度与相关方向,用于下列资料:1,不服从双变量正态分布而不宜作积差相关分析,2,总体分布型未知,3,用等级表示原始数据。
假设检验:1b,方差分析,t检验;2界值表,t检验。
直线回归方程的应用:1描述两变量的依存关系;2预测;3统计控制 应用直线回归应注意的问题: 1. 作回归要有实际意义。
2. 回归分析前绘制散点图,观察直线趋势,修正或删除异常点。 3. 直线回归方程的适用范围一般以自变量的取值范围为限。 相关和回归的区别:
1. 资料要求不同:回归要求Y服从正态分布,X可精确测量和严格控制:相关要求双变量正态分布。
2. 应用情况不同:回归——依存关系:相关——相互关系。 相关和回归的联系: 1. 2. 3. A. B.
方向一致:r,b符号一致。
假设检验等价:统一样本,r,b的假设检验得到的t值相同。 用回归解释相关。
SS回越接近SS总,,则r2越接近l,说明引入相关的效果越好。 相关系数的大小与SS总及回归系数有关,所以相关系数不能作为回
归估计精度的指标。
秩相关的应用条件:
1. 不服从双变量正态分布而不宜作积差相关分析。 2. 总体分布型未知。 3. 用等级表示的原始数据。
第十二章 常用统计表
统计表:在科技报告或论文中,常将统计资料及指标以表格列出,称为统计表。可分为简单表和复合表。
统计图:是用点的位置、线段的升降、直线的长短或面积的大小等形式表达统计资料,可直观反映出事物间的数量关系。
列表原则:1重点突出,简单明了2主次分明,层次清楚,符合逻辑。 列表基本要求:1标题2标目3线条4数字5不列备注
制图基本要求:1标题2标目3图例
常用统计图 统计图 直条图 圆图 用等宽长条的高度表示按质量分组的资料 以圆面积表示事物的全起点为0,等宽,等间距直条,按高低顺序排列。 圆面积为100%,各构成比分别乘定义 制图 部,用扇形面积表示各组成部3.6度,绘扇形面积,以12点为始,分所占比重 普通线图 用线段的升降表示随时由大到小依次绘制。 X,Y轴为算术尺度,相邻两点以间变化的趋势,用于连续性资折线连接 料 半对数线图 用线段的升降表示随时X轴为算术尺度,Y轴为对数尺间变化的变动速度,用于连续度。 性资料 直方图 散点图
用矩形面积表示连续性变量的频数分布。 以点的密集程度和趋势表示两种事物间的相关关系。 X轴表示连续性变量的组段,Y轴表示频数或频率,尺度从0开始 同线图,但相邻两点间不连接。 第十三章 实验设计
实验研究:是指研究者根据研究目的主动加以干预措施,并观察总结结果,回答假设研究所提出的问题的一种研究方法。依研究目的分为实验研究和临床试验。
实验研究设计(experimental design):是以动物或标本(如血,痰,尿等)为研究对象采取干预措施的研究。
临床试验(clinical trial):从统计学角度出发,只要是以人为研究对象并采取了干预措施的研究统称为临床试验,可分为临床疗效实验和社区干预实验。
随机化原则:即总体中的每个观察单位都有相等的机会被选入到样本中来。 随机分配(randomized allocation):为增强可比性,依型讲究假设的要求规定了纳入标准,将实验对象分入实验组和对照组中。
空白对照:对照组不施加任何处理措施。
安慰剂对照:在实验研究中,对照组使用一种外形与实验药物完全相同而毫无药理作用的物质,这种对照称为安慰剂对照。
实验对照:对照组和实验组的处理措施区别在于:实验组加入了有效成分,而对照组则无。
标准对照:用公认的有效药物、现有的标准方法或常规方法做对照。 自身对照:对照和实验措施在同一实验对象上实施。 相互对照:几个处理(或水平)互为对照。
处理因素:是根据研究目的而施加的特定的实验措施。
实验效应:主要只处理因素作用于实验对象的反应,这种效应将通过实验中观察指标显示出来。观察指标应该客观性较强,灵敏度较高。精确性较强。
准确度(accuracy):观察值与真值的接近程度。
精确度(precision):重复观察时:观察值与其平均值的接近程度。 随机对照试验(randomized control trial):将受试对象随机分配到实验组和对照组,通过比较分析回答研究假设的问题。
随机双盲对照实验(randomized double blind control trial):在随机对照试验的基础上再采用双盲法。
配对设计(paired design):将实验对象按一定条件配成对子,如将年龄、体重一致的动物配成对子。再将每对中的两个受试对象随机分配到不同处理组。据以配对的因素为可能影响实验结果的主要混杂因素。
系统误差:由于受试对象,研究者,仪器设备,研究方法等非实验因素影响等确定性原因造成,有一定倾向性或规律性的误差,可以避免。
偏倚:指在实验中由于某些非实验因素的干扰而形成的系统误差,歪曲了处理因素的真实效应。
选择性偏倚selective bias:由于纳入观察对象的方法不正确而产生的偏倚。
测量性偏倚 measurement bias:实验过程中对研究对象进行观察或测量而造成的偏倚。
沾染contamination:对照组实验对象接受实验组的处理措施,提高了对照组的有效率,结果导致了实验组和对照组的差异。
干扰cointervention:实验组从实验外接受了对实验因素有效的药物或措施(非处理措施),提高了实验的有效率,结果扩大了实验组和对照组的差异。
依从性:compliance受试者对于干预措施及实验过程的执行程度。 非依从性noncompliance:受试者为按照研究人员的规定方案执行称为非依从性。
失访lost to followup:受试者在实验过程中由于各种原因退出实验称为失访。 双盲法(double blind method):课题主持人采取措施使研究者和研究对象均不知道接受实验措施或对照措施。
单盲法:single blind method:只有患者不知道处理措施的内容。
三盲法:triple blind method:主持人/研究者/患者均不知道处理措施的内容。 混杂偏倚 confounding bias:在总结分析阶段,由某些非实验因素与实验因素同时并存的作用影响到观察的结果,造成混杂因素的偏倚。
实验设计的基本原则:随机化、对照、重复。
对照原则的目的: 实验研究的目的是验证研究假设是否正确,只有经过比较才能鉴别其真伪,设对照组是比较的基础,没有对照很难说明研究假设是否正确;设立对照也是控制实验过程中非实验因素的影响和偏倚的一种有力措施。常用的对照有:空白对照,安慰剂对照,实验对照,标准对照,自身对照,相互对照。
重复原则:含义为1足够的样本含量;2实验的次数。 实验设计的三要素:处理因素、实验效应、受试对象。 确定受试对象纳入标准应注意:
1应纳入对处理因素的效应反应灵敏的患者。
2某些处理措施对一些特殊人群产生有害作用,应排除实验之外。
常用的实验设计方法:随机对照实验,配对设计,交叉设计,配伍组设计。 随机对照试验有点(随机化的目的)
1有效避免非实验因素的影响,使实验因素充分显示 2增强各比较组间的可比性,使研究结论更可靠。
3更好地控制非实验因素对实验因素的影响,有效地控制了偏倚和误差。 4满足了随机化原则,使检验结果反映 真实差异。
交叉设计的优点: 1节约样本含量
2能控制时间因素及个体差异对处理因素方式的影响 3从医德观点出发,均等考虑每个患者的利益。 交叉设计的注意事项:
1前提是两种处理方式不能相互影响。 2不适用于病程较短急性病效果的研究 3应尽可能采用盲法。
确定样本含量的意义:正确确定样本含量是实验设计的一个重要组成部分,估计样本含量应克服两种倾向:1片面追求增大样品含量导致人力、物力和时间的浪费,还可能引入更多的混杂因素。2样本含量偏少,检验效能偏低,导致总体本来存在的差异未能检出,导致非真实的阴性结果。样本含量大小还受个体差异和研究实验要求的精神有关。阅读专业文献时,对假设检验阴性结果有必要复核样本含量和检验效能是否偏低。以正确分析假设检验的结论。
第X章 2检验
2 test (Chi-square test)2是一种用途较广的假设性检验方法,可用于推断两个及多个总体率或总体构成比之间有无差别,两种属性或两个变量之间有无关联性,以及频数分布的拟合优度检验等。
2检验的基本思想:2值是以理论数为基数的相对误差,它反映了实际数与理论数吻合的程度(差别的程度)。若检验假设成立,则实际数与理论数的差别不会很大,出现大的2值的概率p是很小的,若P≤α检验水准,就怀疑假设,因而拒绝它,若P≥α,则无理由拒绝它。
理论数的计算:Tic=
ninc, Ti,r第i行第c列的理论数,ni为Tic所在的行合计,nnc为Tic所在的列合计:n为总例数。
(AT)2 ————————————(1) 检验的基本公式:=T2
2
检验的校正公式:=2
2
(AT0.5)2T ——————————(2)
四表格专用公式
(adbc)2n四表格专用公式:=—————————(3)
(ab)(cd)(ac)(bd)2
n(adbc)2n2校正公式2=———————(4)
(ab)(cd)(ac)(bd)
四格表2检验的条件:
1当n≥40且所有的T≥5时,用普通的2检验(公式1,3),若所得P≈α,改用确切的概率法。
2当n≥40但又1≤T≤5,用校正的2检验(公式2,4)。 3当n<40或有T<1时,不能用2检验,改用确切概率法。
(bc)2配对四格表资料的检验: =,v=1(b+c≥40时使用)
bc2
2
校正公式=
2
2
2
(bc1)2bc,v=1 (b+c<40时使用)
A21)无校正公式 行X列表的检验公式=n(nrni行X列表的2检验的注意事项:
1不能有理论数T<1,并且1≤T≤5的格子数不超过总格子数的1/5. 2当检验有统计学意义(拒绝H0)时,只能认为各总体率或构成比之间总的来说有差别,但不能说明它们彼此之间都有差别,或某两者之间有差别。若要进
一步解决此问题,可用2分割法。
3若表格有一个方向按多个等级分类,则称单向有序行列表,当等级数大于3时,一般用秩和检验分析更为适宜。
四格表的确切概率法的应用条件: 1, 2, 3, 试题:
一、 名词解释: 1,
coefficient(相关系数):又称积差相关系数(product-moment 四格表内理论频数T<1 样本含量n<40
2检验后所得概率P接近检验水准α。
correlation),是说明具有直线关系的两个变量间,相互关系的密切程度与相关方向的指标。
2,
proportion(构成比):又称构成指标。说明某一事物内部的各组成
部分所占的比重或分布,计算公式为:某一组分的观察单位数除以同一事物各组分的观察单位总数*100%,表示方法有百分数等。
3,
coefficient of variation (变异系数):常记为CV。它被定义为标准差
与算术平均数之比。即CV=S/X×100%。它描述了相对于算术均数X而言。标准差的大小,即描述数据的变异相对于其平均水平来说是大还是小。
4,
population(总体):是根据研究目的确定的同质的观察单位的全体,
确切的说是同质的所有的观察单位某种变量值的集合。
5,
standard error SE(标准误):样本均数的标准差也称均数的标准误
(standard error of mean)它反映了样本均数间的离散程度,也反映了样本均数与总体均数间的差异,说明均数抽样误差的大小。
6,
incidence rate(发病率):表示一定时期内,在可能发生某病的一定
人群中新发生的某病例数。其计算公式为:某病发病率=该期间新发生的某病例数/一定期间内可能发生某病的平均人口数×100%
7,
Chi-square(2值)是以理论数为基数的相对误差,它反映了实际数
与理论数吻合的程度(差别的程度)。
8,
Chi-square test(2检验):是一种用途较广的假设检验方法,即推
断两个及多个总体构成比之间有无差别,两种属性或两个变量之间有无关联性,以及频数分布的拟合优度检验等。
9,
Normal distribution(正态分布):若X的频数曲线应用于数学上的正
态分布曲线(曲线呈钟型,两头低中间高,左右对称),则称该指标服从正态分布。
10, Mortality rate(死亡率):指某地某年平均每千人口中的死亡数,它反映居民总的死亡水平。死亡率=某人群某年(因某病)总死亡人数/该人群同年平均人口×1000
简单题
1:应用相对数应该注意什么?
计算相对数的分母一般不宜过小;分析是不能以构成比代替率,应当注意不能用构成比的动态分析代替率的动态分析;对观察单位不等的几个率,不能直接相加求其总率,在比较相对数时应注意可比性;对样本率(构成比)的比较应随机抽样,并做假设检验。 2,方差分析的基本思想?
根据资料的设计类型,即变异的不同来源将全部观察值总的离均差平方和和自由度分解为两个或多个部分,除随机误差外,其余每个部分的变异可由某个或几个因素的作用加以解释,通过比较不同变异来源地均方,借助F分布做出统计推断,从而了解该因素对观测指标有无影响。F值远大于1,表示各组均数间差别有显著性,F值远小于1,表示各组均数间差别无显著性,可查F界表确定P.
3,相关和回归的区别和联系?
直线回归与相关的区别1资料要求不同:回归要求变量Y服从正态分布,X是可以精确测量和严格控制的变量,相关要求两个变量X,Y服从双变量正态分布,2应用情况不同:说明两变量间依存变化的数量关系用回归,说明变量间的相关关系用相关3,意义不同:回归系数b表示自变量X每变化一个单位后应变量Y的平均变化量,相关系数r表示两变量相关的方向和密切程度,4取值范围
不同:-1<=r<=1;b负无穷到正无穷大。5单位不同,回归系数b有单位,相关系数r没单位。
直线回归与相关的联系:1两者都是研究两个数值变量的关系的统计方法,2方向一致:对一组数据若同时计算r与b,他们的正负号一致,r为正说明两变量间的相互关系是同向变化的,b为正号说明X增减一个单位,Y平均增减b个单位,3假设检验对同一样本,r与b的假设检验得到的t值相等,由于r的假设检验简单,故在实际应用中常用以前法代替后法,4用回归解释相关,决定系数P2=SS回/SS总,回归平方和越接近总平方和,R2越接近1
4,行X列表2检验注意事项。
答:1.不能有理论数T<1,并且1≤T≤5的格子数不超过总格子数的1/5;2.当检验有统计学意义(拒绝H0)时,只能说明各总体率或构成比之间总的来说有差别,但不能说明它们之间都有差别,成两者之间有差别,若要进一步解决此问题,可用2分割法。3,若表格有一个方向按多个等级分类,则称单向有序行X列表,当等级数大于3时,一般用秩和检验分析更为适宜。
5,可信区间和假设检验的关系?
可信区间用于说明量的大小即推断总体均数的范围,而假设检验用于推断质的不同即判断两总体均数是否不同,两者相互联系又相互区别;可信区间亦可回答假设检验的问题;可信区间比假设检验可提供更多的信息,但并不意味着可信区间能够完全代替假设检验;可信区间只能在预先规定的概率——检验水准的前提下进行计算,而假设检验能够获得较为确切的P值,故两者结合起来次才是完整的分析。
6,二项分布应用条件?
答:1.每次试验结果,只能是两个互斥的结果之一(A或非A)。2.每次试验的条件不变,即每次试验中A发生的概率不变,均为x,3.各次实验,即一次试验出现什么样的结果与前面已出现的结果无关。
7.t检验的应用条件,方差不齐时的处理方法?
答:当样本含量较小时,理论上要求样本取自正态总体,两样本均数比较时还要求两样本方差相等,(u检验应用条件:样本含量较大,或n虽小但总体标准差已知)。若两总体方差相等,则直接用t检验。若总体方差不等,可采用t’检验或变量变换或秩和检验等方法处理。
8.实验设计的几个原则,要素,方法,适用范围,优缺点? 答:原则:1对照原则2重复原则3随机化原则。 要素:1处理因素2受试对象3实验效应。
方法和优点:1随机对照实验:是将受试对象随机分配到试验组和对照组,通过比较分析回答研究假设的问题,该设计既贯彻了随机化原则,又设有对照。优点是A有效的避免了某些非实验因素的影响B增强了各比较组的可比性,使结论更可靠C有利于所比较总体间存在真实差异D满足了随机化原则,更能反映真实差异。2配对设计:将实验对象按一定条件配成对子,再随机分配每对的两个对象接受不同的处理方式。优点最大限度排除了非处理因素的干扰;降低个体差异水平;提高实验效果;增强均衡性。3交叉设计:是一种特殊的自身对照设计。优点:A节约样本含量B能够控制时间因素及个体差异对处理方式的影响C每个实验对象同时接受了实验因素和对照,考虑了每个患者的利益。4.配伍设计:是将条件相近的实验对象配成一组。优点:增强了各组间的均衡性,可进一步控制混杂性偏倚。
计量数据统计描述和统计图表的是非题
1. 在同一连续分布总体中作随机抽样,理论上样本均数越大,则样本标准差s越大。(错)
2. 在同一连续分布总体中作随机抽样,理论上样本含量n越大,则样本标准差越小(错)
3. 对称分布就是正态分布。(错)
4. 在同一连续分布总体中作随机抽样,理论上样本含量n越大,则样本极差越大。(对)
5. 样本中位数不受样本中的极端值影响。(对)
6. 正态分布资料也可用中位数描述其中集中趋势(中心位置)。(对) 7. 分组的连续分布资料,计算百分位数要求组距相等。(错) 8. 第80百分位数ρ80表示有80%变量值比它大。(错)
9. 对于连续分布资料,单位相同时,也可用变异系数比较两个变量的相对离散度。(错)
10. 在同一连续分布总体中作随机抽样,理论上样本含量n越大,则从样本算得的变异系数越小。(错)
11. 对于计量数据,不应按分组方式决定是否计算机和均数。(对) 12. 若男女儿童平均是高接近,可用标准差s来比较其绝对离散度。(对) 13. 四分位数间距也是描述连续分布数据离散度的指标。(对) 14. 自由度p(-∞,∞)时的t分布就是标准正态分布。(对) 15. 标准正态分布常用N(0,1)表示。(对) 16. 严格地说, 是一定以0为中心,左右对称。(错) 17. 标准差是位置系数。(错)
18. 对于连续分布数据,样本标准差的均数理论上等于总体标准差。(错) 19. 对于连续分布数据,样本方差的均数理论上等于总体方差。(对) 20. 只有当样本含量很大时,连续分布数据的样本均数的平均数理论上才等于总体均数。(错)
21. μ±1.96σ表示任何分布计量指标的95%变量值所在范围。(错) 22. 正态分布总体,理论上P,P和μ±1.96σ范围是一样的。(对) 23. 直方图是描述连续分布变量频数分布的统计图。(对) 24. 构成比资料可画圆图。(对)
25. 线图可以描述一个计量指标随另一个计量指标变化而变化的趋势。(对) 26. 半对数线图可以描述和比较事物的发展变化的相对速度。(对) 27. 表示某中学高三年级10个班学生近视比例的比较,应用线图(错,条图) 28. 描述200人血压饿分布,应画直图。(错,圆图或百分条图)
29. 在同一正态总体N(μ,σ)中随机抽样,两个变量值X1和X2之差d服从正态分布N(μ,σ)(错)
30. 两正态分布变量XN(μ1,σ1)和X2N(μ2,σ2)之差的方差是σ12-σ22(错)。
31. 比较2000年年底某地三种疾病的患病率,宜绘制之线图。(错,条图) 32. 描述300人肺活量与身高关系可画散点图。(对)
33. 纵坐标取等比尺度而横坐标取等差尺度时的线图成为对数线图。(对) 34. 一般的正常值范围是指95%正常人的该指标所在范围。(对) 35. 理论上正态分布的标准差不会大于平均数。(错) 36. 变量值有负数时不能直接计算几何均数。(对) 37. 均数大于0时所计算的变异系数才有意义。(对)
38. 利用组距不相等的频数分布表资料计算样本均数x和样本标准方差s,宜用加权法。(对)
39. 在同一连续分布总体中作随机抽样,理论上样本含量n越大,样本四分位数间距越大。(错)
40. 超出95%正常值范围的个体都是异常个体。(错)
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- 91gzw.com 版权所有 湘ICP备2023023988号-2
违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务
