- 820.00 KB
- 29页
- 1、本文档共5页,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,可选择认领,认领后既往收益都归您。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细先通过免费阅读内容等途径辨别内容交易风险。如存在严重挂羊头卖狗肉之情形,可联系本站下载客服投诉处理。
- 文档侵权举报电话:19940600175。
第1章绪论1.生物统计学与其他统计学有什么区别和联系?答:统计学可细分为数理统计学、经济统计学、生物统计学、卫生统计学、医学统计学等,都是关于数据的学问,是从数据中提取信息、知识的一门科学与艺术。而生物统计学是统计学原理与方法应用于生物学、医学的一门科学,与医学统计学和卫生统计学很相似,其不同之处在于医学统计学侧重于介绍医学研究中的统计学原理与方法,而卫生统计学更侧重于介绍社会、人群健康研究中的统计学原理与方法。2.某年级甲班、乙班各有男生50人。从两个班各抽取10人测量身高,并求其平均身高。如果甲班的平均身高大于乙班,能否推论甲班所有同学的平均身高大于乙班?为什么?答:不能。因为,从甲、乙两班分别抽取的10人,测量其身高,得到的分别是甲、乙两班的一个样本。样本的平均身高只是甲、乙两班所有同学平均身高的一个点估计值。即使是按随机化原则进行抽样,由于存在抽样误差,样本均数与总体均数一般很难恰好相等。因此,不能仅凭两个样本均数高低就作出两总体均数熟高熟低的判断,而应通过统计分析,进行统计推断,才能作出判断。3.某地区有10万个7岁发育正常的男孩,为了研究这些7岁发育正常男孩的身高和体重,在该人群中随机抽取200个7岁发育正常的男孩,测量他们的身高和体重,请回答下列问题。(1)该研究中的总体是什么?答:某地区10万个7岁发育正常的男孩。(2)该研究中的身高总体均数的意义是什么?答:身高总体均数的意义是:10万个7岁发育正常的男孩的平均身高。(3)该研究中的体重总体均数的意义是什么?答:体重总体均数的意义是:10万个7岁发育正常的男孩的平均体重(4)该研究中的总体均数与总体是什么关系?答:总体均数是反映总体的统计学特征的指标。(5)该研究中的样本是什么?答:该研究中的样本是:随机抽取的200个7岁发育正常的男孩。
第2章统计描述1.对定量资料进行统计描述时,如何选择适宜的指标?答:详见教材表2-18。教材表2-18定量资料统计描述常用的统计指标及其适用场合描述内容指标意义适用场合平均水平均数个体的平均值对称分布几何均数平均倍数取对数后对称分布中位数位次居中的观察值①非对称分布;②半定量资料;③末端开口资料;④分布不明众数频数最多的观察值不拘分布形式,概略分析调和均数基于倒数变换的平均值正偏峰分布资料变异度全距观察值取值范围不拘分布形式,概略分析标准差(方差)观察值平均离开均数的程度对称分布,特别是正态分布资料四分位数间距居中半数观察值的全距①非对称分布;②半定量资料;③末端开口资料;④分布不明变异系数标准差与均数的相对比①不同量纲的变量间比较;②量纲相同但数量级相差悬殊的变量间比较2.举例说明频率和频率分布的区别和联系。答:2005年某医院为了调查肺癌患者接受姑息手术治疗1年后的情况,被调查者150人,分别有30人病情稳定,66人处于进展状态,54人死亡。当研究兴趣只是了解死亡发生的情况,则只需计算死亡率54/150=36%,属于频率指标。当研究者关心患者所有可能的结局时,则可以算出反映3种结局的频率分别为20%、44%、36%,它们共同构成所有可能结局的频率分布,是若干阳性率的组合。两者均为“阳性率”,都是基于样本信息对总体特征进行估计的指标。不同的是:频率只是一种结局发生的频率,计算公式的分子是某一具体结局的发生数;频率分布则由诸结局发生的频率组合而成,计算公式的分子分别是各种可能结局的发生数,而分母则与频率的计算公式中分母相同,是样本中被观察的单位数之和。3.应用相对数时应注意哪些问题?答:(1)防止概念混淆相对数的计算是两部分观察结果的比值,根据这两部分观察结果的特点,就可以判断所计算的相对数属于前述何种指标。(2)计算相对数时分母不宜过小样本量较小时以直接报告绝对数为宜。(3)观察单位数不等的几个相对数,不能直接相加求其平均水平。
(4)相对数间的比较须注意可比性,有时需分组讨论或计算标准化率。4.常用统计图有哪些?分别适用于什么分析目的?答:详见教材表2-20。教材表2-20常用统计图的适用资料及实施方法图形适用资料实施方法条图组间数量对比用直条高度表示数量大小直方图定量资料的分布用直条的面积表示各组段的频数或频率百分条图构成比用直条分段的长度表示全体中各部分的构成比饼图构成比用圆饼的扇形面积表示全体中各部分的构成比线图定量资料数值变动线条位于横、纵坐标均为算术尺度的坐标系半对数线图定量资料发展速度线条位于算术尺度为横坐标和对数尺度为纵坐标的坐标系散点图双变量间的关联点的密集程度和形成的趋势,表示两现象间的相关关系箱式图定量资料取值范围用箱体、线条标志四分位数间距及中位数、全距的位置茎叶图定量资料的分布用茎表示组段的设置情形,叶片为个体值,叶长为频数三、计算题1.某内科医生调查得到100名40~50岁健康男子总胆固醇(mg/dl),结果如下227190224259225238180193214195213193209172244199155208203199253181196224210220255257216249235220190203197149175236202209174184174185167235167210171248201266189222199197214199198230246209202186217206200203197161247138186156195163273178190207259186194246172234232189172235207208231234226174199278277181(1)编制频数表,绘制直方图,讨论其分布特征。答:频数表见练习表2-1。根据直方图(练习图2-1),可认为资料为基本对称分布,其包络线见练习图2-2。练习表2-1某地100名40~50岁健康男子总胆因醇/(mg·dl-1)FrequencyPercentValidPercentCumulativePercentValid130~145~160~175~190~205~220~235~250~1311122515131151.03.011.012.025.015.013.011.05.01.03.011.012.025.015.013.011.05.01.04.015.027.052.067.080.091.096.0
265~280Total41004.0100.04.0100.0100.0练习图2-2包络线图(2)根据(1)的讨论结果,计算恰当的统计指标描述资料的平均水平和变异度。答:利用原始数据,求出算术均数mg/dl和标准差mg/dl。(3)计算P25,P75和P95。答:利用原始数据,求出P25=186.8mg/dl,P75=229.3mg/dl,P95=259.0mg/dl。2.某地对120名微丝蚴血症患者治疗3个疗程后,用IFA间接荧光抗体试验测得抗体滴度如下,求抗体滴度的平均水平。抗体滴度1:51:101:201:401:801:1601:320例数516273422133利用上述频数表,得平均滴度为1:36.3。3.某地1975-1980年出血热发病和死亡资料如教材表2-21,设该地人口数在此6年间基本保持不变。教材表2-21某地6年间出血热的发病与死亡情况年份发病数病死数1975324197656519771621219782411319793301019802745试分析:(1)粗略判断发病率的变化情况怎样。答:该地人口数在此6年间基本保持不变,发病人数在1979年前逐年上升,1980年略有下降。可以认为发病率大致呈上升趋势,1980年略有下降。(2)病死率的变化情况怎样?答:
病死率由各年度病死数除以发病数获得,病死率依次为12.5%、8.9%、7.4%、5.4%、3.0%和1.8%,呈逐年下降趋势。(3)上述分析内容可用什么统计图绘制出来?答:由于没有给出该地人口数,故不能计算发病率,可用普通线图表示发病数变化情况。病死率的下降情况可以用普通线图表示,下降速度则可以用半对数线图表示。(4)评述该地区出血热防治工作的效果。答:随着时间的推移,预防工作做得不好,治疗水平则逐年提高(体现在病死率下降)。第3章概率分布思考题1.服从二项分布及Poisson分布的条件分别是什么?简答:二项分布成立的条件:①每次试验只能是互斥的两个结果之一;②每次试验的条件不变;③各次试验独立。Poisson分布成立的条件:除二项分布成立的三个条件外,还要求试验次数很大,而所关心的事件发生的概率很小。2.二项分布、Poisson分布分别在何种条件下近似正态分布?简答:二项分布的正态近似:当n较大,π不接近0也不接近1时,二项分布B(,π)近似正态分布N(,)。Poisson分布的正态近似:Poisson分布,当相当大时(≥20),其分布近似于正态分布。计算题1.已知某种非传染性疾病常规疗法的有效率为80%,现对10名该疾病患者用常规疗法治疗,问至少有9人治愈的概率是多少?解:对10名该疾病患者用常规疗法治疗,各人间对药物的反应具有独立性,且每人服药后治愈的概率均可视为0.80,这相当于作10次独立重复试验,即=0.80,n=10的贝努利试验,因而治愈的人数X服从二项分布。至少有9人治愈的概率为:至少有9人治愈的概率是37.58%。或者
2.据以往的统计资料,某地新生儿染色体异常率为1%,问100名新生儿中染色体异常不少于2名的概率是多少?解:=3.得到均数(Mean)为174.766cm,标准差(Std.Deviation)为4.1509cm。估计当年该市20岁男性青年中,身高在175.0~178.0cm内的比例为25.956%,身高在175.0~178.0cm内的约有29人。估计当年该市95%的20岁男青年身高范围为166.63~182.90cm,99%的20岁男青年身高范围为164.06~185.48cm。由该市随机抽查1名20岁男青年,估计其身高超过180cm的概率约为10%。第4章参数估计二、思考题1.简述标准误与标准差的区别。 答:区别在于:(1)标准差反映个体值散布的程度,即反映个体值彼此之间的差异;标准误反映精确知道总体参数(如总体均数)的程度。(2)标准误小于标准差。(3)样本含量越大,标准误越小,其样本均数更有可能接近于总体均数,但标准差不随样本含量的改变而有明显方向性改变,随着样本含量的增大,标准差有可能增大,也有可能减小。2.什么叫抽样分布的中心极限定理? 答:样本含量n越大,样本均数所对应的标准差越小,其分布也逐渐逼近正态分布,这种现象统计学上称为中心极限定理(centrallimittheorem)。当有足够的样本含量(如)时,从任何总体中抽取随机样本的样本均数近似地服从正态分布。样本含量越大,抽样分布越接近于正态分布。正态分布的近似程度与总体自身的概率分布和样本含量有关。如果总体原本就是正态分布,那么对于所有值,抽样分布均为正态分布。如果总体为非正态分布,仅在n值较大情况下近似服从正态分布。一般说,时的抽样分布近似为正态分布;但是,如果总体分布极度非正态(如双峰分布、极度偏峰分布),即使有足够大的值,抽样分布也将为非正态。3.简述置信区间与医学参考值范围的区别。
答:置信区问与医学参考值范围的区别见练习表4-1。练习表4-1置信区间与医学参考值范围的区别区别置信区间参考值范围含义用途计算公式总体参数的波动范围,即按事先给定的概率100(1-a)%所确定的包含未知总体参数的一个波动范围估计未知总体均数所在范围s未知:s已知或s未知但n≥30,有或个体值的波动范围,即按事先给定的范围100(1-a)%所确定的“正常人”的解剖、生理、生化指标的波动范围供判断观察个体某项指标是否“正常”时参考(辅助诊断)正态分布:偏峰分布:PX~P100-X4.何谓置信区间准确度与精确度?如何协调两者间的关系。答:置信区间有准确度(accuracy)与精密度(precision)两个要素。准确度由置信度 (1-a)的大小确定,即由置信区间包含总体参数的可能性大小来反映。从准确度的角度看,置信度愈接近于1愈好,如置信度99%比95%好。精密度是置信区间宽度的一半(即、),意指置信区间的两端点值离样本统计量(如、p)的距离。从精密度的角度看,置信区间宽度愈窄愈好。在抽样误差确定的情况下,两者是相互矛盾的。为了同时兼顾置信区间的准确度与精密度,可适当增加样本含量。三、计算题1.随机抽取了100名一年级大学生,测得空腹血糖均数为4.5mmol/L,标准差为0.61mmol/L。试估计一年级大学生空腹血糖总体均数及方差的95%置信区间。答:总体均数95%置信区间为(4.379,4.621),方差的95%置信区间为(0.2869,0.5021)。2.调查某地蛲虫感染情况,随机抽样调查了260人,感染人数为100。试估计该地蛲虫感染率的95%置信区间。答:该地蛲虫感染率的95%置信区间为(32.55%,44.38%)。第5章假设检验二、思考题1.试述假设检验中α与P的联系与区别。答:a值是决策者事先确定的一个小的概率值。P值是在成立的条件下,出现当前检验统计量以及更极端状况的概率。P≤a时,拒绝假设。
2.试述假设检验与置信区间的联系与区别。答:区间估计与假设检验是由样本数据对总体参数作出统计学推断的两种主要方法。置信区间用于说明量的大小,即推断总体参数的置信范围;而假设检验用于推断质的不同,即判断两总体参数是否不等。3.怎样正确运用单侧检验和双侧检验?答:选用双侧检验还是单侧检验需要根据数据的特征及专业知识进行确定。若比较甲、乙两种方法有无差异,研究者只要求区分两方法有无不同,无需区分何者为优,则应选用双侧检验。若甲法是从乙法基础上改进而得,已知如此改进可能有效,也可能无效,但不可能改进后反不如以前,则应选用单侧检验。在没有特殊专业知识说明的情况下,一般采用双侧检验即可。4.试述两类错误的意义及其关系。答:Ⅰ类错误(typeⅠerror):如果检验假设实际是正确的,由样本数据计算获得的检验统计量得出拒绝的结论,此时就犯了错误,统计学上将这种拒绝了正确的零假设(弃真)的错误称为Ⅰ类错误。Ⅱ类错误(typeⅡerror):假设检验的另一类错误称为Ⅱ类错误(typeⅡerror),即检验假设原本不正确(正确),由样本数据计算获得的检验统计量得出不拒绝(纳伪)的结论,此时就犯了Ⅱ类错误。Ⅱ类错误的概率用b表示。在假设检验时,应兼顾犯Ⅰ类错误的概率()和犯Ⅱ类错误的概率()。犯Ⅰ类错误的概率()和犯Ⅱ类错误的概率()成反比。如果把Ⅰ类错误的概率定得很小,势必增加犯Ⅱ类错误的概率,从而降低检验效能;反之,如果把Ⅱ类错误的概率定得很小,势必增加犯Ⅰ类错误的概率,从而降低了置信度。为了同时减小和,只有通过增加样本含量,减少抽样误差大小来实现。5.试述检验功效的概念和主要影响因素。答:拒绝不正确的的概率,在统计学中称为检验功效(poweroftest),记为。检验功效的意义是:当两个总体参数间存在差异时(如备择假设:成立时),所使用的统计检验能够发现这种差异(拒绝零假设:)的概率,一般情况下要求检
验功效应在0.8以上。影响检验功效的四要素为总体参数的差异、总体标准差、检验水准及犯Ⅱ类错误的概率。6.简述假设检验的基本思想。答:假设检验是在H0成立的前提下,从样本数据中寻找证据来拒绝、接受的一种“反证”方法。如果从样本数据中得到的证据不足,则只能不拒绝,暂且认为成立(因为拒绝的证据不足),即样本与总体间的差异仅仅是由于抽样误差所引起。拒绝是根据某个界值,即根据小概率事件确定的。所谓小概率事件是指如果比检验统计量更极端(即绝对值更大)的概率较小,比如小于等于0.05(各种科研杂志习惯上采用这一概率值),则认为零假设的事件在某一次抽样研究中不会发生,此时有充分理由拒绝,即有足够证据推断差异具有统计学意义。三、计算题1.一般正常成年男子血红蛋白的平均值为140g/L,某研究者随机抽取25名高原地区成年男子进行检查,得到血红蛋白均数为155g/L,标准差25g/L。问:高原地区成年男子的血红蛋白是否比一般正常成年男子的高?解:::(单侧)=3.00t=3,,可认为高原地区居民的血红蛋白比一般正常成年男子的高。2.一般而言,对某疾病采用常规治疗,其治愈率约为45%。现改用新的治疗方法,并随机抽取180名该疾病患者进行了新疗法的治疗,治愈117人。问新治疗方法与常规疗法的效果是否有差别?解::,:,=5.41Z=5.41,,可认为新治疗方法与常规疗法的效果不同,新疗法优于常规疗法。
第6章两样本定量资料的比较二、思考题1.假设检验中,P值和α的含义是什么?两者有什么关系?答:P是指H0成立时出现目前样本情形的概率最多是多大,α是事先确定的检验水准。但P值的大小和α没有必然关系。2.既然假设检验的结论有可能有错,为什么还要进行假设检验?答:假设检验中,无论拒绝不拒绝H0,都可能会犯错误,表现为拒绝H0时,会犯Ⅰ类错误,不拒绝H0时,会犯Ⅱ类错误,但这并不能否认假设检验的作用。只要涉及到抽样,就会有抽样误差的存在,因此就需要进行假设检验。只是要注意,假设检验的结论只是个概率性的结论,它的理论基础是“小概率事件不可能原理”。3.配对设计资料能否用完全随机设计资料的统计检验方法?为什么?答:不能。采用完全随机设计资料的t检验会使检验效能降低,从而可能会使应有的差别检验不出来。4.对于完全随机设计两样本定量资料的比较,如何选择统计方法?答:完全随机设计两样本定量资料比较统计方法的选择最关键的是看是否满足正态性(样本量较大时不必进行正态性检验)和方差齐性。如果资料来自正态总体且总体方差齐,采用t检验;如果满足正态性但总体方差不齐,采用t′检验;当两者都不满足时,才考虑选用秩和检验。当然,我们也可采用变量变换的方法使其满足t或t′检验的条件。5.为什么在秩和检验编秩次时不同组间出现相同数据要给予“平均秩次”,而同一组的相同数据不必计算“平均秩次”?答:秩和检验编秩次时不同组间出现相同数据要给予“平均秩次”,而同一组的相同数据不必计算“平均秩次”,是因为取不取“平均秩次”对该组的总的秩和没有影响。三、计算题1.某单位研究饲料中维生素E缺乏对肝中维生素A含量的影响,将同种属、同年龄、同性别、同体重的大白鼠配成8对,并将每对动物随机分配到正常饲料组和缺乏维生素E的饲料组,定期将大白鼠杀死,测定其肝中维生素A的含量(教材表6-12),问饲料中维生素E缺乏对肝中维生素A的平均含量有无影响?教材表6-12正常饲料组与维生素E缺乏组大白鼠肝中维生素A
含量/(U·mg-1)大白鼠对别12345678正常饲料组3.552.603.003.953.803.753.453.05维生素E缺乏组2.452.401.803.203.252.702.401.75解:此题是个配对设计的资料,差值的正态性检验结果表明:差值来自正态总体(检验:P=0.268),所以采用配对t检验。结果为:t=6.837,=7,P<0.001,拒绝H0,可以认为维生素E缺乏对肝中维生素A含量有影响。2.某实验室观察局部温热治疗小鼠移植性肿瘤的疗效,以生存日数作为观察指标。实验结果如下,请比较两组的平均生存日数有无差别。实验组10121415151718202680对照组2367891012121330解:此题是个完全随机设计的资料。两组资料的正态性检验结果表明,差值来自正态总体(检验:P1<0.001,P2=0.011),所以采用两样本比较的秩和检验。结果为:T1=150.5,T2=80.5,本例中n1=10,n2-n1=1,对应双侧0.05的界值为81~139,故在α=0.05的水平上拒绝H0,认为两组小鼠生存日数不同。第7章多组定量资料的比较二、思考题1.方差分析的基本思想和应用条件是什么?答:方差分析的基本思想是,对于不同设计的方差分析,其思想都一样,即均将处理间平均变异与误差平均变异比较。不同之处在于变异分解的项目因设计不同而异。具体来讲,根据试验设计的类型和研究目的,将全部观测值总的离均差平方和及其自由度分解为两个或多个部分,除随机误差作用外,每个部分的变异可由某个因素的作用加以解释,通过比较不同变异来源的均方,借助F分布作出统计推断,从而推论各种研究因素对试验结果有无影响。其应用条件是,①各样本是相互独立的随机样本,均服从正态分布;②各样本的总体方差相等,即方差齐性。2.多组定量资料比较时,统计处理的基本流程是什么?
答:多组定量资料比较时首先应考虑用方差分析,对其应用条件进行检验,即方差齐性及各样本的正态性检验。若方差齐性,且各样本均服从正态分布,选单因素方差分析。若方差不齐,或某样本不服从正态分布,选Kruskal-Wallis秩和检验,或通过某种形式的数据变换使其满足方差分析的条件。若方差分析或秩和检验结果有统计学意义,则需选择合适的方法(如Bonferonni、LSD法等)进行两两比较。三、计算题:1.根据教材表7-11资料,大白鼠感染脊髓灰质炎病毒后,再作伤寒或百日咳接种是否影响生存日数?若结论为“有影响”,请作多重比较(与对照组比)。教材表7-11各组大鼠接种后生存日数/天伤寒百日咳对照5687698710981098101091110912111012111014121116解:本题资料可考虑用完全随机设计的单因素方差分析进行统计处理。(1)建立检验假设,确定检验水准。:大白鼠感染脊髓灰质炎病毒后,再接种伤寒或百日咳菌苗生存日数相等。:大白鼠感染脊髓灰质炎病毒后,再接种伤寒或百日咳菌苗生存日数不等或不全相等,=0.05。(2)方差分析应用前提条件的检验首先进行正态性及方差齐性检验,三组均服从正态分布(P1=0.684,P2=0.591,P3=0.507),三个总体的方差齐(P=0.715),符合单因素方差分析的条件,可行方差分析。 (3)各组可分别采用均数和标准差描述其集中趋势和离散趋势,各组的统计描述及总体均数的置信区间如下:
表1三组大鼠接种后生存日数的描述性统计量/天N均数标准差95%置信区间下限上限伤寒109.202.107.7010.70百日咳108.401.717.179.63对照1011.22.399.4912.91合计309.602.348.7310.47(4)资料的方差分析见方差分析表方差分析结果,,即大白鼠感染脊髓灰质炎病毒后,再接种伤寒或百日咳菌苗生存日数不等或不全相等。表2三组大鼠接种后生存日数差别有无统计学意义的方差分析表变异来源SSdfMSFP组间41.6220.8004.7760.017组内117.6274.356合计159.229 进一步行多重比较(LSD检验),结果两实验组均与对照组有统计学差异。认为大白鼠感染脊髓灰质炎病毒后,再接种伤寒或百日咳菌苗对生存日数有影响,生存日数减少。表3三组大鼠接种后生存日数两两比较的结果对比组P均数差值的95%置信区间下限上限伤寒组与对照组2.00.93330.041-3.92-0.09百日咳组与对照组2.80.93330.006-4.72-0.892.将18名乙脑患者随机分为三组,分别用单克隆抗体、胸腺肽和利巴韦林三种药物治疗,观察指标为治疗后的退热时间,结果见教材表7-12。问三组治疗结果的差异是否具有统计学意义?
教材表7-12三组乙脑患者的退热时间/天治疗分组退热时间单克隆抗体组020059胸腺肽组321367102利巴韦林组011151131解:从专业上考虑,退热时间一般不服从正态分布,可采用Kraskal-Wallis检验分析三组乙脑患者的退热时间差异有无统计学意义。(1)各组可分别采用四份位数描述其集中趋势和离散趋势,各组的统计描述如下:表1三组乙脑患者退热时间的描述性统计量/天组别NP25P50P75单克隆抗体组60.001.006.00胸腺肽组65.008.5017.75利巴韦林组60.757.0012.00(2)建立检验假设,确定检验水准。:三组乙脑患者的退热时间相等,:三组乙脑患者的退热时间不等或不全相等,=0.05。(3)Kraskal-Wallis检验结果,=4.799,=2,P=0.091>0.05。结论为,在=0.05的水平上尚不能认为三组治疗结果的差异具有统计学意义.第8章定性资料的比较二、思考题1.简述检验适用的数据类型。答:提示:卡方检验是应用较广的一种定性资料的假设检验方法,常用于检验两个或多个样本率(或构成比)之间有无差别。2.两组二分类资料的设计类型有几类?其相应的检验方法是什么?
答:提示:两组二分类资料的设计类型主要有2类,即完全随机设计和配对设计。完全随机设计和配对设计资料在假设检验方法上均采用卡方检验。完全随机设计资料应用公式(8-1)或(8-4),配对设计资料应用公式(8-7)或(8-8)。3.什么资料适合用秩和检验进行检验?简述秩和检验步骤。答:提示:进行有序资料的比较时宜采用秩和检验。秩和检验步骤为:①建立假设,并确定检验水准;②根据不同的设计类型对资料进行编秩并计算秩和;③根据计算的秩和直接查表或计算相应的统计量再查表,确定值下结论。进行有序资料的比较时宜采用秩和检验三、计算题1.某医院观测了28例肝硬化患者和14例再生障碍性贫血患者血清中抗血小板抗体,结果是:肝硬化患者中有2例阳性,再生障碍性贫血患者中有5例阳性。问:两类患者血清抗血小板抗体阳性率有无差别?解:将资料进行整理列表(练习表8-1)。练习表8-1两类患者血清抗血小板抗体检测结果患者类型阳性阴性合计肝硬化患者再生障碍性贫血患者226285914资料属于独立的两组二分类资料比较。理论频数分别为4.67、23.33、2.33、11.67,应选用校正公式计算。假设:两种疾病患者血清抗血小板抗体检测阳性率相同,=0.05。计算统计量校正卡方=3.6214,自由度=1,=0.0570,无统计学意义,尚不能认为两种疾病患者血清抗血小板抗体检测阳性率不同。2.对100名钩端螺旋体病患者同时用间接免疫抗体试验和显微镜凝集试验进行血清学诊断,结果见教材表8-18。试比较用两种方法检验的阳性率有无差别?教材表8-18两种方法的检验结果比较(例数)间接免疫荧光显微镜凝集合计+-
+661177-61723合计7228100解:答案提示,本资料属于配对的两组二分类资料比较,+=11+6=17<40,应选用校正配对卡方公式计算。假设:两种方法检测的阳性率相同,=0.05。计算统计量0.9412,=1,=0.332,无统计学意义,尚不能认为两种方法检测的阳性率不同。3.研究两种不同的治疗训练方案对肥胖症患者的减肥效果情况,结果见教材表8-19。问这两种治疗训练方案对肥胖症患者的减肥效果是否相同?教材表8-19两种治疗训练方案对肥胖症患者的减肥效果(例数)治疗方案效果较好效果一般效果较差合计甲1622846乙2817550合计44391396解:该资料属于结果变量为有序变量的定性资料,应选用秩和检验。假设:两种治疗方案对肥胖症患者的减肥效果相同,=0.05。按照治疗效果由差到好编秩,计算秩和,统计量=-2.064,=0.039,有统计学意义,可以认为两种治疗方案的减肥效果不同,由两组平均秩和看,甲组为1974÷46=42.91,乙组为2682÷50=53.64,因为编秩是由差到好,因此可认为乙治疗方案的效果好于甲治疗方案。4.比较三种中药方剂对骨质疏松症的治疗效果,结果见教材表8-20。三种方剂的治疗效果是否有差异?教材表8-20三种中药方剂对骨质疏松症的治疗效果(例数)分组有效无效合计A方剂18624
B方剂121426C方剂111526合计413576careprofessionalstopatientsandconsumers,lemsandchallenges.ssionals(e.g.availabilityoftimely,up-to-datepatientinform解:本题属于独立的多组二分类资料比较。假设:三种方剂对骨质疏松症的治疗效果相同,=0.05。计算统计量6.3350,=2,=0.042,差别有统计学意义,拒绝H0,接受H1,尚不能认为这三种方剂的治疗效果不相同。第9章关联性分析二、思考题1.1988年某地抽查0~7岁儿童营养不良患病情况如教材表9-10,某医师要想了解年龄与营养不良患病率是否有关,你认为应选用什么统计方法?为什么?教材表9-101988年某地抽查0~7岁儿童营养不良患病情况年龄/岁0~1~2~3~4~5~6~7患病人数982788629598234患病率/%15.711.712.97.48.97.35.1解:提示,用秩相关分析年龄与患病率的关系,因患病率资料一般不服从正态分布。2.请查找最近三年主题为相关分析或关联分析的已发表国内医学文献,至少认真阅读其中3篇(建议分别选取Pearson、Spearman相关分析和关联分析各1篇),找出其中不妥之处。3.在讲散点图时,我们曾提到分层应慎重,有可能出现分层分析与总体情况大相径庭的结果。请举一两个实例说明这种现象。三、计算分析题1.某学校随机抽取18名学生,测定其智商(IQ)值,连同当年数学和语文两科总成绩如表教材9-11。试计算数学成绩与智商、语文成绩与智商以及数学与语文成绩的相关系数,并检验总体相关系数是否为零。能否认为数学好的原因是语文好,或者语文好的原因是数学好?教材表9-1118名学生的智商、数学成绩和语文成绩编号123456789数学成绩X语文成绩Y智商得分Z78846152938998986583767058827889956195100100751059711012076
编号101112131415161718数学成绩X语文成绩Y智商得分Z7348456775958899817553437078979292889261608896125113126102解:提示,数学与智商的相关系数(Pearson)为0.918,语文与智商的相关系数为0.958,数学与语文的相关系数为0.932。各总体相关系数均不为0。数学好或者语文好与智商有关系。不能认为数学好的原因是语文好,或者语文好的原因是数学好,两者之间不存在因果关系。2.将10份研究生院的入学申请书让两位老师排序,结果见教材表9-12。请问两人的排序是否相关? 教材表9-12两位老师对10份入学申请书的排序申请书编号12345678910A老师的排序61051728934B老师的排序78546391012解:提示,Spearman相关系数为0.842,总体相关系数不为0(P=0.002),可以认为两人的排序相关。3.关于丈夫和妻子关节炎的患病率分析中,100对中年夫妇的患病情况见教材表9-13,试分析丈夫和妻子关节炎的患病有无关系。教材表9-13100对中年夫妇的患病情况妻子患病情况丈夫患病情况合计有病无病有病162440无病243660合计4060100解:提示,运用交叉分类2×2列联表的关联分析,=0.00,=3.84>0.00,在α=0.05的水平下,不拒绝H0,尚不能认为中年夫妇中丈夫患关节炎和妻子患关节炎有关联。第10章简单线性回归分析二、思考题1.简述简单线性回归分析的基本步骤。答:①绘制散点图,考察是否有线性趋势及可疑的异常点;②估计回归系数;③对总体回归系数或回归方程进行假设检验;④列出回归方程,绘制回归直线;⑤统计应用。
2.简述线性回归分析与线性相关的区别与联系。答:区别:(1)资料要求上,进行直线回归分析的两变量,若为可精确测量和严格控制的变量,则对应于每个的值要求服从正态分布;若、都是随机变量,则要求、服从双变量正态分布。直线相关分析只适用于双变量正态分布资料。(2)应用上,说明两变量线性依存的数量关系用回归(定量分析),说明两变量的相关关系用相关(定性分析)。(3)两个系数的意义不同。说明具有直线关系的两变量间相互关系的方向与密切程度,表示每变化一个单位所导致的平均变化量。(4)两个系数的取值范围不同:-1≤≤1,。(5)两个系数的单位不同:没有单位,有单位。联系:(1)对同一双变量资料,回归系数与相关系数的正负号一致。>0时,>0,均表示两变量、同向变化;<0时,<0,均表示两变量、反向变化。(2)回归系数与相关系数的假设检验等价,即对同一双变量资料,。由于相关系数的假设检验较回归系数的假设检验简单,故在实际应用中常以的假设检验代替的假设检验。(3)用回归解释相关:由于决定系数=SS回/SS总,当总平方和固定时,回归平方和的大小决定了相关的密切程度。回归平方和越接近总平方和,则越接近1,说明引入相关的效果越好。例如当r=0.20,n=100时,可按检验水准0.05拒绝H0,接受H1,认为两变量有相关关系。但=(0.20)2=0.04,表示回归平方和在总平方和中仅占4%,说明两变量间的相关关系实际意义不大。3.决定系数与相关系数的意义相同吗?如果不一样,两者关系如何?答:现将相关系数、决定系数与Y的总变异的关系阐释如下:假如在一回归分析中,回归系数的变异数=9,而Y的总变异数=13,则决定系数=/=9/14=0.6429/1,相关系数R=0.8018即将决定系数表示为一比值关系,当=l时,则=0.6429,我们可以采用直角三角形的“勾股定理”图示决定系数与相关系数的关系,如练习图10-1所示。
SS残差面积=4边长=2SS回归面积=9边长=3SS回归SS残差=9=4SS总=13SS残差SS回归面积=0.6429边长=0.8018SS回归SS残差=0.6429=0.3571SS总=1è练习图10-1相关系数、决定系数与总变异的关系三、计算题1.以例10-1中空气一氧化氮(NO)为因变量,风速(X4)为自变量,采用统计软件完成如下分析:(1)试用简单线性回归方程来描述空气中NO浓度与风速之间的关系。(2)对回归方程和回归系数分别进行假设检验。(3)绘制回归直线图。(4)根据以上的计算结果,进一步求其总体回归系数的95%置信区间。(5)风速为1.50m/s时,分别计算个体值的95%容许区间和Y的总体均数的95%置信区间,并说明两者的意义。解:运用SPSS进行处理,主要分析结果如下:(1)简单线性回归方程、假设检验结果及总体回归系数的95%置信区间如下:Coefficients(a)UnstandardizedCoefficientsStandardizedCoefficientstSig.95%ConfidenceIntervalforBBStd.ErrorBetaLowerBoundUpperBoundConstant0.1590.0198.4220.0000.1200.198风速-0.0530.012-0.680-4.3450.000-0.078-0.028(2)方差分析结果:ANOVA(b)SumofSquaresdfMeanSquareFSig.Regression0.03810.03818.8780.000(a)Residual0.044220.002
Total0.081232.教材表10-8为本章例10-1回归分析的部分结果,依次为、、的估计值()与残差(),请以相关分析考察四者之间的关系,以回归分析考察与、与、与、与之间的关系,并予以解释。教材表10-8案例分析中回归分析的部分结果1.300.070.0707-0.00471.200.100.05480.04521.120.040.0415-0.00251.440.080.0935-0.01751.480.130.09860.03041.660.060.1271-0.06810.790.00-0.01080.01181.820.140.1531-0.01811.540.090.1081-0.02111.650.170.12650.04351.440.100.09220.00680.960.040.01680.02221.760.160.14290.01310.950.010.0149-0.00991.780.220.14740.07461.750.120.1426-0.02261.440.010.0929-0.08191.500.150.10170.04331.200.040.0548-0.01481.080.000.0365-0.03351.060.030.0327-0.00371.500.120.10240.01761.840.140.1569-0.01691.440.100.09220.0068解:主要分析结果:(1)四者之间的相关系数Correlationshathat10.8091.0000.0000.80910.8090.586hat1.0000.80910.000hat0.0000.5860.0001**Correlationissignificantatthe0.01level(2-tailed).(2)四个变量间的回归系数因变量自变量截距回归系数tP-0.1360.159456.0160.0001.0050.0016.4570.0000.0880.9993.3940.0030.00001470.00001050.0001.000与呈完全正相关关系,回归系数t检验结果P=0.000,表明的变异可由完全解释。与的相关系数与与的相关系数相同,表明正是由于的影响引起的变异,与关系即体现了与的变化关系。与体现了扣除的影响后,与残差仍呈正相关关系。与呈零相关关系,表明扣除了的影响,回归方程的残差与
不再有相关或回归关系。第12章实验设计二、思考题2.如果某项实验研究中需要考察3个实验因素,各因素均取4个水平,拟用析因设计来安排此项实验,问至少要进行多少次实验才便于考察各级交互作用对观测结果的影响?请说出计算的依据。答:至少要进行128次实验。计算方法为4´4´4´2=128。因为析因设计中不同的实验条件数为全部因素的水平数相乘,各实验条件下至少要作2次独立重复实验。3.欲探讨用微型角膜刀行角膜深板层内皮移植术的适应证、临床疗效及并发症的预防及处理,用微型角膜刀对6例患者6只患有大疱性角膜病变眼行深板层角膜内皮移植术。术后随访6~9个月。结果表明,5例患者视力明显提高,患者术后平均角膜内皮细胞密度为(2481±212)个/mm,角膜中央厚度平均为(549±61)μm,散光为(2104±1119)D,未发生严重并发症。得如下结论:用微型角膜刀行角膜深板层内皮移植术是治疗大疱性角膜病变的可选术式。与传统的穿透性角膜移植相比,该术式有望成为角膜内皮移植的技术平台,但远期疗效尚需继续随访。请问该研究是否遵循了实验设计的基本原则?应如何设计该实验?答:该实验仅凭选取了6例患者6只患有大疱性角膜病变眼行深板层角膜内皮移植术后5例患者视力明显提高,就得出“该方法是治疗大疱性角膜病变的可选术式”的结论,与传统的穿透性角膜移植相比,该术式有望成为角膜内皮移植的技术平台。首先该研究违反了对照的原则。没有设立对照组,仅凭6例中5例术后视力明显提高,但没有与传统的穿透性角膜移植相比,不具有说服力。正确的做法是:首先选取一定数量的患有大疱性角膜病变眼的患者,将患有大疱性角膜病变眼随机分成两组,接受两种手术方法的治疗。若病情、病程等非处理因素对预后有影响,则应尽量保证两组之间在重要的非处理因素上均衡。然后再对两种手术方法术后的治疗效果进行比较。第16章随机区组设计和析因设计资料的分析二、思考题1.随机区组设计与完全随机设计资料在设计和分析方面有何不同?答:在设计上,与后者比,前者在设计阶段按照一定条件将受试对象配成区组,平衡了某些因素效应对处理因素效应的影响,更好地控制了其他因素对处理因素效应的影响,设计效率较高。在分析上,随机区组设计资料的方差分析将总变异分解为3部分,将由区组因素导致的变异分离出来,使得误差更接近“随机误差”,假设检验的结果更敏感。
2.随机区组设计的Friedman检验,如何写?请解释之。答:各种处理的总体分布相同。Friedman检验的前提为在各区组内部变量值的秩次是随机的,因此由这些秩次算得各种处理总体的秩次值之和相等。3.①某研究者欲比较A、B、C和D四种饲料对小鼠体重的影响。选择10窝小鼠(每窝4只),应采用何种实验设计方法?如何分析?②若研究者欲研究四种饲料中脂肪和蛋白质两种成分对小鼠体重的影响,两种成分各有高、低两种含量,应选用何种设计方法?请简述分析方法。答:①应用随机区组设计。分析方法:首先应考虑如果满足方差分析的要求,应用随机区组设计的方差分析;若不满足方差分析的条件,可尝试经变量变换后用随机区组设计的方差分析;若仍不满足方差分析的条件,可用Frideman法秩和检验。②用析因设计,可分析两因素间的交互作用。分析方法:用析因设计资料的方差分析。4.对于两因素的析因设计资料和随机区组设计资料,假定两个因素分别用A和B表示,可否先单独分析A因素,再单独分析B因素?为什么?答:不可以。如果分别应用单因素的方法(方差分析方法、检验或秩和检验等)分析A、B两因素,就会出现以下结果:①没有按照实验设计的方法选择分析资料,达不到设计时的目的,信息利用率低。②不能同时分析两个因素,即控制一个因素影响后分析另一个因素的实验效应。③对于析因设计资料,无法分析因素间的交互效应。三、计算题1.将36只大白鼠按体重相近的原则配为12个单位组,并将各单位组的3只大白鼠随机地分配到三个饲料组,一个月后观察尿中氨基氮的排出量(mg)。经初步计算,,,。试列出该实验数据的方差分析表。解:方差分析表见练习表16-1。练习表16-1方差分析表变异来源总变异16235处理间110255.00027.500<0.01区组间8110.7270.364误差44222.000
2.将18名原发性血小板减少症患者按病情和年龄都相近的原则配为6个单位组,每个单位组中的3名患者随机分配到A、B、C三个治疗组中,治疗后患者的血小板升高,结果见教材表16-16,问3种治疗方法的疗效有无差别?教材表16-16不同人用鹿茸草后血小板的升高值/(×·L-1)年龄组ABC13.86.3 8.024.66.311.937.610.214.148.69.214.756.48.113.066.26.913.4解:该资料为随机区组设计,应用随机区组设计资料的方差分析,结果见练习表16-2,可进一步作多重比较(略)。练习表16-2方差分析表变异来源总变异187.26517处理间129.0033264.501779.33780.0000区组间50.1317510.026312.33250.0005误差8.13100.8133.为研究克拉霉素的抑菌效果,对28个短小芽孢杆菌平板依据菌株的不同来源分成了7个区组,每组4个平板,用随机的方式分配给标准药物高剂量组(SH)、标准药物低剂量组(SL)以及克拉霉素高剂量组(TH)、克拉霉素低剂量组(TL)。给予不同的处理后,观察抑菌圈的直径,结果见教材表16-17,请对该资料进行分析。教材表16-1728个平板给予不同处理后的抑菌圈直径/mm区组SLSHTLTH118.0219.4118.0019.46218.1220.2018.9120.38318.0919.5618.2119.64418.3019.4118.2419.50518.2619.5918.1119.56618.0220.1218.1319.60718.2319.9418.0619.54解:该资料为随机区组设计,应用随机区组设计资料的方差分析,结果见练习表16-3,可进一步作多重比较(略)。练习表16-3方差分析表变异来源总变异18.043927
处理间16.115635.3719116.7750.0000区组间1.100260.18343.98610.0103误差0.8280180.04604.某研究人员以0.3ml/kg剂量纯苯给大鼠皮下注射染毒,每周3次,经45天后,使实验动物白细胞总数下降至染毒前的50%左右,同时设置未染毒组。两组大鼠均按照是否给予升高白细胞药物分为给药组和不给药组,实验结果见教材表16-18,试作统计分析。教材表16-18实验效应指标(吞噬指数)数据未染毒组染毒组不给药给药不给药给药3.803.881.851.943.903.842.012.254.063.962.102.033.853.921.922.103.843.802.042.08解:此为析因设计,应用方差分析的方法分析之,结果见练习表16-4。练习表16-4方差分析表变异来源总变异17.339319染毒与否17.1680117.16801857.00870.0000给药与否0.009210.00921.00000.3322交互作用0.014010.01401.51920.2355误差0.1479160.00925.外源性NO供体硝普钠(SNP)对培养心肌细胞DNA有损伤作用,某研究者欲实验超氧化物歧化酶(SOD)和过氧化氢酶(CAT)对心肌细胞的保护作用,实验材料用Wistar大鼠心肌细胞。将相同条件的20个盛有细胞悬液培养皿随机分为4组,每组5个培养皿。四组培养皿均加入40mol/LSNP。另外,第二组培养皿中加入50U/mlSOD,第三组培养皿中加入50U/mlCAT,第四组培养皿中加入50U/mlSOD和50U/mlCAT。5小时避光培养后电泳分析,结果如教材表16-19(迁移改变50个细胞位置)。请分析实验结果。教材表16-19四组培养皿DNA迁移度(50个细胞)第1组第2组第3组第4组503747196048632434543236
6831272746282818解:该研究为析因设计,其方差分析的结果见练习表16-5。练习表-16-5方差分析表变异来源总变异4144.5519SOD884.451884.4506.050.0257CAT911.251911.2506.230.0239交互作用8.4518.4500.060.8131误差2340.4016146.275第19章生存分析二、思考题1.生存分析的主要用途及其统计学方法有哪些?答:生存分析在生物医学领域主要解决如下问题。估计:即根据一组生存数据估计它们所来自的总体的生存率及其他一些有关指标。如根据白血病化疗后的缓解时间资料,估计不同时间的缓解率、缓解率曲线以及半数生存期。估计生存率常用寿命表法和Kaplan-Meier(K-M)法。比较:即比较不同受试对象生存数据的相应指标是否有差别。最常见的是比较各组的生存率是否有差别,如比较不同方案治疗白血病的缓解率曲线,以了解哪种治疗方案较优。生存曲线比较常用log-rank检验和Breslow检验。影响因素分析:其目的是为了研究影响生存时间长短的因素,或在排除一些因素影响的情况下,研究某个或某些因素对生存率的影响。例如,为改善白血病患者的预后,应了解影响患者预后的主要因素,包括患者的年龄、病程、白细胞数、化疗方案等。影响因素分析常用Cox回归。生存预测:具有不同因素水平的个体生存预测估计,如根据白血病患者的年龄、病程、白细胞数等预测该患者年(月)生存率。生存预测常用Cox回归。2.生存率估计的K-M法和寿命表法是如何利用删失数据的?答:常见的右删失数据表示真实的生存时间未知,只知道比观察到的删失时间要长。因此,生存率估计的K-M法和寿命表法计算期初例数时,都利用了删失数据提供的这部分信息。
3.Cox回归与logistic回归都可作临床研究中的预后分析,两者的主要区别何在?答:Logistic回归模型可以作多因素预后分析,控制混杂因素效应,并可进行相对危险度估计,但不能处理随访中常见的删失数据。另外,logistic回归模型仅考虑随访结局(生存或死亡、有效或无效),而未考虑出现该结局的时间长短。Cox比例风险回归模型的效应变量是生存结局和生存时间,它不仅可以从事件结局的好坏,而且可以从发生事件的时间长短进行分析比较,因而Cox回归具有logistic回归模型的所有优点,并可以处理删失数据,能够更全面地作预后分析。但当数据失访较少或结局事件发生数较少时,宜用logistic回归分析。4.Cox回归中的RR表示什么?如何解释RR的大小?答:Cox回归中的RR表示相对危险度(relativerisk)或风险比(riskratio),其含义是在其他协变量不变条件下,变量每增加一个单位所引起的终点事件发生风险增加到的倍数。三、计算题1.手术治疗100例食管癌患者,术后1、2、3年的死亡数分别为10、20、30,若无删失数据,试求各年生存概率及逐年生存率。解:各年生存概率,,1年生存率,2年生存率,3年生存率2.42例经药物诱导达部分缓解或完全缓解的儿童急性白血病临床试验,两组患者分别用安慰剂和6-MP治疗后的缓解时间见教材表19-19。试估计两组患者生存率(实为缓解率)并比较两组生存率有无差别。教材表19-19安慰剂和6-MP治疗儿童急性白血病的缓解时间/月安慰剂组:112234455888811111212151722236-MP组:6666+79+1010+11+131617+19+20+222325+32+32+34+35+解:两组患者缓解率计算见练习表19-1和练习表19-2。练习表19-1安慰剂组缓解率计算表
时间/月时刻死亡数期初例数生存概率生存率(缓解率)生存率标准误122119/21=0.90480.90480.0641221917/19=0.89470.9048×0.8947=0.80950.0857311716/17=0.94120.8095×0.9412=0.76190.0929421614/16=0.87500.7619×0.8750=0.66670.1029521412/14=0.85710.6667×0.8571=0.57140.107984128/12=0.66670.5714×0.6667=0.38100.106011286/8=0.75000.3810×0.7500=0.28570.098612264/6=0.66670.2857×0.6667=0.19050.085715143/4=0.75000.1905×0.7500=0.14290.076417132/3=0.66670.1429×0.6667=0.09520.064122121/2=0.50000.0952×0.5000=0.04760.046623110/1=0.00000.0476×0.0000=0.0000—练习表19-26-MP组缓解率计算表时间/月时刻死亡数删失例数期初例数生存概率生存率(缓解率)生存率标准误6312118/21=0.85710.85710.07637111716/17=0.94120.8571×0.9412=0.80670.086910121514/15=0.93330.8067×0.9333=0.75290.096313101211/12=0.91670.7529×0.9167=0.69020.106816131110/11=0.90910.6902×0.9091=0.62750.1141221076/7=0.85710.6275×0.8571=0.53780.1282231565/6=0.83330.5378×0.8333=0.44810.1345两组缓解率比较:Log-rank检验近似法,,Log-rank检验精确法,,安慰剂组与6-MP组缓解率曲线见练习图19-1。
练习图19-1安慰剂组与6-MP组缓解率曲线3.教材表19-20是对949名卵巢癌患者的随访结果,时间区间均为5年。试估计生存率。教材表19-20949名卵巢癌患者的随访结果诊断后年数期内死亡数期内删失数0~731185~521610~147515~1033解:见练习表19-3。练习表19-3949名卵巢癌患者寿命表法估计生存率计算表诊断后期内期内期初期初 生存生存率生存率年数死亡数删失数病例数有效例数 概率标准误 0~73118949940 0.22230.22230.01365~5216200192 0.72920.16210.012210~147513294.50.85190.13810.012015~10334326.50.62260.08600.0150