分类:论文指导发表 作者:admin 评论:0 点击: 518 次
论文撰写中常见的统计学问题及其处理
关键词: 统计学问题
绝大多数的论文撰写,均需通过一定数量临床病例(或资料)的观察,研究事物间的相互关系,以探讨客观存在的新规律。如确定新诊断、新治疗等措施是否优于原沿用的方法,就需进行两种方法比较,这就涉及统计处理;统计设计又是整个课题研究设计中一个重要的组成部分。显然,经正确统计处理的结果可信度高,论文的质量也高。
据不完全统计,在难以发表的、已凝聚着作者心血并花费较长时间与较大财力撰写的研究论文中,约半数以上是由于统计错误致其结果与原文主要结论相违背。如一文采用某新药引产,96例足月孕妇的产后出血与新生儿低Apgar评分率均为2.1%(各2例),明显低于应用原药引产的19例,其产后出血与新生儿低Apgar评分发生率均为15.8%(各3例,χ2=7.164,P%26lt;0.001)。故认为采用新药引产是一更安全的措施。原药引产组例数偏少暂且不谈,该资料比较应采用精确法分析,结果是与原结果恰恰相反(P%26gt;0.05),这样上述的主要结论就欠可靠而难以发表,否则论文可起误导作用。类似问题文稿中还常有出现。现就文稿中常见的统计问题及其相应的处理方法简述如下。
一、 常用的统计术语
统计学中常用的概念有总体与样本、随机化与概率、计量与计数、等级资料及正态与偏态分布资料、标准差与标准误等。如某研究采用经会阴途径测定宫颈长度,以探讨不同宫颈长度与临产时间的关系。结果显示35例宫颈长度为25~34mm者与32例宫颈长为15~24mm者临产时间的均值±标准差(x±s)各为57.6±58.1与47.3±49.1小时。该计量资料,经t检验显示t=0.780,P%26gt;0.05,并未提示不同宫颈长度的临产时间差异有显著意义;从标准差大于均值,显示各变量值离散程度大,呈偏态分布,故不能采用x±s这一算术均数法计算均数。经偏态转换成近似正态分布资料后结果是:35例与32例的临产时间各为34.5±4.1与26.7±4.1小时,(t=7.778,P%26lt;0.001),两组差异有极显著意义。可认为随着宫颈长度的缩短、临产时间也缩短。此外,当两组资料单位不同时,其S单位也不同;即使两组单位相同的变量值,若其均数差异较大,也都应以变异系数替代s来比较两组值的离散度的大小。
二、 正常值范围及异常阈值的确定
如何选择研究对象,至少需多少例,正确统计处理和参考一定数量的病例数据,是确定正常值范围及异常阈值的四个重要因素。
1.研究对象:应为“完全健康者”,可包括患有不影响待测指标疾病的患者。如“正常妊娠”的条件:孕前月经周期规则、单胎、妊娠过程顺利、无产科并发症及其它有关合并症,分娩孕周为37~41周+6,新生儿出生体重为2500~4000g和Apgar评分≥7分。
2.观察数量:观察数量应尽可能多于100例;需分组者,各组人数也是如此(标本来源困难时酌情减少)。有些指标值如雌三醇(E3)、甲胎蛋白(AFP)、胎盘泌乳素(HPL)等随孕周进展而变化,应按孕周分组;邻近孕周均数相近者,可合并几周计算。若为偏态分布,应以百分位数计算,则例数应≥120例。取各孕周对象时,应考虑到所取各孕周中的例数分布大致均衡。显然,文稿中往往以少量例数求得正常值是欠可靠的。
3.统计处理:应根据所得数据分布特征采用不同的统计处理方法。属正态或近似正态分布的数据,可采用x±s法计算;这也适用于以一定方法能将非正态分布转换成正态或近似正态分布的资料。对无法转换的偏态资料,应采用百分位数计算法。具体计算(包括上下限初步制定)见文献。
4.对照数量:相应观察的病例数(包括分组)应不少于30例,这对制定某指标有临床意义的异常阈值尤其重要,这一点往往易被忽视。如在参考较多病例数据后,唾液游离E3的下限异常阈值应为第2.5百分位数,而非通常采用的5百分位数。否则,将会导致该指标产前监护的假阳性率增加。
三、 t检验与校正t检验(t′检验)
这是文稿中极易混淆的一类计量资料统计问题。
声明: 本文由( admin )原创编译,转载请保留链接: http://www.hxlww.net/2611/hxlwfb
近期评论