有趣的统计——1.8　提高检验力

在社会科学研究中，成功通常被定义为发现了统计显著性。为提高做出任何发现的几率，有统计见识的超一流科学家应当主要致力于提高检验力。进行基于统计的研究，会遇到两种潜在的陷阱。科学家们可能认定自己在总体中发现了什么，但这种东西其实只存在于他们手头的样本中。反之，他们也可能在样本中什么都没找到，但实际上，总体中确实存在极妙的相关性，只待他们去发现。第一个问题可通过代表取样而最小化[Hack #19]。第二个问题可通过提升统计检验力来解决。 1.8.1　检验力在社会科学研究中，统计分析总要判断样本中观测到的某个值有没有可能是随机发生的。这个过程称作显著性检测。显著性检测产生一个p值（概率值），表示样本可以从特定的相关总体中抽取的概率。 p值越低，我们就越有信心认定，相关结果具有统计显著性，而且数据揭示出的相关性不仅存在于样本中，也存在于其代表的总体中。通常来讲，会对测量的事物选择一个预先设定好的显著性水平作为标准。如果最后p值等于或小于预先设定的显著性水平，就表明研究达到了一定的显著性水平。统计分析和显著性检验并不局限于确认变量间的关系，借助一些最常见的分析（t检验、F检验、卡方检验、相关系数、回归方程等）通常能达到这一目的。我在此讨论相关性，是因为这是你所期望的典型效应。统计检验的效力是指：假定总体内的变量间存在相关性，统计分析达到显著性的概率。注意这是一个条件概率。总体中必须存在相关性，否则，检验力就毫无意义。检验力不是找到显著性结果的几率，它是在相关性存在的前提下，找到相关性的几率。检验力公式包含三个组成部分： 样本量； 预设要达到的（需小于）显著性水平（p值）； 效应值（总体中相关性的大小）。 1.8.2　执行检验力分析假设我们要对比两组不同的样本，看它们之间是否存在足够的差异，能够说明二者各自代表的总体间确实存在差异。比如，假设你想要知道男性和女性谁的睡眠时间长。这个设计非常简单。创造两组样本群：一组男性，一组女性。然后，调查两组人，问他们每晚通常睡几个小时。但是，为了找出真正的差异，你需要调查多少人？这就是一个检验力的问题。 t检验比较两组样本分数的平均表现，看是否存在显著差异[Hack #17]。在这种情况下，统计显著性意味着这两组样本所代表的两个总体间的分数差异很可能大于零。在研究开始前，研究人员可以决定统计分析中使用的检验力。为了计算检验力，需要知道三样东西，但其中两样在研究开始前就已经知道了：你能决定样本量以及选择预设的显著性水平。你所不知道的是变量间相关性的实际大小，因为计划中的研究结果数据还没有产生。研究人员能在研究开始前对所关注变量之间的相关性大小（即效应值）进行估计，检验力同样可以在研究开始前被估计。通常来讲，研究人员会对最重要或最感兴趣的方面设定最小相关水平。一旦这三样（样本量、显著性水平和效应力）都确定了，便可计算第四样（效应力）了。实际上，在这四样东西中，设定了任何三样的水平，都能计算出第四样。比如，一名研究人员通常知道分析中需要的检验力大小、报告具有统计显著性所需的效应值、选择的预设显著性水平。有了这些信息，研究人员就可以计算出需要的样本量。为了估计检验力，研究人员经常使用一个得到普遍接受的标准方法，其中将检验力目标值设为0.80，将预设显著水平设为0.05。检验力水平在0.80，意味着总体中如果存在相关，那么研究人员会有80%的几率在样本中发现相关性或效应。 t检验中，效应值（或者相关性大小指数[Hack #10]）常用两组平均数差除以样本标准差所得的值来表达。如此得出的效应值，0.2以内视为小，0.2~0.5视为中，0.8视为大。效应力分析需要解决的问题是：这两组中各需要多大样本（多少人）才能在测试分数中找到显著性差异？计算检验力的推导方法很复杂，在此就不予介绍了。在现实生活中，我们估计检验力一般是运用计算机软件，或者查考统计书后所附的密密麻麻的表格。不过，我算出了各种选项的效应值，呈现在了在表1-7里。注意关键变量是效应值和样本量。依据传统习惯，我把检验力设置为0.80，显著水平设为0.05。表1-7：不同效应值所需样本量效应值样本量 0.10 1600 0.20 400 0.30 175 0.40. 100 0.50 65 1.0 20 想象一下，在你的“性别与睡眠”研究中存在实际差异，但很小。t检验分析中将大约0.2标准差的组间差异视为小差异，所以你可能会预期效应值为0.2。为了发现这个小的效应值，每组的样本量需要达到400人！随着效应值的增加，所需样本量变小。如果总体效应值是1.0（一个非常大的效应值，两组间存在巨大差异），每组20人就足够了。 1.8.3　推测极妙的相关性科学家总是依赖统计推论来拒绝或接受他们的研究假设。他们总使用虚无假设，先设定变量间不具相关性或组间没有差异性。如果样本显示总体中的变量间实际上存在相关性，他们就会拒绝虚无假设[Hack #4]，接受备择假设，即他们的研究假设，作为对现实的最好估计。当然，这个过程中可能出现错误。表1-8列出了在假设检验游戏中可能出现的错误类型。当你不应该拒绝虚无假设时你却拒绝了，统计哲学家们将这种错误称为I型错误。当你应该拒绝虚无假设的时候，却没有拒绝，这被称为II型错误。表1-8：假设检验中的错误行　　为虚无假设是对的虚无假设是错的拒绝虚无假设 I型错误显著性发现接受虚无假设正确的决策 II型错误作为一名聪明的科学家，你要做的是避免这两类错误，并发现显著性。当虚无假设是正确的，接受虚无假设，获得正确的决策也不错，但这没有发现显著性那么有趣。“把你的一生贡献给表格中的右上象限吧，”我叔叔弗兰克经常说，“你将变得超乎想象地开心和富有！” 要想加大发现统计显著性的几率，一个在你控制之外的条件必须为真；那就是，虚无假设必须为假，否则“发现”什么的几率就少得可怜。此外，如果你“发现”了什么，但它实际上并不存在，你就犯下了严重的I型错误。在总体的研究变量间必须确实存在相关性，这是你在样本中发现这种相关性的前提。所以，你最终是否落在表1-8右列中，完全取决于命运。检验力是一旦你到达右列就移到顶格的几率。换句话说，检验力是当虚无假设为谬时，正确拒绝虚无假设的几率。 1.8.4　生效原理效应值和样本量之间的关系是有意义的。想象有一种动物躲在干草堆里（这动物是效应值，拜托，只在我的这个比喻中有效）。你只需较少的观察（撩开几把干草）便可发现大的效应值（比如一头大象），这要比发现一种小动物（比如像可爱的水獭幼崽）方便得多。人数代表观察数，隐藏在总体中的大效应值比小效应值更容易发现。检验力中效应值和样本量的普遍关系，反过来也同样有效。在已知的效应值下估计，只消提高样本量，到一定程度就会拥有你所需的检验力。记住，表1-7假定你想要80%的检验力。你可以采取较小的样本量，只是会有较低的检验力。 1.8.5　不适用领域记住检验力不等于成功的几率，这很重要。它甚至不是达到某个显著水平的几率。它是在研究者的所有估计值都是正确的情况下，达到某个显著水平的几率。这公式最难估计或设置的部分是总体中的效应值。研究者很少知道自己在找寻的事物相关性有多大。归根到底，如果他知道研究变量间相关性的大小，那就没有做研究的必要了，是吧？

书名：有趣的统计
作者： [美] Bruce Frey
出版社：人民邮电出版社
副标题： 75招学会数据分析
译者：邹澍
出版年： 2014-9
页数： 292
定价： 59.00元
装帧：平装
ISBN： 9787115356215

有趣的统计——1.8 提高检验力

《有趣的统计》其他试读目录

有趣的统计——1.8　提高检验力