减少样本误差的最佳方式是增加样本量。 无论何时,只要统计学家使用样本而不是总体来做出推测,就必定会出现多多少少的误差。因为推断性统计的基本方法就是测量样本,并运用测量结果对总体进行估计[Hack #2],我们知道这种对总体值的估计总会存在一些误差。好消息就是我们也知道如何把这些误差减少到最低程度。其解决方案就是增加样本量。 1713年雅各布•伯努利(Jakob Bernoulli)提出了一个适用于赌博情境的早期原则,称之为“黄金定律”。这条定律后来被其他人改称为“大数定律”(始于1837年法国数学家泊松)。它可能是统计学历史上最有用的发现,为所有研究者提供了关键的基本通用建议:增加样本量! 早期的应用统计科学(我们指的是17世纪和18世纪)几乎开口必提赌博和几率。这也许是因为它给那时代的绅士学者们提供了一个借口,打着智力追求的幌子行玩乐之实。当然,概率定律是统计程序和推论的数学基础,所以赌博应用很可能主要是用作统计概念教学中的最佳例子。 1.5.1 本定律的实际应用 本定律的一个应用是它对预估概率和实际发生概率的影响。它包含这样一个推论:对于受几率控制的结果,预测准确性的提高程度是一个固定的值。也就是说,预测准确性的提高程度是已知的。随着试验的次数增加,某个结果的预测概率和你观测到的实际发生概率之间的差距缩小,而且上述预期值和观测结果之间的差距大小可以计算出来。这种预期差距一般称为标准误差[Hack #18]。 结果的理论概率和实际发生概率之间的差距大小与以下的值成正比: 你可以把这则公式看作大数定律的数学表述。在概率和结果的语境下讨论准确性,样本量就是试验的次数。而在样本平均数和总体平均数的语境下讨论准确性,样本量就是样本中人的数量(或随机观测的数量)。 1.5.2 提高准确性 受此定律影响的特定值的大小取决于采用的测量尺度以及给定样本中变量的多少。然而我们可对样本量进行种种改变来提升推断的准确性。表1-5显示了所有推断性统计的准确性提升比例。依照定律可知: 表1-5:增加样本量的效应 样本量 误差的相对降低幅度 含 义 1 1 误差等于总体中变量的标准差 10 3.16 误差大小约为之前的1/3。观测的样本人数仅仅增加到10就极大提高了我们的准确性 30 5.48 样本人数从1 增加到30,会显著提高准确性。即便是从10增加到30都有作用 100 10 100个人组成的样本产生一个非常接近总体值(或者说期望概率)的估计。百人样本的误差大小仅为一个标准差的1/10 1000 31.62 根据如此大量的观测值产生的估计是相当准确的 1.5.3 生效原理 让我们从几个不同的角度来看这个重要的统计法则。我会用三种不同的方法来阐述这个定律,先从赌徒关心的角度开始,然后转到有关误差的话题,最后讨论采集代表性样本的意义。所有这些实际上说的是同一条规则,只不过阐述方式不同而已。 1. 赌博 如果一件事在单一试验中有特定的发生概率,那么它在无限次试验中的发生几率将与前述概率相等。随着试验次数接近无限,其发生概率将逐渐接近这个概率的值。 2. 误差 如果一个样本无限大,那么样本统计学特征就等于总体的参数。举例来说,随着样本量趋近无限大,样本平均数和总体平均数之间的差距逐渐缩小。随着观测数量的增加,总体值估计的误差逐渐变小,最终趋近于0。 3. 意义 相比从总体中抽取少数人的样本,抽取多数人的样本更具有代表性。随着样本量增加,样本所体现的总体的重要特征越来越多,同时预测的准确性也随之提高。 以上所有关于大数定律的论述成立的前提是:我们假设事件的发生或取样是随机的。 大数定律为标准误差的计算提供了基础,此外它还影响着其他一些核心统计问题,比如检验力[Hack #8]以及不该拒绝虚无假设时却加以拒绝的可能性[Hack #4]。雅各布•伯努利的赌徒伙伴们或许对他的黄金定律大感兴趣,因为这能让他们心中大致有数,知道还需要掷多少次骰子,掷出7点的可能性才会达到0.166或16.6%,然后据此制定较有把握的投注计划。 然而在过去的300年间,所有的社会科学无不利用这一简洁的工具,去估计用可见的事物来描述不可见事物所能达到的准确性。谢谢你,雅各布! 1.5.4 参阅 看清自己错到何种程度[Hack #18]
有趣的统计——1.5 增加样本量以减少误差
书名: 有趣的统计
作者: [美] Bruce Frey
出版社: 人民邮电出版社
副标题: 75招学会数据分析
译者: 邹 澍
出版年: 2014-9
页数: 292
定价: 59.00元
装帧: 平装
ISBN: 9787115356215