有趣的统计[试读]
1.1 不可不知的秘密
统计学家用来探索世界、回答问题和解决难题的工具其实并不多,关键在于他们利用概率或者正态分布知识的方法,让他们能在千变万化的情境中解决问题。本章将为你介绍这些基本的Hack。 将已知的分布信息表述成概率[Hack #1],这是统计黑客常用的基本技艺,与之类似的还有用小样本数据来准确描述数量较大总体中个体的分值[Hack #2]。懂得计算概率[Hack #3]的基本规则很重要。此外,如果你想基于统计作决策[Hack #4和Hack #8],必须通晓显著性检验。 使估计中的错误[Hack #5]和得分中的错误[Hack #6]最小化,正确地解释数据[Hack #7],是在不同情境下做到事... 查看全部[ 1.1 不可不知的秘密 ]
1.2 仅用两个数字描述世界
本书介绍的大部分统计解决方案和工具之所以行之有效,只因为你能通过样本对总体进行精确推断。获得以上推断技巧需要用到的元工具、主要指导方针和所有秘密之最就是中心极限定理。 每当你试图描述一组分数时,统计学都能为你提供解决方案。有时你想描述的整组分数全都摆在眼前,这时完成该任务的方法称作描述性统计。更常见的情形是,你只能看到欲描述的一组分数中的一部分,但仍想描述整个组。这种概括性方法称作推断性统计。在推断性统计中,你想要推断的整个分数群组叫做总体,其中能看到的那一部分叫做样本。 从定义上看,不经直接观察就能有把握地描述由多个值构成的总体,想来颇似一种奇妙的把戏。然而,你只消运用三条信息—... 查看全部[ 1.2 仅用两个数字描述世界 ]
1.3 计算概率
我会中彩票吗?我会在一天内被雷击中又被公交车撞到吗?我所在的棒球队会在NCAA锦标赛中提前遇到令我们头疼的对手吗?统计学的核心要点就是判断事件发生的可能性,并回答诸如此类的问题。计算概率的基本规则令统计学家有能力预测未来。 本书充满了有趣的难题,都可以通过绝妙的统计技巧解决。这些Hack中展示的方法在不同情境中以不同方式运用,同时,这些聪明解决方案中使用的很多程序能够起作用,是因为一个核心的元素:概率定律。 上述定律是一组简单、确定的关键原理,表明概率如何起作用,以及应当如何计算。以下两个基本定律可被视为一套基础入门工具,就像锤子和螺丝刀一样,大概足以解决大多数问题。 加法... 查看全部[ 1.3 计算概率 ]
1.4 否定虚无假设
实验科学家通过质疑向前推进。 科学是个目标驱动的过程,其目标是构建一个解释世界的知识体系。这个知识体系由一长串的科学法则、定律以及关于事物如何存在与运转的理论构成。实验科学引进新的法则和理论,并通过一系列逻辑步骤对其加以测试,这个测试过程称作假设检验。 1.4.1 假设检验 一个假设是对可检验世界做出的一个估计。比如,我也许会假设洗车导致下雨或是假设进浴缸导致电话响了。在这些假设中,我认为洗车和下雨之间或洗澡和电话响铃之间存在关联。 验证这些假设是否正确的一个合理方式是观察假设中的变量(为了听起来更像统计学家,我们把这称作收集数据),看是否存在显在的相关性。如果数据显示变量... 查看全部[ 1.4 否定虚无假设 ]
1.5 增加样本量以减少误差
减少样本误差的最佳方式是增加样本量。 无论何时,只要统计学家使用样本而不是总体来做出推测,就必定会出现多多少少的误差。因为推断性统计的基本方法就是测量样本,并运用测量结果对总体进行估计[Hack #2],我们知道这种对总体值的估计总会存在一些误差。好消息就是我们也知道如何把这些误差减少到最低程度。其解决方案就是增加样本量。 1713年雅各布•伯努利(Jakob Bernoulli)提出了一个适用于赌博情境的早期原则,称之为“黄金定律”。这条定律后来被其他人改称为“大数定律”(始于1837年法国数学家泊松)。它可能是统计学历史上最有用的发现,为所有研究者提供了关键的基本通用建议:增加... 查看全部[ 1.5 增加样本量以减少误差 ]
无
... 查看全部[ 无 ]
1.6 精确测量
测试需要综合诸多要素得出分数,经典的测试理论针对其中每一个要素提供了很好的分析。该理论的一个有用结果就是能对测试分数的精确程度进行估计和报告。 一个良好的教育或心理学测试产生的分数是有效度的和可信的。效度(validity)是测试分数能在多大程度上体现你希望测量的特征,以及对测量意图的有用程度。为了证明效度,你必须提供证据和理论来支持测试分数的解释是正确的。 信度(reliability)是对同一个人多次重复测量得到相同测试分数的一致性程度。要证明信度,就是要收集重复测量的数据并用统计学方法加以分析。 1.6.1 经典测试理论 经典测试理论,或者说信度理论,研究测试分数的概... 查看全部[ 1.6 精确测量 ]
1.7 提高测量尺度
四种测量尺度决定了利用测量所得分数的方式。如果你没有正确地应用测量尺度,那么就不能随心所欲玩转这些分数。 统计学方法分析数字。当然,这些数字必须有意义,不然的话,分析就没有多大价值。统计学者把有意义的数字称为分数。但是,统计学中使用的分数并不都“生而平等”。不同的分数因其生成时遵循的规律不同而载有不同的信息量。 当你决定测量某个对象时,必须谨慎选择赋值的规则。测量尺度决定了哪种统计分析是合适的,哪种是有效的,哪种是有意义的。 测量是对事物进行有意义的赋值。被测量的事物可以是具体的对象,比如岩石,也可以是抽象的概念,比如智力。 我们举个例子来解释“分数并不都生而平等”这句... 查看全部[ 1.7 提高测量尺度 ]
1.8 提高检验力
在社会科学研究中,成功通常被定义为发现了统计显著性。为提高做出任何发现的几率,有统计见识的超一流科学家应当主要致力于提高检验力。 进行基于统计的研究,会遇到两种潜在的陷阱。科学家们可能认定自己在总体中发现了什么,但这种东西其实只存在于他们手头的样本中。反之,他们也可能在样本中什么都没找到,但实际上,总体中确实存在极妙的相关性,只待他们去发现。 第一个问题可通过代表取样而最小化[Hack #19]。第二个问题可通过提升统计检验力来解决。 1.8.1 检验力 在社会科学研究中,统计分析总要判断样本中观测到的某个值有没有可能是随机发生的。这个过程称作显著性检测。显著性检测产生一个... 查看全部[ 1.8 提高检验力 ]
1.9 展示因果
统计研究人员已经建立了一些基本原则,如果你希望证明一件事情是另一件事情的原因,那你就得遵守这些原则。 使用统计数据的社会科学研究有着广泛的目标。其中一个目标是收集和分析有关世界的数据,用来支持或否定变量间关系的假设。第二个目标是检验假设,看变量间是否存在因果相关。与目标二相比,目标一是件容易的事。 世间万物之间存在各种各样的关系,统计学家也发明了各种方法来找到这些关系,但是相关性的存在并不意味着某个特定变量是另外一个变量的原因。比如,人群中身高和体重之间存在良好的正相关[Hack #11],但是如果我瘦几磅,我不会变矮。反过来说,如果我长高了几英寸,我的体重很可能会增加。 只... 查看全部[ 1.9 展示因果 ]
1.10 敏锐识别效应值
你刚读到一条令人震惊的科学新发现,但这真的是一个重大发现吗?通过对效应值的解读,你能判断这类声明(或缺乏这类声明)对你究竟有多重要。 大多数非科学出版物、电视上、电台里,甚至网络上报道的科学发现总是缺少了点什么。虽然这些媒体都很擅长报告“统计显著性”,但这并不足以判断是否存在真正重要的或是有用的发现。一项大规模药物研究可以报告“显著”结果,但仍未发现任何令我们或其他研究者感兴趣的东西。 正如本书中一再指出的那样,显著性[Hack #4]只是意味着,你关于样本的发现在总体中可能为真。问题是,仅有这个事实并不足以让你知道自己是否应当改变行为,开始一种新的饮食方式,改变药物或者重新解读你的世... 查看全部[ 1.10 敏锐识别效应值 ]
书名: 有趣的统计
作者: [美] Bruce Frey
出版社: 人民邮电出版社
副标题: 75招学会数据分析
译者: 邹 澍
出版年: 2014-9
页数: 292
定价: 59.00元
装帧: 平装
ISBN: 9787115356215