统计会犯错——如何避免数据分析中的统计陷阱

978-7-115-43374-9
作者: 【美】Alex Reinhart(亚历克斯·莱因哈特)
译者: 刘乐平
编辑: 王峰松

图书目录:

详情

本书是一本简明、必要的指导手册,它可以告诉读者如何避免现代科学中的统计失误,包括如何问正确的问题,如何设计正确的实验,如何选择正确的统计分析,如何考虑p值,如何选择合适的样本量,如何分析你的报告、发布你的数据、源代码,以及应该遵循的流程和预防措施等。

图书摘要

版权信息

书名:统计会犯错——如何避免数据分析中的统计陷阱

ISBN:978-7-115-43374-9

本书由人民邮电出版社发行数字版。版权所有,侵权必究。

您购买的人民邮电出版社电子书仅供您个人使用,未经授权,不得以任何方式复制和传播本书内容。

我们愿意相信读者具有这样的良知和觉悟,与我们共同保护知识产权。

如果购买者有侵权行为,我们可能对该用户实施包括但不限于关闭该帐号等维权措施,并可能追究法律责任。

• 著    [美] Alex Reinhart

  译    刘乐平

  责任编辑 王峰松

• 人民邮电出版社出版发行  北京市丰台区成寿寺路11号

  邮编 100164  电子邮件 315@ptpress.com.cn

  网址 http://www.ptpress.com.cn

• 读者服务热线:(010)81055410

  反盗版热线:(010)81055315


面对充满不确定性的未知世界,人们在科学研究中需要大量使用统计分析方法。但是,如何正确使用统计分析方法充满玄机,即使对那些最优秀和最聪明的人也是如此。读完此书你会惊讶地发现,许多科学家使用的统计方法中其实隐藏着许多谬误和陷阱。

《统计会犯错》这本书简明扼要地指出了现代科学研究中常见的统计谬误,诸如 p 值与基础概率谬误、统计显著性和模型误用等。从这本书中,你将理解什么是统计谬误及其产生的原因,了解如何检查科学研究中隐藏的统计谬误,你还将学会如何正确地使用统计方法,如何在科学研究中避免这些统计谬误。


Copyright © 2015 by Alex Reinhart. Title of English-language original: Statistics Done Wrong, ISBN 978-1-59327-620-1, published by No Starch Press. Simplified Chinese-language edition copyright © 2016 by Posts and Telecom Press. All rights reserved.

本书中文简体字版由美国No Starch出版社授权人民邮电出版社出版。未经出版者书面许可,对本书任何部分不得以任何方式复制或抄袭。

版权所有,侵权必究。


“一本值得珍藏的小书……令人惊奇,统计门外汉入门必读。”

——阿尔伯托·凯若(Alberto Cairo),迈阿密大学计算科学中心
可视化项目主任

“如果你正在分析数据,发现了一些规律,但不知道是否正确,请参考这本书。”

——邱南森(Nathan Yau),加利福尼亚大学洛杉矶分校(UCLA)
统计学博士,数据可视化网站Flowing Data创始人

“一个令人愉快的和翔实的指南……全面而清晰。”

——约翰·沃森(John A. Wass),科学计算(Scientific Computing)网站

“我一定会把这本书推荐给那些对医学统计有兴趣的人和不喜欢统计学的医生。”

——卡缇·本斯(Dr. Catey Bunce)博士,
穆尔菲尔兹(Moorfields)眼科医院首席统计学家

“我很喜欢这本书,并计划与我的许多学生分享。”

——妮科尔·拉齐维尔(Dr.Nicole Radziwill)博士,
詹姆斯·麦迪逊大学(James Madison University)副教授

“我希望每个医生都能读到这本书。”

——埃里克·拉莫特(Dr.Eric LaMotte)博士,华盛顿大学医学院

“一本大胆的书,一本迷人的书……真正令人愉悦,并将永远改变你对统计的看法。”

——本·罗斯韦尔(Ben Rothke),信息安全专家

“一个写得很好的、有趣的、有用的指南,包含了今日统计实践中最常见的问题。”

——民间统计学家(Civil Statistician)网站

“任何研究人员都应该把这本书当作一个有价值的指南,来验证研究结论的正确性。”

——桑德拉·亨利-斯托克(Sandra Henry-Stocker),信息技术专家

“任何数据科学图书馆都应必备的重要读物。此外,简练的写作风格会让你的兴趣大增,而且可以成为你未来项目的创意源泉,极力推荐。”

——洞察大数据(insideBIGDATA)网站


亚历克斯·莱因哈特(Alex Reinhart),卡耐基梅隆大学(Carnegie Mellon University)统计学教师和博士生。他从德克萨斯大学奥斯汀分校(University of Texas at Austin)获得物理系学士学位,并应用物理学和统计学研发定位放射性设备。

刘乐平,中国人民大学统计学系博士毕业,现为天津财经大学统计学、金融学教授,博士生导师,大数据统计研究中心主任。

“首要原则是你不能欺骗自己,但一叶障目,自欺欺人却又屡见不鲜。”

——费曼(Richard P. Feynman)

“当你要求统计学家对一个已完成的统计实验做事后重复检验时,他们的回答常常是:‘抱歉,试验已无法重复了’。”

——费希尔(R.A.Fisher)

[1] 本书的翻译由天津财经大学刘乐平和研究生高磊、毕莎莎、董婵、申亚飞共同合作完成。


几年前,我是德克萨斯大学奥斯汀分校的一名物理专业的大学生。在一门研讨课上,每个学生都要选择一个主题做25分钟的陈述演讲。

我告诉布兰特·艾弗森(Brent Iverson)博士,我选了关于阴谋论的主题,但他不满意这个选题,他说这太宽泛了,一个引人入胜的演讲需要重点和细节。我琢磨着放在我面前的主题建议列表。他问:“科学欺诈和滥用这个主题如何?”我接受了他的建议。

我不明白与阴谋论相比,科学的欺诈和滥用为什么是一个较窄的主题。但没有关系,经过几次粗略的研究,我感到对于科学欺诈的兴趣至少自己还能接受,与科学家承担的所有责任相比,这大多不是他们有意而为的。

我没有资格讨论统计,虽然如此,我还是挖掘出好几十篇报告科学家经常犯的大量的统计错误的研究文章。通过对这些文章的阅读和概括,我设计了一个令艾弗森博士满意的演讲报告。我决定未来当一个科学家(目前自认为是统计爱好者),我应该选学些统计课程。

两年时间里,在学习了两门统计课程后,我考入卡内基梅隆大学,成为统计学研究生。不过,我仍然着迷研究 “因统计而错”的科学方法。

统计产生的错误可能导致更严重的结果,因为他们常常冠以科学的名义,而一些科学家接受的是非正规的统计教育。本书不是正式的统计教科书。一些读者通常会跳过第一章,但我建议至少浏览一下,以熟悉我的注解风格。

我的目标不仅仅是教你常见的统计错误名称和提供笑料。我将尽可能不用详细的数学推导,解释为什么统计谬误是陷阱,还将告诉你这些陷阱是如此的无所不在。有些深度的问题会导致阅读困难,但我认为这个深度是有价值的,对于科学领域的每一个人来说,都必须加深对统计方法的基本理解。

对于那些日常工作是做统计分析的人,大多数章节结尾的“提示”是解释你可能使用的统计技术,以避免通常易犯的错误。但这不是教科书,所以我不会教你如何使用这些技术的任何细节。我只是希望让你意识到最常见的问题,这样你就可以选择最恰当的统计技术。

如果我激起了你对这个话题的好奇心,这里包括了一个广泛的、综合的文献书目,和每一个统计谬误的引用参考。在这本指南中我省略了大量的数学内容,取而代之的是容易理解的概念,但如果你喜欢一个更缜密的推导过程,我鼓励你去读所对应的原文。

在你读这本书之前,我必须提醒你。每当我们想了解几乎没有人做的事情的时候,这就吸引着我们找到每一个证明它的机会。统计犯的错误可能奇迹般地成为纽约时报最好的卖点,我希望看到Paul Graham所说的“中间立场”来回应大众媒体上的任何科学新闻,与其花时间了解科学新闻中的奇谈怪论,还不如去反驳脱离实际的统计学家所做的研究,对他们的统计设计提出批评[1]

这已经发生在大多数讨论科学新闻的网站上,它会无休止地干扰我,查阅这本书用来证明它。这类新闻占第一位的评论总是类似于“他们没有控制这个变量”和“样本量太小”等的议论,而且10个当中至少有9个批评家从不读科学论文去关注他们的不满。

这是不明智的。对统计的一点点了解并不是一个拒绝所有现代科学的理由。一篇研究论文的统计方法,可以通过研究设计、测量技术、成本的限制和目标之外的上下文细节加以判别。运用你的统计知识,以更好地了解研究的优点、局限性和潜在的偏误,而不是去攻击一些似乎误用了一个p值或与你的个人信仰相矛盾的论文。此外,请记住,由不合适的统计方法得出的结论是可以被纠正的,统计学和逻辑学的错误不会使结论错误,而仅仅是不支持结论。

简而言之,请负责任地实践统计学。我希望你和我一起去质疑,从而更加完善我们所依赖的科学。

感谢James Scott,他的统计课程开始了我的统计生涯,并为本书的写作提供了必要的统计知识背景;感谢Raye Allen,他给James留的家庭作业非常有趣;感谢Matthew Watson和Moriel Schottlender,他们给本书的初稿提出了有价值的反馈和建议;感谢我的父母,他们给出了反馈和意见;感谢Dr. Brent Iverson,是他的讨论课激发了我研究统计谬误的兴趣;感谢所有的科学家和统计学家,他们不经意的错误是我写这本书的理由。

我在卡内基梅隆的朋友给了我许多好的创意,回答了我的许多问题,他们耐心地听我解释每一个新的统计谬误。Jing Lei、Valérie Ventura和Howard Seltman教授给了我必要的知识。作为技术复审员,Howard发现了几个令我尴尬的错误;如果还存在错误,它们都是我的责任,尽管我宣称它们只会出现在本书的书名里。

No Starch的编辑为本书的初稿费了很多心血。Greg Poulos 仔细阅读了前几章,直到理解了每一个概念,他才满意。Leslie Shen 对本书最后几章进行了润色,整个团队的效率令人惊讶。

我还要感谢这本书在网络上分享时,那些给我发邮件提出建议的朋友。不分次序,感谢Axel Boldt、Eric Franzosa、Robert O’Shea、Uri Bram、Dean Rowan、Jesse Weinstein、Peter Hozák、 Chris Thorp、David Lovell、Harvey Chapman、Nathaniel Graham、Shaun Gallagher、Sara Alspaugh、Jordan Marsh、Nathan Gouwens、Arjen Noordzij、Kevin Pinto、Elizabeth Page-Gould和David Merfield。没有他们的评论,我的解释不可能变得如此周全。也许你也会加入这个名单。虽然我已尽力,但本书不可避免会包含一些错误或遗漏。如果你发现本书的错误,或对本书有任何疑问,或觉得我遗漏了一些重要问题,请发送邮件至alex@refsmmat.com。本书的勘误表和更新敬请关注http://www.statisticsdonewrong.com/

[1] 认为这就是人们如此热衷“阴谋论”的原因。如果你认为你了解一些其他人不知道的事件(如政府没有公开的事实真相!),你就会抓住每一次机会去炫耀你所了解的内容,然后对所有新闻,你都能找出政府弄虚作假的原因。请不要这样对待“统计错误”。


在那本非常著名的统计读物《统计数字会撒谎》(How to lie with statistics)的最后一章中,作者哈弗(Darrell Huff)告诉我们“任何带有医学味道的言论”或者“由科学实验室和大学发布的信息”都是值得我们相信的,虽然不是毫无条件地相信,但是肯定比“媒体”或者“政府”公布的事实可靠的多。哈弗的整本书中充满了媒体和政府利用误导性的统计信息弄虚作假的例子,但很少涉及经过专业学习的科学家所做的统计分析也可能产生误导。科学家应该追求的是对事物本质的理解,而非对付政治对手的子弹。

统计数据分析是科学的基础。随便翻开一本你喜欢的医学杂志,你就会被统计术语淹没:t检验、p值、比例风险模型、风险比率、逻辑回归、最小二乘拟合以及置信区间。统计学家为科学家们在复杂的数据集中发现知识和规律提供了强有力的工具,科学家们毫不怀疑欣然地接受了这些工具。

但是,不少科学家并没有接受过统计教育,在科学领域中许多本科课程中也不涉及任何统计训练。

自20世纪80年代以来,学者已经揭示了无数的统计谬论,以及出现在经过同行评议的科学文献中的错误,他们发现许多科学论文,大概有一半以上,都犯过这些错误。由于统计能力不足,使得许多研究无法找到他们想要找的东西;多重比较和对 p 值误读导致了许多错误的“正确结论”;灵活的数据分析使得我们很容易找到原本不存在的相关性;不恰当的模型选择可能会使结论产生偏倚。这些错误都被同行评议人员和期刊编辑们忽视了,造成这一结果是由于他们通常并没有经过专业的统计训练,而且很少有杂志会聘请统计人员来审核投送的文章,另外,大部分文章也没有给出充足的、能够被精确评估的统计细节。

这些问题并不涉及恶意欺骗,而是由统计教育不足而造成的—— 一些科学家甚至指出大多数发表的研究成果可能是错误的1,[1]。在顶级期刊中经常会出现一些要求对将要发表文章采用更高统计标准、更严格审查标准的评论文章和社论,但是只有很少的科学家们响应这一呼吁,而且杂志授权标准往往被忽视。由于这些建议通常散落在一些误导性的教科书和杂志的综述中,而且对于应用型科学家们来说统计研究文章很难理解,所以大多数科学家想要提高他们的统计知识并不是那么容易的。

现代研究中复杂的方法论意味着没有经过广泛统计训练的科学家也许不能完全领会他们研究领域内发表的一些文章。例如,在医学领域中接受过标准统计入门课的医生,其所具备的统计知识只能充分理解在《新英格兰医学杂志》上刊登的20%的学术论文2。大多数的医生甚至都不具备这些知识,很多医学人员并不是通过统计的必修课而是利用杂志社或者短期课程等方法非正式地学习统计 3。我们对这些医学人员进行“医疗中常用的统计方法”测验,结果仅有不足50%的人能够答对 4,这证明这些非正式的方法所包含的内容并不足以让医学人员真正学会统计知识。即使是经过研究训练的医学院的教员其得分也小于75%的正确率。

情况如此糟糕,即使是从事上述统计知识调查的作者也缺乏构建调查问券所需的统计知识——我刚才引述的数字是有误导性的,因为在上述对医疗人员进行的调查中包括一道定义 p 值的选择题,但是在这道题中却给出 4 个不正确的定义作为选项5。我们可以为这个作者找些借口,因为即使很多统计入门的课本中也没能正确地定义p值这一基本的统计概念。

当科学研究的设计者不注重对统计人员的雇佣时,他们可能会迷失在工作中,在不会得到答案的研究上花费数千美元。正如心理学家Paul Meehl所抱怨的那样。

我们野心勃勃的研究员——在逻辑科学的知识体系下的毫无畏惧并且满心喜悦的依赖于“精确”的现代统计假设检验,已经著作等身或被提升为教授。就他对心理学整体来说,他几乎什么贡献也没做——更直白地说,他是一个对多个领域均有所涉猎,却没有得出什么真正科学成果的多产科学家6

对大多数的科学家来说,由于很多科学领域对p值的误解而指控他们不能孕育知识也许是不公平的。但是这些错误确实对现实世界有很大影响。医学临床试验指导我们的卫生保健方向,并且决定某些新强力处方药的安全性;犯罪学家评估不同的策略来减少犯罪和骚乱;流行病学家试图延缓新疾病的蔓延;营销人员和业务经理们试图找到销售产品的最好方式。这一切都归结到统计,但是统计知识却不能被正确使用。

任何人都曾抱怨过医生没有在你能够理解的范围内告诉你什么是好的或者什么是不好的。现在,我们对一些声称某些食物、饮食或运动可能会损害我们健康的新闻不屑一顾,因为几个月后的另一项研究可能会得到完全相反的结果。正如一位杰出的流行病学专家所说的那样:“我们正在变成社会所讨厌的那类人,人们不再重视我们,而一旦人们把我们当回事,我们可能会无意中做出弊大于利的事7。”我们的直觉是正确的:在一些科学领域,最初的结论可能与之后的相悖。过早发布令人兴奋的结论,往往比发布有充分证据支持且仔细核对过的结论有更大的压力。

尽管如此,我们不要过早地下结论。一些统计误差可能只是由于资金不足造成的。让我们看看20世纪70年代中期在美国发起的为了节省燃气和时间而允许司机在红灯时右转这一规则,证明这一规则不会造成更多交通事故的证据源于统计的错误。正如我们已经看到的那样,这一规则造成了很多的伤亡。影响交通安全研究人员得到正确结论的唯一因素是缺乏数据。如果他们有钱去收集更多的数据、进行更多的研究,有时间整理来自许多不同国家独立的研究结果,真相就会很明显。

正如Hanlon’s razor告诉我们的那样:“把一切归咎于恶意,是对无能的充分解释”,有些出版物是在“谎言,该死的谎言和统计”这一条目下的。制药行业似乎尤其偏爱那些忽视了不利因素(例如那些指责他们产品没有疗效的出版物)的证据[2];在随后的评论中,制药商们可能会很高兴地发现有12项研究表明他们的药物有效,而不去注意其他8个未发表的认为他们产品无效的研究。当然,这些持反对意见的结论即使被呈送,由同行评审的期刊可能也不会发表它们,杂志社对无趣结论的强烈偏见使得“它是无效”的这一类研究结果永远也不会被发表,其他研究者也永远不会看见它们。数据缺失以及出版偏见正在侵蚀着科学并且歪曲我们对重要问题的看法。

即使是正确处理的统计资料也可能是不可信的。统计技术和分析方法的过剩使得研究人员在分析数据时有很大的自由发挥空间,而且很容易“不断拷问数据直到它承认存在某些关系”。不断尝试你的统计软件中提供的几种不同的方法,直到其中某个可以产生有趣的结论,然后假装这就是你想要做的所有分析。当一篇文章发表的时候,如果没有超自然的力量我们不可能知道数据是经过怎样的“折磨”才得到这一结论的。

在研究中的“软”领域是指那些理论不定量、实验难以设计、方法不规范的领域,而额外的自由导致了明显的偏见8。美国的研究人员必须得到和发布有趣的结论,以推进他们的职业生涯;面对数量不多的学术职位的激烈竞争,科学家不允许花费数月或数年的时间来收集和分析数据却只得到一个统计学上不显著的结果。这一做法无关恶意,科学家们只是想得到相对于数据本身其他的更能够支持他们假设的、夸大其辞的结论。

在本书中我会介绍一些常见的或其他的错误。许多错误存在于公开发表的文献中,这也使我们对很多论文的结论产生怀疑。

近年来,很多人提倡统计改革,在解决这一问题的最好方法上自然也存在分歧。有些人坚持p值应该完全摒弃,我将会在下文中说明其经常造成的误解和混淆;有些人提倡基于置信区间的“新统计”;有些人建议我们应该把重点转向能够得到更多可解释结论的贝叶斯方法;还有些人认为现在所教授的统计学知识华而不实。虽然所有的观点都有其可取之处,但是我不打算在此书中讨论其中的任何一个。我所关注的重点在于目前实践科学中存在统计应用的问题。这些方法能够完美地回答他们设计的问题,但是这些问题并不是我们想要他们回答的,我们越早意识到这一点,就能越早知道如何去弥补它。

[1] 本书正文中加注的数字上标1、2……表示参考文献的编号,具体文献信息请查阅书末的参考文献。

[2] 对制药行业中的统计滥用感兴趣的读者可以参看本·戈德契(Ben Goldacre)的《制药劣迹》一书(Bad Pharma,Faber&Faber,2012)。当我阅读此书时,我的血压呈现出具有统计显著性的直线上升趋势(译者注:此书将全球制药业巨头置于显微镜下,呈现出一片骇人听闻、惊心动魄的混乱场景)。


许多实验科学都会涉及测量差异。一种药物是不是比另一种药物效果更好?具备某一基因的细胞是不是能比其他细胞合成更多的酶?一种信号处理算法是不是比另一种算法能更好地检测脉冲星?一种催化剂是不是比另一种催化剂更能有效地加快化学反应?

我们可以用统计学来判别这些不同类型的差异。通常来说,我们观测的是由于巧合或随机变化导致的差异,所以当观测差异大于随机产生的差异时,统计学家称之为“统计意义上的显著区别”。首先,我们来看如何判别。

假设你在测试一种新的感冒药,其中新药可以确保一天之内消除所有感冒症状。为此,你找到20位感冒患者,给一半患者服用新药,其他人服用安慰剂。然后记录他们的感冒时长,找到服药与未服药患者的平均感冒时长。

这种测试有问题吗?进一步分析,不是所有的感冒都是同一种类型。平均来说,感冒时间通常要持续一周。但有一些感冒会持续两周甚至更久时间,也有一些持续几天就好了。可能服用新药的这一组患者都是较短时长的感冒,很快就好了。那么,又如何证明是药物起作用了,而不是这些患者运气好呢?

统计假设检验给出了解决办法。如果你知道典型的感冒时间 的分布,也就是说有多少患者得短期、长期和平均时长的感冒,据此可以给出一组随机样本的患者的感冒时长比平均时长更长或更短的概率。那么假设检验(或显著性检验)就可以回答这个问题:即使药物完全无效,那么试验产生以上观测结果的可能性有多大?

如果只对一个人进行药物测试,那么他的感冒时长比平均时长更长或者更短,都是不足为奇的。大部分感冒并不是非常理想的平均水平。但是如果对1000万个患者进行测试,而所有患者都是短期感冒,这种情况就不太可能是巧合了,更有可能是药物的效果。

科学家对这种直觉进行量化,给出了一个概念—— p值。

p值是在假设药物效果没有真实差异的情况下,差异等于甚至大于实际观测差异的概率[1]

例如,你给100个患者服药,发现他们的平均感冒时长比对照组少一天,这时p值就是在药物无效的假设下,“他们的感冒时间比对照组少一天”这种情况完全是出于巧合的概率。你可能会说,p值依赖于效果大小,试验组感冒时间比对照组少一天的情况会比少四天的情况更为常见,也与试验组的患者数目有关。

记住,p值不是用来测度你多么正确,或者这个差异有多重要。反之,它是对“意外”的测度。如果假设药物无效,那么也只能用运气来解释两组的区别。然后p值越小,试验结果是意外或因为运气的可能性越大——或者说你的假设就是错误的,新药的确有效。

如何运用p值来解释“这些组之间是否有差异”?通常的经验法则是:当p<0.05时,区别是“统计显著”的。选择0.05不是出于特别的逻辑或统计的原因,而是在多年的使用过程中形成的科学惯例。

注意到应用p值时,假设试验各组没有区别。这是显著性检验的一个反直觉的特征:如果想要证明药物有效,就去证明数据不支持药物无效。因此,p值可以扩展到任何一种用数学表示某个要推翻的假设的情形。

但是p值也有它自身的局限。记住,p值是指对意外的测度,一个较小的p值意味着更加意外。它不是影响大小的测度。可以通过测量大的影响获得一个小的p值(这种药物可以使人的寿命延长4倍),或者用较大的确定性测量一个较小的影响。因为一种药物或干预通常是有一些效果的,所以可以收集足够的数据,检测极其微小但相对不太重要的差异,然后得出统计显著性的结果。Bruce Thompson写道:

统计显著性检验可能包含一个套套逻辑(tautology)[2],研究人员已经收集了数百个产品“失效”的测试数据,然后通过一个统计检验来评价产品是否真的“失效”。而事实上,研究人员早已知道结果,因为他们收集数据时就知道数据都是已经“失效”的。考虑到知识的累积,这一套套逻辑已经造成了相当严重的后果1

简而言之,统计显著性不意味着任何实际意义的显著性。统计显著性并不会给出太多信息。一个统计显著的区别可能只是噪声,或者体现了真实的影响,但是这一影响需要更多的数据才能确定。

没有数学工具可以判断出假设是真是假;也可以考虑假设与数据是否一致。如果数据太少或者不清楚,那么结论也就不确定了。

p值局限性的背后还有一些关键核心的问题。假设运气(而不是药物或者干预)是实验中唯一因素,p值是获得结果等于或大 于观测值的概率。这就意味着p值迫使你去质疑从未发生过的结果——也就是比你的结果更极端的结果。获得这样的结果的概率有赖于实验设计,这使p值具有“心理暗示特征”:两种不同的实验设计可以产生相同的观测数据,但会得到不同的p值,因为未观测的数据是不同的。

假如我连续问你12个关于统计推断真假的问题,你正确回答了9个。我要检验假设:你是否是依靠随机猜想答对了这些问题?为此,我要计算你依靠随机猜想答对至少9个问题的概率。假设你等概率地选取“正确”和“错误”,计算得p=0.073[3]。因为p>0.05,很有可能你就是随机猜的答案。若确实如此,你将会在规定时间内以7.3%的概率答对9个甚至更多的问题2

但也可能我并不是只打算问你12个问题。如果我有一台电脑可以无限地产生问题,直到你答错3个。现在我要计算在15、20、47个问题之后你答错3个问题的概率,甚至是在175、231个问题之后你仍旧没有答错3个的概率。计算可得p=0.033。因为p<0.05,我的结论就是:你依靠随机猜想不太可能得到这样的结果。

这是非常麻烦的:两个试验收集到相同的数据,但是却有不一样的结论。莫名其妙,p值竟然能懂你的意图!

为了更好地理解p值,我们要了解一些统计学的历史。统计显著性检验有两个主要分支。关于统计重要性检验的思想主要有两个流派。第一个分支是费希尔(R.A.Fisher)于1920年提出。费希尔将p值看作理解一个数据集是如何令人意想不到的一种简便、非正式的方法,而不是假设检验的严格正式流程中的一个环节。只有当p值与试验者的先验经验以及专业知识结合时,它才能更好地解释新观测的数据。

在费希尔的著作问世以后,奈曼和皮尔逊(Jerzy Neyman 和Egon Pearson)尝试解决了一些无法解决的问题。例如,在感冒药物有效性检验中,只要你能从比较中得到 p 值,你就可以尝试通过均值、中位数或者其他任何统计量,来比较两个对照组的水平。但是你如何知道哪种选择是最好的?这个最好的选择对假设检验又意味着什么?

在科学研究中,控制假设检验的两类错误是至关重要的:第一类错误(false positives),就是将无效说成有效(取伪);第二类错误(false negatives),则是将有效判断成无效(弃真)。在一定程度上,第一类错误和第二类错误是一枚硬币的两面。如果我们比较激进,则容易犯第一类错误;如果我们过于保守,第二类错误会主动找上门来。

奈曼和皮尔逊发现虽然不能同时完全消除两类错误,但是可以给出一种规范的决策过程来确保犯第一类错误的可能性只在预先确定的比率下发生。他们将这个比率称为显著性水平 α(false positives rate),试验者可以依据他们的经验和期望基础上设置合适的α。举例来说,如果我们先要设立10%的第一类错误率,就令α等于0.1。但是如果我们希望决策更加保守,那么就可以将α设置为0.01或者更小。为了比较哪种检验过程是最好的,我们可以考察在给定α的条件下,哪一种检验过程犯第二类错误的比率是最低的。

实践中应该怎么做呢?在奈曼-皮尔逊体系下,我们定义一个原假设,即一个“无效”(效应为零)的假设,同时定义一个备择假设,如“效应大于零”。然后构建一个检验去比较这两个假设,并且决定在原假设正确时我们期望得到怎样的结果。我们利用 p值来实施奈曼-皮尔逊检验程序,即如果p<α,则拒绝原假设。不像费希尔的检验过程,此方法没有将注意力放在揭示任何一个特定的试验证据的强度,而只关心决定原假设是否被拒绝。p值的大小,除了“拒绝原假设”,无法用来比较试验或得出其他任何结论。正如奈曼-皮尔逊所言。

我们倾向于认为只要涉及一个特殊的假设,不存在建立在概率理论基础上的检验能够单独提供关于这个假设正确或者错误的有价值的证据。

但是,我们可以从另一个角度审视检验的目的。我们不希望知道每个独立假设的真假,但是可以探索引导我们关于他们行为的规则,接下来就要保证在长期的经历中我们不会常常犯错3

虽然奈曼和皮尔逊的方法在概念上与费希尔的方法不同,但是实践科学家常常将两者合并4,5,6。奈曼和皮尔逊的方法就是用一个预先选定的p值门槛确保长期的第一类错误率获得“统计显著”。但是假定你进行一次试验得到p值为0.032,若门槛为p<0.05,这个时候便是统计上显著的。但是若门槛缩小成p<0.033,你的结果还是统计显著的。因此说我的第一类错误率为3.2%是十分诱人的,实际上这是常见的一种误解。

这种解释存在问题。仅仅通过一次试验不能得到第一类错误率。它是由检验过程决定的,而不是由一次试验的结果得出的。所以当你用一个检验过程来获得一个长期的第一类错误率α,不管结果是怎么样的,你都不能说每一次试验都会有一个真实的 p 值和对应的第一类错误率。

显著性检验会得到广泛关注,“统计显著”这一词语也成为流行词典的一部分。尤其在生物与社会科学中,研究结果常常用 p值展现出来。但是 p 值不是评价证据权重的唯一方法。置信区间可以回答和 p 值相同的问题,并且它的优势是提供了更多的信息而且可以直接阐明。

一个置信区间包含一个点估计以及这个估计的不确定性。例如,一种新实验药物可以将感冒平均时间缩短为36h,并且对应的95%的置信区间为24~48h(置信区间是平均时间,每个患者感冒的时间有很大的区别)。如果我进行100次相同的药品实验,那么将有95个置信区间包含我们感兴趣的真实值。

置信区间可以将结论中的不确定性定量,而且比不能说明任何效应量的 p 值提供更多的信息。如果想检验这个效应量是否显著区别于零,可以构建一个 95%的置信区间来检验这个区间是否包含零。在这个过程中,我可以额外地知道我的估计有多么精确。如果置信区间太宽,那么我需要收集更多的数据。

例如,如果进行一项临床试验,我可以构建一个预示我的用药量减少15%~25%的置信区间。这个效应是显著的,因为这个区间不包含零,并且可以用我了解的疾病临床知识来评价差别的重要性。当我们使用 p 值时,这一步是非常重要的——当还没有在上下文进行评价时,就不要将统计结果吹嘘为一项重大发现。若这一用量是无害的,则15%~25%的改进是不重要的。不过话说回来,对于像能够引起人体自燃这样的征兆,做出任何改进我可能都会激动。

如果你能以置信区间而不是p值表达你的研究结果,那么你应该这样做7。置信区间回避了大多数与p值有关的细微解释,这使得结果更加清晰。那么为什么置信区间却不是很流行呢?在试验性的心理研究杂志中,97%的研究报告包含显著性检验,但是只有10%曾经报告置信区间,并且其中大多数没有利用置信区间作为他们研究结果的支持证据,而是依赖显著性检验8。甚至久负盛名的《自然》杂志不例外:89%的文章没有任何置信区间和效应量来报告p值,这使得他们的研究结果不能在上下文中得到解释9。一个杂志社的主编说道“p值就像蚊子”,它们无处不在,而且不管我们怎么打,用什么药喷都无法驱逐它们10

关于置信区间报告很少的原因可能是因为他们区间宽的令人尴尬11。另一个原因是论文同行评审的压力太大,最好像其他学科那样做统计,否则评审者会拒绝你的论文。或者可能是关于 p值的困惑掩盖了置信区间的好处。或者是在统计课程中过度强调假设检验意味着大多数科学家不知道怎么样计算和使用置信区间。

有一段时间杂志主编试图强制报告置信区间。Kenneth Rothman是20世纪80年代中期美国公共健康杂志的副主编,以强硬措辞的信件进行意见回复。

所有关于统计检验以及统计显著性的推断都应该从论文中删除。我要求在删除p值的同时也要删除关于统计显著性的评论。如果你不赞成这一标准,你认为应该自由地进行辩论,或者你根本不理会这些而认为这是我的错误观点,那么请你在别处发表12

在Rothman作为副主编的3年任期内,那些仅仅报告p值的论文数量急剧下降。在他离职以后,显著性检验复苏,虽然下一任主编也鼓励研究者要报告置信区间。但是尽管报告了置信区间,很少有研究者在论文中讨论它们或者运用它们得出结论,反而仅仅将它们作为显著性检验12

Rothman还创办了《流行病学》杂志,非常支持统计报告。早期,对显著性检验熟悉的作者会在报告置信区间的同时报告p值,但是10年以后,这些作者的态度就发生了很大的变化,仅仅报告置信区间成为一种常见的实践12

也许那些有勇气的杂志编辑可以以 Rothman 为榜样,并且在他们的领域中改变统计实践。

[1] 是当原假设为真时,比所得到的样本观察结果更极端的结果出现的概率(wiki)。更多讨论参见“统计之都”中相关内容(http://cos.name/2008/12/ p-value-notes/)。

[2] 辑(tautology):是指一些言论,在任何情况下都不可能是错的。说得更严谨一点,套套逻辑不可能被想象为错!举一个例子,假若我说:“四足动物有四只脚。”这怎可能会错呢?句子内的后半部重述了前半部的意思,即使我们花很大工夫也不可能想象到它在怎样的情况下会是错的。在地球上、火星上它不会错,在宇宙任何地方它也不会错。这句话的一般性确实厉害,但内容究竟说了些什么?其实什么也没有说!我们想破脑袋也知道是对的,但不知其内容(转自百度百科,引自张五常《经济解释》神州版卷一第一章第三节《特殊理论与套套逻辑》)。

[3] 我使用二项分布计算出这个结果,在下节中,我还会使用不同的分布,如负二项分布。具体概率分布和计算细节不是本书关注的重点,我们更感兴趣的是如何解释_p_值,而不是如何计算_p_值。


在第1章中,你已经注意到由于没有收集足够的数据,可能会忽略那些真实的效应。例如,你拒绝了具有疗效的新药,或者忽视了重要的副作用。因此,应该收集多少数据才比较合适呢?

统计功效可以回答以上问题。一项研究的功效指的是,它能将某种强度的效应从纯粹的运气因素里区分并识别出来的概率。如果一种药物治疗作用特别明显,那么它的识别就比较容易,而如果疗效轻微,其识别往往比较困难。

设想我的对手有一枚不均匀的硬币。掷出这枚硬币,正面向上或反面向上的概率并不是1/2,相反,其中有一面向上的概率为60%。我和我的对手用这枚硬币赌博,他宣称这枚硬币是公平的,但是我对此强烈怀疑,我应该用什么方法来证明他在欺骗我呢?

我不能简单地连续投掷这枚硬币100次,然后以正面向上次数是否为50次来判断硬币是不是均匀的。事实上,即使是一枚均匀的硬币,也不可能恰恰是50次正面向上。正面向上次数的概率分布如图2-1所示。

图2-1 硬币正面向上次数的概率曲线
(掷一枚均匀硬币(实线)或者不均匀硬币(虚线)100次,正面向上次数的概率曲线,其中不均匀硬币正面向上概率为60%。)

对于一枚均匀硬币,正面向上50次是最可能的结果,但其发生的概率也小于10%,另外有略小的概率得到51次或52次正面向上的结果。事实上,当连续掷一枚硬币100次,正面向上次数落在[40,60]区间内的概率为95%。换句话说,在这个区间之外的可能性较低:只有1%的概率得到正面向上多于63次或少于37次的结果。正面向上90次或100次几乎是不可能的。

一枚不均匀的硬币,其正面向上的概率为60%。连续掷这枚硬币100次,所得正面向上次数的概率分布如图2-1中的虚线所示。均匀硬币的概率分布曲线和不均匀硬币的概率分布的曲线有重合的部分,但是不均匀硬币与均匀硬币相比,更有可能得到正面向上70次的结果。

我们做一点数学计算。连续投掷一枚硬币100次,然后数出正面向上的次数。如果这个次数不是50次,那么在这枚硬币是均匀硬币的假设下,计算产生该结果或者更为极端结果的概率,这个概率就是p值。如果这个p值等于或小于0.05,我们就在统计上显著地认为这枚硬币是不均匀的。

利用p值的方法,我们有多大的可能性发现一枚硬币是不均匀的?图2-2所示的功效曲线回答了这个问题。在图2-2中,横轴表示硬币正面向上的概率,表示硬币不均匀的程度,而纵轴是利用计算p值的方法,得到这枚硬币不均匀结论的概率。

图2-2 功效曲线
(连续投掷硬币100次或1000次两种情况下,假设检验的功效。垂直的线表示一枚正面向上真实概率为60%的非均匀硬币在这两种情形下的检验功效。)

假设检验的功效是指产生统计显著性结果(p <0.05)的概率。对于一枚均匀的硬币,40~60次正面向上的概率为95%,因此对一枚不均匀的硬币而言,检验功效就是指这枚硬币正面向上的次数落在区间(40,60)以外的概率。有3种因素可以影响检验的功效。

我们首先讨论偏差大小对检验功效的影响。如图2-2所示,如果一枚硬币轻微有偏,其正面向上的概率不是1/2而是60%,那么在连续投掷100次后,通过假设检验的方法得到这枚硬币是非均匀硬币结论的概率为50%,也即是说,检验功效为50%。我们有一半的机会,得到正面向上次数少于60次的结果,从而不能判断这枚硬币是非均匀硬币。这表明,仅仅依靠100次投掷数据,并不能把硬币的轻微偏倚与随机误差分割开来。只有当这枚硬币严重有偏,比如正面向上的概率为80%时,我们才能得到其为非均匀硬币的结论,此时检验功效为100%。

这里就有一个问题,即使一枚硬币是均匀的,我们仍有5%的概率得到该枚硬币不均匀的结论。我们的检验把p <0.05作为硬币不均匀的证据,但一枚均匀的硬币也可能得到p <0.05的结果。

幸运的是,增加样本容量可以提高检验功效。图2-2中的虚线说明,如果连续投掷硬币1000次,那么利用假设检验方法很容易识别出硬币是否均匀,此时检验功效明显高于投掷硬币100次时的情形。这是因为,如果连续投掷一枚均匀硬币1000次,正面向上次数位于(469,531)区间内的概率为95%,而正面向上超过600次可能性很低,一旦出现该结果就认为这枚硬币是非均匀的,一枚正面向上概率为60%的非均匀硬币却很可能得到超过600次的结果,所以也就比较容易检测出来。但不幸的是,我们没有时间连续投掷一枚硬币1000次。因此,出于实际考虑,单纯靠增加样本容量来提高检验功效是不现实的。

数出正面向上或者反面向上的次数比较容易,但对其他指标测量就没那么简单了,比如智商。由于问题不同或被测人的心情波动,每次测试的分数会发生变化,从而为智商测量添加了随机噪声因素,使测试分数不能真实反映真正的智商。如果你比较两组受试人员的智商分数,你会发现不仅不同受试者的分数具有正态变异,即使对同一名测试者,测试分数也会随机波动。如果一个测试带有较大的误差,那么统计检验的功效也会降低。

数据越多,我们越容易从噪声中区分出信号。但说起来容易做起来难,科学家没有足够的资源开展具有高功效的科学研究,来检测他们要找的信号,因此在开展研究之前他们就注定会失败。

考虑下面一个试验:在相同条件下,比较Fixitol和Solvix这两种不同的药物,以确定哪种药物更加安全。由于药物的副作用比较罕见,所以即使分别在100名患者身上测试这两种药物,在每一群体里,也只要在少数患者身上产生严重的副作用。正如同我们难以区分两枚正面向上概率分别为 50%和 51%的硬币,如果两种药物的副作用发生率分别为 3%和 4%,那么也难以把它们区别开来。如果有 4 名服用Fixitol的患者产生了严重的副作用,而只有 3 名服用Solvix的患者产生了副作用,此时你并不能得到Fixitol更有可能产生副作用的结论,这是因为此时检验的功效较低。

如果一个试验不能有效地识别出某种效应,那么我们就说这个试验低功效。

你也许认为,对于医学试验而言,计算功效是必需的一个步骤;新药开发人员为了检验一种药物的效果,应确定召集多少名患者来参与这个试验,而通过计算一下功效就可以得到答案。令科学家感到满意的试验的功效是80%或者比这更高,这也就意味着能够有80%或更高的概率检测到一种特定大小的真实效应。

然而,鲜有科学家计算统计功效,也很少有期刊论文提及统计功效。在最权威的期刊《科学》和《自然》上,在开展研究之前计算统计功效的文章少于3%1。实际上,许多试验的结论是:“虽然两组效果具有大的差异,但是在统计上并没有显著性”。这些试验丝毫不提及,可能是因为没有收集到足够的数据,所以它们的功效较低,发现差异却没能得到显著性的结论2。如果有些试验是在比较两种药物的副作用,那么以上错误结论就意味着,两种药物都是同样安全的,而事实上,其中某种药物可能比另一种更加危险。

你也许认为上述问题只在副作用发生概率很低或者副作用影响不大时才会产生。事实上绝非如此。我们收集了1975~1990年在权威医学期刊上发表的一些试验,发现在那些报告没有显著性差异的试验中,约有4/5的试验没有收集足够的数据,来检测治疗组与对照组之间25%的效果差异。也就是说,即使一种药物比另一种药物能将病状降低25%,却由于没有足够的数据,仍然不能作出上述结论。另外,约有2/3的试验的功效较低, 未能检测出50%的效果差异3

在最近关于癌症试验的一项研究中,有类似的结论:在那些得到阴性结论的研究中,仅有一半有足够的功效能识别出主要结果的差异,其他研究均因功效过低没有得到有用发现4。在这些低功效的研究中,只有不到10%解释了为什么选取的样本容量如此之少。类似的低功效问题在医药研究的其他领域也时常发生5,6

以上问题在神经科学的研究中尤为突出。每项神经科学研究收集了过少的数据,以至于平均每项研究只有20%的功效。为了弥补低功效的不足,你可以将研究同一效应的所有论文数据整理在一起进行分析。既然神经科学研究都以动物作为研究对象,因此就产生了伦理问题。如果一项研究功效较低,那么只有完成更多的研究,使用更多的动物作为研究对象,才能发现真正的效应7。伦理道德委员会不应支持开展那些功效较低、不能发现目标效应的研究。

奇怪的是,低功效问题由来已久,但现在仍然非常普遍。1960年,Jacob Cohen分析了发表在《Journal of Abnormal and Social Psychology》8上试验的功效,他发现平均而言,这些试验能够检测出中等效应的功效只有48%[1]。Jacob Cohen的研究被引用上百次,而且类似的评论也接踵而至,一致要求进行试验时需计算功效并扩大样本容量。1989年,一篇评论指出,在Cohen得到以上分析结论后的10年里,平均的研究功效实际上又下降了9!这是因为,研究人员开始意识到多重假设检验问题,而在解决多重假设检验问题的过程中,研究的功效进一步降低了(我们将在第4章讨论多重假设检验问题,那时你将会看到我们必须在研究功效和多重假设检验修正之间做出取舍)。

为什么我们经常忽视功效计算?原因之一是样本大小和功效结果给我们的直观感受不一样。即使在功效极低的情况下,我们经常认为试验对象已经足够多了。举个例子,假如你在测试一项新的心脏病治疗方案,希望将死亡风险从20%降低至10%。你可能会这样想:如果对50名患者采用这项新的方案,没有发现明显差别,那么新治疗方案就没带来多少好处。但是为了使功效达到80%,你实际上需要多达400名患者,每个治疗组里有200名患者而不是50名患者10。临床医生往往未意识到他们的样本容量太小。

在数学上准确计算功效难度较大,甚至有时无法计算,这是忽视功效计算的另外一个原因。在统计课堂上,一般不会讲授计算功效的方法,并且一些商用软件中也没有计算功效的函数。当然,你也可以不用数学而是利用随机模拟的方法计算功效。首先模拟具有你所期待效应的成千上万个数据集,然后在每一个数据集上进行统计检验,得到显著性检验结果的比例就是功效。但是这种方法需要编程经验,而且模拟现实数据也充满技巧。

尽管计算困难,但你可能认为科学家应该注意到了功效问题并试图进行改进:连续5次或6次试验都显示不显著的结果,科学家就应怀疑在某些地方出了问题。然而,一般的研究并不只做单个假设检验而是很多、很有可能得到显著性的结果 11。只要该显著性的结果非常有趣,就可以看成是论文的亮点,这名科学家此时早已忘记研究功效较低的问题。

低功效并非意味着,当科学家们声称两组之间没有显著性差异时,他们在说谎。但是如果认为这些结果表明确实不存在差异,那这就是误导了。差异甚至一个非常重要的差异可能是存在的,只是由于研究的规模太小没能发现这种差异。下面,我们考虑生活中的一个例子。

20世纪70年代,美国许多地方开始允许司机遇到红灯时右转。而在很多年以前,城市道路规划人员认为,允许红灯右转会带来安全隐患,引起更多的交通事故和行人死亡。但是1973年的石油危机促使交通管理部门考虑实施这项政策,因为这样就能减少等待红灯时的汽油浪费。最终,国会要求各州实施该政策,并把它作为一项能源节约措施,就像建筑物隔热有效采光措施一样。

一些研究考察了该政策带来的安全影响。其中,弗吉尼亚公路与运输局的咨询部门对比了政策变化前后,州内 20 个交叉路口的交通事故发生情况。他们发现,在允许红灯右转之前,这些交叉路口发生了 308 次事故,而在允许红灯右转之后,相同时间内发生了 337 次事故。他们的报告指出,虽然事故发生率增加了,但这种差异在统计上是不显著的。在看到这份报告后,公路与运输局的官员写道:“我们可以相信,红灯右转政策并未给汽车驾驶员或行人带来显著的危险隐患”12。显然,官员们把统计上的不显著直接当作现实中的不显著。

后续研究有类似的发现:相撞事故次数略有增加,但并没有足够的数据表明这种增加是显著的。正如一份报告所指出的:没有理由怀疑在实施“红灯右转”后,行人被撞事件的次数增加了。

显然,以上研究均是低功效的。但是越来越多的州和城市开始允许红灯右转,在整个美国这种做法也变得非常普遍。没有人尝试将各项研究的数据整理在一起,形成一个更有用的数据集。与此同时,越来越多的行人被撞伤,越来越多的汽车被撞毁。没有人收集足够的数据来说明这种情况,直至若干年后,一些研究才发现,由于右转,汽车撞毁频率比以前提高 20%,行人被撞的频率比以前高 60%,几乎是骑自行车的人被撞频率的 2倍13,14,[2]

然而,交通安全部门并没有吸取教训。例如, 2002 年的一项研究考察铺砌的路牙对乡村公路交通事故发生率的影响。不出意外,路牙降低了事故风险,但没有足够的数据说明这种下降在统计上是显著的,因此研究人员的结论是,铺砌路牙子的花费是不值得的。他们混淆了不显著的差异和完全没有差异,尽管数据已经表明铺砌的路牙可以改善交通安全12。一个更好的分析的结论似乎应该是这样的,铺砌路牙的好处在统计上是“不显著”的,但是数据表明铺砌路牙确实带来了巨大好处。这就是置信区间的分析方法。

与考虑试验结果的显著性相比,置信区间是一种更合理的结论表述,它可以给出效应的大小。即使置信区间包含0,它的宽度也会告诉你很多信息:一个狭窄的包含 0 的置信区间表明效应可能比较小,而一个较宽的包含 0 的置信区间则表明测量值并不十分精确,因而不足以作出结论。

对于那些与0没有显著差异的测量,物理学家常常使用置信区间给出它们的界值。例如,在搜索基础粒子时,“该信号在统计上是不显著的”这种说法没有意义。相反,对于粒子撞击时的速率,物理学家一般利用置信区间赋给它们一个上界,然后将这个结果与预测粒子行为的已有理论进行比较(促进未来的试验人员建造更大的试验设备来发现它)。

利用置信区间来解释结果为试验设计提供了一种新思路。不再关注显著性假设检验的功效,转而问这样的问题:“我应该搜集多少数据来度量理想精度的效应?”尽管高功效的试验可以产生显著性的结果,但如果其置信区间很宽的话,结论同样难以解释。

每次试验的数据会不一样,所以每次试验得到的置信区间大小也会发生变化。以前是选择一个样本大小以达到某种程度的功效水平,现在我们选择一个样本容量大小,只要使得到的置信区间的宽度小于目标宽度的概率达到99% 即可(这个数字被称为其并没有固定的标准,或者是95%)16

在常见的假设检验里,已经发展出很多依赖于置信度的样本量选择方法;不过这仍然是一个新的领域,统计学家还没有研究透彻17(这些方法的名字是样本估计的精度,英文缩写为AIPE)。统计功效比置信度使用更多,在各领域里统计学家还没有采用置信度。尽管如此,这些方法非常有用。统计显著性经常是拐杖,名字虽然中听,但并不能像一个好的置信区间那样提供多少有用的信息。

假设相对于安慰剂,Fixitol能将症状减少20%。但你的试验样本可能太小,没有足够的统计功效可靠地检测到这种差异。我们知道,小试验常常产生更具有变异性的结果;你很可能恰恰找到10个幸运的患者,他们的感冒时间都较短,但找到10000个感冒时间都较短的患者的可能性基本上为0。

设想不停地重复以上试验。有时你的患者并不是那样幸运,因此你没有注意到你的药物具有明显的改善作用;有时你的患者恰好具有代表性,他们的症状减少了20%,但你没有足够的数据证明这种减少在统计上是显著的,因此你将其忽略;还有一些时候,你的患者非常幸运,他们的症状减少远超过20%,这时你停下试验说:“看,它是有效的!”你把所有的结果画在了图2-3中,显示了试验结果产生的概率。

图2-3 试验结果产生的概率
(如果你重复进行试验,你将会看到试验结果的一个分布。垂直虚线是在统计上具有显著性的效应值。真正的效应值是20%,但你可以发现观测效应值分布在-10%~50%这样一个较宽区间里。只有少数幸运的试验结果是显著的,但是它们都夸大了效应的大小。)

你得到了正确的结论,即Fixitol是有效的。但因为试验是低功效的,所以你夸大了效果的大小。

以上现象被称为真理膨胀,或者M型错误、赢者灾难。这种现象经常发生,尤其在那些进行类似试验争相发表最激动人心结果的领域经常见到,例如药理学试验、流行病学研究、基因关联研究、心理学研究等。在那些引用最多的医学文献里以上现象也比较常见18,19。在快速发展的领域,比如基因研究,早期论文的结果常常比较极端,这是因为期刊很愿意发表这样新的、令人振奋的结果。相比较而言,后续研究的结果就不那么夸张了20

就连《自然》和《科学》这样的顶级期刊,也喜欢发表具有开创性理论成果的研究论文。这些开创性成果一般意味着大的效应,往往是在鲜有人研究的、比较新奇的领域里产生的。这是慢性真理膨胀与顶级期刊的完美组合。已有证据表明,期刊影响因子和其发表的“激进”研究具有相关性。那些结论不怎么令人振奋的研究更接近于真理,但是大多数的期刊编辑却对其不感兴趣21,22

当一项研究声称在小样本下,发现了一个大效应时,你的第一反应不应是:哇哦,他们发现了这么有趣的现象!而应是:他们的研究可能是低功效的23!来看一个例子。从2005年起,Satoshi Kanazawa发表了一系列关于性别比例的论文,最后一篇论文的题目是“漂亮父母会生更多的女儿”。他出版了一本书专门对此进行讨论,书中涉及其他一些他发现的“政治上不正确的真相”。这些研究在当时非常流行,尤其是因为Satoshi Kanazawa所得到的惊人结论:最漂亮父母生女儿的概率是52%,最不漂亮的父母生女儿的概率是44%。

对生物统计学家而言,一个微弱的效应——如一个或两个百分点,具有重要的含义。Trivers–Willard假设认为:如果父母有某些特点,更容易生出女孩,那么他们就会有更多的女孩,反之亦然。如果你认为漂亮的父母更容易生出女孩的话,那么平均而言,这些漂亮父母就会拥有更多的女儿。

但是Kanazawa得到的结论比较特殊,后来他也承认在分析中有些错误。基于他所收集的数据,修正之后的回归分析表明,漂亮父母拥有女儿的概率确实比平均水平高4.7%,但这只是一个点估计,这个差距的置信区间是(−3.9%, 13.3%),0在这个区间内部23。这说明,虽然Kanazawa采用了3000对父母的数据,但结果在统计上仍然是不显著的。

需要大量的数据才能可靠地识别出微小的差异。例如一个0.3%的差异,即使有3000对父母的数据,也不能将0.3%的观测差异与随机误差区分开来。在3000的样本容量下,只有5%的可能性得到在统计上显著的结果,而且这些显著性的结果已经将效应值(0.3%)夸大了至少20倍,并且约有40%的可能得到的显著性结论恰恰相反,即认为漂亮父母更有可能生男孩23

因此,虽然Kanazawa进行了完美的统计分析,但他仍然高估了真实的效应。按照他的做法,他甚至还可以发表这样的论文:工程师会有更多的男孩,护士会有更多的女孩[3]。他的研究无法识别预想大小的效应。如果他在研究之前进行一个功效分析的话,可能就不会犯这种错误了。

因为小规模、低功效研究的结果变异性很大,所以产生了真理膨胀的问题。有时你非常幸运,得到一个在统计上显著却夸大其辞的估计结果。除了显著性检验分析,在其他分析中,较大的变异性也会带来麻烦。来看一个例子。假如你负责公立学校的改革,作为最优教学方法研究的一部分,你想分析学校规模大小对学生标准化测验分数的影响。小学校是否比大学校更好呢?应该建立为数众多的小学校还是建立若干所大学校?

为了回答以上问题,你整理了表现良好的学校的一个列表。普通学校平均有1000名学生,你发现最好的10所学校学生的数目均少于1000。这似乎意味着,小学校做的最好,原因可能是因为学生少,老师可以深入了解每个学生并有针对性地帮助他们。

然后你又看了一下表现最差的学校,这些学校都是一些拥有成千上万学生、超负荷工作老师的大学校,与你的预想恰恰相反,这些最差的学校也是一些小学校。

为什么?现在,看一下测试分数与学校规模的散点图,如图2-4所示。小学校学生少,所以他们的测试得分有很大的变异性。学生越少,就越难估计出一个学校的真实平均水平,甚至少数几个异常的分数就会使一个学校的平均水平发生大的偏差。当学校的规模变大时,测试分数的波动变小,平均分数有上升趋势24

图2-4 分数与学校规模的散点图
(学生越多的学校,测试分数的波动程度就越小。这些数据是基于宾州公立学校的真实观测数据模拟得到的。)

来看另外一个例子:在美国,肾癌发生率最低的县往往位于中西部、南部和西部的农村地区。为什么这样?也许是因为农民干农活锻炼了身体,或者是因为他们一直呼吸免受污染的空气,还可能是因为他们生活压力很小。

但是,我们发现那些具有极高肾癌发生率的县也往往位于中西部、南部和西部的农村地区。

为什么这样?这是因为,农村地区的县人口特别少。如果一个县有10个居民,而其中有一位患有肾癌,那么该县的肾癌发生率就是最高的。由于人口特别少,这些县的肾癌发生率具有很大的波动性,其置信区间往往也会很宽25

应对以上问题的常用方法是压缩估计。对于那些人口很少的县,你可以将他们的癌症发生率与全国水平做一个加权平均,从而使得过高或过低的癌症发生率向全国平均水平收缩。如果一个县的居民特别少,那么在加权平均时应该为全国水平赋一个较大的权重,而如果一个县的居民较多,那就为该县的癌症发生率设定较大的权重。在癌症发生率地图的绘制以及其他一些应用中,压缩估计是一种普遍的做法[4]。不过,压缩估计会不加选择地改变结果:如果一个县的人口较少,但是其癌症发生率确实很高,压缩估计往往会使得最后的估计结果接近全国水平,完全掩盖了这个县的真实情况。

处理以上问题并没有万全之策。最好的做法就是完全回避它:不按照县的划分来估计发生率,而是按照国会选区进行计算,这是因为在美国每个国会选区的人口都大致相当,而且远远多于一个普通县域的人口。不过,国会选区在地图上的形状往往奇形怪状,不如县域那么规则,所以基于国会选区得到的癌症发生率地图,虽然估计比较准确,但却难以解释。

而且,让各个单元都有相同样本大小的做法并不总是奏效。例如,在线购物网站在对商品进行排序时,其依据是顾客的评分,但此时并不能保证参与各种商品评分的顾客数目都是一样的。又如,在像reddit这样的论坛网站上,一般会按照网友的评价对帖子进行排序,但是有的帖子有很多人评价,而有的帖子评论人寥寥可数,这与帖子发布的时间、地点和楼主有很大的关系。压缩估计就可以应对以上情况。购物网站可以将每个产品的评分与总体水平进行加权平均。这样,鲜有人评分的产品默认是平均水平,而有大量顾客评分的产品可以按照它们各自的平均评分进行 排序。

另外,reddit网站上的帖子并没有评分机制,跟帖的人只能表示赞成或反对。为了对帖子进行排序,一般会求得这个帖子支持率的置信区间。当帖子的跟帖很少时,置信区间会很宽,随着跟帖的人越来越多,置信区间就会越来越窄,最后集中到一个确定的值(例如,70%的跟帖喜欢这个帖子)。新帖子的排名往往垫底,但随着跟帖人越来越多,其中质量较高的帖子置信区间变得越来越窄,不久就会上升到前面。并且,由于帖子是依据支持率而不是跟帖数目进行排序的,所以新帖子也完全可以和具有大量跟帖的帖子竞争26,27

注意事项

[1] 如果两个试验组之间具有0.5个标准差大小的差异,Cohen就把这种差异称为中等大小的效应。

[2] 需要注意的是,由于红灯右转带来的交通事故所造成的人员伤亡总数是很少的。红灯右转带来了更多的交通事故,但是从整个美国来看,增加的伤亡人数不超过100人15。尽管如此,因为统计上的错误,红灯右转这项政策每年仍会使数十人丧生。

[3] Kanazawa在2005年的《Journal of Theoretical Biology》上确实发表了这篇文章。

[4] 当然,“压缩估计”不等于简单地加权平均,在统计分析中,有更为复杂的压缩估计方法。


相关图书

算者生存:商业分析的方法与实践
算者生存:商业分析的方法与实践
数据结构与算法(Rust语言描述)
数据结构与算法(Rust语言描述)
R语言医学多元统计分析
R语言医学多元统计分析
Python数据分析(第3版)
Python数据分析(第3版)
Python数据分析入门与实战
Python数据分析入门与实战
Python贝叶斯分析(第2版)
Python贝叶斯分析(第2版)

相关文章

相关课程