🔍
Is Most Published Research Wrong? - YouTube
Channel: Veritasium
[2]
2011年, 很有声誉的期刊<<人格与社会心理学>>发表了一篇文章
[7]
“感知未来:对过去的认知和情感造成异常影响的实验证据”
[14]
换句话说
[15]
人们可以看到未来的证据。这篇论文报告了九个实验
[20]
其中一个是给志愿者展示电脑屏幕上的两个窗帘
[23]
并要求志愿者预测哪一个窗帘的后面有图片,
哪一个后面只有空白的墙
[28]
当志愿者作出选择后,
[30]
电脑会随机将一个图片放到其中一个窗帘后面
[33]
然后拉开志愿者选择的窗帘,露出图片或者白墙
[37]
图片随机选自三个分类:中性,负面,和色情。
[43]
如果志愿者选择了背后有图片的窗帘,那就记为一次命中。
[48]
现在场景是两个窗帘,图片随机地藏在其中一个后面,
[52]
你会觉得预计命中率约为 50%
[55]
这正是研究人员发现的,
至少对于负面和中性的图片是这样
[60]
然而对于色情图片,命中率却达到了 53%。
[64]
这是不是意味着我们可以看到未来?
这么小的偏差有显著性吗?
[69]
为了评估显著性,科学家一般使用 p 值,
[73]
这个统计值来用来说明的是,至少在多极端情况下,
零假设才会被当做真的。
(零假设的内容一般是希望能证明为错误的假设)
[78]
此例中的零假设是:人们并无法看到未来,而 53% 的结果只是归功于幸运的猜测。
[84]
对于这项研究,p 值为 0.01 意味着只有百分之一的几率
[89]
只通过简单的运气获得 53% 或更高的命中率
[93]
p 值小于 0.05 的研究通常被认为是“显著”的
[96]
从而值得发表。
[98]
但你可能要设置一个更高的阈值才能接受
人类能准确地预测未来这种事情
[103]
比如说,邀请这项研究的研究员到你的新闻节目
[106]
但是,这其实是你来决定的
[108]
归根结底,在 Ronald Fisher 1925 年出版的书中,0.05 也只是个他武断地选定的一个阈值而已
[115]
但是这带来了一个问题:
有多少已发表的研究文献是其实是错的?
[120]
直觉告诉我们答案似乎是百分之五。
[123]
如果每个人都使用不到 0.05 的 p值
作为统计显著性的的界限
[126]
那么每100个结果中有5个都是误报
[131]
但遗憾的是,这很糟糕地低估了问题,原因如下
[136]
想象一下,你是一个领域的研究员
那里有一千个假设
[140]
目前正在被研究中。
[142]
我们假设其中百分之十是真的存在相关性
[144]
而剩下的则是没有相关性的,
但当然没有人知道这是哪个真哪个假
[147]
当然啦,这就是为什么我们要做研究
[149]
现在假设每个实验都是精心设计好的
[152]
那这些实验应该能正确地找到这 100 个真
相关关系中的大概 80 个
[156]
这被称为 80% 的统计功效。
[160]
而 20% 是假阴性,可能因为样本数量太小
(假阴性:本来是正确的被误判为错误)
[165]
或者测量精细度不足
[167]
现在再考虑一下,在那 900 个假相关的的假设中,使用 0.05 的 p 值
[172]
45 个假的假设就会被错误地误判为真的
[176]
至于其余的,他们将被正确识别为假的
[179]
但是大部分的学术期刊很少发布不相关的结果的研究
[182]
取决于不同的领域,这些研究只占到 10%-30%,
这意味最终发表的结果中
[187]
将只包括 80 个真实的正确结果,40 个假阳性结果
(假阳性:本来是错误的被误判为正确)
[191]
还有大概 20 个真阴性结果
(真阴性:本来是错误的被正确判定为错误)
[195]
也就是说,即便学术系统正常工作,也大概会有三分之一发表的结果是错的。
[200]
如果统计功效不足,结果还可能会更糟糕
[203]
分析表明一般的确如此,
如果 假-真 假设的比率更高
[209]
又或者研究人员有偏见
[212]
所有这些都在一个 2005 年标题为“为什么大多数已发表的研究都是假的”的论文中被指出
[217]
所以,最近,一些领域的研究人员在试图
[221]
重现一些以前的结果来量化这个问题
[224]
Reproducibility Project 重复了一百个
心理学的研究,发现只有
[228]
百分之三十六在第二次重复时依然有统计学意义
[232]
而测量的相关程度平均也只有原始研究的一半
[237]
一个尝试验证 53 项标志性的癌症基础科学研究结果的项目中
[242]
只有六个能够重现原作
[244]
这些甚至还是和原作者一起尝试的
[247]
这些结果比我刚刚计算的还要糟糕
[250]
对于这一点,2015 年有一个研究很好地说明了这一点
[254]
研究表明每天吃一块巧克力
就可以帮助你更快减肥
[258]
在这个研究中,参与者被随机分配到三个治疗组之一:
[262]
第一组进行低碳水化合物饮食,第二组进行
相同的低碳水化合物饮食加每天 43g 巧克力
[268]
第三组是对照组,被要求保持正常饮食习惯就好了
[272]
实验在三周后结束
[273]
对照组的体重不增不减,
但低碳水化合物组平均每人减掉 2.3kg
[280]
而巧克力组的减肥速度则比不吃巧克力的组要快 10%
[286]
这个发现是统计学上显著的,因为 p 值小于 0.05
[290]
正如你猜到的一样的,这个新闻
像野火一样蔓延
[293]
传到了 Bild 的头版,欧洲最广泛的日报
[297]
并进入Daily Star,Irish Examiner,
到 Huffington Post 甚至是 Shape Magazine
[302]
不幸的是,这整个都是伪造的,从某种意义上。
我的意思是研究人员
[307]
完全像他们描述的一样进行实验,但他们故意设计实验
[312]
来增加它的 假阳性 的可能性:样本非常小
[316]
每个治疗组只有 5 个人,每个人则被测量追踪了 18 个不同的指标
[322]
包括:体重,胆固醇,钠,
[324]
血蛋白水平,睡眠质量,
幸福度,等等
[328]
所以如果减肥没有显示出显着差异
还有很多其他因素可能有
[332]
所以那时报纸头条就可能是“巧克力降低胆固醇”或
[336]
“提高睡眠质量”之类的了
[339]
重点是:p 值只对单一指标有效
[343]
一旦你比较了一大堆变量
[346]
其中一个变量给你一个假阳性的概率就大大提高了,
这被称为“p-hacking”。
[351]
研究人员在其分析中可以采取很多手段来降低 p 值,
[355]
例如说你在分析你的数据时,
你发现结果刚刚达到统计显著性,
[360]
所以你决定收集更多的数据点,
来使你更确信 p 值确实降到 0.05 以下了
[364]
如果 p 值跌到 0.05 以下,
你就停止收集数据,
[367]
你觉得如果确实有相关性的话
额外的数据点也只会使结果更加显著
[373]
但是数值模拟表明
[375]
如果不断增加数据点,
这个相关性有可能会越过统计学显著的阈值,
[380]
但如果样本数量更多时,结果却显示并没有相关性
[384]
事实上,有很多方法可以增加显著结果的可能性
[388]
例如:设置两个因变量,增加更多的观测
[392]
控制性别,或者放弃三个条件中的一个
[396]
结合这三种策略总共能增加超过 60% 假阳性的可能性,
[402]
而这只是使用了 0.05 的 p 值
[405]
现在,如果你认为这个问题只出现在心理学,神经科学或医学上
[409]
那可以参考一下“五夸克”的发现,
一种由五个夸克构成的神秘粒子
[414]
不是像质子或中子一样由三个夸克构成。
[416]
粒子物理学使用了特别严格的统计显著性
[421]
称为 5-sigma,来获得获得 350 万分之一的假阳性
[425]
但 2002 年一个在日本的实验找到了
[429]
Theta-plus 五夸克,并在两年内
由 11 个独立的实验
[434]
共同找到了该五夸克存在的证据
[437]
并具有非常高的统计学显著性。
[440]
从 2003 年7 月到2004 年 5 月,平均每隔一天都有一篇
关于五夸克的理论论文发表
[447]
直到最后,这个发现被证实只是假阳性:
[450]
在一个试图使用更大统计功效来证明五夸克的实验中,却没有找到任何其存在的痕迹。
[457]
问题出在前面那些科学家
并不是无目的地在生成的数据中寻找结果
[461]
他们已经知道数据是怎么生成的,
以及自己在找怎样的答案,
[465]
以至于数据被有意识地剪切和分析,
或者被 p-hack,乃至产生了错误的发现
[470]
大部分科学家并不是恶意 p-hack 研究结果的,
而且关于数据收集分析报告的决策也受实际情况所限
[477]
这些决策最后会影响结果的显著性
[480]
在一个实验中,29 个不同的研究小组收到了同样的一批数据
[483]
并被要求判定是否黑皮肤球员有更大可能被罚红牌
[488]
使用完全相同的数据,
[490]
有一些小组发现并没有显著影响
[493]
而另一些小组得到的结论是黑皮肤球员被罚红牌的可能性高达三倍
[498]
所以说,数据并不会为自己说话,只有人才能诠释数据
[502]
看看那些结果
[503]
看起来好像黑皮肤球员更可能被罚红牌
[506]
但当然没有三倍这么夸张。
[509]
在此例中,我们能从多个研究组的结论中获得一定共识,
[511]
但是大多数研究中,只有一个研究组提供数据的分析,
这里就涉及到了激励问题
[517]
科学家们有很大的动力来发表论文,
事实上,他们的职业生涯依赖于它
[522]
正如一位科学家 Brian Nosek 所说:
[524]
“发表错误的研究是不需付出代价的,
但是研究不被发表的代价却很大”
[529]
科研期刊更喜欢发表达到统计显著性的研究结果
[533]
因此,如果一种数据分析的方法更容易产生
[536]
小于 0.05 的 p 值,那么你会更可能使用那样的方法
[539]
出版商也更喜欢发布新颖和出乎意料的结果
[542]
这鼓励了研究人员去研究愈来愈离谱的假设
[547]
以至于进一步减少了检验真伪相关可能性的比例
[551]
那么“重现”呢?科学的进程不就是通过让其他科学家重现初始的结果来自我修正错误吗?
[558]
理论上没错,但在实践中就复杂多了,
举前面的预知实验为例
[564]
三个科学家尝试过重现这些实验,他们发现什么?
[569]
好吧,不出意料,他们得到的结果是
猜准的命中率和乱猜并没有显著区别。
[573]
但当他们试图将自己的研究结果
发表在原始论文的同一个期刊上时
[578]
这些论文却被拒绝了,期刊不想发表重现的研究
[583]
所以,如果你是一个科学家,那么成功的策略很清楚
[586]
根本不要试图重现别人的研究,
因为很少期刊会愿意试图发布这些
[590]
而且反正很大可能你的结果并不会像原论文一样达到统计学显著,
[595]
而且还不一定能说服别人
这个效应没有可重复性,
[600]
还可能被责怪只是你自己的研究有问题
[603]
所以一个更好的方法是去测试新颖而出乎意料的假设,然后用一些 p-hack 的手段得到
[609]
统计学显著的结果。
[613]
我并不想对这种现象太过于愤世嫉俗,最近十年开始这个现象已经开始有所改善了
[617]
很多科学家承认了我上面说的问题,
并且开始试图纠正错误
[621]
这十年以来,科学家进行了很多大规模的重现研究
[626]
还有一个网站“Retraction Watch”,
致力于公开被撤回的论文
[631]
网上也有一些数据库专门记录无法被发表的证否结果
[635]
而且现在也有一个趋势,
[637]
在实验之前先将研究的假设和方法交由同行审议,
[641]
来保证研究一定会被发布,无论结果如何
[644]
只要研究按照流程进行就可以了。
[647]
这消除了为了发表论文产生的偏见
[649]
促进了更高功效的研究,减少了研究人员 p-hack 的动机
[653]
我觉得关于科学可重现性危机最让人触目的不是
不正确的信息在出版的科学期刊盛行
[661]
毕竟探究科学的真相很难,
[664]
从数学上讲也不可能每个发布的科研结果都正确
[668]
让我最触目的是即便我们已经尽我们所能
[671]
使用了我们在科学上最严谨成熟的数学工具
[675]
同行审议,乃至实验的标准化,
我们依然会如此频繁地出错
[679]
当我们没有使用科学的方法时,
我们会多么频繁地自欺欺人?
[685]
虽然我们的科学还有这么多缺陷,
[687]
科学也已经是我们获得知识最好的方式了,
远远比我们其他方式要靠谱
[697]
这期“真理元素”由 Patreon 上的个人赞助,还有 Audible.com
[702]
Audible.com 是在线有声书籍的领先提供者
[705]
拥有上万本不同领域的书籍,包括小说,非小说和期刊
[711]
Audible 对看这个频道的观众提供 30 天的免费试用
[714]
访问 audible.com/veritasium
让他们知道你是从我这来的
[718]
我推荐 Andrea Wolf 著的《自然的发明》
[722]
这是 Alexander von Humboldt 的传记,
他是一个冒险家和博物学家
[727]
他激励达尔文登上了英国海军的小猎犬号。
你可以访问 audible.com/veritasium
[732]
下载这本或者任何你想读的书,享受一个月的免费试用
[736]
所以一如既往,我想感谢 Audible 对我的赞助,
[738]
以及非常感谢你的观看
Most Recent Videos:
You can go back to the homepage right here: Homepage





