1. 首页
  2. 数据分析

【数学】统计:P值只是冰山一角

点击上方免费订阅(学习)

【数学】统计:P值只是冰山一角

没有哪个统计值比P值更富于争议了,数百篇博客和论文围绕许多统计学家嗤笑的“零假设显著性检验”展开。(null hypothesis significance testing:零假设显著性检验,NHST,比如这篇: go.nature.com/pfvgqe)。NHST认为一个数据分析的结果是否有意义基于一个汇总统计值(比如P值)是否能够通过检验。二月的《基础和应用心理学》杂志上禁止了NHST理论(和所有的统计推断),这理所当然的被视为一个胜利。这样的禁令实际上对于学术刊物的质量影响微小。一个成功的研究需要许多步骤的设计和分析(详见“数据管道”),这些步骤的最后一步是计算一个推断统计值,比如P值,并且对它实行一种“决策规则”,比如P<0.05,在实践中,这么做使之前的数据分析对最终结果有更大的影响——从实验设计到批效应,混淆变量的调整不足,或者简单的测量误差。统计意义上的显著可以通过清洗数据、汇总数据、为数据建模等方法实现。P值是一个容易的目标:被广泛使用,被广泛滥用。但是如今取缔统计意义上的显著性打开了一扇大门,人们使用更多的方法去戏弄统计学——有意的或无意的——来得到统计结果。使用贝叶斯因子或其他统计值来替换P值得最终目的在于选择不同的方法衡量统计结果的可信或不可信。争论P值就像专注于一个单词的拼写错误,而不是一个句子的逻辑错误。更好的教育是一个开端,就像负责做DNA测序和遥感的人们必须接受关于如何使用机器的培训一样,负责做数据分析的人们也必须接受关于相关软件和概念的培训。监管数据分析的研究人员也应当被他们的资助机构和事业单位要求接受有关一个数据分析中输出和潜在问题的完整培训。有专为解决这一危机的在线课程。例如,由约翰霍普金斯大学,马里兰和数据艺术提供的数据科学专业,该专业可以很容易地将训练和研究结合到一起。如今学习和特定学科相关的计算工具变得越来越容易——比如,Bioconductor,Galaxy和Python方面的培训包含在约翰斯霍普金斯大学的基因组数据科学专业的学习课程中。但光有教育是不够的,数据分析知识通过一种学徒模式被传授,并且不同的学科有它们自己独特的分析文化,最终决策基于一种特定学科的学科习惯,而不是实验证据。比如,经济学家把随着时间测量的数据称为“面板数据”,通常应用混合效应模型来分析它,生物医学家却把这种数据叫做“纵向数据”,总是在广义估计方程中使用它。统计研究主要集中在数理统计上,被涉及到数据分析的行为和过程排除在外。为了解决更深层次的问题,我们必须研究人们如何在现实世界中进行数据分析。是什么让他们成功?又是什么让他们失败?已经完成的可视化和风险评估实验可以用于对比评价人们是如何感知数据统计结果,并和它们交互的。最近,我们和其他人一直在研究整个分析管道,我们发现最近受训的数据分析师并不知道怎么从成块的数据中推断P值,但是他们可以通过练习会习如何做。数据分析师的最终目标是基于证据的数据分析。这类似于循证医学,它提倡医生仅针对已被证明疗效的医治方法使用对照试验治疗。统计学家和他们的学生需要停止争论P值,并阻止冰山的其他部分随着P值下沉。

【数学】统计:P值只是冰山一角

作者:Jeffrey T. Leek& Roger D. Peng

PPV课翻译小组作品,未经许可严禁转载。

【数学】统计:P值只是冰山一角

PPV课-国内领先的大数据学习社区和职业培训平台,欢迎关注!

数据驱动未来,我们开启智慧!

原文始发于微信公众号(PPV课数据科学社区):【数学】统计:P值只是冰山一角

原创文章,作者:ppvke,如若转载,请注明出处:http://www.ppvke.com/archives/14704

联系我们

4000-51-9191

在线咨询:点击这里给我发消息

工作时间:周一至周五,9:30-18:30,节假日休息