《数据科学与大数据技术》训练营: 初级以统计分析为主,工具是R语言;中级是大数据处理+算法+python 课程以实战为主,50%的内容是案例和练习,学完就可以上手http://www.ppvke.com/Blog/archives/45839

因果与相关之争

大数据 PPV课 240℃
Blog Picture

因果关系与相关关系的异同

因果关系和相关关系在分析过程中应用广泛。 然而,一部分人在不了解两种方法的支撑逻辑时往往将两种关系等同看待。 显然,人们被困于因果和相关的内在联系而不能正确的使用它们。 虽然在英文发音上两者比较近似,但其适用分析的现象却大有不同,它们基本的含义也有很大区别。

为了理清楚因果与相关关系的区别,我们下面进行一些小小的测验。分析以下例子中的现象, 然后判断在两个事务(X 和 Y)之间是否存在必然因果关系。答案在测试后公布。

例1: X:学生受教育的等级 Y:毕业后的薪水

前提:学校B学生毕业后拿到的平均工资更高,接受学校B的教育是导致工作较好的原因吗?

1

例 2:X: 吸烟 Y:精神压力水平

前提: 吸烟的人精神压力水平较大,那么吸烟会产生压力吗?

2

例3:X:有孩子 Y:成熟水平

前提:有孩子的人更加成熟,有孩子是成熟的原因吗?

3

例4:X:海拔 Y: 高度

前提:海拔越高的地方我们感觉越冷。这是不是意味着海拔是导致温度低的原因?

4

我希望上面的例子已经激发了你阅读本文的热情。 虽然,因果与相关的区别是一个老掉牙的话题,但是人们依旧不能很好的掌控这些术语。 本文将试图通过最简单的方式解释因果和相关关系。

在这篇文章中,我将通过了解是否只有相关关系或者存在必然因果关系来区分因果关系和相关关系的区别。 考虑到我们往往采用黑箱操作进行分析,所以想让分析基础更牢靠的话,了解这些概念是非常必要的。 一些技术并没有展现在分析中,但它们的应用却贯穿整个工业。

测试答案:

例1:必然因果关系不存在。例如,如果只有天赋比较高的人才会有机会接受B学校的教育,而天赋比较高的人更容易获得高的薪资水平。因此这些高智商的小伙伴即使不接受B学校的教育也能得到很高的薪水。所以薪水高有其他备选因素。

例2:必然因果关系不存在。我们可以基于逆因果关系来否定该命题。例如,压力大导致一个人吸烟。

例3:必然因果关系不存在。同样我们可以采用逆因果关系来否定该命题。例如:成熟的人才准备要孩子。我们也可以将成熟与否归结于年龄。年龄越大,越倾向于要孩子,也越来越成熟。

例4:必然因果关系不存在。再用逆因果关系来分析该命题有些不可能。可通过相互独立关系和备择原因分析来拒绝该命题。

那么什么是建立必然因果关系的关键呢?

  1. 备择原因:如果备择原因(Z)既影响X又影响Y(即Z=>X &Z=>Y同时成立),则拒绝X是导致Y的必然原因。
  2. 逆因果关系:如果不是X影响Y,而是Y影响X,则不能推出X是导致Y的必然原因。
  3. 相互独立:一些时候,X与Y之间可能只是单纯的相关而没有任何因果联系。

怎样提取因果关系带来的影响呢?

在很多领域(例如制药),研究因果效应非常中重要。在阐述方法前,我们先了解一些定义:

  1. 随机试验数据:一个试验定义为给不同的条件分配观测单元。条件的不同往往是对观测单元的控制手段不同。通过试验获得的数据为随机试验数据。
  2. 观测数据: 很多时候进行随机试验是一种奢侈,我们只能获得已有的数据资源。这些数据已经产生,并且不能设定发生条件。

提取观测数据中的因果效应是非常难且不确定的。为得到确定的因果关系,我们需要进行随机试验。

为什么观测数据不能确定其因果关系呢?

  1. 观测数据的获得不是随机的,我们不能总结出其中的因果效应
  2. 举个例子来说,学生从学校B毕业会有高薪资水平,这不能表示薪资水平与接受B学校教育的因果关系,因为接受B学校教育是有前提的。
  3. 如果我们随机的选择学生去参加B学校的教育,那么接受B学校教育和薪资水平之间的因果关系才比较牢靠。

为什么不能总是进行随机试验呢?

  1. 有时试验成本非常昂贵。
  2. 很多时候,并不是所有的试验都可以进行。例如你想知道抽烟是否会产生压力,这样你需要迫使正常的人吸烟,这往往是不能实现的。

在这些情况下,应如何利用观测数据进行因果效应提取呢?

针对观测数据的因果效应提取有很多研究。大部分研究的目标是消除未知因素的影响。在这里我将罗列一些被广泛应用的方法。

1、 面板模型:如果未观测的变量在某一维度上是不变的,那么这个方法将非常简单。例如,如果未观测的变量不随时间发生变化,我们可以建立面板模型用以剔除其他未观测因素的影响。B学校=>高薪资的例子中,我们假设所有其他因素不随时间变化。然后进行如下处理:

(1) 将薪资y对优质学校(用上标T表示)以及未观测因素(用上标U表示)做回归。

8

(2) 未观测因素不随时间变化,简化模型如下:

9

(3) 差分剔除未观测因素的影响:

10

得到接受优质学校教育和薪资水平的因果关系系数。

2、 模拟控制:观测数据最大的问题在于我们没有获得控制样本和非控制样本。以吸烟的例子来说,一个人不能同时吸烟又不吸烟。

但是,如果我们找到控制样本的对应的非控制样本,比较相对应的观测数据,将有助于提取因果效应。这是工业生产中运用的最多的方法。

对应的非控制样本可以采用最近邻法则,k-d 树,或其他方法获得。让我们来举一个例子,设有两组相同年龄、性别和收入等的人。一组开始吸烟,另一组不吸烟。在其他条件不变的情况下,一段时间内两组人员的压力水平可以进行比较。

5

虽然,上述方法在理论上听起来非常鼓舞人心,但是只改变一个变量而其他变量不变的对应样本非常难以获得,这往往导致因果效应的提取错误。这将在以后更深入的文章中进行讨论。

3、 工具变量法(IV):这也许是我将介绍的最困难的方法。步骤如下:

(1)找到原因结果对

(2)找到一种因素与原因因素有关但与结果因素对原因因素回归得到残差无关。这种因素被称为工具变量。

(3)用工具变量估计原因变量

(4)用估计的原因变量回归结果变量,得到真实的原因与结果对之间的因果相应

6

在观测数据中,采用回归分析方法得到的原因因素和结果因素之间系数关系是有偏的。采用工具变量法,可以得到一个无偏的系数估计结果。在吸烟与精神压力的例子中,我们认为可能存在逆向的结果。如果我们可以找到和烟草消费量有关和精神压力无关的变量,也许我们能获得吸烟与精神压力之间真实因果关系。例如,我们发现监管税会提高烟草的价格并降低烟草的消费。那么我们可以将监管税作为工具变量而研究吸烟和精神压力之间的关系。

4、 回归的非连续性设计:这是我(作者非译者)最喜欢的方法。该方法使得观察数据接近随机试验数据。

在下图中,存在控制条件与非控制条件在人口比率上的一个断点。假设我们想检验奖学金对学生成绩的影响。注意,奖学金一般提供给预科考试成绩在80%以上的学生。这里将会产生一个扭曲。例如聪明的学生将继续他们的智慧。因此将非常难剥离出奖学金与后期考试成绩的关系。

7

但是,如果我们只比较成绩稍微低于80%(比如79.9%)和成绩稍微高于80%(比如80.1%)的学生,将产生不一样的结果。假设成绩在79.9%与成绩在80.1%的学生的差异不明显。唯一影响他们后期考试成绩的只有奖学金这一个因素。这样的研究就类似于随机设计实验中的控制变量法了。

采用该方法将很好地推断出因果效应。不过,获得一个有断点的维度是非常的困难。

翻译:F.xy

原文作者:TAVISH SRIVASTAVA

原文链接:http://www.analyticsvidhya.com/blog/2015/06/establish-causality-events/

转载请注明:人人都是数据咖 » 因果与相关之争

喜欢 (0)or分享 (0)