PPV课 《数据大咖秀》第7期:PB级数据如何提取和处理?如何做好海量数据架构设计?PB级大数据专家胡老师为你点解迷津。免费参加,扫码报名-http://www.ppvke.com/Blog/archives/40405

相关关系和因果关系

大数据 PPV课 54℃

17

相关关系和因果关系
今天在一本杂志上面看到一个小短篇《左撇子更能赚钱》,想要说明的是一些科学家进行了一些研究,然后发现左撇子赚的钱平均值比习惯用右手的人高10%,并且举出了克林顿和洛克菲勒作为例子。

我想这篇文章的作者是混淆了两个因素之间的相关关系和因果关系。所为因果关系,是指某个因素的存在一定会导致某个特定结果的产生。而相关性是统计学上的一个概念,是指某个因素的变化会导致另外一个因素的变化,但是这个因素的变化是不是另外一个因素变化的原因,是不能被确定的。打个也许不是很恰当的比方,天气冷和下雪。下雪的时候通常会伴随着气温的下降,但是究竟是气温下降导致了下下雪呢,还是下雪导致了气温下降,这是需要进一步研究的。

那再回到这个列子来看一下:“因为是左撇子,所以更能赚钱”这个论点能够成立吗?显示从目前的数据来看,还是不成立的。要不然,岂不是所有的CEO们在读MBA之前,先把自己培养成左撇子不就可以了?


相关性和因果关系趣味会计 2010-03-30 16:41:07 阅读17 评论0 字号:大中小
相关性:我们在观察某个研究对象时,如果发现,它的变化总是与另一个对象的变化同步,那我们就说这两者是相关的。教科书中对相关性含义的解释是,变量A的变化总是伴随变量B的变化,则说A和B是相关的。

需要注意的是:教科书的解释中,用的是伴随。如果说变量A的变化,总是引起变量B的变化,则它们不仅有相关性,而且这种相关性是由于它们之间存在一种因果关系。

“伴随”和“引起”有什么区别呢?请看下面的例子。

夏天,太阳镜的销售量和雪糕的销售量是存在相关性的,但是,这不是说因为太阳镜卖多了,雪糕就会卖的多。它们呈相关关系,仅仅是因为它们受同一因素——日光辐射强度——的影响。它们都是日光辐射强度的共同的果。

不存在因果关系,但存在相关性,还可能是因为偶然原因,或者因为各种条件下限制,掌握的信息不全所致。例如,今年流行一个说法,说汶川大地震、海地大地震和智利大地震的日期,横排、竖排都是那三个日期。

这其实就是一种巧合。如果我们收集近几年发生的地震的日期,就会发现这纯属巧合,其间并没有一定的因果关系存在。


相关关系与因果关系

         ——《教育研究的哲学》读书笔记(7)

     

                  王晓春

……事实上,常常有人说,我们可以确定的所有关系都是相关关系,但我们无法得出因果性结论。但是,在相关关系和因果关系之间,我们能做而且也必须做出区分。……

因此,我们必须重新表述因果关系,使因果关系不仅仅是一种相关关系。假如在条件C下的任何时候,只要事件X发生,事件Y就会发生,加上假如X没有发生,那么Y也不会发生,或者假如Y没有发生,那么X也没有发生。那么就可以说X是Y的原因。因此,事件之间不仅有强的相互关系,也有充分和必要的条件关系。给定条件C,那么X是Y发生的充分条件,Y是X发生的必要条件。

(《教育研究的哲学》(英)理查德·普林  著  北京师范大学出版社  2008年5月 第一版  62页)

   从科学角度看,把相关关系误认为因果关系,或者用相关关系冒充因果关系,这在教师的日常教育活动中,真是“司空见惯浑闲事”。

   咱们举一个最常见的:“努力”与“提高学习成绩”。大家几乎都肯定这二者有“因果关系”。是吗?如果真是这样,按上述引文的论述,下面几种说法都应该成立:

1、只要努力,学习成绩一定提高。

2、如果不努力,学习成绩必然下降。

3、如果某人成绩没有提高,那一定是他没努力。

    显然,这三条都不能成立。努力而成绩无法提高,大部分人都遇到过这种事;不努力而成绩并未下降(甚至还有上升),这种事也不新鲜;至于成绩没有提高,就断定其人没努力,那很容易造成“冤案”。

    更何况,因果关系需要有给定条件C,这个条件必须稳定不变,而在学生的学习活动中,根本不存在这种稳定不变的条件。

这就可见,“努力”与“提高学习成绩”之间,只有相关关系,并无因果关系。

    可是老师们却往往认定二者有因果关系,言之凿凿地向学生灌输和宣扬。这就失掉了起码的科学态度。

    这类事情很多。不少人动辄发现“教育规律”(所谓规律就是稳定的因果关系),靠的就是把相互关系夸大成因果关系。实际就是忽悠人。像什么“爱的魔力”,“赏识教育”,“严师出高徒”,都是这种东西。

    教育要走向科学,必须讲逻辑性,说话必须谨慎,必须有依据,千万别绝对化。愚以为教育不大可能有自然科学那一类的因果关系,教育更多的只是事件之间的相关关系,正相关,负相关。当然,教育仍有规律可言,但所谓的教育规律,说的只不过是那些大概率的相关关系而已。对此,每个教育者都必须保持清醒的头脑,不能乱说乱信。

    如果多数校长和教师都能明白这个道理,整个教育的局面就另一样了。


解读投资心理误区:因果关系与相关关系

因果关系与相关关系是说明事物之间联系的两种形式,也是经常被人们混淆的两种关系。混淆因果关系与相关关系是一种常见的心理误区,尤其在投资实践中,因为误把相关关系当作因果关系而造成决策失误,招致投资损失的例子屡见不鲜。因此,为了从源头上消除这种心理误区,有必要正本清源,详细剖析这个问题。

一、概念

所谓因果关系,简单地说,就是A→B。即事件A的发生导致事件B的发生。因果关系中最常见的是一因一果,另外还有一因多果,一果多因,多因多果等形式。

所谓相关关系,顾名思义,就是两种事件之间有关联。在统计学中,两个随机变量X、Y之间的相关关系用相关系数ρxy来表示(∣ρxy∣≤1)。这里所说的随机变量,就是我们通常所说的事件的数学抽象。

若ρxy≠0,则称X与Y相关:当ρxy> 0,称X与Y正相关;当ρxy< 0时,称X与Y负相关;特别地,当ρxy=1时,称X与Y完全正相关;当ρxy=-1时,称X与Y完全负相关;当ρxy=0时,称X与Y不相关。

注意:完全正相关并不等于因果关系。

二、常见错误

面对客观世界的种种不确定性,人们喜欢寻找原因,并将不确定性转化为确定性,尽管这种转化往往只是心理上的。这是千古不变的人性的弱点。

我们习惯于将相关关系转化为因果关系来解释周围的事物,而我们探索客观世界的因果关系也总是从相关关系开始的。懒惰者习惯于匆匆忙忙得出结论,而不是经过周密的思考和论证,这就容易导致出错。常见的错误主要有以下几种形式:

1、胡乱确定因果关系。

有个古老的谬误是:“如果B紧跟着A发生,那么A一定导致B。”

在这里,或许A是B的因,B是A之果,但更可能的情况是,A和B并不互为因果,而都是第三种因素的产物。

2、小样本错误。

这是一种数据“陷阱”。原因在于采样过少,即使分析和推理过程正确也不一定能得出正确的结论。

3、把相关关系当作因果关系。

许多情况下,变量之间只是存在着相关关系,但是否存在着因果关系仍旧是个未知数。因此,在明确变量之间确实存在因果关系之前,不宜匆忙下结论。

4、把相关关系当作决策依据。

对于复杂系统的决策问题,即使某种相关关系是真实的,并有真实的因果关系,我们仍不能凭此做出行为决策。股市是个典型的例子,问题就在于系统的复杂性。

有关相关关系与因果关系的心理误区被广泛应用于有意无意、善意恶意的“欺骗”活动。最常见的骗局,是利用真实的相关关系来支持一个未经证实的因果关系,最典型的例子就是广告。

三、相关关系

在我们的投资活动中,经常要用到相关关系。试举几例:

1、西旗兄12月9日在论坛发贴“话题大讨论是股市暴跌的前兆”。

帖子内容如下:“同志们去看看去年911那几天论坛是不是很热闹,结果大盘趁大家吵成一团的时候也毫无抵抗的往下走了!这几天又出了个岳飞是否民族英雄的大讨论,看来大盘又危险了!吵吧,闹吧,等着看大盘又下一城吧,哈哈!”

西旗兄所说的“问题大讨论”与“股市暴跌”之间可能存在着一种相关关系(当然,还有待进一步采样、验证),与之相似的还有“高手之争”、“实战之争”等,有心人不妨留意一下。

如果我们深入思考,就会发现每次暴跌之前都是大家最迷茫的时候,多数投资者在等待和观望。这种时候,人们的心理是迷茫和焦躁不安的。如果碰巧有什么事件发生,大伙就会借机宣泄心中的不安情绪。而一旦市场做出方向性选择,人群便会加入追涨或杀跌的行列。这也意味着,随着人群不断加入,使趋势得到强化,市场惯性会有一段持续的下跌和上涨。

另外,去年以来这种现象似乎与股市大幅下挫高度相关,原因应该是市场一直处于熊市之中。

2、有关反向指标的问题。

曾经有段时间,一旦某个老股民打电话问我大盘还要跌多深,我就知道大盘离见底不远了。因为他的心理已经到了崩溃的边缘。反过来,一旦该老股民问我还能买点什么,我就提醒自己大盘可能要见顶了。因为贪欲使得他恨不得每一分钱都变成“老母鸡”,让它们呆在股市里“下蛋”。

这里,“老股民的电话”与“股市见顶或见底”就是两个相关系数较大的事件。

3、技术分析中的相关关系。

我们常说“量在价先”,这说明成交量的放大与股票运行趋势的改变存在某种相关关系。但是,我们无法就此认为成交量放大就是价格上涨的原因。因为反例很多。

更普遍的情况,如果把市场的走向简单地用“涨、跌、盘”三个字来概括,那么我们所做的技术分析的实质就是寻找技术信号(形态、趋势、指标等)与市场走向的相关关系。

这是一种重要的思想。

曾经看到有技术分析者将行星运动与市场涨跌之间的关系用图示的方式表出,据说成功率还很高。对此,本人一直感到很困惑。如果把上述关系视为一种相关关系(不知道有没有验证过?),用作决策参考,倒也未尝不可;但是,如果把这种关系定性为因果关系并据此决策,个人觉得有失之草率之嫌。

总之,我们应该慎重对待事件之间的因果关系和相关关系,在考虑事件的相关关系时,应该做深入的思考,至少要问自己几个问题:

1、存在确定的因果关系吗?
2、如果不是,存在相关关系吗?
3、如果是,是正相关还是负相关?相关系数有多大?
4、如果能确定相关系数,那么如何应用于投资决策?
5、检验:样本容量足够大吗?样本是否经过认真、仔细的挑选?推理过程是否正确?结论是否经过严密的论证?


《统计陷阱》之“相关关系与因果关系”
近日看了新华网上的《调查:学历越高收入越多上网时间越长》的新闻,使我联想到了《统计陷阱》中的一章“相关关系与因果关系”。
这是一个非常常见的谬误。我自然相信这个统计的过程是非常符合程序的,谬误也并不是出现统计的数据上。而是出现在由统计得出的结果上。文中指出:“上网时间与上网者的学历成正比,学历越高,上网时间越长。”这就像是一个因果关系,表明乐学历的高低直接导至乐上网时间的变化。
让我们来揭示此文的谬误:如果B紧跟着A出现,那么A一定导致B。举个一目了然的例子:我每次下雨外出都能遇到美女,那么是否可以得出结论:因为下雨,所以我才遇到乐美女?换一个更接近那条新闻的例子(也是书中例子):假设我们已经证实高中毕业生比中途辍学者赚的钱多,并且在大学里多学一年,其收入也会有相应的提高。而得出一个一般结论:在学校呆得时间越长,你赚的钱就越多。但结论在下面这种情况下就并不适用。具有博士学位的人通常变成了大学教师,而不会成为最富有的阶层。另一个例子:在对大学生抽烟者的统计中,发现成绩好的大学生中抽烟的人比成绩差的大学生要少。于是得到了“合理”的推断:抽烟使人的头脑变笨。但是,难道结论就不能是相反的解释么?也许低分促使学生变得爱抽烟。最大的可能是两个因素并不互为因果。是否那些不把读书当回事的爱社交的学生更爱抽烟?
现在让我们来分析一下那个新闻,我们是不是可以有这样的解释:因为有些职业需要长时间的上网,而从事这些职业的大多数人学历较高。又或者是对于网络这种新事件,年轻人比中老年人更快的接受、使用、喜爱它,因此他们成了使用网络的主力。而因为近十几年来教育的普及,年轻人往往有着比中老年人更高的学历。
两个因素的相关性是必须通过对事物关联性的描述进行仔细的研究得出的。由此可见,不要说此新闻中的两个因素是否具有因果关系,就是退一步的相关关系是否成立也是一个末知数。


略淡:相关关系,因果关系和格兰杰影响检验 
本文来自: 中国经济学教育科研网论坛(http://bbs.cenet.org.cn) 详细出处参考:http://bbs.cenet.org.cn/dispbbs.asp?boardid=57&ID=403989

略淡:相关关系,因果关系和格兰杰影响检验 这三个事情呢,经常被初学统计、计量的小朋友所误解,这种误解,甚至还被不求甚解的小朋友们带出校门,散布到世界的各个角落,真是很让人担忧的。前阵子看到国内某著名经济学家(本人素来景仰的)领衔的课题研究报告之后,更是让我有这种想法。因此,写了这个帖子。
误区之一:貌似因果关系的相关关系

虽然一讲起来,大家都知道这两个东西根本不是一回事;可是实际上,我们也很容易犯这种错误。比如:一提到吸烟致癌,如果有人不信,那你往往会说,“吸烟的人,肺癌发病率会比其他人群高好几倍哦!”很遗憾,陈希孺先生(生前是概率统计方面唯一的院士同志)就认为这种说法是不可靠的,这也是他很喜欢用的一个例子。他是这样说明的:假如有这样一种基因,它同时导致两件事情,一是这个人很喜欢抽烟,二是这个人更容易得肺癌。这种可能性,是与上面常用劝诫口吻完全相容的。

所以,相关关系常常貌似因果关系,需要我们小心提防,保持清醒。

怎么样纠正这个毛病,建立一个良好的思考习惯呢?

建议疗法:看个电影《小红帽》,这个电影告诉我们一句话:很多事情不是像看起来的那样。

我想说的是,虽然在100件事情当中,有99件事情是像看起来的那样,而只有1件事不像看起来的那样。但是,只有这最后1件事情才将你和其他的小朋友区别开来!

误区之二:貌似因果关系的格兰杰影响检验

如果说上面第一个误区,主要怪小朋友自己的话;那这第二个误区,恐怕应该是老师要负主要责任了。Granger Causality被引入国内时,被翻译成格兰杰因果关系检验。不知道谁干的这事,但我怀疑,这个翻译的人,要么是哲学没学好,要么是统计没学好,要么是语文没学好,总之是有某个方面知识结构的缺陷。结果是,好多小朋友都被误导了,尤其是Granger同志中了大奖之后,格兰杰因果关系检验被到处贴来贴去。可叹,直到现在还有很多不求甚解的小朋友都仍然认为这是个因果关系的test。

在这一点上,我尤其要佩服余老师。他说自己并没有学过Granger Causality,但是凭借深厚的哲学功底和对统计学的基本理解,他的判断是:哲学的因果关系,那是统计学这个学科根本没法检验的。
恐怕一般小朋友没法理解,但是有个例子是很受欢迎的:燕子低飞是先于下雨而发生的,所以你做检验,就会得到燕子低飞是下雨的Granger Causality(零假设被拒绝);但是从哲学角度来看,下雨才是燕子低飞的真正原因。

这个例子揭示了Granger Causality和因果关系的本质区别:前者说的是一种可预测性(forcasting),如果A事件对于预测B事件是有用的,那么我们就说:A是B的Granger Causality(即:拒绝“A不是B的Granger Causality”);而后者,因果关系讲的是一种逻辑上的顺序,其与发生时间上的先后顺序有的时候是完全相反的,比如上面的例子。

怎么纠正?建议疗法:第一步:在天气预报要下雨的那一天(假定天气预报准确)走到外面;第二步:找到一只低飞的燕子;第三步:问问燕子“你是下雨的哲学原因?还是格兰杰Causality?”第四步:如果你没有找到燕子,或者它不屑于回答,那你就试着淋淋雨,尝试一下雨中的思考是否能给你带来灵感。

真正的因果关系怎么得到?

因为上面说的,因果关系不是通过经验能判断的,因为经验只是一些感性的、直观的、表面的信息,无法直接提供逻辑上的解释。因此,经验方法,例如相关关系、格兰杰影响检验都是一种验证结论的补充性说明,可以加强结论的可靠性,但并不能据此直接得到因果关系的结论。

那真正的因果关系怎么得到呢?还得靠逻辑的思考。这里还有一个例子,根据经验,大家一般都认为:重的东西,掉下来快些;轻的东西掉下来慢些。亚里士多德就这么想的,之后两千多年,大家也都一直这么想。可是,我们知道,后来伽俐略小朋友站到了比萨斜塔上面,扔了两个大小不同的铁球,砸碎了这个顽固的想法。

但是,在伽俐略爬到这么高之前,他还是想了很多很多的。

首先,他想,既然重的东西掉得快一些,轻的东西掉得慢一些,那么把两个东东绑在一起,轻的东西就会阻碍大的东西掉得那么快,两者的速度就会平均一下,所以两个绑在一起,掉的速度应该是介于两个单独下落速度之间的。但是,他又转念一想,两个东西张在一起,那不就变成一个更重的东西了吗?这个更重的东西不就掉更快了吗?和前面矛盾。这个归谬的结果,一下子让他疑云顿生。然后他再想了想,觉得有了自己的想法,就爬楼上扔东西去了。

这就是逻辑的思考过程。经济学理论的分析过程也是这样,真正的因果关系,还是要立足于理论模型的思考。当然,如果推导技术没问题,那么这个“果”的合理性,就直接依赖于你给出来的“因”——假设了。这也是作者、评论人、审稿人为什么如此重视假设的原因。

转载请注明:PPV课 » 相关关系和因果关系

喜欢 (0)or分享 (0)