PPV课数据科学社区《大数据时代》摘录：不是随机样本，而是全体数据

让数据“发声”

“大数据”全在于发现和理解信息内容及信息与信息之间的关系，然而直到最近，我们对此似乎还是难以把握。ibm的资深“大数据”专家杰夫·乔纳斯（jeff jonas）提出要让数据“说话”。从某种层面上来说，这听起来很平常。人们使用数据已经有相当长一段时间了，无论是日常进行的大量非正式观察，还是过去几个世纪里在专业层面上用高级算法进行的量化研究，都与数据有关。

在数字化时代，数据处理变得更加容易、更加快速，人们能够在瞬间处理成千上万的数据。但当我们谈论能“说话”的数据时，我们指的远远不止这些。

实际上，大数据与三个重大的思维转变有关，这三个转变是相互联系和相互作用的。

首先，要分析与某事物相关的所有数据，而不是依靠分析少量的数据样本。

其次，我们乐于接受数据的纷繁复杂，而不再追求精确『性』。

最后，我们的思想发生了转变，不再探求难以捉『摸』的因果关系，转而关注事物的相关关系。本章就将介绍第一个转变：利用所有的数据，而不再仅仅依靠一小部分数据。很长一段时间以来，准确分析大量数据对我们而言都是一种挑战。过去，因为记录、储存和分析数据的工具不够好，我们只能收集少量数据进行分析，这让我们一度很苦恼。为了让分析变得简单，我们会把数据量缩减到最少。这是一种无意识的自省：我们把与数据交流的困难看成是自然的，而没有意识到这只是当时技术条件下的一种人为的限制。如今，技术条件已经有了非常大的提高，虽然人类可以处理的数据依然是有限的，也永远是有限的，但是我们可以处理的数据量已经大大地增加，而且未来会越来越多。在某些方面，我们依然没有完全意识到自己拥有了能够收集和处理更大规模数据的能力。我们还是在信息匮乏的假设下做很多事情，建立很多机构组织。我们假定自己只能收集到少量信息，结果就真的如此了。这是一个自我实现的过程。我们甚至发展了一些使用尽可能少的信息的技术。别忘了，统计学的一个目的就是用尽可能少的数据来证实尽可能重大的发现。事实上，我们形成了一种习惯，那就是在我们的制度、处理过程和激励机制中尽可能地减少数据的使用。为了理解大数据时代的转变意味着什么，我们需要首先回顾一下过去。小数据时代的随机采样，最少的数据获得最多的信息

直到最近，私人企业和个人才拥有了大规模收集和分类数据的能力。在过去，这是只有教会或者『政府』才能做到的。当然，在很多国家，教会和『政府』是等同的。有记载的、最早的计数发生在公元前8000年，当时苏美尔的商人用黏土珠来记录出售的商品。大规模的计数则是『政府』的事情。数千年来，『政府』都试图通过收集信息来管理国民。以人口普查为例。据说古代埃及曾进行过人口普查，《旧约》和《新约》中对此都有所提及。那次由奥古斯都凯撒主导实施的人口普查，提出了“每个人都必须纳税”，这使得约瑟夫和玛丽搬到了耶稣的出生地伯利恒。1086年的《末日审判书》（the doomsday book）对当时英国的人口、土地和财产做了一个前所未有的全面记载。皇家委员穿越整个国家对每个人、每件事都做了记载，后来这本书用《圣经》中的《末日审判书》命名，因为每个人的生活都被赤『裸』『裸』地记载下来的过程就像接受“最后的审判”一样。然而，人口普查是一项耗资且费时的事情。国王威廉一世（king william i）在他发起的《末日审判书》完成之前就去世了。但是，除非放弃收集信息，否则在当时没有其他办法。尽管如此，当时收集的信息也只是一个大概情况，实施人口普查的人也知道他们不可能准确记录下每个人的信息。实际上，“人口普查”这个词来源于拉丁语的“censere”，意思就是推测、估算。三百多年前，一个名叫约翰·格朗特（john graunt）的英国缝纫用品商提出了一个很有新意的方法。他采用了一个新方法推算出鼠疫时期伦敦的人口数，这种方法就是后来的统计学。这个方法不需要一个人一个人地计算。虽然这个方法比较粗糙，但采用这个方法，人们可以利用少量有用的样本信息来获取人口的整体情况。虽然后来证实他能够得出正确的数据仅仅是因为运气好，但在当时他的方法大受欢迎。样本分析法一直都有较大的漏洞，因此无论是进行人口普查还是其他大数据类的任务，人们还是一直使用具体计数这种“野蛮”的方法。考虑到人口普查的复杂『性』以及耗时耗费的特点，『政府』极少进行普查。古罗马人在人口以万计数的时候每5年普查一次。美国宪法规定每10年进行一次人口普查，因为随着国家人口越来越多，只能以百万计数了。但是到19世纪为止，即使这样不频繁的人口普查依然很困难，因为数据变化的速度超过了人口普查局统计分析的能力。穿孔卡片的美国人口普查

美国在1880年进行的人口普查，耗时8年才完成数据汇总。因此，他们获得的很多数据都是过时的。1890年进行的人口普查，预计要花费13年的时间来汇总数据。即使不考虑这种情况违反了宪法规定，它也是很荒谬的。然而，因为税收分摊和国会代表人数确定都是建立在人口的基础上的，所以必须要得到正确的数据，而且必须是及时的数据。美国人口普查局面临的问题与当代商人和科学家遇到的问题很相似。很明显，当他们被数据淹没的时候，已有的数据处理工具已经难以应付了，所以就需要有更多的新技术。后来，美国人口普查局就和当时的美国发明家赫尔曼·霍尔瑞斯（herman hollerith)签订了一个协议，用他的穿孔卡片制表机来完成1890年的人口普查。经过大量的努力，霍尔瑞斯成功地在1年时间内完成了人口普查的数据汇总工作。这简直就是一个奇迹，它标志着自动处理数据的开端，也为后来ibm公司的成立奠定了基础。但是，将其作为收集处理大数据的方法依然过于昂贵。毕竟，每个美国人都必须填一张可制成穿孔卡片的表格，然后再进行统计。这么麻烦的情况下，很难想象如果不足十年就要进行一次人口普查应该怎么办。但是，对于一个跨越式发展的国家而言，十年一次的人口普查的滞后『性』已经让普查失去了大部分意义。这就是问题所在，是利用所有的数据还是仅仅采用一部分呢？最明智的自然是得到有关被分析事物的所有数据，但是当数量无比庞大时，这又不太现实。那如何选择样本呢？有人提出有目的地选择最具代表『性』的样本是最恰当的方法。1934年，波兰统计学家耶日·奈曼（jerzy neyman）指出，这只会导致更多更大的漏洞。事实证明，问题的关键是选择样本时的随机『性』。统计学家们证明：采样分析的精确『性』随着采样随机『性』的增加而大幅提高，但与样本数量的增加关系不大。虽然听起来很不可思议，但事实上，一个对1100人进行的关于“是否”问题的抽样调查有着很高的精确『性』，精确度甚至超过了对所有人进行调查时的97%。这是真的，不管是调查10万人还是1亿人，20次调查里有19都是这样。为什么会这样？原因很复杂，但是有一个比较简单的解释就是，当样本数量达到了某个值之后，我们从新个体身上得到的信息会越来越少，就如同经济学中的边际效应递减一样。认为样本选择的随机『性』比样本数量更重要，这种观点是非常有见地的。这种观点为我们开辟了一条收集信息的新道路。通过收集随机样本，我们可以用较少的花费做出高精准度的推断。因此，『政府』每年都可以用随机采样的方法进行小规模的人口普查，而不是只能每十年进行一次。事实上，『政府』也这样做了。例如，除了十年一次的人口大普查，美国人口普查局每年都会用随机采样的方法对经济和人口进行200多次小规模的调查。当收集和分析数据都不容易时，随机采样就成为应对信息过量的办法。很快，随机采样就不仅应用于公共部门和人口普查了。在商业领域，随机采样被用来监管商品质量。这使得监管商品质量和提升商品品质变得更容易，花费也更少。以前，全面的质量监管要求对生产出来的每个产品进行检查，而现在只需从一批商品中随机抽取部分样品进行检查就可以了。本质上来说，随机采样让大数据问题变得更加切实可行。同理，它将客户调查引进了零售行业，将焦点讨论引进了政治界，也将许多人文问题变成了社会科学问题。随机采样取得了巨大的成功，成为现代社会、现代测量领域的主心骨。但这只是一条捷径，是在不可收集和分析全部数据的情况下的选择，它本身存在许多固有的缺陷。它的成功依赖于采样的绝对随机『性』，但是实现采样的随机『性』非常困难。一旦采样过程中存在任何偏见，分析结果就会相去甚远。最近，以固定电话用户为基础进行投票民调就面临了这样的问题，采样缺乏随机『性』，因为没有考虑到只使用移动电话的用户——这些用户一般更年轻和更热爱自由。没有考虑到这些用户，自然就得不到正确的预测。2008年在奥巴马与麦凯恩之间进行的美国总统大选中，盖洛普咨询公司、皮尤研究中心（pew）、美国广播公司和《华盛顿邮报》这些主要的民调组织都发现，如果他们不把移动用户考虑进来，民意测试结果就会出现三个点的偏差，而一旦考虑进来，偏差就只有一个点。鉴于这次大选的票数差距极其微弱，这已经是非常大的偏差了。更糟糕的是，随机采样不适合考察子类别的情况。因为一旦继续细分，随机采样结果的错误率会大大增加。这很容易理解。倘若你有一份随机采样的调查结果，是关于1000个人在下一次竞选中的投票意向。如果采样时足够随机，这份调查的结果就有可能在3%的误差范围内显示全民的意向。但是如果这个3%左右的误差本来就是不确定的，却又把这个调查结果根据『性』别、地域和收入进行细分，结果是不是越来越不准确呢？用这些细分过后的结果来表现全民的意愿，是否合适呢？你设想一下，一个对1000个人进行的调查，如果要细分到“东北部的富裕女『性』”，调查的人数就远远少于1000人了。即使是完全随机的调查，倘若只用了几十个人来预测整个东北部富裕女『性』选民的意愿，还是不可能得到精确结果啊！而且，一旦采样过程中存在任何偏见，在细分领域所做的预测就会大错特错。因此，当人们想了解更深层次的细分领域的情况时，随机采样的方法就不可取了。在宏观领域起作用的方法在微观领域失去了作用。随机采样就像是模拟照片打印，远看很不错，但是一旦聚焦某个点，就会变得模糊不清。随机采样也需要严密的安排和执行。人们只能从采样数据中得出事先设计好的问题的结果——千万不要奢求采样的数据还能回答你突然意识到的问题。所以虽说随机采样是一条捷径，但它也只是一条捷径。随机采样方法并不适用于一切情况，因为这种调查结果缺乏延展『性』，即调查得出的数据不可以重新分析以实现计划之外的目的。我们来看一下dna分析。由于技术成本大幅下跌以及在医学方面的广阔前景，个人基因排序成为了一门新兴产业。2012年，基因组解码的价格跌破1000美元，这也是非正式的行业平均水平。从2007年起，硅谷的新兴科技公司23andme就开始分析人类基因，价格仅为几百美元。这可以揭示出人类遗传密码中一些会导致其对某些疾病抵抗力差的特征，如『乳』腺癌和心脏病。23andme希望能通过整合顾客的dna和健康信息，了解到用其他方式不能获取的新信息。公司对某人的一小部分dna进行排序，标注出几十个特定的基因缺陷。这只是此人整个基因密码的样本，还有几十亿个基因碱基对未排序。最后，23andme只能回答它们标注过的基因组表现出来的问题。发现新标注时，此人的dna必须重新排序，更准确地说，是相关的部分必须重新排列。只研究样本而不是整体，有利有弊：能更快更容易地发现问题，但不能回答事先未考虑到的问题。大数据与乔布斯的癌症治疗

苹果公司的传奇总裁史蒂夫·乔布斯在与癌症斗争的过程中采用了不同的方式，成为世界上第一个对自身所有dna和肿瘤dna进行排序的人。为此，他支付了高达几十万美元的费用，这是23andme报价的几百倍之多。所以，他得到的不是一个只有一系列标记的样本，他得到了包括整个基因密码的数据文档。对于一个普通的癌症患者，医生只能期望她的dna排列同试验中使用的样本足够相似。但是，史蒂夫·乔布斯的医生们能够基于乔布斯的特定基因组成，按所需效果用『药』。如果癌症病变导致『药』物失效，医生可以及时更换另一种『药』，也就是乔布斯所说的，“从一片睡莲叶跳到另一片上。”乔布斯开玩笑说：“我要么是第一个通过这种方式战胜癌症的人，要么就是最后一个因为这种方式死于癌症的人。”虽然他的愿望都没有实现，但是这种获得所有数据而不仅是样本的方法还是将他的生命延长了好几年。

全数据模式，样本=总体

在信息处理能力受限的时代，世界需要数据分析，却缺少用来分析所收集数据的工具，因此随机采样应运而生，它也可以被视为那个时代的产物。如今，计算和制表不再像过去一样困难。感应器、手机导航、网站点击和twitter被动地收集了大量数据，而计算机可以轻易地对这些数据进行处理。采样的目的就是用最少的数据得到最多的信息。当我们可以获得海量数据的时候，它就没有什么意义了。数据处理技术已经发生了翻天覆地的改变，但我们的方法和思维却没有跟上这种改变。然而，采样一直有一个被我们广泛承认却又总有意避开的缺陷，现在这个缺陷越来越难以忽视了。采样忽视了细节考察。虽然我们别无选择，只能利用采样分析法来进行考察，但是在很多领域，从收集部分数据到收集尽可能多的数据的转变已经发生了。如果可能的话，我们会收集所有的数据，即“样本=总体”。正如我们所看到的，“样本=总体”是指我们能对数据进行深度探讨，而采样几乎无法达到这样的效果。上面提到的有关采样的例子证明，用采样的方法分析整个人口的情况，正确率可达97%。对于某些事物来说，3%的错误率是可以接受的。但是你无法得到一些微观细节的信息，甚至还会失去对某些特定子类别进行进一步研究的能力。正态分布是标准的。生活中真正有趣的事情经常藏匿在细节之中，而采样分析法却无法捕捉到这些细节。谷歌流感趋势预测并不是依赖于对随机样本的分析，而是分析了整个美国几十亿条互联网检索记录。分析整个数据库，而不是对一个样本进行分析，能够提高微观层面分析的准确『性』，甚至能够推测出某个特定城市的流感状况，而不只是一个州或是整个国家的情况。farecast的初始系统使用的样本包含12000个数据，所以取得了不错的预测结果。但是随着奥伦·埃齐奥尼不断添加更多的数据，预测的结果越来越准确。最终，farecast使用了每一条航线整整一年的价格数据来进行预测。埃齐奥尼说：“这只是一个暂时『性』的数据，随着你收集的数据越来越多，你的预测结果会越来越准确。”所以，我们现在经常会放弃样本分析这条捷径，选择收集全面而完整的数据。我们需要足够的数据处理和存储能力，也需要最先进的分析技术。同时，简单廉价的数据收集方法也很重要。过去，这些问题中的任何一个都很棘手。在一个资源有限的时代，要解决这些问题需要付出很高的代价。但是现在，解决这些难题已经变得简单容易得多。曾经只有大公司才能做到的事情，现在绝大部分的公司都可以做到了。通过使用所有的数据，我们可以发现如若不然则将会在大量数据中淹没掉的情况。例如，信用卡诈骗是通过观察异常情况来识别的，只有掌握了所有的数据才能做到这一点。在这种情况下，异常值是最有用的信息，你可以把它与正常交易情况进行对比。这是一个大数据问题。而且，因为交易是即时的，所以你的数据分析也应该是即时的。然而，使用所有的数据并不代表这是一项艰巨的任务。大数据中的“大”不是绝对意义上的大，虽然在大多数情况下是这个意思。谷歌流感趋势预测建立在数亿的数学模型上，而它们又建立在数十亿数据节点的基础之上。完整的人体基因组有约30亿个碱基对。但这只是单纯的数据节点的绝对数量，并不代表它们就是大数据。大数据是指不用随机分析法这样的捷径，而采用所有数据的方法。谷歌流感趋势和乔布斯的医生们采取的就是大数据的方法。日本国民体育运动“相扑”中非法『操』纵比赛结果的发现，就恰到好处地说明了使用“样本=总体”这种全数据模式的重要『性』。消极比赛一直被极力禁止，备受谴责，很多运动员深受困扰。芝加哥大学的一位很有前途的经济学家斯蒂夫·列维特（steven levitt），在《美国经济评论》上发表了一篇研究论文，其中提到了一种发现这个情况的方法：查看运动员过去所有的比赛资料。他的畅销书《魔鬼经济学》（freakonomics）中也提到了这个观点，他认为检查所有的数据是非常有价值的。列维特和他的同事马克·达根（mark duggan）使用了11年中超过64000场摔跤比赛的记录，来寻找异常『性』。他们获得了重大的发现。非法『操』纵比赛结果的情况确实时有发生，但是不会出现在大家很关注的比赛上。冠军赛也有可能被『操』纵，但是数据显示消极比赛主要还是出现在不太被关注的联赛的后几场中。这时基本上没有什么风险，因为选手根本就没有获奖的希望。但是相扑比赛的一个比较特殊的地方是，选手需要在15场联赛中的大部分场次取得胜利才能保持排名和收入。这样一来就会出现利益不对称的问题。当一个7胜7负的摔跤手碰到一个8胜6负的对手时，比赛结果对第一个选手来说极其重要，对他的对手则没有那么重要。列维特和达根发现，在这样的情况下，需要赢的那个选手很可能会赢。这看起来像是对手送的“礼物”，因为在联系紧密的相扑界，帮别人一把就是给自己留了一条后路。有没有可能是要赢的决心帮助这个选手获胜呢？答案是，有可能。但是数据显示的情况是，需要赢的选手的求胜心也只是比平常高了25%。所以，把胜利完全归功于求胜心是不妥当的。对数据进行进一步分析可能会发现，与他们在前三四次比赛中的表现相比，当他们再相遇时，上次失利的一方要拥有比对方多3~4倍的胜率。这个情况是显而易见的。但是如果采用随机采样分析法，就无法发现这个情况。而大数据分析通过使用所有比赛的极大数据捕捉到了这个情况。这就像捕鱼一样，开始时你不知道是否能捕到鱼，也不知道会捕到什么鱼。

一个数据库并不需要有以太字节（一般记做tb，等于2的40次方字节）计的数据。在这个相扑案例中，整个数据库包含的字节量还不如一张普通的数码照片包含得多。但是大数据分析法不只关注一个随机的样本。这里的“大”取的是相对意义而不是绝对意义，也就是说这是相对所有数据来说的。很长一段时间内，随机采样都是一条好的捷径，它使得数字时代之前的大量数据分析变得可能。但就像把一张数码照片或者一首数码歌曲截取成多个小文件似的，在采样分析的时候，很多信息都无法得到。拥有全部或几乎全部的数据，我们就能够从不同的角度，更细致地观察研究数据的方方面面。我们可以用lytro相机来打一个恰当的比方。lytro相机具有革新『性』的，因为它把大数据运用到了基本的摄影中。与传统相机只可以记录一束光不同，lytro相机可以记录整个光场里所有的光，达到1100万之多。具体生成什么样的照片则可以在拍摄之后再根据需要决定。用户没必要在一开始就聚焦，因为该相机可以捕捉到所有的数据，所以之后可以选择聚焦图像中的任一点。整个光场的光束都被记录了，也就是收集了所有的数据，“样本=总体”。因此，与普通照片相比，这些照片就更具“循环『性』”。如果使用普通相机，摄影师就必须在拍照之前决定好聚焦点。同理，因为大数据是建立在掌握所有数据，至少是尽可能多的数据的基础上的，所以我们就可以正确地考察细节并进行新的分析。在任何细微的层面，我们都可以用大数据去论证新的假设。是大数据让我们发现了相扑中的非法『操』纵比赛结果、流感的传播区域和对抗癌症需要针对的那部分dna。它让我们能清楚分析微观层面的情况。当然，有些时候，我们还是可以使用样本分析法，毕竟我们仍然活在一个资源有限的时代。但是更多时候，利用手中掌握的所有数据成为了最好也是可行的选择。社会科学是被“样本=总体”撼动得最厉害的学科。随着大数据分析取代了样本分析，社会科学不再单纯依赖于分析经验数据。这门学科过去曾非常依赖样本分析、研究和调查问卷。当记录下来的是人们的平常状态，也就不用担心在做研究和调查问卷时存在的偏见了。现在，我们可以收集过去无法收集到的信息，不管是通过移动电话表现出的关系，还是通过twitter信息表现出的感情。更重要的是，我们现在也不再依赖抽样调查了。艾伯特·拉斯洛·巴拉巴西（albert lászlobarabási），和他的同事想研究人与人之间的互动。于是他们调查了四个月内所有的移动通信记录——当然是匿名的，这些记录是一个为全美五分之一人口提供服务的无线运营商提供的。这是第一次在全社会层面用接近于“样本=总体”的数据资料进行网络分析。通过观察数百万人的所有通信记录，我们可以产生也许通过任何其他方式都无法产生的新观点。有趣的是，与小规模的研究相比，这个团队发现，如果把一个在社区内有很多连接关系的人从社区关系网中剔除开来，这个关系网会变得没那么高效但却不会解体；但如果把一个与所在社区之外的很多人有着连接关系的人从这个关系网中剔除，整个关系网很快就会破碎成很多小块。这个研究结果非常重要也非常的出人意料。谁能想象一个在关系网内有着众多好友的人的重要『性』还不如一个只是与很多关系网外的人联系的人呢？这说明一般来说无论是一个集体还是一个社会，多样『性』是有额外价值的。这个结果促使我们重新审视一个人在社会关系网中的存在价值。

原文始发于微信公众号（PPV课数据科学社区）：《大数据时代》摘录：不是随机样本，而是全体数据

原创文章，作者：ppvke，如若转载，请注明出处：http://www.ppvke.com/archives/31769

《大数据时代》摘录：不是随机样本，而是全体数据

联系我们

4000-51-9191

《大数据时代》摘录：不是随机样本，而是全体数据

相关推荐

请登录

联系我们

4000-51-9191