1. 首页
  2. R语言

车品觉:忘掉大数据吧!

编者按:本文是阿里巴巴集团数据技术及产品部副总裁、数据委员会会长车品觉先生在参加福布斯中文网主办的“大数据沙龙”上进行的主题演讲,以飨未能到场的读者。

《决战大数据》这本书的出版让我更多机会接触到更多同业, 还在Define中的大数据需要更多的讨论和实践有助于去芜存菁, 分享一下我当下的感觉共勉之:

  1. 不懂商业不要谈数据, 否则千差万别。

  2. 不要为了数据而数据。

  3. 数据无大无细, 今天的大数据可能明天的小数据。

  4. 数据须要工程化流程化, 急不得。

  5. 数据化思想, 在迂回中找到答案

什么是大数据?今天有很多专家也不一定有答案,如果有专家跟你说这个不是大数据,你也不用太在意。因为在专家的圈子里面今天也不一定有答案。

我跟我的编辑在讨论我的这本书《决战大数据》的时候,我说如果没有“大”那个字,会怎么样?会少50%的人买你的书。那如果这本书叫《数据化思考》呢?那可能只有10%会买了。

我上两周刚把自己公司商业智能部门干掉,我们把部门改成数据技术与产品部,这是我响应了马总DT的战略。

现在大部分公司都是中央管理数据,然后报告做出来给业务部门去用。在阿里,我们的痛苦是,发现我的部门越来越多,但是如果业务部门越来越不能直接使用数据,这样公司是很难成为一个数据化公司的。所以我把BI部门干掉,我们今天用另外一个方法来处理今天数据的理念。

首先为什么会有大数据?

其中一个很重要的理念是,1997年、或者2000年前,大部分的网站都会写“COPYRIGHT RESERVED”,它意思想说“这内容是我的,你千万不要分享给别人”。但到了2014年,你几乎看见每一个网站会跟你说“分享我吧,分享得越多越好”。这是在10年里最大的变化。

晚上7点钟的时候,大家都在微信里晒今天晚上吃什么。但是在2000年的时候,这个事情几乎是匪夷所思的、不可能,有人会说晚上吃什么关你什么事啊。今天不是,在餐馆里吃饭的时候,先不要吃、先拍个照,发出去然后开始吃饭。在分享数据上出现一个非常大的变化,所以过去几年我们讲的大数据,都是社会化数据(social data),它是更多的人愿意分享数据后产生的数据。

车品觉:忘掉大数据吧!

1995年的时候,当Microsoft发布自己的Windows 95的时候,当时我们做数据挖掘的人是以MB级的数据量来做的。今天的人对MB是看都不看,MB今天能干什么!

车品觉:忘掉大数据吧!

9年后Google上市,我们数据挖掘的人大概到GB级左右,一个Memory Stick大概有GB级,所以今天看来也没什么。

车品觉:忘掉大数据吧!

2013年美国总统选举的时候,它的数据挖掘的级别已经上了TB级的层次。

车品觉:忘掉大数据吧!

数据量在挖掘的地方已经越来越大,美国总统选举是一次完美的大数据的接力,去决定总统到底什么样的topic(话题)来讨论。

车品觉:忘掉大数据吧!

实际上,Social Data到今天可以说我们已经开始层出不穷地收集更多不可思议的数据了。Google Glass、Smart Watch以及其他可穿戴设备,你会发现已经不止是社会化数据了、包括人身体的数据的获取。

车品觉:忘掉大数据吧!

你会发现,今天我们讲的“大数据”,其实明天有可能只是个“小数据”。今天有很多公司说自己是大数据公司,过几年你会发现今天的数据实际上是蛮小的。

车品觉:忘掉大数据吧!

用上面的话来说,就是我们有了足够多的case、多到覆盖全世界所有这个领域的case,基本上就知道这里面会发生什么。那时,我不须要用很复杂的模型去找出结果,而是充分利用会用空间中数据与数据间的关系。譬如,今天有一个新人进入淘宝网址,可能他只要输入电话号码,很快就能知道这不是个新人、而且他跟淘宝的空间中与多少人是有关系的。这不需要重新计算,因为空间已经足够大、能覆盖整个样本空间的时候,那个case只是其中的一个case而已。

互联网催生了大数据,数据的存储、数据的能力产生了很多今天实时的计算。所以有人说,大数据是在云计算技术基础上所产生的应用。例如流计算就使我们更有可能实现实时的应用,一边数据进入一边计算;以及非结构化的数据的爆炸、用户的行为更丰富,这都是今天大数据的重要课题。

车品觉:忘掉大数据吧!

大数据的四个V,简单来说就是,数据的广、深、速度与准确性。然而我们今天企业重视的是可实施性、数据准确与稳定,不可以今天modeling运作正常、三个月以后就不行了。数据不是一个黑箱,不能解释的方案怎可能让大家接受呢。

车品觉:忘掉大数据吧!

以前的方法是,有样本就找出样本的特征或规律,训练一个模型出来得到结果。

今天的大数据不是这样的:我们会更偏向于简单的方法来计算结果。

车品觉:忘掉大数据吧!

前一阵子听到一位学者的例子: 这张是北京空气污染度的地图。上面这个地图,有数据的地方就是有样本的地方。在没有采集的地方,用上当天的风向、湿度、交通流量(右下角),推算所有地区的空气污染度的情况。这等于是泛化了数据的coverage,大家认为这就是一个大数据的案例吗? 这其实是一个传统的数据挖掘的方法加入了新的变量,下面的例子可能更有大数据的概念了。

欧洲有一家公司,它的想法就是通过手机接收信号的强弱(手机在不同的空气污染度下信号接收的强弱是不同的)来协助出当时的空气污染度是怎么样的。这个就是大数据了:它是以样本多来取胜、不是以复杂的模型来覆盖

车品觉:忘掉大数据吧!

讲一个在淘宝的案例。有很多产品(黄色、黑色)和人(蓝色)都在上面,但是大部分看到的就是图中的“爆款”,因为搜索结果很容易让你看到的必然是popular的产品。所以后面的黑色点一般是看不到的,无论搜索引擎怎么样,都很难挑出黑色点的那些。

从很大的样本里面(蓝色)有一些达人(红色),比如有一些牛仔裤达人,就是特别会挑牛仔裤、很会找到新款的牛仔裤。我们可以通过机器学习来监控达人的行为,就能穿透爆款、找出一些小而美的商品。

我们一些数据的modeling就是用这个方法来穿透。

车品觉:忘掉大数据吧!

我们用上面这个方法就又找到一些长尾的卖家,从buyer找到一些小而美的seller。

车品觉:忘掉大数据吧!

这是一个循环:buyer找到商品和seller;然后seller也找到更多商品。借助商品判断人、借助人判断商品。在循环中,发现商品之间的关系。

车品觉:忘掉大数据吧!

这样的东西要足够大的样本量。

车品觉:忘掉大数据吧!

这是一个循环:从达人找到中间层,从中间层找到静态机器学习,再动态加强学习,由双边模型再到达人。这样打到一个引擎的效果,利用了大空间的数据方法。

车品觉:忘掉大数据吧!

传统方法是小数据加复杂模型,但大数据是很多的数据加简单模型,来找出结果。

车品觉:忘掉大数据吧!

从过去的农耕时代到工业时代、到信息时代,到今天所讲的数据时代,过去的公司有一个很中央的IT部门服务整个公司。

车品觉:忘掉大数据吧!

今天的IT基本上都不用帮助你安装电脑了,而DT的未来也不是中央的数据部门帮着做数据的准备。

车品觉:忘掉大数据吧!

淘宝在2011年之前大部分时候,我们使用数据、来做判断,能解决问题,我们称之为“数据化运营”。到了2011年之后,我们开始运营数据,不满足于今天的数据,而是去收集、“养”一些数据、改善数据。

车品觉:忘掉大数据吧!

我们不去创新的话,就是有什么数据用什么数据,不会去培养一组新的数据。从一家公司用数据,到为了未来去养活一些数据。

过去我们带着问题来找数据、建立我们的观点;今天是带着数据来找问题的,有足够的数据量、数据够大。我们会从数据中找出一些连人都不知道的问题。

车品觉:忘掉大数据吧!

“当数据很大,盲点不是一个问题”,这是大数据的一个观点。我不太同意这个观点,因为其实盲点本身已经在大数据里面了

车品觉:忘掉大数据吧!

早上我看见一件T恤,我在电脑上来淘宝搜索,突然间我老板跟我说开会。开完会之后,我用手机又搜索了下这件T恤,结果蹦了一个手表出来,这个手表100块。在记录中,这个人今天买了一个手表,但是你不知道,这个人有一个想买T恤的需求还没被满足呢!

车品觉:忘掉大数据吧!

所有数据我们收集起来后一直在用,但是很多数据时间一长就没有意义了。一般来说,网站的浏览行为数据过了一年以后就没有什么价值,因为可能网站都变化了。所以,数据是有生命周期

车品觉:忘掉大数据吧!

大部分企业还谈不上大数据,大部分时候连数据不知道怎么落地,还讲不到大数据的层面。而你对业务的真实理解、运用数据的能力、有没有解决问题、下次如何改进这个问题,这些才是更重要。

车品觉:忘掉大数据吧!

对数据处理的能力与解决问题的能力,这两者应该是匹配的。大数据可能对你的决策管理是非常有帮助的。

车品觉:忘掉大数据吧!

问题是,业务的人不知道如何用数据?

车品觉:忘掉大数据吧!

车品觉:忘掉大数据吧!

更麻烦的是,做数据的人不知道别人怎么用数据?

车品觉:忘掉大数据吧!

我的经验是不要做一个很大的闭环,先做一个小闭环出来,“用”数据和“养”数据这两者是一个循环。在这个闭环中,做数据决策和数据挖掘都是一样。

车品觉:忘掉大数据吧!

很多时候,由于数据闭环没有转起来,所以你不知道今天有没有足够好的数据去用、而准备数据的人也不知道用得好不好。

车品觉:忘掉大数据吧!

面对未来的时候,业务方要知道怎么去使用数据,数据技术的部门要做更多更好用的数据工具。这是阿里的概念,因为要成为一家数据公司,必然要让每一个管理者都能使用数据。

车品觉:忘掉大数据吧!

最近的思考,更多是数据是开放还是不开放、以及怎么开放,还有数据存还是不存、以及要存多久。

我在网上提出的“数据十诫”:其中第5点“没有数据质量,神马数据都是浮云”应该是我们做数据的人都很care的。第3点“让数据变成Technology,enable更多人”这其实是DT的概念。第8点也比较重要,“利用数据拿到更多更有用的数据”,利用现有的数据让用户给你更多的数据,把数据变成一个循环。最后一条“让人做人擅长的事、让机器做机器擅长的事”,这一条很多企业把数据的用法是会倒过来的:让人做了机器擅长的事,让机器做了人擅长的事。

原文始发于微信公众号(PPV课数据科学社区):车品觉:忘掉大数据吧!

原创文章,作者:ppvke,如若转载,请注明出处:http://www.ppvke.com/archives/31486

联系我们

4000-51-9191

在线咨询:点击这里给我发消息

工作时间:周一至周五,9:30-18:30,节假日休息