1. 首页
  2. R语言

【观点】大数据会给很多人新的机会,但也会让一些经典模型黯然失色

本文是微软亚洲研究院主管研究员 上海交通大学讲座教授郑宇对大数据一些粗浅的看法和认知: 1. 大数据可以消除不同行业之间因为理论差异而带来的鸿沟。不同行业的理论可能差异很大,但在数据层面上可以对话,数据可以共享和交流,数据蕴含的知识可以共有。 2. 大数据可以降低解决方案对行业理论的依赖。即便不具备深厚的行业背景知识,也有可能依靠数据来解决实际问题。 3. 大数据与经典模型并不矛盾。传统的经典模型也是在观测到一些现象(其实就是数据)后,依靠人的经验,用一些简单的方程做一些近似拟合和逼近数据。由于之前的数据很有限,得到的模型可能会存在偏差,对人的经验的依赖程度大。现在数据量大了,我们同样还是在更大的观测上来拟合一些方程,只是这个方程会很复杂,超过了人们单纯依靠脑力来直接构造方程的能力。因此,需要依靠一些数据挖掘的方法来发现一些数据间存在的复杂关系。从另一方面讲,这个模型虽然不一定漂亮,但会更准确些。 4. 大数据才刚刚开始。在高度信息化的时代,数据产生的方式越来越多、产生代价也越来越低。数据的极大丰富将为大数据提供更持久和活跃的生命力。 5. 大数据会给很多人新的机会,但也会让一些经典模型黯然失色。因此,并不是所有人都欢迎大数据。大数据的误区: 1. 大数据不是单一量很大的数据。多种异构数据的融合才是王道。 2. 大数据不一定是全数据。我们拿到的总是数据的一部分样本。如何从部分样本恢复整个数据的特性,是一个难点。 3. 大数据与数据稀疏性不矛盾。随着同时使用的数据种类(维度)的增加,稀疏性问题可能会加剧。如何解决数据的稀疏性问题,也是难题。 4. 大数据也不一定是越多越好。虽然很多数据挖掘模型会自动忽略一些不相关数据,但这些不相关数据会占用不必要的资源,影响效率,并增加挖掘的难度。依靠行业背景知识来筛选相关数据将会提高数据挖掘的效率和精准度。大数据时代,我们仍然需要insight。 5. 大数据不只是机器学习的事,需要考虑效率和深度的折中,数据管理和数据挖掘的结合。一方面,不计成本的数据分析没有太大意义。10台机器能干的事情,却要用100台机器,这样没有道理。另一方面,很多场景下,容不得我们慢慢来分析,结果就需要在几秒内产生,比如交通流量的预测、空气质量的预警。只有对大数据做好有效的管理,才有可能做到实时的深度挖掘。数据库和机器学习两个领域的同行,是时候坐到一起来沟通了。真正有用的大数据系统需要两方面知识无缝的融合。

原文始发于微信公众号(PPV课数据科学社区):【观点】大数据会给很多人新的机会,但也会让一些经典模型黯然失色

原创文章,作者:ppvke,如若转载,请注明出处:http://www.ppvke.com/archives/31201

联系我们

4000-51-9191

在线咨询:点击这里给我发消息

工作时间:周一至周五,9:30-18:30,节假日休息