1. 首页
  2. 数据挖掘

【聚焦】数据人的痛苦:提供的数据用不上

点击上方
“蓝色字”
可关注我们!

大数据变革在数据本身

━━━━━━━━━━━━━━━━

【聚焦】数据人的痛苦:提供的数据用不上

大数据公司最大的痛苦是什么?不是没有数据,而是有太多的数据。各种各样包括结构性和非结构性的数据从四面八方而来,但哪些是有用数据,如何捡选数据,才是最大的难题。

巧遇到谷歌的前数据部门leader,他跟我说了一件他觉得很痛苦的事:提出数据需求的人往往70%的情况又不用提供给他的数据。他为此非常生气,便质问业务方:为什么你们老问我要数据,结果却不用?业务方回答说:是的,因为我用完之后才知道这些数据没有用。对于一个每天都要准备数据的人来说,这好比你是一家餐厅的老板,厨师每天让你准备很多菜却只用一小部分材料一样痛苦。所以,我从事大数据行业一直有个梦想:如果有一天可以把数据的处理自动化该多好!

说起数据处理的自动化,不得不提一家在数据领域有着突破型创新的公司Paxata,它是美国少有的一个接地气的自助型数据开发(data preparation)平台。 这家公司的着眼点令人兴奋,因为目前市场上几乎所有的数据分析, 包括BI软件和创新都聚焦在解决数据分析的算法,可视化,模型等等的自动化,却忽略了一个事实:现实工作中, 数据科学家和分析师首先需要花费80%甚至更多的时间在数据清洗和准备。Paxata采用机器学习的创新方法解决data preparation。 其功能如下:

第一,读取数据: 读取任何形式的数据,自动解析,自动识别数据的类型(如日期,产品名称等), 以及数据的意义;

第二,数据探索: 通过人机交互的形式,帮助用户主动发现数据质量问题。比如提供全文搜索,数据质量热力图, 发现规律, 发现数据中的错误,重复,稀疏,缺失等问题;

第三,数据清洗和修改: Paxata平台的核心是语义融合和机器学习引擎。 该引擎基于算法智能识别并进行数据变换以改善数据;

除以上功能外, Paxata还能够通过人机交互的形式完成数据合并、发布、改进、分享、安全控制等数据准备的所有环节。其中一个有趣的功能是数据富集, 即它能基于第三方数据库建议用户增加更多的变量以提升数据挖掘价值, 并自动完成数据的转化。他山之石可以攻玉,同类公司所关注的変量及挖掘路径是可以互相借鉴的。

今天大数据之所以说起来容易做起来难,主要是因为两个问题,一是数据的易用性,二是数据处理的成本。随着大数据的使用越来越普遍,这两个问题也将越来越突出。因此,底层数据处理的自动化将愈加重要。

我们需要将使用数据的经验数据化,并把这些经验转化为其他公司对自己数据的理解和使用能力。或许在不久的将来,我们就会发现只要我们对某一个领域使用数据的经验有足够的沉淀,哪怕给我一堆毫无关系的数据,我也能根据数据经验库告诉你我从中看见了什么。这个世界日新月异,变化之快令人咋舌,我们数据人也只有不断颠覆自己使用数据的能力,不断创新,才能找出大数据未来的方向。

本文于2015年5月27日发表于香港信报
作者:车品觉

PPV课其他精彩文章:


1、回复“干货”查看干货 数据分析师完整知识结构

2、回复“答案”查看大数据Hadoop面试笔试题及答案

3、回复“设计”查看这是我见过最逆天的设计,令人惊叹叫绝

4、回复“可视化”查看数据可视化专题-数据可视化案例与工具

5、回复“禅师”查看当禅师遇到一位理科生,后来禅师疯了!!知识无极限

6、回复“啤酒”查看数据挖掘关联注明案例-啤酒喝尿布

7、回复“栋察”查看大数据栋察——大数据时代的历史机遇连载

8、回复“数据咖”查看数据咖——PPV课数据爱好者俱乐部省分会会长招募

9、回复每日一课查看【每日一课】手机在线视频集锦

PPV课大数据ID: ppvke123 (长按可复制)

大数据人才的摇篮!专注大数据行业人才的培养。每日一课,大数据(EXCEL、SAS、SPSS、Hadoop、CDA)视频课程。大数据资讯,每日分享!数据咖—PPV课数据爱好者俱乐部!

原文始发于微信公众号(PPV课数据科学社区):【聚焦】数据人的痛苦:提供的数据用不上

原创文章,作者:ppvke,如若转载,请注明出处:http://www.ppvke.com/archives/22229

联系我们

4000-51-9191

在线咨询:点击这里给我发消息

工作时间:周一至周五,9:30-18:30,节假日休息