1. 首页
  2. 数据分析

[译文]机器学习不是数据科学

对于很多人来说,机器学习就是数据科学。在我这道这两个术语的含义之前,我也简单的认为数据科学只不过是机器学习一个流行的叫法而已。过了一段时间,再次考虑这个问题的时候,我真的很开心,原来这两个词是不同的。我总是想,这样的误解还要持续多长时间—就我目前的工作假设:人们最怕它看起来非常的傻。很害怕问别人:“什么是机器学习?什么是数据科学?两者之间的差别?”。所以,对于这些人们都不敢问的问题,那我就假设你问了这些问题。现在,对于你假设的问题,我也以假设的方式进行解答。好好的读读这篇文章。

机器学习

机器学习是一个方法集,这个集合通过得到一个程序,通过某种度量,如程序员的经验,使之更好的完成任务。亚马逊的推荐引擎就是一个机器学习系统的例子,而这个程序就是推荐引擎,且它的任务就是给你提供一些你可能喜欢买的东西的推荐。我就这么说对你进行购买推荐的数量、你曾经作出推荐的数量,而这个度量通过系统发到你的身边。这个推荐引擎曾看到你看过什么商品,你买过什么商品。机器学习有3个非常不同寻常的领域,而且以下也有很详细的阐述,它们是:监督学习、非监督学习以及强化学习。

监督学习

监督学习是一个找近似函数的过程。其中,它可以根据旧金山前10年的房价来预测下一年的房价,而把它精确计算不太可能。我们负责我们所得到的数据,而这些数据不太可能完美。因此,我们也许不需要完全根据前10年的房价来做一个完美的预测。而以往的房价数据集也只是价格方面的信息,它与地理位置、多少间房、最近厨房的更新等等因素决定的房价数据集不同。所以,下一年的房价很有可能受各种外部因素的影响(比如自然灾害、经济的增长、衰退)。因此,我们很难通过构建模型这种方式来预测未来的房价。感到感激的,是对于使用最多的例子,我们对未来的近似预测和平常我们希望找到的一般近似函数而感到满意。

非监督学习

非监督学习是一个利用数据结果,从而得出“有趣的归纳”的过程。我们假设一下所有的统计学家各在NFL的其中一支队伍里。而且,让我说一下,就是我们想要知道我们对这个队伍有多熟悉,因为我们想我们曾找到这些相似性,我们也许找到的这些与成功的特许经营权(UN)相关的属性。在我们从事这一行之前,我们需要定义我们的熟悉是什么,并通过定义什么样的统计学家是我们想要让他们来衡量其直接的差异(我们多年来打法的经验,多年来教练职教的经验)。我们也需要确认欧式距离也是我们感兴趣的距离之一。我们会运用一些算法从而使一群人基于距离,在一个或多个团队中使用。团队间成员联系越紧密,他们越觉得在团队里找到了归属感;而团队间成员越疏远,他们就越觉得在团队没有归属感。这个群体持续的归纳了NFL的原始数据。现在,这里有个很重要的部分:它现在就根据人们的判断来决定这个获得的群体是否是“有趣的”。

强化学习

强化学习就是从奖赏延误进行学习的过程。这里有一个代理(或者是程序)的概念,而它正朝着某个目标采取行动来实现它。然后,这个代理并不会马上对你的行动进行反馈,而它需要在它的世界实施。我们直到在未来的这些步骤是否是第1、第2、第3步的行动,而这些行动也许是至关重要的或是具有重要意义的,才找到了其答案所在。想一下你在棋局走的每一步棋,要想得到奖赏就必须要赢得这盘棋的胜利。当你和强大的对手交手过很多次以后,你的代理反应就是明白哪些招是败招,而你下一次当然会避免它。一个好的代理会最终学会走比以前更好的棋,从而增加了你和强大的对手竞争的砝码。

尽管我分别的对这几个分区进行描述,要是它们能结合在一起就可以创造出一个强大的系统(比如看一下IBM Watson)。

数据科学

现在,我们说一说数据科学吧。数据科学是一个新的术语,因此也有更多错误的定义。我对数据科学的定义是源自约翰霍普金斯大学的数据科学学院的。数据科学是一个对数据进行获取、转化、分析以及得出结果的过程。如果你是一个渴望知道其线性过程的人,其中可以看以下下面的内容:

线性的数据科学过程

然而,你可能会猜测,这个线性图并不具备真实性。但这种描述也不是完全没有用。这里,实际上,当你在做与数据科学有关的事情的时候,你要对某些步骤进行适当的调整。既然,你对这个错误有了心理准备,那么我们来看看实际是怎样的吧:

[译文]机器学习不是数据科学

真正的数据科学过程

这个结构图包含了这个过程中一些杂乱的部分,使之更为精确。而任何未来的步骤都有可能影响前面的步骤。为了便于讨论,我们会使用线性过程描述。那么我们来过一下这些步骤吧:

数据问题

数据问题就是可以通过引用数据解决的问题。重要的是这样的问题一旦提问了,实际上,你可以通过现有的数据或者在一定时间内用合理的方法获得相关数据来解答这样的问题。你也许会被问到这样的问题,也许是你自己提问的。

原始数据

原始数据就是你之前听到的那样。它用来回答你的问题,但是却以“原始”的方式表示。为了能保证你可以从分析过程中得到你需要的相关结果,你需要把原始数据转化为成具体易读懂的形式。这个把原始数据转化成具体易读懂的形式的过程就是数据清洗。设想一下你要下载一个包含这个国家过去五年来男女生的大学毕业比率的CSV文件,而这个CSV文件里的数据就是原始数据。对于在网站的服务器点击按钮下载原始数据来说,从网页的分布文件系统,或者数据库中进行网页数据抓取和程序性提取数据也是相当常见的。人们不怎么会提起Sneakernet,但是它也是其中一种形式。

具体数据

具体数据就是经过清洗以后进行后续分析的数据。我们继续以之前提到的CSV文件为例,而毕业率可能看起来不像是对你的数据分析有什么特别的作用。因此,它看起来更像是其它类型的信息,诸如你可能对此不感兴趣的个人ID,或者是最后的时间排序。而且,文件里可能含有一些产生误差较大的数据,或者部分数据丢失了(比如毕业率值432)。基于这些原因,你需要把部分不准确的信息进行修正。我还需要告诉你,人们已经花了相当的时间来定义什么是准确的数据,而且这么做是值得的。

数据分析

数据分析就是分析运行的结果。而这一步似乎可以看出每个人对数据科学有什么样的想法,而这也是开始引人注目的地方。通常来说,这里有几种分析的类型。那么,我们意义对其进行阐述。

描述性分析

关于这个词,你会试着明白数据的具体形态。你也许对能否对你的数据的特性进行归纳最感兴趣。想一下最小值、最大值、模、平均数、取值范围等等

探索性分析

对于这个词,你会尝试去寻找目前数据是否存在什么关系。你通常都会创建很多快捷的散点图来决定哪种类似的数据你是想要在下一步进行分析的。想一想直方图、箱图以及x,y坐标图像等等。

评估分析

如果你对基于样本数据容量进行评估感兴趣,那么这种分析正是你想要的。评估分析一般来说都是值得的,因为它涉及到了相关的结论进行评估。想一想统计假设测试和置信区间。

预测分析

如果你的问题是涉及到预测相关事件,你会发现你做的过程的名词就是这个术语。这里,你试着要确认一个最好的属性集,从而能让你对其它的一些事情进行预测。想一想监督学习。

原因分析

如果你想要得出如“事件X产生事件Y这样的结论,你真的需要进行随机实验对照。如果这种情况下对你来说是不可行的,而且你已经对这些数据进行了观察(这是通常案例),你也许会进行准实验设计(但它的准确性实在不敢恭维)。诸如模型分析这样的事情更倾向于在人们同时再考虑随机分析的时候出现。但基本的想法就是,考虑一下随机对照试验。

机器分析

这种分析需要你有一个机器模型(或与它类似)来展示一些可能发生的事情。这种模型并不会因为为了方便统计而使用,但用于具体的科学原因。对于一个用于具体科学原因的模型来说,你随后会致力于基于你目前拥有的数据,准确的决定哪个变量影响了另一个变量。想一想你进行科学性选择模型的统计分析的时候。

数据产品

数据产品就是你怎样理解这个问题的答案。它可以以演讲的形式、项目的形式、博客的形式、学术文章的形式、交互式可视化的形式,又或者是网页/移动终端/个人电脑/后端应用的形式展现。哪个会是你想要和他交流相关结果的人,这会影响你最终会产生怎样的数据类型。

机器学习和数据科学的不同

你把之前的内容都看了一遍,你应该已经知道答案了。机器学习充其量也就是数据科学中的其中一种分析方法从另一个角度来讲,机器学习并非一定需要数据科学(也许需要统计学!)。如果你恰好在做一个预测性的任务,你也许要用到监督学习。如果你恰好在做描述性/探索性分析,你也许会用到非监督学习。对于强化学习来说,它没有监督学习和非监督学习那样流行,在数据科学领域知道的人就更少了。

原文链接:

https://medium.com/@nwokedi/machine-learning-isn-t-data-science-67cc66867dbc

翻译:品言 审核:陆勤

PPV课原创翻译文章,转载请注明出处和链接!

[译文]机器学习不是数据科学

1、回复“数据分析师”查看数据分析师系列文章

2、回复“案例”查看大数据案例系列文章

3、回复“征信”查看相关征信的系列文章

4、回复“可视化”查看可视化专题系列文章

5、回复“SPPS”查看SPSS系列文章

6、回复“答案”查看hadoop面试题题目及答案

7、回复“爱情”查看大数据与爱情的故事

8、回复“笑话”查看大数据系列笑话

9、回复“大数据1、大数据2、大数据3、大数据4”查看大数据历史机遇连载

PPV课大数据ID: ppvke123 (长按可复制)

大数据人才的摇篮!专注大数据行业人才的培养。每日一课,大数据(EXCEL、SAS、SPSS、Hadoop、CDA)视频课程。大数据资讯,每日分享!数据咖—PPV课数据爱好者俱乐部!

原文始发于微信公众号(PPV课数据科学社区):[译文]机器学习不是数据科学

原创文章,作者:ppvke,如若转载,请注明出处:http://www.ppvke.com/archives/18204

联系我们

4000-51-9191

在线咨询:点击这里给我发消息

工作时间:周一至周五,9:30-18:30,节假日休息