• 《Kaggle项目实战》 泰坦尼克:从R开始数据挖掘(一)

    本案例选自Kaggle上的数据竞赛的一个数据竞赛项目《泰坦尼克:灾难中的机器学习》,案例涉及一个小型数据集及到一些有趣且易于理解的参数,是一个完美的机器学习入口。

    2016年12月16日 5690 0 0
  • 用R语言对城管事件数据分析

    这次使用主成分分析主要目的并不是降维,而是分析城管数据中的事件类别之间是否存在关系,当然,城管事件类型有好几百,这里就只选取从去年九月到目前发生量前十的事件类别。

    2016年8月11日 882 0 0
  • 数据咖成长系列之R包大乱斗–R语言的那些包

    R包是包含一系列连贯的、用于解决特定问题的函数及数据结构的集合。包很容易分与人共享,在很多时候书写一个包是分享你的软件及想法的最好且最有效的途径。R包也使R变得更加简单,你不需要强大的编程基础,只要找到相应的包,可以使你的问题得到比较好的解决。

    2016年7月27日 1150 0 0
  • 数据咖成长系列兵器篇(三)–R语言常用函数

    R是一款开源的数据分析与可视化的软件,其功能非常强大,越来越多的人倾向于使用它,它在各行各业都有着丰富的应用,但是,正因为如此,R显得有些散乱,功能太多,当我们面对一个问题时,甚至都会面临选择困难症,不知道用哪个好,而且一个函数或者一个package也有许多功能,我们都需要掌握吗?哪些才是我们最常用的功能,?掌握这些能够大大的简化我们的学习历程,迅速提高自己的R的使用能力,这里便是按照功能的分类,总结了R常用的一些函数,及其用法举例.

    2016年7月14日 1366 0 0
  • ggplot2 –数据咖成长系列之兵器篇(一)

    ggplot2包绘图非常方便,其统一的绘图方式,可以称之为画图的语法了,学会ggplot2,以后常见的绘图就能轻松搞定.

    2016年7月6日 2272 0 0
  • R语言十八讲–数据咖成长系列之兵器篇(二)

    R语言十八讲,是从R入门开始,一直讲到数据分析里面的常用模型.由浅入深,并配备R代码的实现方式,公式较少,主要是为了让读者更快更容易上手

    R数据分析,这系列中多为软件操作,数据分析的原理讲得比较少,多事实践操作,所以,如果需要深究其中原理,可以阅读更多书籍,

    2016年7月6日 3269 0 0
  • R语言十八讲–(补充)处理缺失值

    缺失值处理在数据分析中是关键的一步,而且是开始的关键一步,我们对于数据的缺失处理直接影响模型的准确性.

    2016年5月26日 9807 0 0
  • R语言十八讲(十八)—R实现主成分分析

    之前我们在十七讲,将主成分分析的原理和计算过程了解了一遍,今天我们用工具R来实现这一模型.由于R软件中有多个函数可以处理这件事情,所以我们选用两个主要的来实现,一个是R自带的函数princomp和factannal,这个比较基础,但能让我们更加清楚计算的过程,另外一个是扩展包psych提供的函数,非常的方便快捷

    2016年5月26日 5134 0 0
  • R语言十八讲(十七)—主成分分析

    理解主成分分析这个模型前,可能需要一定的线性代数的知识,当然若没有基本也能看下去,只是可能比较困弄清楚,但这篇短文会尽可能给你的写得浅显易懂,不涉及太多公式推导,先让我们关注一下我们可能面对的问题,若在数据收集过程中有许多的字段,也叫变量吧,这些变量可能有几十上百个,那么我们怎么去理解这些变量间的关系了?如果两两去看,那得有几百个相关关系了,另外我们还会遇到这样的问题:

    2016年5月21日 1411 0 0
  • R语言十八讲(十六)—广义线性模型

    所谓广义线性模型,顾名思义就是一般狭义线性模型的推广,那我们先看看我们一般的狭义线性模型,这在第十讲也说过可以参看http://www.ppvke.com/Blog/archives/30010,我们经常说的线性回归是OLS线性模型.这种模型的拟合方法是将实际观测值与理论预测值的误差平方和使之最小化,从而推导出线性模型的参数,即最小二乘法.而广义线性模型是通过极大似然估计法来估计参数的

    2016年5月16日 4651 0 0
  • R语言十八讲(十五)—-置换检验和自助法

     不知道看到这里,读者有么有发现,前面讲了那么多方法,几大检验,回归分析,方差分析“都有一个共同的特点,那就是有一定的前提假设,只有满足这个假设时,模型才有较好的效果.我们可以来回顾一下: 

    线性回归:因变量呈正态分布,齐方差性,独立,与自变量是线性关系,无离群点.

    方差分析:因变量呈正态分布,各组齐方差还有其他的回归斜率相同等等

    T检验:独立,来自正态总体;或者非独立,组间差异服从正态分布.

    2016年5月11日 4832 0 0
  • R语言十八讲(十四)—几大检验

     在统计分析中,我们会听到很多检验,有T检验,卡方检验,秩和检验,F检验,费舍尔检验等等,这么多检验,光听就要晕了,还怎么用啊?哪种检验什么时候能用什么时候不能用,能用的检验效果好不好,有什么优缺点,等够达到什么目的,你清楚吗?如果你不清楚,平时只是用,那么你对你做出的分析结果放心吗?这篇就是集中的讲解一下这几大检验的来龙去脉,原理和适用场景.

    2016年5月10日 2116 0 0
  • R语言十八讲(十三)—聚类模型

    聚类分析是一种原理简单、应用广泛的数据挖掘技术。顾名思义,聚类分析即是把若干事物按照某种标准归为几个类别,其中较为相近的聚为一类,不那么相近的聚于不同类。聚类分析在客户分类、文本分类、基因识别、空间数据处理、卫星图片分析、医疗图像自动检测等领域有着广泛的应用;而聚类分析本身的研究也是一个蓬勃发展的领域,数据分析、统计学、机器学习、空间数据库技术、生物学和市场学也推动了聚类分析研究的进展。聚类分析已经成为数据分析研究中的一个热点。

    2016年5月9日 4041 0 0
  • R语言十八讲(十二)—-方差分析

    前面讲到了回归分析以及回归诊断,我们知道回归分析的两个用途,一是用作预测,二是用作分类,即解释作用.如果我们稍作留意便可以注意到,回归分析的自变量,包括因变量都是数值型的,那么,如果自变量是因子型的,我们还可以做一些分析吗? 另外,我们在回归分析之前还讲到了假设检验,T检验,如果你不记得了,可以去看看第九讲.我们知道T检验是检验两个总体是否有显著差异,那么,如果总体变成了3个甚至是四个,我们该怎么检验这四个总体是否有显著差异了?学完这一节,你将得到答案.

    2016年5月6日 2631 0 0
  • R语言十八讲(十一) –回归诊断

    所谓回归诊断就是,验证模型当初的几个假设是否成立,它们分别是正太性假设,线性关系假设,同方差性假设,独立性假设.另外还涉及模型的优化,分别是多重共线性,离群点,高杠杆点,强影响点,以及相应的变量的选择和模型的选择

    2016年5月4日 2913 0 0
  • R语言十八讲(十)–OLS回归

      前面讲到了假设检验,可以检验某个简单的结论,判断两个总体是否显著不同,今天,讲统计学中非常经典的一个知识,这就是回归,回归的分类很多,今天主要讲其中的OLS回归,OLS回归包括三大部分,分别是简单线性回归,多项式回归,多元线性回归.回归在数据分析中应用的非常广泛,可以做分类,也可以做预测,当然,更注重预测.接下来,我们讲讲回归的原理及流程.

    2016年4月29日 5019 0 0
  • R语言十八讲(九)—-假设检验

    前面八章介绍了R软件的基础知识,这些知识都是零碎的操作与处理,虽然不能处理一个完整的实际案例,但却非常重要,接下来,主要讲数据挖掘中处理实际案例之前,所需要的一些模型和功能,我们先从传统的统计学开始,然后到数据挖掘算法,首先,我们会讲讲统计学中的基础知识模型,包括假设检验,线性回归,方差分析,等等.

    2016年4月26日 1251 0 0
  • R语言十八讲(八)—简单运算

    这节我们将会讲解R语言基础的最后一节,数据的计算,包含了一些简单的统计数字特征和简单的四则运算,逻辑运算等等,也涉及到了矩阵方面的知识,由于数字特征,矩阵是高等数学的知识,所以这里会简单的介绍一下这些知识的数学背景,尽力的让各位知其然,也要知起所以然

    2016年4月21日 1051 0 0
  • R语言十八讲(七)—-基础绘图

    R的画图功能是非常强大的,这非常有利于数据可视化,对于R画图,我们一般使用三个画图系统,分别是R自带的画图系统,另外还有两个包,他们的画图功能也很强大,即lattice包和GGplot包,一般我们从自带的系统画图功能开始学起,今天,主要介绍一下系统常见的画图函数,暂且称为初级画图吧.

    2016年4月20日 1108 0 0
  • R语言十八讲(六)

    前面我们讲了许多数据处理阶段使用的函数,但是,仔细的读者可能发现了,函数全是数值统计型的,我们在做数据处理时,经常会碰到处理字符的情况,像变量的名字,像产品的名字,代码,网址分析,文本挖掘需要的文本分析,故这一讲就主要集中来讲字符处理函数,这样分块讲,有弊端,就是在工作中经常是数值,字符一起都会遇到,一个好处就是,对于初学者来说,方便记忆,条理清楚,在使用函数的时候,减少错误.下面介绍的字符处理函数也尽量的分块进行.

    2016年4月18日 1658 0 0
  • R语言十八讲(五)

    上篇讲到了数据挖掘的质量分析,主要是对数据缺失情况,准确情况,以及数据集的结构进行探索,接下来,我们就要对数据的特征进行分析了,所谓数据的特征分析就是指数据的分布情况,数据各个变量之间的对比,以及数据的简单统计和周期性检查,包括相关性等等.这些还主要是对数据进行浅层的分析和探索,却往往要花费很大的精力和时间去做这些事,那么对于数据的特征分析需要用到的函数,在这里也进行讲述.

    2016年4月14日 1276 0 0
  • R语言十八讲(四)—数据初步探索

     前面讲到了怎么导入数据,获取数据,按照数据挖掘的流程,在我们导入数据之后接下来的工作便是对数据进行初步的探索,探索的工作主要包括两大块,第一是数据质量分析,第二是数据特征分析. 数据质量分析就是看看数据有没有缺失值,有没有异常值,数据是否具有一致性等,而数据特征分析则包括数据的分布,数据进行对比,数据简单的统计,以及数据周期性和相关性的检查.这部分工作对于我们后面数据建模非常重要,也是我们发现问题,解决问题的重要一步,那么接下来,会用两节来讲讲数据的初步探索,当然是用R语言实现的,这节主要讲数据质量分析.

    2016年4月13日 1265 0 0
  • R语言十八讲(三)—数据输入

    我们在做数据分析工作的前提,当然是得有数据,巧妇难为无米之炊,所以数据的获取和产生是非常重要和基础的,然而,在当前互联网时代,信息非常的膨胀,我们获取数据的方式很多,目前数据源太多了,数据源的格式也非常之多,幸好R的兼容性非常好,能从各种不同的数据源中获取数据,这里只简单介绍几个比较常用的数据导入方式.

    2016年4月11日 1349 0 0
  • R语言十八讲(二)—Rstudio基础操作

    在学习R语言数据分析之前,我们对于R这个软件需要做一些简单的了解,这样对于我们以后编程和数据分析有很大的帮助,简单是说,就是大致了解一下R软件的界面的和操作特性,那么今天我们要讲的一个重点,也是R一个非常大的特色,就是R软件自带的帮助文档,虽然是全英文的,不过在本文的引导下,对于英语4级的同学爱好者来说足以弄懂R的帮助文档.

    2016年4月6日 1265 0 0
  • R语言十八讲 (一)—-R语言概述

    随着分析数据的方式在近两年发生了翻天覆地的变化,随着互联网在人们的生活中广泛的普及,人手一部智能机的时代,人们的衣食住行都接上的互联网,这使得数据的获取量得以指数级的增长,数据的来源也丰富多彩,不在局限于商业大型公司和政府机构,我们普通的网民也可以轻松获得百万级的数据,

    2016年4月1日 1939 0 0
QR code