+关注我们
您的位置:首页 > 数据挖掘与分析新手入门指导

数据挖掘与分析新手入门指导

评论数(0)
在学人数(10)

课程目的

新手入门指导


课程详情

本文面向数据挖掘新手,对数据挖掘理论知识、数据库、常用数据挖掘工具、数据挖掘技术发展潮流等各个方面介绍数据挖掘进行介绍,同时给数据挖掘的新手推荐本网站课程的对应视频,令数据挖掘的门外汉等领略到数据挖掘的奥妙,成为一名专业的“矿工”。



 

一、数据挖掘概念与技术入门

做数据挖掘前我们首先要明确什么叫数据挖掘,它与数据分析的本质区别是数据挖掘是在没有明确假设的条件下去挖掘信息,发现知识;然后我们要知道,成为一名数据挖掘工程师需要了解机器学习、统计学、数据库等理论知识;同时要熟悉数据挖掘的几个工作内容,包括预处理、分类、聚类、关联分析和离群点分析;最后,我们要了解目前的数据挖掘技术的应用与发展趋势。

为了能让初学者尽快了解以上数据挖掘的完整体系理论,我们推荐你观看以下视频,同时推荐大家可以阅读《数据挖掘导论》一书。

《浙大远程教育学院数据挖掘》 

 

二、数据库与数据仓库

数据挖掘的数据主要有两个来源,一个是数据库,一个是数据仓库。数据库与数据仓库

本质上是一样的,但后者对于决策分析处理却有更大的优势,能减少我们在数据挖掘前期对数据预处理所付出的时间和代价。

       数据挖掘工程师和数据分析工程师这两个岗位都离不开数据,对于搜集并获取挖掘用的数据,我们需要建立一个数据库(数据仓库并非必须的,但数据仓库可以减少数据预处理的工作量),因此我们需要了解数据库的建立,掌握数据库标准的查询和程序设计语言SQL,至少熟悉一种主流的关系数据库管理系统,例如OracleSql ServerMySQLDB2等等。我们推荐你观看以下视频,希望通过以下视频,你能熟练使用SQL对数据库进行数据定义、数据查询、数据更新、数据控制。我们建议基础薄弱的同学先学习SqlServer为佳。

SqlServer2005 自学视频》

SQL Server 2008 R2 智在必行》

Oracle数据仓库和商业智能资料大全》

 

三、常用数据挖掘工具介绍

目前数据挖掘软件包括商业挖掘软件和开源的软件。前者普遍因为操作简单,支持多种数据格式,对于特定商业用途有针对性,因此普遍受到企业或决策者的青睐;后者因为其使用免费,源代码开源,能直接对数据挖掘的算法进行研发、改进和二次开发,受学生及科研人员的欢迎。本文针对目前比较主流的两种数据挖掘商业软件进行介绍:

SPSS一款集成式的软件包,将数据录入、整理、分析功能集于一身,其中Clementine模块专用于数据挖掘。该模块集成了丰富的数据挖掘模型和算法,操作容易,挖掘流程模块化,图形化界面友好,非技术人才也很容易上手,对于所建立的模型能提供不同的评估准则

SAS也是一个专业的数据分析软件,它由数十个专用模块构成,功能包括数据访问、数据储存及管理、应用开发、图形处理、数据分析等等。SAS Enterprise MinerSAS软件里一个用于数据挖掘的模块,它除了有Clementine以上的优点之外,比其还更有优势:SAS EM 能够实现并行和多线程处理,因此处理海量数据挖掘时,SAS EMSPSS Clementine更有优势; SAS EM能将建好的数据挖据流程很方便地转成SAS语言、JavaC代码,有利于数据挖掘模型在不同的平台上实现。

       本文推荐以下SASSPSS软件教程视频,希望爱好者至少能熟练操作这两款软件其中一款,相对来说SPSS简单一些。同时由于它们本身是数据分析类的软件,需要有一定的统计学基础。建议大家能查阅《统计学》(贾俊平版)相关理论知识。

SAS入门到精通视频教程》 

SPSS 数据挖掘方法概述》

SPSS从入门到实战视频教程》

 

四、海量数据挖掘

传统的数据库管理系统通过单一的超级电脑来存储、处理数据不仅对硬件要求高,成

本高,而且对于大数据的处理显得力不从心。因此,对于海量数据的分析、处理,业界开始使用分布式系统,采用计算机网络技术把一组或大量普通计算机统一起来,每台计算机之间采用节点进行通信。当用户要面对海量数据进行分析处理时,分布式系统能将数据分别存储到不同的计算机上,并能使不同的计算机同时作业,提高运行的效率,减少内存的占用。

Hadoop 作为一个分布式系统基础架构,核心内容包括分布式文件系统HDFS MapReduce。在Hadoop平台上进行数据挖掘,就需要将传统的数据挖掘算法使用MapReduce编程实现,在HDFS上进行并行处理。我们推荐你观看以下视频,了解Hadoop的体系架构、学会安装和配置Hadoop环境,重点关注MapReduce编程模型和编译原理。

hadoop实战》 

 

五、数据分析软件介绍

除了上面介绍的SASSPSS软件外,我们在此也简单介绍一下两款分析软件:R语言

MatlabR语言是一门比较简单的编程语言,可直接调用大量的数学计算函数和统计函数,实现数据处理和数据分析多项功能,另外还有大量R语言写的数据挖掘算法包可以直接用于数据挖掘。Matlab作为传统的数学工具软件,其强大的运算能力在图像处理、通信信号、电力工程等行业的得到广泛使用。Matlab中能直接使用的数据挖掘算法较少,因此行业内使用其做数据挖掘工具的较少。

       建议有一定基础的爱好者再进一步接触以下两款软件。

《数据分析与R语言视频教程》 

Matlab数据挖掘》 

 


我要提问

立即登录,提交问题
  • 内容:

全部问答

最近学习的学员

教师

    老师头像-PPV课
PPV课 小编
专注数据挖掘与分析
资料修改成功!
确定

小V: 点击这里给我发消息

Jedis:点击这里给我发消息

关闭