1. 首页
  2. 数据分析

职场 | 使用 R 语言从拉勾网看数据挖掘岗位现状

职场 | 使用 R 语言从拉勾网看数据挖掘岗位现状

因为毕业后想从事数据挖掘相关的职业,但对该行业的需求不太了解,网上资料太多查看花时间且抓不住重点,所以爬取了拉勾网上 900 多条相关的岗位共计 30 万字的职位描述的数据进行了相关的分析。分析结果主要想回答下面两个问题:

1、目前数据挖掘岗位的现状 ?
2、如果要从事数据挖掘行业,需要具备哪些技能 ?


分析时间:2017 年 2 月
工具:RStudio, Number, R (爬取和分析使用的都是 R )


分析的代码和爬取到的数据:

关注公众号 ”PPV课大数据“ 然后回复关键字:511  即可获取。


数据挖掘岗位现状

分两块描述,第一块是基本的统计数据,包括数据挖掘在那个城市需求最旺盛,对应聘人员的学历要求,行业的分布和公司的财务状况。第二块围绕着薪酬做相关性的分析,主要是工作资历与薪酬之间的关系,以及行业与薪酬之间的关系。


职场 | 使用 R 语言从拉勾网看数据挖掘岗位现状


首先可以看到大部分数据挖掘岗位都分布在北京,上海,深圳和杭州,北京该岗位需求相当旺盛,差不多占据了一半的职位数量。从右边的饼图可以看出,大部分数据挖掘岗位对应聘者的学历要求为至少是本科以上。

职场 | 使用 R 语言从拉勾网看数据挖掘岗位现状

左边的条形图显示大部分的数据挖掘岗位都分布在移动互联网领域,另外,右边的饼图可以看出,上市公司和成长型 B 轮及 D 轮以上的公司对数据挖掘岗位的需求最大。


职场 | 使用 R 语言从拉勾网看数据挖掘岗位现状


从左边这张图可以看出,对于有 1-3 年经验的应聘者,企业的普遍工资在 16-20 K 左右的水平,而对于 3-5 年工作经验的应聘者,则普遍的工资在 21-25 K,另外有意思的是,许多职位对工作经验没有要求,但是也愿意给出不错的薪酬。从右边的图可以看出,移动互联网领域职位数量多且工资相对较高,若想找份高薪的工作,在移动互联网行业做数据挖掘是个不错的选择。


从事数据挖掘行业,需要具备哪些技能组合

将爬取到的全部职位描述汇总在一起后,总共有差不多 30 万字的职位描述。这里首先使用 jiebaR 中文分词库对文本进行分析和挖掘。在挖掘之前,首先需要简历自己的词料库,我使用的词料库是从网上搜查得到,感兴趣可点击此处查询。


https://github.com/edvardHua/JobRequirementAnalysis/blob/master/corpus/collected.dict.utf8


首先使用 jiebaR 库对 30 万字的职业描述进行关键字(TF_IDF 算法)提取,结果如下:

“数据挖掘”  “算法”  “数据”  “经验”  “熟悉”  “机器学习”  “优先”

关键字高度概括了企业对应聘者的需求,拿这些词造句的话,应该可以理解为:

「我们需要找一位熟悉数据结构和机器挖掘算法的人。另外,具备经验者优先。」

随后,再根据自己收集的语料库进行词频统计,做成云图,结果如下:

职场 | 使用 R 语言从拉勾网看数据挖掘岗位现状

从词云和术语出现次数可以看出,想要从事数据挖掘,除了要熟悉基本的编程语言和框架外( Python,Hadoop,Java,Spark,R ),统计学也被很多企业所提及。


项目结构

使用到的 R 包:ggplot2, jiebaR, wordcloud2
项目结构:

  ├── data   │ ├── position- 1:63 拉勾网的原始数据,为 json 格式   ├── cache   │ ├── position_after_cleaning.csv 预处理后的数据,直接读取既可使用   │ ├── ...   ├── corpus   │ ├── collected.dict.utf8  数据挖掘领域相关的语料库   │ ├── ...   ├── graphs   │ ├── ...   ├── src   │ ├── curl.R 爬虫   │ ├── clean.R 数据清洗   │ ├── func.R 公共函数   │ └── statistics.R 统计结果可视化   │ ├── mining.R 关键字提取和词频统计   └── tests       └── test.R

END.

来源:http://www.jianshu.com/p/750c9b0996c


推荐课程

职场 | 使用 R 语言从拉勾网看数据挖掘岗位现状

通过本课程的学习,能掌握Rattle工具的使用,将Rattle应用到日常的数据挖掘和数据可视化的工作中,并能通过日志的记录掌握R语言的实现脚本,对学员的R语言编程能力有很大的提升。

阅读原文查看


原文始发于微信公众号(PPV课数据科学社区):职场 | 使用 R 语言从拉勾网看数据挖掘岗位现状

原创文章,作者:ppvke,如若转载,请注明出处:http://www.ppvke.com/archives/1680

联系我们

4000-51-9191

在线咨询:点击这里给我发消息

工作时间:周一至周五,9:30-18:30,节假日休息