1. 首页
  2. 数据分析师

AI时代就业指南:2019 年最全的数据科学学习计划

 导读

希望这篇学习路线图对你学习数据科学有帮助,需要说明的是国内本文中所说的数据科学家在国内一般称为数据分析师或者数据挖掘师,尽管称谓不同,但文章的路线图仍可作为学习指南供需要的同学参考。

如果你对英文不是很擅长,也可以到 PPV 课数据科学学习社区获取相关的中文课程和学习指南。关于如何成为一名数据科学家,如果你有自己的学习路线图,希望你能乐意与我分享。

好了,现在就开启你的洪荒之力,和我们一起踏上数据科学的神奇之旅吧!

为什么要写这篇学习路线呢?

在 AnalyticsVidhya 上的众多资源中,学习路线图类的文章是比较特别的。写一篇完整的学习路线图所要付出的精力和努力是大家难以想象的,但是这对读者产生的影响是巨大的。所以我决定为广大的读者写下这篇 2017 年的学习计划。

我们曾制定过2016年的学习计划(https://www.analyticsvidhya.com/blog/2016/01/ultima te-plan-data-scientist-2016/),还有如何从软件工程转行到数据科学的文章(https://www.a nalyticsvidhya.com/blog/2017/01/mystory-how-i-became-data-science-analyst-from-soft ware-developer/)。这一次,我们将制定一个更为详细更全面的学习计划,让读者们在今年有更多的收获,学到更多有用的数据科学知识。

这篇学习路线图适合哪些人群呢?

这篇学习路线图非常适合今年想要学习“机器学习”、“深度学习”和“数据科学”的朋友。不管你是新手、想转行还是想寻求技能的提升,这篇计划都会给大家提供了明确的学习方向。

如何使用这篇学习路线图?

在制定这篇计划时,我们已经考虑到大家普遍存在的问题。目前大家在学习时面临的最大挑战不是学习资料的匮乏,而是有太多学习资料。以至于你不知道该从哪里开始学习,不知道要练习什么,不知道要花多少时间在一个概念上,不知道从哪里获得有用的资源等。这对大多数初学者来说,反而成为了障碍,甚至使原本在学习单一技能的人们中途放弃。

这篇计划则消除了上面的疑惑,包含了理论资源和实战例子。我们还会提供测试资源,让你对自己的学习有一个评判标准。作为此计划的一部分,你还可以将所学的概念知识运用到实际问题当中并获得实际操作经验。

目录

  1. 开始前的一些定义
  • 设置目标和时间表

3.2019 年新手的学习之路

4.2019 年转行者的学习之路

5.2019 年中级数据人员的学习之路

6.注释

1. 开始前的一些定义

你需要做的第一件事情是确定你属于哪种学习者,请参考下面的说明,并确定你属于哪个类别。

AI时代就业指南:2019 年最全的数据科学学习计划

数据科学的初学者:

  • 在数据科学或机器学习领域没有经验的初学者
  • 不知道任何分析工具或语言,如R,SAS 或 Python
  • 无数学和统计的基础知识
  • 已经事先熟知本文一些章节如概率论、线性代数等知识的可以随意跳过学习路线图的初始部分,以加快学习速度

转行的数据科学家:

  • 不会使用任何分析工具,如 R/Python
  • 不知道机器学习概念等
  • 在数据分析以外的行业工作经验超过 3 年
  • 已经事前熟知本文一些章节如概率论、线性代数等知识的可以随意跳过学习路线图的初始部分,以加快学习速度

中级数据科学家:

  • 已经了解数据科学,并且可以建立预测性机器学习模型
  • 定期参加数据科学竞赛和编程马拉松
  • 有基本和高级机器学习算法的先验知识

2. 为自己设置目标和时间表

我们提供以下一些指南: 数据科学初学者

  • 学习数据科学所需的基本数学和统计知识。
  • 对机器学习算法有基本理解,且能用此来解决现实生活中的问题。
  • 拥有能够参加第一份数据科学的实习或工作的技能。
  • 每天要花大约 3 小时在数据科学的学习上。转行数据科学家
  • 学习数据科学所需的基本数学和统计知识。
  • 对机器学习算法有基本理解。
  • 参与到项目当中并且得到成果。
  • 拥有能够参加第一份数据科学的实习或工作的技能。
  • 每天要花大约 5 小时在数据科学的学习上。中级数据科学家
  • 理解深度学习技术和算法,能够运用到实际问题当中。
  • 拥有极好的交互式可视化技术,提高自身表达沟通能力。
  • 了解数据科学界的最新发展(如:“增强学习”),并将其纳入现有的机器学习框架。
  • 能用 Web 框架和云计算创建独立的数据/机器学习产品。
  • 每天要花大约 3 小时在数据科学的学习上。

3.2019 年新手的学习之路

学习框架:

第一步:尝试并开始接触数据科学第二步:数学及统计知识

第三步:介绍分析工具——R/Python 第四步:基本和高级的机器学习工具第五步:构建你的个人资料

第六步:寻找工作或实习

AI时代就业指南:2019 年最全的数据科学学习计划

3.1 尝试并开始接触数据科学

建议时间:4 周(2019 年 1 月)

在这个阶段,最重要的是要知道你为什么想成为一名数据科学家?你的优点和缺点是什么? 你知道做数据科学家需要什么吗?在进入这个领域之前必须先回答这些问题。

观看一段视频:TetianaIvanova 描述了她如何在没有数据科学的硕士和博士学历下成为一名数据科学家。(https://www.youtube.com/watch?v=rIofV14c0tc)

下面还有一些帮助你回答上面问题的资源:

  1. 什么是数据科学?(https://datajobs.com/what-is-data-science)
  2. DataJobs 的这篇文章将告诉你 Netflix 和 Amazon 里数据科学家是如何工作的,此外它还强调了成为数据科学家需要哪些重要技能。

-data-scientist-business-analyst/)这篇文章提供了一些问题让你来判断自己是否适合成为一名数据科学家。我非常建议你看了这篇文章再继续下面的学习内容。

接下来,你应该参加一些当地的数据活动或聚会。走出去,看一下别人对数据科学或机器学习的看法。数据活动不仅能帮助你学习分析工具和技术,还能为你提供行业的人际关系网,有助于你以后找到和合适的实习或工作。

继续向前并思考以上问题,这将决定你接下来 11 个月的生活。

3.2 数学及统计知识

建议时间:8 周(2019 年 2 月-2019 年 3 月) 主题内容:

描述性统计-1 周概率-2 周

推理统计-2 周线性代数-1 周结构化思维-2 周

描述性统计-1 周

课程(强制性):《DescriptiveStatisticsfromUdacity》(https://www.udacity.com/cours e/intro-to-descriptive-statistics–ud827)这门课程比较基础,学习必须从学习课程开始。书籍(可选):学习在线课程同时补充统计类电子书,找一些学习基本统计数据的好书。(htt p://onlinestatbook.com/2/index.html)

概率-2 周

课程(强制性):《Introductiontoprobability-Thescienceofuncertainty》(https://www. edx.org/course/introduction-probability-science-mitx-6-041x-2)这是 edX 上学习概率概念(如条件概率和概率分布)的比较好的课程。

书籍(可选):《Introductiontoprobability–Berkley’sstats134standardtextbook》(ht tps://www.stat.berkeley.edu/~aldous/134/grinstead.pdf)这是补充课程的一个很好的参考资料。

推理统计-2 周

课程(强制性):《IntrotoInferentialStatisticsfromUdacity》(https://cn.udacity.com

/course/intro-to-inferential-statistics–ud201)学习了描述性统计课程后,本课程将带你了解统计建模技术和高级统计。

书籍(可选):统计类电子书(http://onlinestatbook.com/2/index.html)在线图书可作为推理任务的快速参考。

线性代数-1 周

课程(强制性):《LinearAlgebra–KhanAcademy》(https://www.khanacademy.org/math/li near-algebra)这是 KhanAcademy 一门优秀的课程,将为你提供数据科学和机器学习所需的技能。书籍(可选):《LinearAlgebra/Levandosky》(https://www.amazon.com/gp/product/05366 67470/ref=as_li_qf_sp_asin_il_tl?ie=UTF8&camp=1789&creative=9325&creativeASIN=05366 67470&linkCode=as2&tag=theopesoudats-20&linkId=YLLIM4C4LJSOZIQR)这是一本经常被引用的书,也是斯坦福学生的教科书。

《TheMangaguidetoLinearAlgebra》(https://www.amazon.com/Manga-Guide- Linear-Algebra/dp/1593274130/ref=as_li_ss_tl?ie=UTF8&qid=1452829566&sr=8-1&keywords

=The+Manga+Guide+to+Linear+Algebra&linkCode=sl1&tag=theopesoudats-20&linkId=3d46150 bdab2ef0ba9805cee31eb4d2d)这是一个有趣的线性代数书,并且将机器学习穿插到上下文中。相信你永远不会忘记这些代数知识。

结构化思维-2 周

文章(强制性):这些文章将指导你如何构建思维,以更好的方式解决问题,以提高工作效率。

《Howtotrainyourmindforanalyticalthinking?》(https://www.analyticsvidhya.com/blog/ 2014/01/train-mind-analytical-thinking/)

《Toolsforimprovingstructuredthinking》(https://www.analyticsvidhya.com/blog/2014/ 02/tools-structured-thinking/)

《Theartofstructuredthinkingandanalyzing》(https://www.analyticsvidhya.com/blog/20 13/06/art-structured-thinking-analyzing/)

竞赛(强制性):实践胜于理论。这是一个战略思维问题,竞赛可以测试你的思考过程。此外, 要多留意商业案例研究,因为它们十分有助于构建你的想法。

3.3 介绍分析工具——R/Python

建议时间:8 周(2019 年 4 月-2019 年 5 月) 主题内容:

工具(R/Python)-4 周

数据分析和可视化(R/Python)-4 周特征选择/工程

工具

3.3.1.R

课程:《 Interactive Intro to R Programming Language by DataCamp 》(https://www. datacamp.com/courses/free-introduction-to-r)这是 DataCamp 一门很好的课程,教你 R 语言的实战知识,课程里还有很多互动环节,让你在学习R 语言的过程中不会感到无聊。

图书:《RforDataScience》这是可以一站式解决 R 语言问题的参考资料。

博客/文章:《ACompleteTutorialtolearnDataScienceinRfromScratch》(https://www.analy ticsvidhya.com/blog/2016/02/complete-tutorial-learn-data-science-scratch/)这篇文章将从安装 RStudio/R 开始到运用R 构建模型提供指导。

“R-bloggers“(https://www.r-bloggers.com/)这是 R 语言使用者最推荐的博客之一,每一个使用R 的人都应该收藏起来,它会提供一些最有效实用的R 教程。

3.3.2.Python

课程(强制性):《IntrotoPythonforDataScience》(https://www.datacamp.com/courses/i ntro-to-python-for-data-science)由 DataCamp 开发的一个交互式课程,教你如何用 Python 进行数据科学学习。

书籍(强制性):《PythonforDataAnalysis》(http://www3.canisius.edu/~yany/python/Py thon4DataAnalysis.pdf)本书涵盖数据科学的各个方面,包括加载数据,处理,清除和可视化数据。是 Pandas 用户的参考指南。

博客/文章(可选):《ACompleteTutorialtoLearnDataSciencewithPythonfromScratch》(htt ps://www.analyticsvidhya.com/blog/2016/01/complete-tutorial-learn-data-science-pyth on-scratch-2/)本文是使用 Python 学习数据科学的快速指南。

分析和可视化

1.R

课程:《ExploratoryDataAnalysis》(https://www.coursera.org/learn/exploratory-data- analysis)这是约翰霍普金斯大学在 Coursera 的一个很棒的课程,有了这门课程你就不需要再看其他的相关课程了。

博客/文章:《ComprehensiveguidetoDataExplorationinR》(https://www.analyticsvidhya. com/blog/2015/04/comprehensive-guide-data-exploration-r/)我建议你仔细阅读,并按照文章逐步操作。因为文章中提到的步骤适用于解决任何数据问题或黑客马拉松问题。

《Cheatsheet–11StepsforDataExplorationinR(withcodes)》(https://www.anal yticsvidhya.com/blog/2015/10/cheatsheet-11-steps-data-exploration-with-codes/)此文章包含数据分析的所有步骤与代码。我建议你打印出来,粘贴在墙壁上,供快速参考。

2.Python

课程(可选):《IntrotoDataAnalysis》(https://cn.udacity.com/course/intro-to-data- analysis–ud170)-这是 Udacity 在使用 Numpy 和 Pandas 进行数据分析方面一门很好的课程。博客/文章(强制性):《ComprehensiveguidetoDataExplorationusingPythonNumPy,Matplotl ibandPandas》(https://www.analyticsvidhya.com/blog/2015/04/comprehensive-guide-dat a-exploration-sas-using-python-numpy-scipy-matplotlib-pandas/)-这是一篇介绍如何使用

最流行的 Python 库用于数据分析和可视化的十分全面的文章。

《9popularwaystoperformDataVisualizationinPython》(https://www. analyticsvidhya.com/blog/2015/05/data-visualization-python/)-本文介绍了在数据分析中最常用的图标以及Python 代码。这是使用 Python 进行数据分析的人们非常值得收藏的文章。书籍可选):《PythonforDataAnalysis》(http://www.cin.ufpe.br/~embat/Python%20for% 20Data%20Analysis.pdf)-用于解决在 Python 中进行数据分析和可视化所遇到的问题。

特征选择/工程

博客:《AComprehensiveGuidetoDataExploration》(http://www.cin.ufpe.br/~embat/Pytho n%20for%20Data%20Analysis.pdf)本文将解释特征工程的基本技术和特征创建的不同方法。 书籍(可选):《MasteringFeatureEngineering》:这本书是学习特征工程的主导。不仅能从这本书中学习如何以系统的方式实现特征工程,还能学习特征工程中涉及的不同方法。

3.4 基本和高级的机器学习工具

建议时间:12 周(2019 年 6 月-2019 年 8 月)

基本机器学习算法(2019 年 6 月-2019 年 7 月): 线性回归

逻辑回归决策树

KNN(K 近邻)

K 均值

朴素贝叶斯降维

高级算法(2019年 8 月): 随机森林

降维技术 支持向量机梯度提升机XGBOOST

线性回归

课程:《MachineLearningbyAndrewNg》(https://www.coursera.org/learn/machine-learnin g)-这是学习线性回归最好的一门课。它将让你对线性回归了解得非常透彻,并且这门课的老师AndrewNg 被认为是机器学习的摇滚明星。

博客/文章:《Lesson1:SimpleLinearRegression》(https://onlinecourses.science.psu.ed u/stat501/node/250)PennStateStat501 中的此课程概述了线性回归的主要特征,课程范围从线性回归的简单定义到确定回归线的拟合优度。

《5QuestionswhichcanteachyouMultipleRegression》(https://www.analyticsvi dhya.com/blog/2015/10/regression-python-beginners/)这是一篇用实例说明用代码解释线性回归的非常好的文章。

书籍:《TheElementsofStatisticalLearning》(http://statweb.stanford.edu/~tibs/ElemS tatLearn/printings/ESLII_print10.pdf)这本书有时被认为是机器学习和数据科学的圣杯。它从数学角度来解释机器学习的概念。

《MachineLearningwithR》(https://www.packtpub.com/big-data-and-business-inte lligence/machine-learning-r)这是一本我个人用来简要了解机器学习算法及其实现代码的书。实践:“AboutPracticeProblem:BlackFriday”(https://datahack.analyticsvidhya.com/c ontest/black-friday/)我常说:“实践胜于理论”。这里有一个回归问题,你可以尝试一下做一下,以加深理解。

逻辑回归

课程(强制性):《MachineLearning:Classification》(https://www.coursera.org/learn

/ml-classification)第 1 周和第 2 周的这门实用的课程将教你如何使用 Python 做 Logistic

回归。

《MachineLearningbyAndrewNg》(https://www.coursera.org/learn/machi ne-learning)此课第 3 周的课程让你更深入地了解最广泛使用的分类算法之一。

博客/文章(可选):《LogisticRegressionbyMachineLearningMastery》(http://machinele arningmastery.com/logistic-regression-for-machine-learning/)这是一篇不使用代码的介绍逻辑回归方法的文章,可用以加深你的知识。我建议你看看它。

图书(可选):《IntroductiontoStatisticalLearning》(http://www-bcf.usc.edu/~gareth

/ISL/)-这是一本很优秀的书,其中包含 Logistic 回归的基本假设及统计性质和数学的联系。实践(强制性):“AboutPracticeProblem:LoanPrediction”(https://datahack.analytics vidhya.com/contest/practice-problem-loan-prediction-iii/)-这是一个极好的练习和测试你的逻辑回归技能的竞赛例子,是来预测一个人的贷款状态是否被批准。

决策树

课程(强制性):《Machine Learning:Classification》(https://www.coursera.org/lear n/ml-classification)本课程第 3 周和第 4 周是关于决策树的学习,决策树用于防止过度拟合和处理缺失值。

博客/文章(强制性):《TechnicalOverviewofdecisiontrees》(http://www.kdnuggets.com

/2016/10/decision-trees-concise-technical-overview.html)这是决策树的快速概述,任何新手学习都要看一看。

《Complete tutorial ontreebasedmodeling》(https://www.analytic svidhya.com/blog/2016/04/complete-tutorial-tree-based-modeling-scratch-in-python/) 这是一个基于 python 的决策树教程,只需看第 1-6 节。

图书(强制性):《IntroductiontoStatisticalLearning》(http://www-bcf.usc.edu/~gare th/ISL/ISLR%20Sixth%20Printing.pdf)第 8.1 节和第 8.3 节通过理论和实例介绍了决策树的基础知识。

《MachineLearningwithR》(https://www.packtpub.com/big-data-and-bus iness-intelligence/machine-learning-r)本书第 5 章给出了目前机器学习算法的最佳解释。用通俗易懂的语言解释了什么是决策树。

KNN(K 近邻)

课程(强制性):《MachineLearning–ClusteringandRetrieval》(https://www.coursera.o rg/learn/ml-clustering-and-retrieval):本课程的第2 周进行到从1 最近邻居的k 最近邻居,并且还描述了估计最近邻居的最佳方式。它使用 python 来解释了 KNN 的概念。

博客/文章强制性):《Introductiontok-nearest neighbors:simplified》(https://www. analyticsvidhya.com/blog/2014/10/introduction-k-neighbours-algorithm-clustering/)这篇基本文章介绍了什么时候可以使用 KNN,什么情况下能得到 k。

《LearningKNNalgorithmusingR》(https://www.analyticsvidhya.com

/blog/2015/08/learning-concept-knn-algorithms-programming/)这篇文章是用代码来介绍 K NN 的全面的学习指南,可作为参考资料。

K 均值

课程:《MachineLearningCourse–UnsupervisedLearningwithK-meansalgorithm》(https:// www.coursera.org/learn/machine-learning):本章的第 8 周讨论如何使用 K-means 算法来处理非结构化数据。

博客:《AnIntroductiontoClusteringanddifferentmethodsofclustering》(https://www.an alyticsvidhya.com/blog/2016/11/an-introduction-to-clustering-and-different-methods- of-clustering/):在本文中,您将学习什么是 k-means 聚类和涉及的复杂性。它将会教你如何一步一步地运用K-means 算法。

朴素贝叶斯

课程:《IntrotoMachineLearning》(https://cn.udacity.com/course/intro-to-machine-le arning–ud120)在这个课程中,塞巴斯蒂安·苏恩用简单的英语解释了朴素贝叶斯。

博客/文章:《6EasyStepstoLearn Naïve BayesAlgorithm(withcodeinPython)》(https://ww w.analyticsvidhya.com/blog/2015/09/naive-bayes-explained/)这篇文章详细介绍了朴素贝叶斯算法,你将了解朴素贝叶斯算法如何工作、如何应用等。它还将介绍运用朴素贝叶斯建立一个模型的实际操作。

《naïve BayesforMachineLearning》(http://machinelearningmastery.com/naiv e-bayes-for-machine-learning/)通过这篇文章来理解为什么朴素贝叶斯算法对机器学习很重要。

降维

课程:《MachineLearning–DimensionalityReduction》(https://www.coursera.org/learn/ machine-learning)本课程的第 8 周将引导您了解维度降低以及主成分分析如何用于复杂数据的数据压缩。

博客/文章:《BeginnersGuideToLearnDimensionReductionTechniques》(https://www.analy ticsvidhya.com/blog/2015/07/dimension-reduction-methods/)在本文中,您将了解降维在机器学习中的重要性以及降维的方法。

随机森林

视频(强制性):“HowRandomForestalgorithmworks?”(https://www.youtube.com/watch?v

=loNcrMjYh64)-观看此视频了解随机森林算法的工作原理。

书籍(可选):《IntroductiontoStatisticalLearning》(http://www-bcf.usc.edu/~gareth

/ISL/ISLR%20Sixth%20Printing.pdf)-第 8 节通过理论和实践例子解释随机森林(包括 baggin g 和 boosting)的基础知识。

《Appliedpredictivemodeling》(http://appliedpredictivemodeling.com/)-第 8 章。

博客/文章(强制性):《Atutoriallontreebasedmodelingfromscratch》(https://www.anal yticsvidhya.com/blog/2016/04/complete-tutorial-tree-based-modeling-scratch-in-pytho n/)这是一篇关于使用 python 的基于树的建模的优秀文章。

支持向量机

《RandomForests》(https://www.stat.berkeley.edu/~breiman/Rando mForests/cc_home.htm)这篇文章解释了随机森林的整个工作过程以及具体细节。

课程(强制性):《MachineLearningbyAndrewNg》(https://www.coursera.org/learn/machi ne-learning/home/week/7)本课的第 7 周课程将有趣地开启你的 SVM 学习。

书籍(强制性):《IntroductiontoStatisticalLearning》(http://machinelearningmaster y.com/gentle-introduction-xgboost-applied-machine-learning/)本书的第 9 章详细地介绍了 SVM。

博客/文章(可选):《Understandingsupportvectormachines》(https://www.analyticsvid hya.com/blog/2015/10/understaing-support-vector-machine-example-code/)这是一篇很好的用实例来了解算法的文章。

《SVMbyMachineLearningMastery》(http://machinelearningmastery.co m/support-vector-machines-for-machine-learning/)本文讨论 SVM 中使用的不同类型的核函数及其用法。

梯度提升机

博客/文章(强制性):《GuideonBoostingmethods》(https://www.analyticsvidhya.com/bl og/2015/09/complete-guide-boosting-methods/)

《ParametertuningGBM》(https://www.analyticsvidhya.com/blog/20 16/02/complete-guide-parameter-tuning-gradient-boosting-gbm-python/)

《MachineLearningMastery-GBM》(http://machinelearningmastery.c om/gentle-introduction-gradient-boosting-algorithm-machine-learning/)

演讲强制性):(http://www.slideshare.net/mark_landry/gbm-package-in-r)这是一个关于 GBM 的精彩演讲,它讲述了 GBM 的特点和使用它解决实际问题的优缺点。想要了解 GBM 的必须要看看。

XGBOOST

博客/文章(强制性):《OfficialIntroductionXGBOOST》(http://xgboost.readthedocs.io

/en/latest/model.html)它是对 GBM 的一个改进,是现在使用最广泛的赢得比赛的算法。

《UsingXGBOOSTinR》(https://www.analyticsvidhya.com/blog/2016/ 01/xgboost-algorithm-easy-steps/)一篇关于使用 R 来解决 XGBOOST 实际问题的优秀文章。

《XGBOOSTforappliedMachineLearning》(http://machinelearningmas tery.com/gentle-introduction-xgboost-applied-machine-learning/)机器学习中一篇评估 X GBOOST 的性能优于其他算法的文章。

第二章

3.5 构建个人资料

建议时间:8 周(2019年 9 月-2019 年 10 月) 主题内容:

使用 GitHub 竞赛练习 论坛

使用 GitHub

对于数据科学家来说,有一个 GitHub 配置文件来管理他/她所做过的项目的所有代码是非常重要的。这样将来你的雇主就可以看到你做了哪些项目,你是如何编码的,以及了解你做数据科学做了多久。

此外,GitHub 上的代码为开源项目开辟了道路,可以大大增强你的学习。如果你不知道如何使用 Git,你可以看 Udacity 上的课程“GitandGitHub”(https://cn.udacity.com/course/ how-to-use-git-and-github–ud775)。这是学习终端管理库的最好和容易的课程之一。

竞赛练习(强制性)

一次又一次,我一直在强调实践胜于理论这个事实。黑客马拉松的编程让你离开发数据产品来解决实际问题更近一步。以下是最受欢迎的参与数据科学/机器学习比赛的平台。

AnalyticsVidhyaDatahack(https://datahack.analyticsvidhya.com/contest/all/) Kagglecompetitions(https://www.kaggle.com/competitions) CrowdAnalytixhumanlayer(https://www.crowdanalytix.com/community)

论坛(可选)

在论坛中,你坚持为某一个问题不断寻找,坚持给对方解答,这也是一种很好的学习方式。下面是一些讨论丰富的平台,你应该保留一个以解决你的疑惑。

AnalyticsVidhyaDiscussionPortal(https://discuss.analyticsvidhya.com/) KaggleDiscussion(https://www.kaggle.com/discussion) StackExchange(http://stackexchange.com/

3.6 寻找工作或实习

建议时间:8 周(2019 年 11 月-2019 年 12 月) 主题涵盖:工作/实习

如果你非常勤奋,完成了上述学习内容,那么你可以准备寻求数据科学/分析或机器学习公司的工作/实习职位了。但是,找到合适的工作相当困难。所以为了减少不必要的麻烦,我列出数据科学/机器学习工作和实习的一些招聘网站。

AnalyticsVidhyaJobPortal(https://www.analyticsvidhya.com/jobs/#/) Datajobs(https://datajobs.com/) KaggleJobportal(https://www.kaggle.com/jobs

Internshala(https://internshala.com/)

准备这些面试之前,你还可以看看这篇指南《DamnGoodHiringPathtogetyourselfhiredasa DataScientist》(https://www.analyticsvidhya.com/blog/2015/09/damn-good-hiring-path

-hired-data-scientist/)

4.2019 年转行者的学习之路

首先,这里有一个坏消息:转行到数据科学是一件非常不容易的事情。并且如果你先前的工作经验越多,就越难转行。有时候你会问自己,是否真的适合从事这个行业,这时你需要有坚定的决心。

接下来,还有一个好消息:数据科学行业的薪酬是值得你付出的,你不需要担心你的收入, 即使在转行期间。

想到达到自己的目标,你要做的就是勤奋地根据这个学习路线图来学习。这个学习路线图已经涵盖了让你进入数据科学行业的所有技能与技术。

转行者的终极道路

简单来说,如果你想要一年内完成过度,你将需要学习我们为上面的初学者安排的所有任务。此外,你还要花更多的时间来展示你的技能。用你的项目和工作来说服你的雇主。

我相信你开始明白为什么转行不是一件容易的事情。

2019 年转行者的学习步骤

路径的结构是类似的,但你需要加速计划的上半部分的学习。首先阅读文章《Planningala tecareershifttoAnalytics/Bigdata?Betterbeprepared!》(https://www.analyticsvidhya.c om/blog/2014/05/planning-late-career-shift-analytics-big-data-prepared/),并通过几个成功案例(https://www.analyticsvidhya.com/blog/category/stories/)来了解过渡将需要什么。一旦你开始准备,根据这些时间表遵循计划。

步骤 1:尝试并开始接触数据科学(1 月 17 日) 步骤 2:数学与统计(17 年 1 月-17 年 3 月)

步骤 3:介绍该工具-R/Python(17 年 3 月 17 日-4 月 17 日)

步骤 4:基本和高级机器学习工具(5 月 17 日-7 月 17 日) 步骤 5:建立您的个人资料(17 年 8 月-17 年 10 月)

步骤 6:申请工作(17 年 11 月-17 年 12 月)

5.2019年中级数据人员的学习之路

如果你可以构建预测模型,但不需要了解深度学习和数据领域的最新发展,一下的学习路线图可以帮到你。根据你的技能和一年的学习计划,你可以选择你想要学习的领域。

2019 年中级数据人员的学习步骤: 步骤 1:评估您的技术和结构化思维步骤 2:更多的 ML 算法

步骤 3:掌握一种数据可视化工具第 4 步:大数据工具和技术

第 5 步:基本和高级的深度学习步骤 6:增强学习

步骤 7:Web 框架和云计算

5.1 :评估您的技术和结构化思维技能-2017 年 1 月

创建学习计划的第一步是对自己的各种技能(包括技术和结构化思维)进行基准测试。你可以通过 AnalyticsVidhya 的技能测试(https://datahack.analyticsvidhya.com/contest/al l/)来判断您是否需要复习。如果你做得好,继续获取新的技能。否则,要花更多的时间回过头看看前面的知识。

如果你觉得需要复习,请参考包含各种有用资源的初学者的路径。

技能测试:

Statistics1(https://www.analyticsvidhya.com/blog/2016/08/solutions-for-skillte st-in-statistics-revealed/)&Statistics2(https://www.analyticsvidhya.com/blog/2016

/09/skilltest-statistics-ii-solutions/) RforDataScience(https://www.analyticsvidhya.com/blog/2016/08/full-solution-ski

ll-test-on-r-for-data-science/) PythonforDataScience(https://www.analyticsvidhya.com/blog/2016/09/solutions-da

ta-science-in-python-skilltest/) MachineLearning(https://www.analyticsvidhya.com/blog/2016/11/solution-forskil

ltest-machine-learning-revealed/) Regression(https://www.analyticsvidhya.com/blog/2016/12/45-questions-to-test-a

-data-scientist-on-regression-skill-test-regression-solution/)

Tree-basedalgorithms(https://www.analyticsvidhya.com/blog/2016/12/detailed-sol utions-for-skilltest-tree-based-algorithms/)

SQL(https://www.analyticsvidhya.com/blog/2017/01/46-questions-on-sql-to-test-a

-data-science-professional-skilltest-solution/)

结构化思维

文章(强制性):这些文章将指导你构建结构化思维,以有效地解决业务问题。

《Howtotrainyourmindforanalyticalthinking?》(http://shop.oreilly.com

/product/0636920030942.do)

《Toolsforimprovingstructuredthinking》(https://www.analyticsvidhya. com/blog/2014/02/tools-structured-thinking/)

《Theartofstructuredthinkingandanalyzing》(https://www.analyticsvidh ya.com/blog/2013/06/art-structured-thinking-analyzing/)

竞赛(强制性):检查你的战略思维问题(https://datahack.analyticsvidhya.com/contest/ practice-problem-strategic-thinking-ii/),测试你的结构化思维。此外,多注意对商业案例的研究,因为它们有助于构建你的思维过程。

5.2 :更多的 ML 算法-2019 年 2 月

有一些特定的机器学习算法,在解决具体问题时可以派上用场。例如,尝试通过应用在线学习算法解决大型数据集的在线点击预测。这里有一些本月学习的高级 ML 算法:

在线机器学习


课程:《OnlineMethodsInMachineLearningbyMIT》(http://www.mit.edu/~rakhlin/6.883/书籍:《UnderstandingMachineLearning:FromTheorytoAlgorithms》(http://www.cs.huji. ac.il/~shais/UnderstandingMachineLearning/index.html)

《OnlineLearningandOnlineConvexOptimization》(http://www.cs.huji.ac.il/~shai s/papers/OLsurvey.pdf)

博客:《Langford’shunch.net》(http://hunch.net/

VowpalWabbit

课程:《BythecreatorofVowpalWabbit–JohnLangford》(https://github.com/JohnLangford/ vowpal_wabbit/wiki/Tutorial)

FERL 算法

课程:《OnlineLearningbyUniversityofWashington》(http://courses.cs.washington.edu/ courses/cse599s/12sp/index.html)

论文:《Google’sadclickprediction》(http://www.eecs.tufts.edu/~dsculley/papers/ad- click-prediction.pdf)

实践:自行练习一下 Kaggle 竞赛的题目或者练习 Criteo 提供的数据集。

5.3 :学习数据可视化工具(2017 年 3 月

理想情况下,应该选择 D3.js、QlikView 和 Tableau 之一。D3.js 的灵活性最好,QlikVie w 和 Tableau 创建仪表盘非常方便,都不会很复杂。

主题内容:

使用 d3.js 的交互式可视化(3 周)

在 QlikView 中创建数据可视化(1 周) 在 Tableau 中创建数据可视化(1 周)

使用 d3.js 的交互式可视化

d3.js 在数据科学界并不是很流行,主要是因为它需要一些不是数据科学家所掌握的技能, 如 HTML,CSS,Javascript。

但是 d3.js 可以在不同的程度上展现数据结果。可以创建一个嵌入在浏览器中的非静态交互式图形,来获得更丰富的体验。以下是掌握 d3.js 的资源列表:

课程:《DataVisualizationandd3.js》(https://www.udacity.com/course/data-visualizat ion-and-d3js–ud507)这是由 Udacity 的专家 Zipfian 和 Facebook 的数据分析师 Nanodegree 一起讲的一个很好的课程。

书籍:《InteractiveDataVisualizationfortheWeb》(http://chimera.labs.oreilly.com/bo oks/1230000000345)斯科特·默里的一本非常出色的书,可作为参考资料。有一个可以免费使用的网络版本。

代码的资源:《Dashingd3.js》(https://www.dashingd3js.com/table-of-contents)这是一个面向代码的教程,将帮助您创建交互式可视化。我目前也正在使用这个教程学习 d3.js。

博客/文章:《Completepathfrombeinganoobietoanexpertatd3.js》(https://www.analytics vidhya.com/learning-paths-data-science-business-analytics-business-intelligence-big

-data/newbie-d3-js-expert-complete-path-create-interactive-visualization-d3-js/)-

这是我开始学习 d3.js 的第一篇文章。它包含一个资源列表以及一些基本图形元素的代码。

使用 QlikView 创建数据可视化

《Qlikview–LearningPathfromastartertoaQlikViewExpert!》(https://www.analyticsvidh ya.com/learning-paths-data-science-business-analytics-business-intelligence-big-dat a/qlikview-learning-path/)-这是一篇很详细的文章,其中包含掌握 QlikView 所需的材料和资源。

在 Tableau 中创建数据可视化

课程(强制性):《DataVisualizationandCommunicationinTableau–Coursera》(https://w ww.coursera.org/learn/analytics-tableau)-这是杜克大学提供的一个很好的课程,帮助人们学习使用 Tableau。

博客/文章(强制性):《YourguidetobecomeaTableauexpert》(https://www.analyticsvidh ya.com/learning-paths-data-science-business-analytics-business-intelligence-big-dat a/tableau-learning-path/)这是一个成为 Tableau 专家的综合学习途径。文章结构严谨,非常详细。建议收藏。

书籍:《CommunicatingDatawithTableau》(http://shop.oreilly.com/product/06369200309

42.do)这是一本出色的书,可供您快速参考。

5.4 :大数据工具和技术(2019 年 4 月)

大数据

课程(强制性):《IntroductiontoBigDatabyUniversityofCalifornia,SanDiego》(https:/

/www.coursera.org/learn/big-data-introduction

书籍(可选):《BigData:UsingSmartBigData,AnalyticsandMetricstomakebetterdecisionsa ndimprovePerformance》(http://www.amazon.in/Big-Data-Analytics-Decisions-Performan ce/dp/8126556943?tag=googinhydr18418-21&tag=googinkenshoo-21&ascsubtag=8f347166-64b d-4f01-996b-029eeac3dfc4)

其他有用的工具:

H2Ohttp://www.h2o.ai/resources/SparkR(https://www.analyticsvidhya.com/blog/2016/06/learning-path-step-step-guide- beginners-learn-sparkr/)&PySpark(https://www.analyticsvidhya.com/blog/2016/09/co mprehensive-introduction-to-apache-spark-rdds-dataframes-using-pyspark/) ApacheSpark

课程:《BigDataanalysiswithApacheSpark》(https://www.edx.org/course/bigdata-a nalysis-apache-spark-uc-berkeleyx-cs110x)

书籍:《LearningSpark–LighteningfastBigDataAnalysis》(http://shop.oreilly.com

/product/0636920028512.do)

5.5:基础与高级深度学习(2019 年 5 月-2019 年 8 月)

深度学习基础(2019 年 5 月-2019 年 6 月)

课程(强制性):《MachineLearningbyAndrewNg》(https://www.coursera.org/learn/machi ne-learning)没有比本课的第 4 周和第 5 周课程介绍深度学习和神经网络更好的材料了。

《DeeplearningbyGoogle|Udacity》(https://www.udacity.com/course/de

ep-learning–ud730)-这是从机器学习转到深度学习以及深度神经网络,卷积神经网络和文本深度学习,一门很好的基础课程。

阅读材料/书籍:《DeeplearningTextbook》(http://www.deeplearningbook.org/)-本书由 I anGoodfellow,YoshuaBengio 和 AaronCourville 等人撰写,是学习深度学习的一本好书。

《StanfordDeepLearningtutorial》(http://deeplearning.stanford.edu/tu torial/)-这里所有文本和图像资源都由斯坦福大学提供,让你轻松地从线性回归进入卷积神经网络的学习。

实践:“IdentifytheDigits”(https://datahack.analyticsvidhya.com/contest/practice- problem-identify-the-digits/)一个检查你学习识别手写数字的比赛。

高级深度学习(2019 年 6 月-2019 年 8 月)

课程(强制性):《 D e e p L e a r n i n g b y O x f o r d 》(https://www.cs.ox.ac.uk/people/nando.defr eitas/machinelearning/)

《DeeplearningsummerschoolatMontreal2016》(http://videolectures.ne t/deeplearning2016_montreal/)-这是一个许多深度学习领域专家共同发言的演讲。

专业材料

深度学习计算机视觉

引文:“DLforComputerVision”(https://www.analyticsvidhya.com/blog/2016/04/deep-le arning-computer-vision-introduction-convolution-neural-networks/)

项目:“FacialKeypointDetection”(http://danielnouri.org/notes/2014/12/17/using-co nvolutional-neural-nets-to-detect-facial-keypoints-tutorial/)

所需库:Nolearn

相关课程:“CS231n:ConvolutionalNeuralNetworksforVisualRecognition”(http://cs231 n.stanford.edu/)

自然语言处理的深度学习

入门:“DeepLearning,NLP,andRepresentations”(http://colah.github.io/posts/2014- 07-NLP-RNNs-Representations/)

项目:“Chatbots 深度学习”:“第 1 部分”(http://www.wildml.com/2016/04/deep-learni

ng-for-chatbots-part-1-introduction/),“第 2 部分”(http://www.wildml.com/2016/07

/deep-learning-for-chatbots-2-retrieval-based-model-tensorflow/) 所需库:Tensorflow

相关课程:“CS224d:DeepLearningforNaturalLanguageProcessing”(http://cs224d.stanfo rd.edu/)

语音/音频深度学习

入门:“DeepSpeech:LessonsfromDeepLearning”(http://usa.baidu.com/deep-speech-less ons-from-deep-learning/)新闻文章和相应的视频。

项目:“MusicGenerationusingMagenta(Tensorflow)”(https://magenta.tensorflow.org/2 016/06/10/recurrent-neural-network-generation-tutorial/)

所需库:Magenta

相关课程:“DeepLearning(Spring2016),CILVRLab@NYU”(http://cilvr.cs.nyu.edu/doku.p hp?id=courses:deeplearning2016:start)

5.6:增强学习(2019 年 9 月-2019 年 10 月)

主题涵盖:增强学习(理论)

课程:《CourseonReinforcementLearningbyDavidSilverUCL》(http://www0.cs.ucl.ac.uk/s taff/d.silver/web/Teaching.html)理论。

《Udacity–MachinelearningReinforcementLearning》(https://www.udacity.com/co urse/machine-learning-reinforcement-learning–ud820)理论加实例。

《ReinforcementLearningvideobyAndrewNG》(https://www.youtube.com/watch?v=Rtx I449ZjSc&feature=relmfu)理论。

编程:“ReinforcementLearningIntroductoryCodes”(https://github.com/ShangtongZhang

/reinforcement-learning-an-introduction)

书籍:《ReinforcementLearningbyMITpress》(https://mitpress.mit.edu/books/reinforce ment-learning)这是 MIT 的教授写的关于增强学习的一本很好的参考书。

竞赛:“AnawesomewebsiteforreinforcementLearningCompetitions”(http://www.rl-compe tition.org/)

“Kaggle’sfirstreinforcementstylelearningcompetition-Twosigma”(https://www. kaggle.com/c/two-sigma-financial-modeling)

5.7:Web 框架和云计算(2019 年 11 月-2019 年 12 月)

Web 框架

现在你对机器学习有了一定的了解,你可能想要把机器学习应用到网络产品上。那么你需要学习的是一个关于 Web 框架的工作知识。Web 框架可以快速构建和制作基于 Web 的产品,同时避免编程的复杂性。

鉴于你已经掌握了Python,您可以选择任何基于 Python 的 Web 框架。我推荐 Flask,比较简单。Flask 是一个简单和轻量的 Web 框架,应该能很好地满足你的需求。如果你想要一个复杂的网络产品,还可以考虑Django。

关于 Flask 的学习资源:

Flask 官方文档(http://flask.pocoo.org/

Flask 大型教程(https://blog.miguelgrinberg.com/post/the-flask-mega-tutorial-part-i

-hello-world)

PythonWeb 应用程序使用 Flask(https://realpython.com/blog/python/python-web-applicat ions-with-flask-part-i/)

练习:你应该做一个项目来练习你的机器学习技能和 Web 开发技能。您可以构建一个简单的 Web

应用程序,用户可以上传图片并找到汽车的制造商和型号。

云计算

现在你知道如何构建 Web 应用程序,你也应该学会云计算。一些比较受欢迎的平台有 Amaz onWebServices(AWS),GoogleCloud 平台和 MicrosoftAzure。这些平台都提供了大量的文档。如果要选一个,我建议你选 AWS,因为它现在比较流行,大家用得比较多且文档全面。

End

PPV 课翻译小组作品,译者:恬甜淡淡未经允许严禁转载。

原文作者:NSS

来源:https://www.analyticsvidhya.com/blog/2017/01/the-most-comprehensive-data-scie nce-learning-plan-for-2017/

原创文章,作者:ppvke,如若转载,请注明出处:http://www.ppvke.com/archives/32305

联系我们

4000-51-9191

在线咨询:点击这里给我发消息

工作时间:周一至周五,9:30-18:30,节假日休息