Category: 从0开始学python系列

从零开始学Python【27】–Logistic回归(实战部分)

本次分享的数据是基于用户信息(年龄、性别和年收入)来判断其是否发生购买,数据来源于GitHub(文末有数据链接可供下载)。接下来,让我们看看Logistic模型是如何完成二分类问题的落地。本次分享会涉及模型的构建、测试集的预测及模型的验证三个方面。

从零开始学Python【26】–Logistic回归(理论部分)

以,我们接着线性回归,再跟大家聊聊Logistic回归。它是一个非线性的回归模型,其最大的好处恰恰是可以解决二元类问题,目前在金融行业,基本都是使用Logistic回归来预判一个用户是否为好客户,因为它还弥补了其他黑盒模型(SVM、神经网络、随机森林等)不具解释性的缺点。

从零开始学Python【16】–matplotlib(雷达图)

在这一期我们将跟大家分享一下如何借用Python绘制雷达图(或蛛网图),雷达图可以很好刻画出某些指标的横向或纵向的对比关系,例如近三年营业额、客单价、新客招募等指标的同比情况对比,完全就可以通过雷达图让数据一目了然。很不幸的是,matplotlib模块中并没有特制雷达图的封装函数,我们只能换一只思路来实现了。

从零开始学Python【15】–matplotlib(散点图)

散点图可以反映两个变量间的相关关系,即如果存在相关关系的话,它们之间是正向的线性关系还是反向的线性关系?甚至于是非线性关系?在绘制散点图之前,我们任然老规矩,先来介绍一下matplotlib包中的scatter函数用法及参数含义。

从零开始学Python【9】–pandas(数据框部分04)

这期我们再来聊聊关于pandas如何实现数据合并 、数据连接 、创建哑变量和连续数值的区间化的操作。前两个操作在数据库中是非常常用的,即将多个数据集纵向合并和横向的扩展;后两个操作在数据建模中会经常用到,即离散变量的哑变量化处理和连续变量的分段处理。

从零开始学Python(6)–pandas(数据框部分01)

作为从事数据相关工作的我们,平时接触的更多的是一张有板有眼的数据表格,在这里我们就叫作数据框。在Python中可以通过pandas模块的DataFrame函数构造数据框,而R语言则是data.frame创建数据框。接下来我们将对比Python和R语言如下几个方面的应用:

从零开始学Python(4) –numpy

上一期我们介绍了数据分析中常用的numpy模块,从数组的创建、元素的获取、数学+统计函数、随机数的生成、到外部文件的读取。这期我们再来介绍另一个重磅的数据分析常用模块–pandas。该模块更像是R语言中的向量、数据框的处理,接下来我们就一一介绍里面的小知识点。

切换注册

登录

忘记密码 ?

切换登录

注册