PPV课数据科学社区从零开始学Python –pandas(数据框部分04)

上一期我们使用pandas模块实现频数统计、缺失值处理、数据映射和数据汇总 4个知识点，这期我们再来聊聊关于pandas如何实现数据合并、数据连接、创建哑变量和连续数值的区间化的操作。前两个操作在数据库中是非常常用的，即将多个数据集纵向合并和横向的扩展；后两个操作在数据建模中会经常用到，即离散变量的哑变量化处理和连续变量的分段处理。

一、数据集的纵向合并

如果你手中有多张数据结构一致的excel表格，你需要将这些表格合并到一起，你会怎么做？复制粘贴？是不是太慢了，这里教你使用Python完成数据的批量合并。

例如，我的D盘中有这些个结构一致的excel表格：

从零开始学Python --pandas(数据框部分04) 可以通过如下的Python代码完成数据的堆叠

从零开始学Python --pandas(数据框部分04)

注意，pd.concat函数的第一个参数一定要是一个可迭代对象。故在代码中对dataframe初始化为列表结构。

结果如下：

从零开始学Python --pandas(数据框部分04)

我们看看R语言的环境下，是如何完成数据集的纵向合并：

从零开始学Python --pandas(数据框部分04)

结果如下：

从零开始学Python --pandas(数据框部分04)

二、数据集的横向扩展

如果你所需的数据集来自于多张表，而这些表之间存在一些公共的字段用于观测行的匹配，换句话说，你需要在excel使用vlookup这样的函数完成数据的连接。要想实现该功能，在Python中应该如何实现呢？

先来看一下需要join的数据长啥样：

从零开始学Python --pandas(数据框部分04)

接下来，借助于pandas中merge函数完成两个数据集的连接，即将economy_info表中的字段合并到user_info表中，形成一张宽表。

我们先来看一下merge函数的几个重要的参数：

pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None,          left_index=False, right_index=False, sort=False,          suffixes=('_x', '_y'), copy=True, indicator=False)left,right：为需要连接的两张表；how：默认对两张表进行内连，'right'，'left'为右连和左连，一般inner和left使用最多；on：指定关连两张表的公共字段；left_on,right_on：指定left表和right表中需要关连的字段；left_index,right_index：指定left表和right表中需要关连的行索引

从零开始学Python --pandas(数据框部分04)

结果如下：

从零开始学Python --pandas(数据框部分04)

如果你的两张表有公共字段，而且字段名称完全一致，merge函数会自动查询这些字段，并以这些字段作为连接的依据。如果两张表中含公共字段，但名称不一致，如Id与id，这个时候就需要left_on和right_on两个参数的使用了。

从零开始学Python --pandas(数据框部分04)

结果如下：

从零开始学Python --pandas(数据框部分04)

发现表中含有两个id，这个时候需要你手工再删除一下，可以通过drop函数删除其中一个变量。关于变量的删除你可以参考这篇文章：

从零开始学Python【7】–pandas(数据框部分02)

R语言也同样可以完成这部分工作，只需要借助于dplyr包即可，具体操作如下：

从零开始学Python --pandas(数据框部分04)

结果如下：

从零开始学Python --pandas(数据框部分04)

三、离散变量的哑变量处理

在建模过程中，往往会有一些离散变量，如学历、收入等级，用户会员等级。这些变量直接放入到模型中（如回归模型）是有问题的（即使你已经用1,2,3…等数据表示），为解决这个问题，我们通常是将这些变量进行哑变量处理。如果离散变量有N种水平，就需要构造N-1个变量，每一个变量均用0和1的值来表示。那这样的0-1编码，如何使用Python来实现呢？如果你使用了pandas模块中的get_dummies函数，问题就会显得非常容易。下面我们举例说明：

从零开始学Python --pandas(数据框部分04)