十八大与十九大报告全文分词绘制词云图

一、素材准备

    在网上找到十八大报告全文与十九大报告全文,链接如下所示:
        1、胡锦涛在中国共产党第十八次全国代表大会上的报告(http://cpc.people.com.cn/n/2012/1118/c64094-19612151-1.html
        2、习近平作十九大报告全文实录(http://news.163.com/17/1018/15/D11S5V3Q0001899O.html
    然后,把文本内容拷贝到txt文件中。
二、准备分词工具和停用词
    分词工具使用jieba,报告常用停用词有:’的’, ‘和’, ‘是’, ‘在’, ‘要’, ‘为’, ‘我们’, ‘以’, ‘把’, ‘了’, ‘到’, ‘上’, ‘有’。使用以下正则表达式,把非中文字符过滤掉。
    zhPattern = re.compile(u'[\u4e00-\u9fa5]+’)
    使用到的代码如下所示:
图一、分词准备
三、进行分词
    使用jieba.cut进行分词,然后保存到stat变量中,在保存之前,判断是否符合中文正则表达式以及确定不是停用词,代码如下所示。
图二、分词代码
四、词频统计
    使用pivot_table函数,即可进行词频统计,代码如下所示。
图三、词频统计
    打开词频统计的数据框,如下所示:
图四、词频统计结果
五、词云绘制
    使用wordcloud包进行词云的绘制,代码如下所示。
图五、词云绘制代码
    执行代码,即可得到以下效果的词云图。
图六、十八大词云图
图七、十九大词云图

PPV课

我们用数据说话,传播正能量,执着探索大数据价值!

You may also like...

发表评论

切换注册

登录

忘记密码 ?

切换登录

注册