1. 首页
  2. 数据分析

【技术】从文本挖掘和机器学习中洞悉数据

点击上方免费订阅(学习)

文本挖掘分析的是包含在自然语言文本中的数据。它可以帮助企业从文本型数据中获得具有潜在价值的商业洞察力,比如Word文档、邮件或Facebook、Twitter、LinkedIn等社交媒体上的帖子。对于在信息检索和自然语言处理等方面应用机器学习技术这一命题,文本挖掘已成为一个重要研究领域。从某种意义上来说,它被定义为从能够在互联网上轻易获取的泛文本数据中挖掘知识的一种技术。

【技术】从文本挖掘和机器学习中洞悉数据

文本挖掘过程包含上图所示的几个步骤。步骤1:在大量文本文件中判断哪些文件是满足需求的。一些文档聚类方法能够用于解决这个问题,这些聚类方法都是无监督的机器学习方法,最流行的文档聚类方法是K均值聚类法和层次聚类法。步骤2:清洗文本数据。也就是从网页文本中去掉广告信息;把二进制格式的数据转换为标准文本;处理表格、图形和公式;以及其他的工作。然后,标记文本中的单词,有两种常用的方法用来标记单词,一种是基于规则的方法,它依赖于语法规则;一种是基于统计的方法,它依赖于每一种单词出现顺序的概率,并需要提前搜集一些语料库以用于机器学习,这种方法能在具体的句子里为一个有许多含义的单词选出最可能的一种含义。最后,确定语义结构,同样有两种方法用于确定语义结构,一种是全解析,它为一个句子生成一个解析树;另一种是局部解析,它将一个句子解析为语法结构,比如名词短语或动词词组。不准确的语法规则、不常见的单词、不恰当的符号化、不正确的句子拆分、错误的词性标注都会导致全解析出现错误,因此,局部解析更常用。步骤3:将标记出的单词转换为文本表示。主要的文档表示方法是词袋和向量空间,这一过程的目的是确定哪些单词最能代表文档的主要含义。步骤4:减少向量空间中单词的个数。不重要的单词将被去掉。步骤5:文本挖掘能和传统的数据挖掘方法相结合。能被用于先前几个阶段处理得到的结构化数据的经典数据挖掘方法有聚类、分类、决策树、回归分析、神经网络和最近邻等。这一步骤是纯粹与应用相关的步骤。最后一个步骤,如果结果不能令人满意,它们将作为前几个步骤的部分原始数据来源。机器学习是发源于模式识别和人工智能的计算机科学的一个分支领域。它研究和建立一些能够从数据中获取信息并做出决策的算法。这些算法根据历史数据建立模型,以达到数据驱动决策的效果,而非根据僵化的程序指令做出决策。计算统计是一门专门用于预测决策的学科,机器学习和计算统计密切相关,并多有重合。它和最优化也有很强的联系,最优化为机器学习提供理论方法,它使用一系列计算任务来设计算法,解决显式编程不能解决的一些问题。应用实例有垃圾邮件过滤,光学字符识别(OCR),搜索引擎和计算机视觉等。文本挖掘利用了机器学习算法在抽取特征、降维、去除不相关属性等方面的优势。比如,文本挖掘能利用机器学习进行情感分析,而情感分析又被评论和社交媒体广泛应用于从市场营销到客户服务的一系列领域,它能够确定一篇文档中作者对某些主题的情感倾向。这些倾向反应了作者的判断、评价、积极程度或预期的情感态度。文本挖掘中的机器学习算法也包括决策树、关联规则、神经网络、逻辑归纳、支持向量机、贝叶斯网络、遗传算法、稀疏的字典学习等。作者:Murat Yazici

PPV课翻译小组作品,未经许可严禁转载

【技术】从文本挖掘和机器学习中洞悉数据

PPV课-国内领先的大数据学习社区和职业培训平台,欢迎关注!

数据驱动未来,我们开启智慧!

原文始发于微信公众号(PPV课数据科学社区):【技术】从文本挖掘和机器学习中洞悉数据

原创文章,作者:ppvke,如若转载,请注明出处:http://www.ppvke.com/archives/14710

联系我们

4000-51-9191

在线咨询:点击这里给我发消息

工作时间:周一至周五,9:30-18:30,节假日休息