一、大数据
1、大数据时代
随着智能手机的普及,网民参与互联网产品和使用各种手机应用的程度越来越深,用户的行为、 位置、 甚至身体生理等每一点变化都成为了可被记录和分析的数据,数据量呈现爆炸式增长。
在2006 年,个人用户才刚刚迈进TB时代,全球一共新产生了约180EB的数据;在2011 年,这个数字达到了1.8ZB。据IDC研究机构预测:到2020 年,整个世界的数据总量将会增长44 倍,达到35.2ZB(1ZB=10 亿TB)!
2、大数据的构成
大数据 =海量数据(交易数据、交互数据)+针对海量数据处理的解决方案
海量交易数据:
企业内部的经营交易信息主要包括联机交易数据和联机分析数据,是结构化的、通过关系数据库进行管理和访问的静态、历史数据。通过这些数据,我们能了解过去发生了什么。
海量交互数据:
源于Facebook、Twitter、微博、及其他来源的社交媒体数据构成。它包括了呼叫详细记录CDR、设备和传感器信息、GPS和地理定位映射数据、通过管理文件传输Manage File Transfer协议传送的海量图像文件、Web文本和点击流数据、科学信息、电子邮件等等。可以告诉我们未来会发生什么。
海量数据处理:
大数据的涌现已经催生出了设计用于数据密集型处理的架构。例如具有开放源码、在商品硬件群中运行的Apache Hadoop。
注:大数据 不仅仅指的是数据量庞大,更为重要的是数据类型复杂
3、大数据的特征
(1)海量(Volume)
数据量巨大:全球在2010 年正式进入ZB 时代,IDC预计到2020 年,全球将总共拥有35ZB 的数据量。
(2)多样(Variety)
结构化数据、半结构化数据和非结构化数据:如今的数据类型早已不是单一的文本形式,网络日志、音频、视频、图片、地理位置信息等,对数据的处理能力提出了更高要求。
(3)速度(Velocity)
实时获取需要的信息:比如,在客户每次浏览页面,每次下订单过程中都会对用户进行实时的推荐,决策已经变得实时。
(4)价值(Value)
沙里淘金,价值密度低:虽然数据量很大,但是价值密度较低,如何通过强大的机器算法更迅速地完成数据价值“提纯”,是目前大数据亟待解决的难题。
二、微博社交大数据应用案例
案例一:用户画像体系
每个企业都不可以避免的要对用户进行画像,用户画像的提出,根本上是源于企业对用户认知的需求。产品经理,需要了解用户的特征,对产品进行功能的完善。内容运营人员,需要筛选目标用户,对内容进行精准投放。
用户画像之用户兴趣标签
用户关注关系识别用户兴趣
垂直意见领袖(KOL)在各行业推广中独领风骚;在该领域中具有较高知名度和影响力,且在微博中有较好的活跃度。
美食
旅行
用户博文类型识别用户兴趣
博文类型识别过程 —- 文本分类过程
文本分类是将未知类型内容的文本,将其判别为事先确定的文本类型中的某一类或某几类的过程。微博的文本分类是指根据博文的内容,将博文打上主题标签,如体育,旅游,星座等。
文本分类的基本实现途径
(1)基于知识的途径(又称基于规则)
基于知识的方法,需要领域从业者将进行文本分类时所用到的知识或经验归纳出来,并表示为类似于“如果文本满足条件甲,那么该文本属于类别A”,“如果文本满足条件乙,那么该文本不属于类别B”,然后基于这些分类规则,建立起用于文本自动分类的专家系统。
缺点:面临着知识获取与知识表示的瓶颈问题
(2)基于机器学习的途径
搜集带有标号的样本(即训练样本),利用机器学习技术即可从中自动提取出有关分类规则(即模型),从而利用训练好的模型进行预测。
优点:同基于知识的自动文本分类系统相比,基于学习的系统可以大大缓解知识获取与知识表示问题。
基于机器学习的文本分类基本识别流程
文本分类常用一些算法
分词常用方法:词典,张华平博士ICTCLAS分词包,ansj分词包,N-Gram分词法等
特征选择常用方法:文档频率DF,信息增益,互信息, (CHI)统计等
特征权重计算方法:TF-IDF方法的各种变种
分类的常用方法:1. Rocchio方法—相似度计算方法 2. Naive Bayes —贝叶斯方法 3. KNN方法—-K近邻方法 4. Logistic Regression——逻辑回归 5. Decision Tree —-决策树 6. Neural Networks—神经网络 7. Svm—-支持向量机 8.—基于投票的分类方法 等
什么是逻辑回归?
逻辑回归( Logistic Regression 简称LR )可以说是互联网领域应用最广的自动分类算法,逻辑回归与多重线性回归实际上有很多相同之处,最大的区别就在于它们的因变量不同,其他的基本都差不多。如果是连续的,就是多重线性回归;如果是分类型,就是Logistic回归;
逻辑回归的主要用途:
Logistic回归在流行病学中,比较常用的情形是探索某疾病的危险因素,根据危险因素预测某疾病发生的概率,等等。例如,想探讨胃癌发生的危险因素,可以选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群肯定有不同的体征和生活方式等。这里的因变量就是是否胃癌,即“是”或“否”,自变量就可以包括很多了,例如年龄、性别、饮食习惯、幽门螺杆菌感染等。自变量既可以是连续的,也可以是分类的。
Regression问题的常规步骤为:
1.寻找h函数(即hypothesis);
2.构造损失函数J;
3.想办法使得J函数最小或最优,并求得回归参数(θ)
预测概率>0.9识别部分结果
浙江旅游行业用户兴趣分布
案例二:微博事件研究
事件预警:对微博中发生的重大事件进行监控,及时发出通知,编辑或运营人员高效快速的完成内容的创作或采取相应的运营策略。
事件演变分析
记录事件的演变过程,分析事件的发展态势。
案例三:相似文本研究
在某些内容的聚合页(如某些话题聚合页面等),存在内容重复或及其相似的现像,会导致信息呈现不够多元化和丰富性,引起视觉疲劳。
相似度计算流程
常见计算相似度的一些方法:1. 雅卡尔系数 2. Dice系数 3. 余弦相似度 4.皮尔森相关性 等
相似度较高文本识别效果
来自新浪微报告
本号内容部分来自互联网,转载请注明原文链接和作者,如有侵权或出处有误请和我们联系4000-707-620
原文始发于微信公众号(PPV课数据科学社区):【微报告】校园行(上)之社交大数据概念理解及应用案例
原创文章,作者:ppvke,如若转载,请注明出处:http://www.ppvke.com/archives/14942