1. 首页
  2. 数据分析

【微报告】校园行(上)之社交大数据概念理解及应用案例

一、大数据

1、大数据时代

随着智能手机的普及,网民参与互联网产品和使用各种手机应用的程度越来越深,用户的行为、 位置、 甚至身体生理等每一点变化都成为了可被记录和分析的数据,数据量呈现爆炸式增长。

在2006 年,个人用户才刚刚迈进TB时代,全球一共新产生了约180EB的数据;在2011 年,这个数字达到了1.8ZB。据IDC研究机构预测:到2020 年,整个世界的数据总量将会增长44 倍,达到35.2ZB(1ZB=10 亿TB)!

2、大数据的构成

大数据 =海量数据(交易数据、交互数据)+针对海量数据处理的解决方案

海量交易数据:

企业内部的经营交易信息主要包括联机交易数据和联机分析数据,是结构化的、通过关系数据库进行管理和访问的静态、历史数据。通过这些数据,我们能了解过去发生了什么。

海量交互数据:

源于Facebook、Twitter、微博、及其他来源的社交媒体数据构成。它包括了呼叫详细记录CDR、设备和传感器信息、GPS和地理定位映射数据、通过管理文件传输Manage File Transfer协议传送的海量图像文件、Web文本和点击流数据、科学信息、电子邮件等等。可以告诉我们未来会发生什么。

海量数据处理:

大数据的涌现已经催生出了设计用于数据密集型处理的架构。例如具有开放源码、在商品硬件群中运行的Apache Hadoop。

注:大数据 不仅仅指的是数据量庞大,更为重要的是数据类型复杂

3、大数据的特征

(1)海量(Volume)

数据量巨大:全球在2010 年正式进入ZB 时代,IDC预计到2020 年,全球将总共拥有35ZB 的数据量。

(2)多样(Variety)

结构化数据、半结构化数据和非结构化数据:如今的数据类型早已不是单一的文本形式,网络日志、音频、视频、图片、地理位置信息等,对数据的处理能力提出了更高要求。

(3)速度(Velocity)

实时获取需要的信息:比如,在客户每次浏览页面,每次下订单过程中都会对用户进行实时的推荐,决策已经变得实时。

(4)价值(Value)

沙里淘金,价值密度低:虽然数据量很大,但是价值密度较低,如何通过强大的机器算法更迅速地完成数据价值“提纯”,是目前大数据亟待解决的难题。

二、微博社交大数据应用案例

案例一:用户画像体系

每个企业都不可以避免的要对用户进行画像,用户画像的提出,根本上是源于企业对用户认知的需求。产品经理,需要了解用户的特征,对产品进行功能的完善。内容运营人员,需要筛选目标用户,对内容进行精准投放。

【微报告】校园行(上)之社交大数据概念理解及应用案例

用户画像用户兴趣标签

【微报告】校园行(上)之社交大数据概念理解及应用案例

用户关注关系识别用户兴趣

垂直意见领袖(KOL)在各行业推广中独领风骚;在该领域中具有较高知名度和影响力,且在微博中有较好的活跃度。

【微报告】校园行(上)之社交大数据概念理解及应用案例美食

【微报告】校园行(上)之社交大数据概念理解及应用案例旅行

用户博文类型识别用户兴趣

博文类型识别过程 —- 文本分类过程

文本分类是将未知类型内容的文本,将其判别为事先确定的文本类型中的某一类或某几类的过程。微博的文本分类是指根据博文的内容,将博文打上主题标签,如体育,旅游,星座等。

【微报告】校园行(上)之社交大数据概念理解及应用案例

文本分类的基本实现途径

(1)基于知识的途径(又称基于规则)

基于知识的方法,需要领域从业者将进行文本分类时所用到的知识或经验归纳出来,并表示为类似于“如果文本满足条件甲,那么该文本属于类别A”,“如果文本满足条件乙,那么该文本不属于类别B”,然后基于这些分类规则,建立起用于文本自动分类的专家系统。

缺点:面临着知识获取与知识表示的瓶颈问题

(2)基于机器学习的途径

搜集带有标号的样本(即训练样本),利用机器学习技术即可从中自动提取出有关分类规则(即模型),从而利用训练好的模型进行预测。

优点:同基于知识的自动文本分类系统相比,基于学习的系统可以大大缓解知识获取与知识表示问题。

【微报告】校园行(上)之社交大数据概念理解及应用案例基于机器学习的文本分类基本识别流程

文本分类常用一些算法

【微报告】校园行(上)之社交大数据概念理解及应用案例

分词常用方法:词典,张华平博士ICTCLAS分词包,ansj分词包,N-Gram分词法等

特征选择常用方法:文档频率DF,信息增益,互信息, (CHI)统计等

特征权重计算方法:TF-IDF方法的各种变种

分类的常用方法:1. Rocchio方法—相似度计算方法 2. Naive Bayes —贝叶斯方法 3. KNN方法—-K近邻方法 4. Logistic Regression——逻辑回归 5. Decision Tree —-决策树 6. Neural Networks—神经网络 7. Svm—-支持向量机 8.—基于投票的分类方法 等

什么是逻辑回归?

逻辑回归( Logistic Regression 简称LR )可以说是互联网领域应用最广的自动分类算法,逻辑回归与多重线性回归实际上有很多相同之处,最大的区别就在于它们的因变量不同,其他的基本都差不多。如果是连续的,就是多重线性回归;如果是分类型,就是Logistic回归;

逻辑回归的主要用途:

Logistic回归在流行病学中,比较常用的情形是探索某疾病的危险因素,根据危险因素预测某疾病发生的概率,等等。例如,想探讨胃癌发生的危险因素,可以选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群肯定有不同的体征和生活方式等。这里的因变量就是是否胃癌,即“是”或“否”,自变量就可以包括很多了,例如年龄、性别、饮食习惯、幽门螺杆菌感染等。自变量既可以是连续的,也可以是分类的。

Regression问题的常规步骤为:

1.寻找h函数(即hypothesis);

2.构造损失函数J;

3.想办法使得J函数最小或最优,并求得回归参数(θ)

【微报告】校园行(上)之社交大数据概念理解及应用案例

【微报告】校园行(上)之社交大数据概念理解及应用案例

【微报告】校园行(上)之社交大数据概念理解及应用案例

【微报告】校园行(上)之社交大数据概念理解及应用案例

预测概率>0.9识别部分结果

【微报告】校园行(上)之社交大数据概念理解及应用案例

浙江旅游行业用户兴趣分布

【微报告】校园行(上)之社交大数据概念理解及应用案例

案例二:微博事件研究

事件预警:对微博中发生的重大事件进行监控,及时发出通知,编辑或运营人员高效快速的完成内容的创作或采取相应的运营策略。

【微报告】校园行(上)之社交大数据概念理解及应用案例

事件演变分析

记录事件的演变过程,分析事件的发展态势。

【微报告】校园行(上)之社交大数据概念理解及应用案例

案例三:相似文本研究

在某些内容的聚合页(如某些话题聚合页面等),存在内容重复或及其相似的现像,会导致信息呈现不够多元化和丰富性,引起视觉疲劳。

相似度计算流程

常见计算相似度的一些方法:1. 雅卡尔系数 2. Dice系数 3. 余弦相似度 4.皮尔森相关性 等

【微报告】校园行(上)之社交大数据概念理解及应用案例

相似度较高文本识别效果

【微报告】校园行(上)之社交大数据概念理解及应用案例

来自新浪微报告

【微报告】校园行(上)之社交大数据概念理解及应用案例

本号内容部分来自互联网,转载请注明原文链接和作者,如有侵权或出处有误请和我们联系4000-707-620

PPV课大数据ID:ppvke123(长按可复制)

本公众号专注大数据和数据科学领域,分享领域知识和相关技术文章,探索大数据商业价值,培养和挖掘大数据专业人才,欢迎大家关注!

原文始发于微信公众号(PPV课数据科学社区):【微报告】校园行(上)之社交大数据概念理解及应用案例

原创文章,作者:ppvke,如若转载,请注明出处:http://www.ppvke.com/archives/14942

联系我们

4000-51-9191

在线咨询:点击这里给我发消息

工作时间:周一至周五,9:30-18:30,节假日休息