PPV课数据科学社区【微报告】校园行（上）之社交大数据概念理解及应用案例

一、大数据

1、大数据时代

随着智能手机的普及，网民参与互联网产品和使用各种手机应用的程度越来越深，用户的行为、位置、甚至身体生理等每一点变化都成为了可被记录和分析的数据，数据量呈现爆炸式增长。

在2006 年，个人用户才刚刚迈进TB时代，全球一共新产生了约180EB的数据；在2011 年，这个数字达到了1.8ZB。据IDC研究机构预测：到2020 年，整个世界的数据总量将会增长44 倍，达到35.2ZB（1ZB=10 亿TB）！

2、大数据的构成

大数据 =海量数据（交易数据、交互数据）+针对海量数据处理的解决方案

海量交易数据：

企业内部的经营交易信息主要包括联机交易数据和联机分析数据，是结构化的、通过关系数据库进行管理和访问的静态、历史数据。通过这些数据，我们能了解过去发生了什么。

海量交互数据：

源于Facebook、Twitter、微博、及其他来源的社交媒体数据构成。它包括了呼叫详细记录CDR、设备和传感器信息、GPS和地理定位映射数据、通过管理文件传输Manage File Transfer协议传送的海量图像文件、Web文本和点击流数据、科学信息、电子邮件等等。可以告诉我们未来会发生什么。

海量数据处理：

大数据的涌现已经催生出了设计用于数据密集型处理的架构。例如具有开放源码、在商品硬件群中运行的Apache Hadoop。

注：大数据不仅仅指的是数据量庞大，更为重要的是数据类型复杂

3、大数据的特征

（1）海量（Volume）

数据量巨大：全球在2010 年正式进入ZB 时代，IDC预计到2020 年，全球将总共拥有35ZB 的数据量。

（2）多样（Variety）

结构化数据、半结构化数据和非结构化数据：如今的数据类型早已不是单一的文本形式，网络日志、音频、视频、图片、地理位置信息等，对数据的处理能力提出了更高要求。

（3）速度（Velocity）

实时获取需要的信息：比如，在客户每次浏览页面，每次下订单过程中都会对用户进行实时的推荐，决策已经变得实时。

（4）价值（Value）

沙里淘金，价值密度低：虽然数据量很大，但是价值密度较低，如何通过强大的机器算法更迅速地完成数据价值“提纯”，是目前大数据亟待解决的难题。

二、微博社交大数据应用案例

案例一：用户画像体系

每个企业都不可以避免的要对用户进行画像，用户画像的提出，根本上是源于企业对用户认知的需求。产品经理，需要了解用户的特征，对产品进行功能的完善。内容运营人员，需要筛选目标用户，对内容进行精准投放。

【微报告】校园行（上）之社交大数据概念理解及应用案例

用户画像之用户兴趣标签

【微报告】校园行（上）之社交大数据概念理解及应用案例

用户关注关系识别用户兴趣

垂直意见领袖（KOL）在各行业推广中独领风骚；在该领域中具有较高知名度和影响力，且在微博中有较好的活跃度。

美食

旅行

用户博文类型识别用户兴趣

博文类型识别过程 —- 文本分类过程

文本分类是将未知类型内容的文本，将其判别为事先确定的文本类型中的某一类或某几类的过程。微博的文本分类是指根据博文的内容，将博文打上主题标签，如体育，旅游，星座等。

文本分类的基本实现途径

（1）基于知识的途径（又称基于规则）

基于知识的方法，需要领域从业者将进行文本分类时所用到的知识或经验归纳出来，并表示为类似于“如果文本满足条件甲，那么该文本属于类别A”,“如果文本满足条件乙，那么该文本不属于类别B”,然后基于这些分类规则，建立起用于文本自动分类的专家系统。

缺点：面临着知识获取与知识表示的瓶颈问题

（2）基于机器学习的途径

搜集带有标号的样本（即训练样本），利用机器学习技术即可从中自动提取出有关分类规则（即模型），从而利用训练好的模型进行预测。

优点：同基于知识的自动文本分类系统相比，基于学习的系统可以大大缓解知识获取与知识表示问题。

基于机器学习的文本分类基本识别流程

文本分类常用一些算法

【微报告】校园行（上）之社交大数据概念理解及应用案例

分词常用方法：词典，张华平博士ICTCLAS分词包，ansj分词包，N-Gram分词法等

特征选择常用方法：文档频率DF，信息增益，互信息， (CHI)统计等

特征权重计算方法：TF-IDF方法的各种变种

分类的常用方法：1. Rocchio方法—相似度计算方法 2. Naive Bayes —贝叶斯方法 3. KNN方法—-K近邻方法 4. Logistic Regression——逻辑回归 5. Decision Tree —-决策树 6. Neural Networks—神经网络 7. Svm—-支持向量机 8.—基于投票的分类方法等

什么是逻辑回归？

逻辑回归（ Logistic Regression 简称LR )可以说是互联网领域应用最广的自动分类算法，逻辑回归与多重线性回归实际上有很多相同之处，最大的区别就在于它们的因变量不同，其他的基本都差不多。如果是连续的，就是多重线性回归；如果是分类型，就是Logistic回归；

逻辑回归的主要用途：

Logistic回归在流行病学中，比较常用的情形是探索某疾病的危险因素，根据危险因素预测某疾病发生的概率，等等。例如，想探讨胃癌发生的危险因素，可以选择两组人群，一组是胃癌组，一组是非胃癌组，两组人群肯定有不同的体征和生活方式等。这里的因变量就是是否胃癌，即“是”或“否”，自变量就可以包括很多了，例如年龄、性别、饮食习惯、幽门螺杆菌感染等。自变量既可以是连续的，也可以是分类的。

Regression问题的常规步骤为：

1.寻找h函数（即hypothesis）；

2.构造损失函数J；

3.想办法使得J函数最小或最优，并求得回归参数（θ）

预测概率>0.9识别部分结果

浙江旅游行业用户兴趣分布

案例二：微博事件研究

事件预警：对微博中发生的重大事件进行监控，及时发出通知，编辑或运营人员高效快速的完成内容的创作或采取相应的运营策略。

事件演变分析

记录事件的演变过程，分析事件的发展态势。

案例三：相似文本研究

在某些内容的聚合页（如某些话题聚合页面等），存在内容重复或及其相似的现像，会导致信息呈现不够多元化和丰富性，引起视觉疲劳。

相似度计算流程

常见计算相似度的一些方法：1. 雅卡尔系数 2. Dice系数 3. 余弦相似度 4.皮尔森相关性等

相似度较高文本识别效果

【微报告】校园行（上）之社交大数据概念理解及应用案例

来自新浪微报告

【微报告】校园行（上）之社交大数据概念理解及应用案例

本号内容部分来自互联网，转载请注明原文链接和作者，如有侵权或出处有误请和我们联系4000-707-620

PPV课大数据ID:ppvke123（长按可复制）

本公众号专注大数据和数据科学领域，分享领域知识和相关技术文章，探索大数据商业价值，培养和挖掘大数据专业人才，欢迎大家关注！

原文始发于微信公众号（PPV课数据科学社区）：【微报告】校园行（上）之社交大数据概念理解及应用案例

原创文章，作者：ppvke，如若转载，请注明出处：http://www.ppvke.com/archives/14942

【微报告】校园行（上）之社交大数据概念理解及应用案例

联系我们

4000-51-9191

【微报告】校园行（上）之社交大数据概念理解及应用案例

相关推荐

请登录

联系我们

4000-51-9191