1. 首页
  2. R语言

你幸福吗?大数据时代的悲喜秘密

你幸福吗?——先别急着回答你是姓“曾”还是姓“福”,答案早已暴露在你发过的几千条微博中。在大数据时代,人们的幸福感从其遣词用句便可窥见一斑。

早在1881年,一位爱尔兰科学家就曾设想发明一个叫做“幸福表”的仪器,可以用它来衡量人们的幸福程度。2009年,美国佛蒙特大学研究人员在《快乐研究》杂志上发表了一篇文章,文中提到他们如何从网上博客数据中发现大众在近期最悲伤的一天(迈克尔•杰克逊去世的那天)和最快乐的一天(11月4日奥巴马当选日)。而2011年,研究人员对此方法做了进一步改进,并用其来分析Twitter上超过4千6百万的词语。

最近,他们发表了研究成果,用一组地图描绘出美国人民的幸福指数,其精确程度可以小到每一个邮区。

美国各州的幸福程度 – 红色代表幸福/快乐,蓝色代表负面情绪

结果可谓是几家欢乐几家愁:夏威夷州当选为美国最幸福的州,路易斯安那州则沦为“悲惨世界”;

加州北部的纳帕(Napa)被看作全美幸福度最高的城市,那儿的人们经常谈论美酒和餐厅,而得克萨斯的博蒙特(Beaumont)却是最不快乐之城——当地居民总是在微博上咒骂脏话。

佛蒙特大学的博士后刘易斯•米切尔说:“一般情况下,(美国)南方城市快乐程度不如北方,因为那里的人多数比较粗鲁。”

她解释说,“这类社交媒体数据分析让人振奋的是,我们即将到达一个阶段:可以从人们的用词来了解那个群体和地区的情况。另外,数据分析的实时性和对幸福度测量的统一标准化也是这项研究令人兴奋的原因。”

你幸福吗?大数据时代的悲喜秘密

该研究以词语云来确定幸福程度。为了确定哪些词语与心情好坏相关,研究人员从亚马逊的Mechanical Turk上对上千个词语的“幸福相关度”进行了反复测试、排名和赋值。

基于这些赋值,他们编写了一个复杂的算法来分析超过1千万条推文中的词语,并将它们产生的幸福值和地理位置对应起来。举例来说,一般脏话和心情不好密切相关,所以一个人在微博里的脏话越多,他就被认为越不快乐。

当然,这里的“幸福”是基于“幸福的言语”,未必能完全代表感情上的“幸福”。

研究还发现,受过高等教育的人常常倾向于使用更复杂的词语,而大学学历以下的人则更喜欢用简单,感情色彩强烈的词,比如“你”、“我”、“爱”和“讨厌”。

你幸福吗?大数据时代的悲喜秘密

有趣的是,当一个地区人们平均发微博的数目越多,那个地区的人民越不快乐

那么,身为微博控/微信控的你,幸福吗?

原文始发于微信公众号(PPV课数据科学社区):你幸福吗?大数据时代的悲喜秘密

原创文章,作者:ppvke,如若转载,请注明出处:http://www.ppvke.com/archives/31955

联系我们

4000-51-9191

在线咨询:点击这里给我发消息

工作时间:周一至周五,9:30-18:30,节假日休息