1. 首页
  2. 数据分析

数据新闻精选| R语言和网络图:数据叙事好帮手

R语言能挖掘、整理数据,网络图可以呈现故事脉络,两者各显神通。深度君精选数据网站FiveThirtyEight的R语言应用心得,数据新闻网络图叙事的类型,还可参考《处理数据、制作可视化:数据记者利器推荐》

1.了解五大优势,巧用R做数据新闻

FiveThirtyEight是专注于做民意调查分析、政经新闻和体育报道的数据新闻网站,由数据分析师Nate Silver 于2008年建立,属于娱乐与体育节目电视网ESPN。其优秀作品包括Uber对纽约交通的影响探究恐怖事件发生频率分析等。他们做数据作品的利器,就是R。

FiveThirtyEight数据编辑Andrew Flowers道出了他们的作品秘诀:数据新闻中,最重要的是故事,其次才是数据。此外,做数据新闻须严谨缜密,简单易懂,保证信息准确、讲述故事,以及数据分析过程的透明。

FiveThirtyEight之所以青睐R语言,是因为R有以下五点优势:1)R属开源工具FiveThirtyEight支持信息开源,他们众多报道用到的数据和R代码都分享于GitHub,供读者参考和改进。

数据新闻精选| R语言和网络图:数据叙事好帮手

2) ggplot2绘图功能强大R语言扩展包ggplot2可绘制多种个性化统计图表。

数据新闻精选| R语言和网络图:数据叙事好帮手3) R整理数据更快捷

数据挖掘是做数据新闻的第一步,但通常而言,你挖的数据格式并不理想,还有可能杂乱无章。R语言的dplyr, tidyr, lubridate, stringr, readr等扩展包是你的好帮手。

数据新闻精选| R语言和网络图:数据叙事好帮手

Flowers提到从FOIA.gov上获取的数据通常都需要重新整理

4)便于协作Git/GitHub社区使程序员更易分享与整合信息、互相协作,避免代码出错。数据新闻精选| R语言和网络图:数据叙事好帮手

5. 可制作交互图表Shiny扩展包,R也可以制作网页呈现的互动图表。数据新闻精选| R语言和网络图:数据叙事好帮手

更多细节,请参见Flowers在2016年国际R语言用户大会上的演讲:FiveThirtyEight’s data journalism workflow with R

2. 用网络图讲故事?五种类型要学会

画个图,勾勒人物和事物联系,是理解复杂关系的常用方法。网络图在数据新闻里有何叙事功能?分为几类?阿姆斯特丹大学研究员Jonathan Gray和他人合著论文《叙事型网络图:探索网络图新闻叙事的能力》(Narrating Networks: Exploring the affordances of networks as storytelling devices in journalism),做了探究,总结了以下五种新闻叙事类型:

数据新闻精选| R语言和网络图:数据叙事好帮手谷歌图片搜索“大数据”和“可视化”结果

1)探索单个主体的关联网络(Exploring Associations Around Single Actors)

论文把这种以单个主体为中心、向外发散形成的关联网络称为“自我网络”(ego-network)。在叙事中运用“自我网络”,能够清晰呈现某个特定社会单位和与其他单位或个体的关系,适于制作交互式动态图表。

数据新闻精选| R语言和网络图:数据叙事好帮手例如,《华盛顿邮报》的交互式新闻作品“美国最高机密”(Top Secret America)展示了美国 45种政府机构的工程类型与其外部供应商形成的系统网络,以文字和动态图表互相补充。读者只需点击机构名称,图表上方就会显示其业务范围和供应商信息。图表中的“自我”,也即作为中心的任意一个单个个体,在图表中的位置和大小、每一块颜色,也都包含着不同的信息,是叙事的一部分。

2)查找关键角色(Detecting Key Players)

指以网络联系的紧密程度来确定网络的关键角色。

数据新闻精选| R语言和网络图:数据叙事好帮手国际科学周刊New Scientist的干细胞之战》(The Stem Cell War)曾用此法,图解国际干细胞研究领域的生物学家在权威学术期刊的引用情况,分析生物学界论文引述的公平性。

如图所示,网络的每个圆点代表一位生物学家,美国和其他国家生物学家分列圆弧的左右两半,以墨绿色和橙色区分。由圆点发散的箭头指向被引用者,箭头越粗表明引用次数越多。

网络中最大的圆点、也即著作被引用次数最多的是京都大学的日本生物学家S Yamanaka,几乎每个人都借鉴过他的研究。但,这是否说明日本科学家在此领域最有发言权呢?New Scientist发现,美国科学家在该领域仍占主导,因为从网络左半部分密集的箭头来看,美国科学家之间相互论文引用次数更多,研究之间的联系也更紧密。反观其他国家的科学家,除了几乎一致引用Yamanaka以外,少数几个还引用了美国科学家的研究,但借鉴非美国同行研究的情况较少。

3)划分敌友界限(Mapping Alliances and Oppositions)

此类网络结构同时展示点与点之间和点群之间的远近,以此揭示个体之间、个体所处的集体之间的双重关系。

范例之一,是加拿大环球新闻网(Global News)的可视化作品《分裂中的多伦多市议会》(Visualizing the Split on Toronto City Council)。作品用红蓝两种点分别代表市长支持方和反对方,以代表中立/独立议员的紫色点连接两方,投票意见一致的议员会在网络中距离更近。

数据新闻精选| R语言和网络图:数据叙事好帮手

4)探索关联网络的演变(Exploring the Evolution of Associations Over Time)

一般用于时间叙事,注重呈现联系演变。上面提到的多伦多市议会故事,以交互式图表展现议会分歧的演变。读者可通过导航菜单,查看历次分歧变化,深入了解政治角力 。

数据新闻精选| R语言和网络图:数据叙事好帮手

5)揭示隐藏的联系(Revealing Hidden Ties)

此种网络结构通常描述隐藏的、潜在的系列犯罪联系。每个点代表一位疑犯或同伙(疑犯可为个人、公司或其他团体),每条线代表潜在的犯罪联系。

《洛杉矶时报》曾调查南加州势力庞大的卡尔德伦家族,发表了可视化报道《卡尔德伦家族的关系网》(the Calderon family’s connections),堪称美国版《周永康的人与财》(财新数据可视化实验室作品,曾获国际新闻设计协会多媒体设计奖特稿(单一报道)优秀奖),解密这一家族四大掌门人纵横商、法、学界的犯罪敛财网络。

这一网络的主体是家族四成员以及被他们控制的四个公司或组织,两者之间的箭头代表涉嫌违法的事件和行为,以颜色区分所涉领域。

数据新闻精选| R语言和网络图:数据叙事好帮手

论文内含丰富的数据新闻案例,详情请阅读原文:Narrating Networks: Exploring the affordances of networks as storytelling devices in journalism

编译/梁思然编辑/周炜乐


噔噔噔~数据咖学堂直播频道-《数据大咖秀》隆重登场!

普及数据科学,培养和发现数据人才,人人都是数据咖!你有网红,我有大咖!

820日前凭兑换码可以免费参加2次由PPV课主办的QQ直播大咖秀在线课程。

课程详情请点击左下角“阅读原文”,赶紧领取兑换券吧↓↓↓

原文始发于微信公众号(PPV课数据科学社区):数据新闻精选| R语言和网络图:数据叙事好帮手

原创文章,作者:ppvke,如若转载,请注明出处:http://www.ppvke.com/archives/13265

联系我们

4000-51-9191

在线咨询:点击这里给我发消息

工作时间:周一至周五,9:30-18:30,节假日休息