1. 首页
  2. R语言

【译文】传播学中的大数据:发展与不足

【译文】传播学中的大数据:发展与不足

作者:Malcolm R. Parks

当我决定为《传播学日报》写一个特别的关于大数据的主题时,我心中有两个目标。一个是为大众传播,图像技术,政治交流,健康传播以及我们学科中许多其他领域中日益增多的十分优秀杰出的大数据研究寻找一个出路。我的注意力主要放在那些使用新理论做出了实质性贡献的实证论文,而不是那些对于大数据变革提出的解释,说明或者批判。这个目标是去展示计算传播学的最新状况。

我的第二个目标是去提供一个研究变革的标杆。在传播学中,大数据研究仍然处于起步阶段。在这个早期舞台上,这些相对较少的研究都会经受时间的考验,随着概念和理论的发展,这些研究都会受到批评。在大数据主题中具有号召力的文章都代表了目前所有研究的最高水平。这些文章的优点会指导将来的工作,但是,同样的,这些文章也有局限性。

什么是大数据?

对于大数据,没有一个统一的定义。考虑最简单的定义,在类似《传播学日报》这样的刊物里大数据涉及到了比传统意义上的数据集要大的多的数据集。如今从小型实验研究到类似人口调查或重复抽样等大型抽样调查里,数据集的大小仍然是一个被考虑的特质。仅有数据集大小还不足以充分描述大数据的特质。在更实质性的阶段,大数据革命通常和大型社交网站分析联系起来(比如Twitter等在线网站)。大型数据集的自动化数据关联和数据挖掘,网站和手机分析,大型数据集可视化,情绪分析/观点挖掘,机器学习,自然语言处理,以及计算机辅助分析。这些理论的综合运用是大数据的另一个特质。

还有其他的观点,大数据革命独自带来了一种被断言具有特殊的,改革性价值的理论或思想。为了评价这些观点,从大数据的狂热支持者所夸大的作用中提炼出它真正的作用是很必要的。

从夸大的言论中区分真正的作用

由于提供了其他方法不能提供的数据和视角,大数据理论和资源变得越来越重要。这些理论使得涉及到之前难以想象的巨大数据集的研究工作得以展开。确实,大数据提供了唯一的方法去建立和分析尺寸越来越大,越来越复杂的数据集。比如,Baek, Park, Cha的条目包含了大约17亿推特。即便剔除了相关度很高的数据,用其他人的观点来代表这个主题,这个样本的尺寸仍然是成千上万的。然而,大数据的最终价值并不绝对取决于数据集的尺寸,而是取决于另外两个因素。

第一,大数据革命和“数据化”相伴而生,“数据化”,是指从之前并没有看做是数据的信息里提取出有价值的数据来。这一点导致了许多新的研究问题,以及许多对于现有问题的新的解决思路。在这些例子中的一个是相对较大的社交网站(比如christakisfowler)在长期运行的弗雷明中心研究中开始组建跟踪之前忽视的用户浏览信息。在这个主题里,我们可以把gigliettoselva对电视观看者在推特上发布的信息的尝试性分析看做是一个很稀有的测试性研究例子。我们也可以联想起hillshaw在维基上实质性分类管理数据。

大数据也可以在第二种情况中打开一扇新的门。它的计算工具提高了对于混杂性数据集的研究能力——比如混杂了不同时期,不同地点的数据集。这种研究能力在小规模的数据集中一直存在,但是新型的数据变革和分析能力使得在史无前例的复杂和巨大的数据集中进行这种研究成为一件有可能的事。有许多研究都这样做了。其中最引人注目的一个研究是jungherr联合了推特内容,报纸和电视报道的独立内容,以及公众意见去调查分析德国2009年的联邦选举。同样的,共建共享数据集和新的分析工具的发展在混杂性数据集上的工作使得我们的学科有了急剧的发展。

然而,为了意识到这个发展,把大数据放在一个更大的智力和学科背景下来看是很必要的。这就需要透过许多关于“大数据革命”的夸张言论去寻找正确的相关阐述。这些言论中最过激的一个认为大数据会推翻科学本身,或者至少使得理论模型等不再被需要。“有了足够多的数据,这些数字自己就会发声。”在《大数据时代》中有另外一个主张,声称在科学发展中简单的相关关系就已经足够了,假设检验和因果关系将不再被需要。认为这些作者为了刺激市场而去故意说些夸张的言论是很公正的。一个更靠谱的观点是在承认大型数据集的价值的同时,也承认对于数据的选择总是反映了至少一个隐含的理论模型,并且,对于分析结果进行解读的欲望会继续促使科学家去进行因果分析和假设实验(即便一些实验会变得非常大)。

一个关于大数据更温和,但是也是谬误的观点认为大数据代表了与过去截然不同的一个观点,甚至是一个新的科学。术语“数据科学”在这点上尤其不幸,一方面因为它的冗余,另一方面也因为这个术语蒙蔽了大数据的价值最终取决于学科内部和跨学科的效用遮掩一个事实。Kuhn在五十年前提出:实践性的发展和理论发展总是交织进行的,而不是彼此独立的。这个观点在如今仍然具有不亚于50年前的可信性。这个观点认为“数据科学”专家的碰撞造成的学科内的理论交织和跨学科的主题交织会决定他们创造价值的能力。

大数据并没有简单的突然中断了过去的研究,在过去100年内,这些改变了社会科学的理论都在或多或少的平稳发展。这些发展包括了实验设计的汇总,系统抽样和调查的进步,多元统计分析的出现,抓取媒体内容技术的进步,以及录像记录等等等等。我们可能也会记得,关于“大”这个概念本身就是相对性的,有历史局限性的。上述那些理论也可以看做他们的时代里的一场大数据革命。

充分利用大数据

把大数据变革放在学科和历史背景下来看使我们看到了如果想要进步所必须要解决的问题。我认为,关注下列四个问题会使我们受益。

更多的关注理论问题和重要的社会问题

人们可以想象三个阶段所采用的研究方法。在初始阶段,研究强调理论本身,许多研究本质上是示范性的工程。包括传播学在内的许多社会科学领域大数据工作,如今仍处于这个阶段。然后,调查研究开始应用这些新理论去解决一些小的问题或者已知结果的问题。这些研究发现实质上大部分是复制了先人的工作或者报告了一些不那么重要的问题。这些报告有一定的实际意义,并且为更重要的工作提供了指导意义。它们也有一定的局限性,因为它们所使用的数据往往是能够得到的,而不是所必需的。最后,调查研究开始在理论性的和社会性的重要问题中应用这些新方法,它们变成了主流。

我们为这个主题分别根据这三个部分挑选了一些手稿,尽管这些被选择的研究千变万化,它们都紧紧围绕着一个有趣的主题,就是我们所研究的传播学。比如Jungherr做的研究,neuman和他的同事做的研究,vargo和他的同事做的研究,这些研究带来了一个新途径来理解关于在线社交媒体和线下媒体对传播学的时期和性质的影响的重要问题。Colleoni和同事们测试了一个重要的理论性问题,twitter的相互作用结构是会使用户发生不同观点的交流,还是仅仅制造了一个只含有一种声音的“回音室”。Emery则打开了一个新的视角关于怎样考虑“公众如何健康的进行宣传工作”这样一个理论上的和实际中的重要问题。

向更高的阶段发展必将带来研究生教育和协同合作的模式上的改变。就像在19世纪70年代媒体和传播学尝试学习本学科以外的混杂式分析一样,如今我们把手伸向了计算科学的技术。但是我们也不应该为了这些借鉴感到难堪。我们也在资料方面做出了巨大贡献,当计算科学面向工作时经常出现的示范性项目里总是需要我们提供的资料。当研究的投资人需要研究者证明他们制造出的的新工具的实用价值时,我们的贡献会更加重要。

更多的关注数据的合理性

在我们收到的许多意见书里,研究者发现许多人都试着把一个概念定义为操作可以得到的指标,而不是操作经过挑选的指标。这个概念比他们认为的更宽广和重要。当给出所有可操作的数据时,即便最难的问题也会被有效的解决。但是,它往往受到限制而不能抓取足够丰富的想要测量的数据。

技术的发展依赖于提供强有力的证据来证明自动编程系统,机器学习算法,语义分析等各种迅速进入研究领域的新工具的合理性。Emery和她的同事所提交的报告提供了一个很好的例子来说明验证机器编程系统是必要的。其他的报告,包括我们没有提到的报告,或者依赖了不是为了特别的研究情况定制的验证系统进行了验证,或者撰写报告的作者假定之前受到的严格验证依然是有效的。这里我们必须指出,把详细的系统说明等价于合理性的证据是一个谬误。非常详细的程序和算法并不一定比简单的程序更有效。的确,复杂的算法由于使用了更多的假设,也就更容易出错。

更多的关注采样和代表性

大数据并不是全部数据。这一点可以在这个主题的一系列文章里看到。在几乎所有的例子里,调查人员都从仅仅代表了一部分样本的数据集开始初步研究,甚至初步研究后还会研究更小的部分。Gigliettoselva所做的文章提供了一个很好的例子。他们关于2012/2013年度的政治言论的推特数据集(24.9亿条)被认为是一个完整的全套数据。经过仔细检查后,这个数据集就仅仅包含了官方推特和在这个项目中最受欢迎的标签推特。像Jungherr在他的文章中说到的那样,挑选数据使用的标签使这个样本里的数据倾斜向了那些经验更丰富的推特使用者。Gigliettoselva最终分析时所依据的小的多的数据集反映了这些推特的活跃时期的内容。这一点并没有被确立和批评,但是出于科学道德,作者很坦率的承认了关于最终的数据集在这一点上的局限。广泛的观点认为即便是非常大的数据集选取代表样本时也总是受到普遍性和代表性的挑战。“大”并不等于有品质。

为这个主题挑选出的八个报告里有七个都完全或者部分依赖了推特上的数据,这一点很引人注目。尽管基本人口区域的线上人数反映了美国的推特使用人数的增加,我们很少知道,推特的大部分用户都是外国用户,尤其是发展中过家。Baek和他的同事承认,这导致了twitter用户的不同文化的差异,并且抽样时得到的结果会更加不可捉摸。另外,认为不同地区的推特用户和整体线上人口有潜在的相似观点,讨论问题,或者认为几个其他的问题可以解决某一固定问题都是毫无道理的。

此外考虑到推特用户需要具有代表性,我们也需要考虑推特的质量来更普遍的代表当地媒体平台。在一些例子里挑选样本的合适理由,在另一些例子里不再是合适的选择,或者,至少不再是唯一的选择。对于Gigliettoselva所做的关于“第二视角”交互作用的研究,推特是一个绝佳的选择,尽管有人也承认,电视观看者也会和另一个人通过交谈,电子邮件,电话发生交互作用。在数字时代,分析超过一个媒体平台的数据变得越来越重要,就像那些有兴趣在这个主题上做出报道的媒体越来越多,甚至广播和纸质媒体都在考虑这个主题一样。Neumanguggenheimjangbae做出的研究提供了一个同时使用了传统和现代媒体的杰出例子。在一些其他例子里,问一问使用推特上更大,更多样化的数据是否能和研究者所研究的问题紧密相连是很公正的。对于任何一个只使用了单一媒体平台的数据的研究,这都是一个很合理的问题,再一次重复,不管这个平台提供了多大的数据量。

增强数据的共享性,确保数据的品质

许多评论员都逐渐发现大数据最感兴趣的领域是社会科学,尤其是传播学和新闻学者,这是一个像脸谱,推特,谷歌等商业实体的特性。这些公司既不否认也不管理研究者对于数据的访问,导致了对“新型数据分裂”的恐惧,以及使得创造课题的研究员既不是“数据冗余”的,也不是“数据匮乏”的。因此随着我们的生活中越来越多的形成技术壁垒,对“新型数据分裂”的恐惧是一个合理的恐惧,也是对研究界每一个人的一个警告。

但是数字鸿沟的花言巧语没能捕获全部范围的恐惧。随着传播学学者开始和社交网站和其他专业平台的拥有者一起工作,他们也会体验和生物医学研究者需要和药物制造业和医疗设备业异同工作这一挑战相同的挑战。这些研究员将同时也不得不抗衡这样一个情况,公司将只会提供那些他们认为有益于公司利益的数据的访问权限。就像生物医学研究员一样,这些研究院也会发现赞助商和支持者会使他们束手束脚。有时候这些束缚是很明确的,比如有的公司会在手稿提交去发表之前限制研究员获取它的权力。有时候这些束缚是不很明确的,比如研究员要根据自己意愿去为新贵公司或者工业群设计一份可视化报告。在最极端的情况下,当投资者对于研究员所研究的产品拥有所有权或者很宽泛的询问权时,双方会有直接的利益冲突。

当我们踏进大数据时代时,也就面对了许多艰难挑战。一些挑战是新的,但是幸运的是,这些挑战大部分都和过去主要的技术革命中所面对的挑战一样。回首看一看过去关于革命的主张可以帮助我们看情前方的路。向前发展不仅要求为现有的问题提出新的解决方法,也要求用一颗传播学的心,在一个不断进步的媒体时代去努力理解社会和公众时代。这个挑战是相似的;理论和实际作用的潜力是相似的。

本文由PPV课翻译并首发,转载请注明出处。

原文始发于微信公众号(PPV课数据科学社区):【译文】传播学中的大数据:发展与不足

原创文章,作者:ppvke,如若转载,请注明出处:http://www.ppvke.com/archives/31084

联系我们

4000-51-9191

在线咨询:点击这里给我发消息

工作时间:周一至周五,9:30-18:30,节假日休息