1. 首页
  2. R语言

用大数据抓J.K.罗琳的“马甲”

2013年4月,一本普通的破案小说“The Cuckoo’s Calling”(中文译名:《布谷鸟的呼唤》)上市了,作者是Robert Galbraith,一名前便衣警察,2003年褪下军装,进入私人保安行业。直到7月中,还几乎没有什么人知道Robert Galbraith是谁,这本书在整个英国零售书商上也只卖出了449本,在全球知名的网上书店亚马逊英国站只排名5076位。书评商们对该书的评价是:“文笔不错,故事也吸引人,但是并不突出”,又有出版社之前拒绝了这本书。

然而一夜之间,一个消息改变了一切,在亚马逊网站上这本书已经迅速爬到畅销书的前几位,这个消息就是这个男性作者Robert Galbraith,其实不仅是一位女性,而且就是写过7集《哈利波特》,并且以此书成为历史上第一位靠写作收入超过10亿美元的作家,J.K.Rowling(J.K.罗琳)。以罗琳的知名度和在写作上的成功,她的小说攀升到畅销榜前几位不稀奇,但是这里面有两个有趣的地方:1,罗琳为什么要隐姓埋名以男人的身份来发表新作呢,2,外界如何发现罗琳是真正的作者的。

关于第一个问题,我想并不难理解,做为一个从不名一文开始写起,最终在写作上无可附加地成功,在经济上更是前无古人的作家,继续写作的动力可能并不大,然而重新开始的乐趣反而远远大于靠写作赚钱了。这也从罗琳后来的解释中得到印证,“我一直希望这个秘密能够保持更久一些,因为做为Robert Galbraith是这样一种自由的体验,以另一个名字发表,没有任何期望值和吹嘘是如此地美妙”。

第二个问题,才是我今天要写的要点,而这个发现恰恰与大数据有一些关系。这起源于英国《星期日泰晤士报》美术编辑理查德布鲁克斯(Richard Brooks)收到了一条匿名的Twitter消息,透露罗琳才是《布谷鸟的呼唤》一书的作者。为了证明这条情报的真实性,布鲁克斯先生甚至雇佣了私家侦探,而这一动作恰恰和《布谷鸟的呼唤》中描述的一模一样。

最终,恰恰是大数据技术帮助理查德破译了这里面的一切秘密,理查德请到两位计算机语言学家来帮助他,而使用的类似法医的方法就是对《布谷鸟的呼唤》、罗琳的另外两部小说《临时空缺》(The Casual Vacancy)和哈利波特的最后一部《哈利波特与死亡圣器》进行科学地比对,比对的内容包括:

1, 在每一本书里对比所有的词组,或者相连续的短语集

2, 通过一种称为“N-gram”的算法做语言模型来分析用词或字符的序列关系,例如:对“to be or not to be”这一名句的基于词的2-gram序列包括“to be, be or,or not, not to, to be”

3, 对每本书中使用最频繁的100个词进行比较,对比它们出现频率的细微差别

4, 简单分析词的长度,排除词义的因素

5, 主成份分析,对比每本书中的六大特点:单词长度,句子长度,段落长度,字符频率,标点频率,及词用法。

5个小时后,这些计算机语言学家们利用这些大数据的分析技术“证明”了Robert Galbraith正是J.K. Rowling。

当然,当这些文本分析的技术用于中文的时候,会遇到一个完全不同的挑战,及“中文分词”,而这个中文分词的技术恰恰反映了中文作为一种语言的独特的特点,因为中文不像所有的西方言语那样有空格来区分词与词,必须要通过前后字与字的关系,加以上下文的关系,来分析文本中的“词”,而这也是中文世界中大数据的有趣领域,更是中国的计算机语言学家们发挥的巨大空间。

原文始发于微信公众号(PPV课数据科学社区):用大数据抓J.K.罗琳的“马甲”

原创文章,作者:ppvke,如若转载,请注明出处:http://www.ppvke.com/archives/32020

联系我们

4000-51-9191

在线咨询:点击这里给我发消息

工作时间:周一至周五,9:30-18:30,节假日休息