+关注

删除:大数据取舍之道 pdf


1.png


大数据是最近的业界的热点;而本书作者也是公认的大数据专家,同时,他的《大数据时代》则被认为是开大数据系统研究的先河之作。

全书整体上介绍在大数据时代,信息保存需要进行取舍,不能无限制地进行保存;同时从信息保存的发展,介绍全方位“记忆”的发展;以及近年来,越来越多因为的隐私信息保存不当而导致的伤害性事件。前半部分,基本上都是在讲这个;后半部分,针对数字化记忆和信息安全,提出了一些建议,提倡即使在大数据时代,也需要给信息一个存储期限,“让遗忘回归常态”。

对于“对信息进行取舍而不是无差别的保存”,我是认同的。人在缺少选择的时候,会觉得很苦恼;然而在面对过多选择的时候,也会很苦恼。随着海量数据的产生,如果不进行适当的取舍,那么生活中必然会面对越来越多的参考和抉择,烦恼由此而生。同时,从一个自然人的角度来看,我也不希望我的上网记录被其他的人进行无限制的使用和传播,特别是标注了个人身份的信息。如果人人都能看到这些东西,那么个人和动物园中的动物也就差不多了;不仅仅是围观,信息的滥用也会带来伤害,各种“人肉搜索”的案例,不管是好的、坏的,实在是太多了,就不再进行一一举例了。如果这样的伤害一再出现,而且无法避免,那么用户可能会采用一些其他的手段保证自己的行为是“良好”的;这也是一种造假,人人都会表现出自己所不具备的特质;在这样一种缺乏信任的环境中,进一步的,互联网的开放特性就会得到损害。这是一个生态系统,其中的事物是相互影响的……

在互联网行业的广告、搜索、推荐业务中,个人行为数据是进行结果排序的重要依据。算法设计人员总是希望能够获得尽可能多的用户信息,这样就可以给出更贴近用户的结果,从而得到更高的效益。这些业务中,最近也开始进行用户行为的处理,过滤一些敏感和体验不好的结果,比如计生、殡葬相关的。但是也是仅仅进行过滤,对于用户信息的处理是否进行删除或者使用其他的手段保证用户的行为不会被误用,这样的信息还没有接触到。

从技术方面讲,目前在数据的使用中,对于采集到的各种信息,我们用到的时候,会根据相应的需求进行采集、清洗,从而选择出我们所需要的;但是对于原始的采集信息,我们是不会进行删除的:首先,也许有其他人也会使用这份数据;其次,你无法预测业务的变化,如果需求进行了变更,数据选择的方法和清洗的条件也会发生变化,如果没有最原始的数据,新的业务就无法进行下去。同样,目前在数据库的使用中,如果我们需要删除某个记录,采用的最多的方法,是修改这个记录的状态,而不是真正将记录从数据库中删除。一方面是考虑到需要将记录永久的保存下来,留待后续的查用;另一方面,不确定该记录的删除会不会带来副作用,其他依赖这个表的业务会不会收到影响。所以,在信息保存的实际操作阶段,实际的操作人员很少会进行“删除”操作。

在书中,由于“全方位记忆”导致的遗忘缺失,进而引出的问题,主要还是隐私信息的问题,涉及到个人隐私和公共隐私。目前国内对于隐私的诉求,好像不是特别强烈;但是在互联网方面,用户对于自己的浏览行为的记录还是比较敏感的。对于自己的浏览记录,一般都会主动删除或者要求服务方进行删除,这些我个人也接触过一些例子。不过互联网采集用户行为进行统计分析和数据挖掘,确实会有一些很有价值的信息被发掘出来,所以个人倾向于文中描述的那样,在这些行为记录中,消除具体的用户信息之后,保留共性的信息。另外,在大数据的领域中,用户行为信息和其他隐私信息是很重要的一部分,但是大数据也不是仅仅包含这些内容,其他领域的数据处理的取舍之道,还有待探索与研究。

总的来说,信息的删除是必要的,但是如何去操作,还有大量的工作要做,还有很长的路要走。
已邀请:

ldlboss

赞同来自:


谢谢谢,非常感谢

要回复问题请先登录注册