1. 首页
  2. R语言

大数据史记2013:盘点中国2013行业数据量(下)

五一小长假结束了,我们继续来说说大数据史记。上次讲到了BAT代表的互联网公司,以及电信、金融、保险、电力、石化系统,接下来分析下其他行业。

1、公共安全、医疗、交通领域随着平安城市、智慧城市等工程的推进,监控摄像头已经遍布大街小巷,安防监控对高清化、智能化、网络化、数字化的要求越来越高,数据量自然也不断地迅速增加。据说,1080P高清网络摄像机 ,速度能够达到每秒60帧,这样的摄像机一个月产生的视频文件就达1.8T。北京目前用于视频监控的摄像头有50万个,一个摄像头一个小时的数据量就是几G,每天北京市的视频采集数据量在3PB左右,而一个中等城市每年视频监控产生的数据在300PB左右。尽管出于成本考虑,很多监控视频具备定期清除循环的特点,但整个视频监控每年能够保存下来的数据,每年也在数百PB以上。与此相关的交通方面,航班往返一次能产生数据就达到TB级别,还有列车、水陆路运输产生的各种数据视频、文本类数据,每年也在百PB级别,能够保存下来的,也能达到数十PB。北京市交通运行监测调度中心建立了包含“交通数据中心、监测预警中心、运行协调中心、综合交通信息发布中心”在内的四大中心,实现运行监测、协调联动、决策支持与信息服务等功能,并为政府决策、行业监管、企业运营、百姓出行等提供服务支持。具体来看,TOCC已整合接入行业内外27个应用系统、6000多项静动态数据、6万多路视频,目前静动态数据存储达到20T,每天数据增量达30G左右。(北京市交通运行监测调度中心(TOCC)副主任张可)上海申康医院发展中心牵头完成的“医联工程”项目将大数据应用于健康医疗产业,该项目覆盖38家市级三甲医院,实现了市-区各级医院间大规模临床信息实时共享以及健康档案动态更新,高效存储检索解决了海量影像信息高效存储、传输和展示的难题,建立了PB级医学影像档案库。有媒体报道说:“中国一线的大型城市,仅仅健康档案的数据,一年就有5PB之多。”医疗健康卫生领域无疑是一个很大数据来源,包括疾病监控等方面的数据。比如,医疗数据一个大脑的CT扫描图要让它分辨率很高,微米的数据量产生是4.5TB的数据。例如像广州中山大学医院2013年数据是1000个TB。有统计表明,中国一个中等城市(一千万人口)50年所积累的医疗数量可达到10PB。如此推算,整个医疗卫生行业,一年能够保存下来的数据就可以达到数百PB。“大型医院每年的数据增量在数十TB,仅医学影像每年可达20TB。” 一个CT图像含有大约150MB的数据容量,而一个基因组序列文件大小约为750MB,一个标准的病理图与前两者相比则大得多,文件大小接近5GB。如果将这些数据量乘以人口数量和平均寿命,仅一个社区医院或一个中等规模制药企业就可以生成和累积达数个TB甚至数个PB级的结构化和非结构化数据。(某大型三甲医院计算机室主任)2、气象、教育、地理、政务等目前,整个中国气象局所保存的数据在4~5PB左右,每年大概增加数百个TB左右。包含了地面观测、卫星、雷达和数据预报产品等几大类的观测数据。各种地图和地理位置信息应该每年在数十PB,但此次信息容易和互联网公司以及交通运输、物流行业产生信息重叠,单独占有和保存的此类信息应该在PB级别。除了常规的地面观测站之外,以气象卫星和多普勒天气雷达为代表的遥感遥测业务领域近三十年来取得飞速发展,这些领域一方面每天产生着数以TB级的观测数据。(国家气象信息中心副总工程师沈文海)据悉,一个智慧城市的数据一个季度就是200PB之多。2013年,北京市政务数据资源网试运行一年来,已上线公布了400余个数据包,涵盖旅游、教育、交通、医疗等门类,累计访问量超过600万次,地理空间数据累计下载量4800余次。有调查显示,未来1-2年中国政府部门的数据规模超过100TB的将超过一半,达到53.3%,有将近三成(33.3%)的用户数据规模是10-50TB。政府部门的数据多数还是集中在结构化数据上,对于非结构化数据的拥有量并没有想象的大。整个政府部门产生的数据,排除上述提到的几个主要部分,也能达到PB级别。目前,绝大多数中央部委和省级政府部门的核心业务都有数据库支撑,核心业务数据库覆盖率超过80%。公安部建成了覆盖13亿人口的国家人口数据库。国家工商总局建成了企业法人数据库,民政部和中央编制办公室初步建成了社会团体和事业单位信息库,全国四级国土资源主管部门积累了近6000TB的数据,国家统计局建成了统计信息库,国家发展和改革委牵头的自然资源和空间地理基础信息库正在加紧建设。此外,金融、税务、质检、社保、教育等领域也都建成了一批信息库。3、其他,商业销售、制造业、农业、物流和流通等领域随着产业互联网的普及,(线下)商业销售、制造业、农林牧渔业、(线下)餐饮、食品、科研、物流运输等等这些传统行业的数据量将呈现迅速增长态势,但目前来说,目前这些行业数据量还处于积累期,整个体量都不算大,多的达到PB级别,基本也就是百TB甚至数十TB级别。另外,中国国家图书馆藏书是2631万册,这相当于41TB。影视娱乐、出版传媒方面也有一定量的数据积累,还有教育方面目前也在产生着大量的数据,这些都是未来可以挖掘的方向。制造业的存储数据一般被分为以下几种类型:其一,产品设计数据,这类数据的典型特点是以文件为主,非结构化,共享要求比较高,保存时间也比较长;其二,企业生产环节的业务数据,其特点是以数据库等结构化数据为主,这些数据的重要性不言而喻,它们不仅表现企业目前运行的状况,而且为企业进一步发展决策提供有价值的分析;其三,生产监控数据,其特点是数据量非常大,对存储空间以及I/O吞吐要求高。制造企业中,企业对数据的记录多停留于两种形态:1、传统的纸笔记录;2、excel电子表格记录。这些操作起来看似简单的数据管理方式,在浪费人力物力的同时,还为企业生产及质量监控埋下了巨大的隐患。而真正挖掘数据背后的价值,更是无从谈起。最后,我们再从IDC使用行业分布看一看,互联网客户仍旧是主要快速增长的客户群体,占到40%左右,电信、生产制造行业也属于使用比较多的,政府、教育行业增长较快,所占比例分别为8.7%和7.8%。数据存储需求方面,据IDC预测,存储市场将继续表现出良好的增长势头。在未来五年,存储数据容量将达到15864PB(另一数据是18EB),其中尤以政府、医疗、教育等行业增长迅速,所占份额最重。

原文始发于微信公众号(PPV课数据科学社区):大数据史记2013:盘点中国2013行业数据量(下)

原创文章,作者:ppvke,如若转载,请注明出处:http://www.ppvke.com/archives/31498

联系我们

4000-51-9191

在线咨询:点击这里给我发消息

工作时间:周一至周五,9:30-18:30,节假日休息