1. 首页
  2. 数据分析

☞【观点】徐尽欢:我也说说大数据

  • 一:在Oracle做了六年数据库销售的我从5月份开始内部转到新成立的大数据部门,虽然还没有转完但是已经到新部门上了一个月的班了,如果我说我是Oracle数据库部门最懂大数据的销售应该没人会反对吧!本周二上班跟负责电信的各路工程师头脑风暴,最后的结论是很让人气馁的,但是昨天和今天跟负责制造业和金融的同事头脑风暴,我真的看到了希望应该说很大的希望,接下来容我一一道来!

  • 二:现在都说大数据,每个行业都在建,但是应该分分类,一种大数据是需求驱动性的,本来就是数据量大,我就想解决现在的问题,这种大数据建设很务实,而且有性能指标考核,一切都已解决问题为目的,抓到耗子就是好猫!起个名字这叫业务驱动型大数据。另一种是为了建而建,完全没有目的性,我先买一堆硬件一堆存储,然后干什么再说,可能有个初步的需求,到最后发现都不靠谱。去移动很多机房看看就明白了,灰很厚人很少,到是卖x86服务器的,建设机房的挣了一大笔。起个名字叫利益驱动型大数据吧,不管你是为了保住位子或者搞创新矗立于技术前沿,或者是政治摊派,还或者是为了圈地,还有为了挣钱,反正各种利益建成了一个又这个大数据中心。

  • 三:大数据产生源于互联网的发展,互联网之前的大数据大部分是结构化数据,所谓结构化数据就是类似excel表格一样的数据,比如姓名,年龄,婚姻状况……都可以归纳总结,多几列罢了,所以通常由数据库来管理就可以,oracle独步武林这么多年确实是很多性能指标就是牛X,而且也确实没有那么大数据量的系统。随着互联网的发展,非结构化数据越来越多,所谓非结构化就是你不好归纳整理的数据,在这个互联网世界里人人都在贡献着数据量,发个微博,论坛里发发帖子,朋友圈说说话,贴贴图,上传个视频,每个人发的东西都有感而发,内容形式多样,你怎么入数据库管理呢?先开始少量的还能用数据库管管,你看看各大网站过去MYSQL的需求就明白了,但时间长了发现还是不行,这时候各路大牛开发出自己的大数据处理机制,这里主要是雅虎谷歌一类的,特点是本身就是技术出身,人家能开发出一套适合自己的系统并且不断优化改良,相信大家都看过facebook这部电影,人家自己就是电脑天才,想写点什么出来不行呀。慢慢这些技术也不断更新不断普及不断开源,多说一句所谓开源有时候也是想集思广益通过大家的力量完善自己的产品。这时候里产生了Hadoop,中文是小象的意思!

  • 四:简单聊几句技术,数据处理分成两种流派,一种是以oracle为代表的,无论有多少台机器都是对一份数据进行处理,所有数据都放在统一的存储里,大家都在那儿对同一份数据计算,专业术语叫sharedisk共享磁盘方式。另一种流派是每一台机器处理自己的数据,计算完了再汇总结果,过去的代表就是ibmDB2,专业术语叫做sharenothing就是啥都不共享。大数据时代肯定是后者更适合,所以就发扬光大了。我可以有一万台设备,普通电脑就可以,高端点的叫x86服务器,其实结构都一样,每一台电脑都挂着硬盘,然后接收指令各算各的,算完了交上去汇总,这种电脑象奴隶不?所以专业术语叫slave,对应发号指令的要么叫boss老板要么叫master主上,最后没敢叫boss还是叫了master.所以结构就叫masterslave架构。发号指令的主上也得知道哪个奴隶存的哪些数据吧,所以得有个小本记上谁有啥,又一个专业术语出台叫mapreduce.你就记住是主上手里那个小黑本吧!这就是今天大数据的主要架构了。

  • 五:看到这里,很多人说也没啥难的嘛,我也行。咱中国人一是有决心和毅力二是有山寨精神,人有多大胆地有多大产。好,那就集中三个博士五个院士……跟那个广告语一模一样,开干大数据。这个买卖现在想想实在是高,首先解决了高端人才就业问题,二是鼓励了自助创新,三是又一次拉动了购买需求。最高兴的是pc厂商,hp卖x86的是第一波开心的,先买了上千台x86,为啥要买这么多呢?巡视组查查吧,你妈一个实验系统买这么多干啥呢?谁决策的呢?紧接着自己搭系统,反正是开源的,结果发现还真干不了。说句不好听的,您要真是天才别在中国干这个了,年薪加俩三个零直接去硅谷混吧,中国这个体制培养不出这样的精英。这时候傻了,钱也花了,收不了场了,简单点听我的您就直接说:中国这个事情我干不成别人也干不成不就圆满收场了,结果不是这样干的,仔细想想也真不能这么说,后面还有一大堆人等着您这生意发财呢!要不然找找外脑,一是找项目让集成商出人,二是找找国外厂商。集成商这条路行吗?还是那句话中国这个体制培养不出这样的天才,集成商也没有这样的人。移动急了说不行也得行,要不这样吧,我首创0721付款,做成了我就给钱,做不成我也没花钱,移动你这么鸡贼你家里人知道吗?您这么鸡贼的结果是集成商连比天才差点的人也不投入了,反正不做大数据我们也过得好好的!然后是国外厂商了,前两年这东西还真没有人说特懂,这时候vmvare出现了,说他虚拟化技术可以。我读书少你不要骗我呀,最少我觉得vmvare做的不是大数据吧!不过有了这根稻草大家可以歇口气,以空间换时间吧,最少别赖我!

  • 六:昨天说了移动搞了个零首付,结果是自费武功,自绝羽翼。那么就具体说说这件事。大数据轰轰烈烈搞了起来,对外名称叫xxx大云,领导觉得这个创新不错,也觉得应该加以扶持,于是决定扶上马送一程。外人道:您不送一程也得行呀,花了那么多钱呢,得有响儿吧。要不也太……!!!这个时候偏偏有个真真正正数据量很大的项目准备招投标,信令监测,这孩子倒霉被赶上了。这个系统干什么用呢?简单点说我们每天都在打电话发短信使用2G3G4G网,那么也同时在跟基站交换机各种网络设备打交道,那么这些系统之间会产生大量指令,运营商很有必要对这些系统进行监控,分析一下哪些在拥堵哪些利用率太低哪些需要优化各种……,可以想象这个系统本身就会有大量的数据。此系统现状是根本运行不起来,数据量太大,经常运行好久,不是系统自己烦了timeout了,就是操作人员烦了下班回家了,明早也没看到结果就杀掉操作。反正你可以去各地看看,基本是个瞎掰的系统。但随着3G4G的不断发展,对不起这个系统必须得用起来,因为已经开始影响语音质量了。还记得当初大家为啥选择中国移动而不是联通吗?那还不是信号好不掉线上网快,反正葛优这么说的。现在呢?反正我在北京老掉线,今年还发生了串线现象三四回。这个事情呢一是4g基站分布问题另外一个就是4G上网的人越来越多,想一想多少人用微信就知道了。而且用微信的人太可恶,不是连续的占用带宽上网,而是发一句话一段语音就下网了,专业术语叫心跳,说白了就是经常毫无征兆的杵你一下,要命的事杵完了我准备你再杵我一下,你又不杵了,这时候别人又在别地方杵了,疲于奔命,可不是运营商网络更受不了了。话说回来了,这些大量的网络应用已经大大影响了通话质量,因为带宽被占用严重,所以就想起来了,不是有信令监测系统吗?干嘛吃的?结果发现,原来是聋子的耳朵摆设。为什么摆设呢?数据量太大!太好了,倒霉孩子找到了,来吧,大数据终于派上用途了,当初建设大云相当有预见性和自主知识创新。领导太英明,来吧,开始搞……这个事情太复杂分两章说吧。

  • 七:吐吐槽,有看官留言说我这是移动五年的发展史,我才想明白我这五年来,跟着移动做大数据做技术创新做新系统发展,结果呢忽视了本职工作,我没有好好卖数据库,没有要一块好地盘,没有要一个manager位置(其实领导忽悠我来着)。领导也是很高明,看中我自我陶醉在技术的汪洋大海中不能自拔,忽略了自身物质文明建设,我对不起自己对不起家人,对不起Oracle呀!不过又想想经历这么多风雨见了这么多世面,谁知道哪个才是真的得到呢?接着讲!话说找到了信令监测这个倒霉孩子,那就拿着高精尖武器治治吧。顺便说说移动的生态圈,过去若干年的成功跟集成商等一票活跃在周围的生态有很大的相关性,计费系统有亚信华为,网管系统有亿阳,泰岳,中兴,华为。他们成就了移动也成就了自己,你看看哪一个不是上市公司,除了华为不用上市,上早市就可以。那么信令监测系统也有相应的集成商:中创信测,中兴,华为……也都是上市公司和上早市的公司。用的数据库系统呢,图便宜的用sybase,贵的用Oracle。系统呢便宜的用x86服务器就是前面说的高级家用电脑,贵点的用ibm小型机。数据量在TB级这个规模,到了这个规模的应用你会发现瓶颈不在运算能力了在硬盘响应能力了,EMCIBM高端存储试过也不太能满足需求,所以根源要解决磁盘IO能力,I代表input输入,O代表output输出,字面上理解就是磁盘吞吐能力,我这么说大家是不是觉得技术能普及了,别老拿专业术语骗姆们!看来两章也说不完,且听下回分解!

  • 八:连续培训三天,收获比较多的是第二天,学到了一套方法论指导你如何从建立大数据平台到找到你想要的数据,再抽取数据直到找到一个方法能产生对业务帮助的模型最后加以利用产生新的系统,第一天和第三天效果有限,讲的不够细,后续给大家讲讲感悟。此次培训是全球培训的一站,据说耗资65million美金,全国同事齐聚一堂,大家跟过节一样,playhard然后workinghard.希望啊。耽误了三天,今天被看官催,赶紧接着写。继续说说土豪动信令监测这个项目,项目来了,信令数据全国预计产生180T数据,共保留三个月历史数据,最近一个月数据主要用来分析,够大数据了吧。中创信测打算继续用sybase,华为也是,中兴用Oracle.还有几家基本还打算用关系型数据库。明明跑不起来还玩,就算用关系型数据库估计也悬,你打算怎么处理呢?拆库呗!其实忽略了一个问题这个系统最重要的是也没打算跑起来,省一级都跑不起来您玩全国大集中,弄啥嘞。高层领导一句话,大家跟着掺和,不掺和是态度问题,最后跟领导汇报就完了,上有政策下有对策,各条战线的都没责任,最后结论是技术还不够进步到处理这么大数据上。然而大家都忘了一件事,研究院说他们的大云可以做到的,用hadoop就可以,你们都不用怎么收场呢,然后方案探讨就变成了,所有集成商各自来说说怎么能结合大数据平台及以往的平台把这事给干了,有集成商敢说不行,那你们提提意见告诉我们应该怎么改能行。集成商也炸窝了,本来跑龙套走过场的,怎么变成集体擦屁股了呢?谁这么狠玩的太大了吧。一个月后,招投标的结果是大家都说可以做。负责招投标的土豪动计划部慌了,怎么都行了,你们玩我呢!!!!孙子,行!鉴于此项目的风险,推荐使用0721付款,就是没有首付款,做完初验后给70%货款,终验给20%,尾款10%一年后付。就此这项目好像就不了了之了。结论还是技术不够成熟,重点是集成商也没有这个能力大家都脱罪了。

  • 九:说点技术的,这个项目大概是五年前了,那会儿hadoop存点数据还行,做复杂分析不太行,即使到现在也不太行,不过现在有各种流派都号称解决这个问题了,但五年前绝不行。说说hadoop的特点,做简单查询没问题,复杂查询不灵。大家知道hadoop是互联网的产物,以搜索来举例,搜一个关键字容易,如果搜有条件的就不太行,要是条件更多就完全没戏了。举个栗子,搜北京有多人有车这叫简单查询,北京有多少人有日本车的,这就叫有条件查询,北京有多少有suv日本车的就叫复杂查询,您要是再加上或者与并关系,处理复杂性可见一般了,回去可以试试现在在百度里搜几个关键字也出不来啥有用的,输一个名词到容易的多,但是搜索的特点就是搜一个名词的多,搜复杂的少。但是电信级应用不是这样,没有关联我就搜一个名词有啥用。对不起hadoop天生不是干这个用的,那是关系型数据库的强项,非要做怎么办呢,做好预先过滤,术语叫定制化,我预先设计好脚本筛选出来北京有多人开suv日本车的人,你一查不就出来了。信令监测查的不就是那几样数据逻辑吗,我预先穷举一下,先做好。这么做有多傻多应付差事多大工作量不说,土豪动如果改了业务需求怎么办?万一领导今天说我不查日本车了,我查查德国三蹦子在北京有多少辆咋办,而且立马要结果。接了这活的集成商要是说麻烦您等等我处理一下行不,那就别想收到一毛钱了。所以这件事从技术上就是费力不讨好,风险大大的基本收不回来钱。

  • 十:这件事咋办呢?领导交代下来不能就这样交差吧,我的信号差不能没有方法解决吧,又退回给了苦逼的网络部。网络部还是政治觉悟很强的说,这样吧,全国大集中数据量太大也不好做,我们交给技术实力最强的广东移动做个试点吧,数据量小一点也容易做,广东也很有代表性。广东移动值得称赞的,接了烫手山芋没有抱怨,抱怨也没用,你再不兜着没人接了,结果是还真把这事给做成了。这件事能做成跟我有很大关系的,哈哈,听我来夸夸自己。当时的老板觉得我有创新精神和开拓精神,真不知道怎么看出来的。让我负责土豪动总部网路部,接手时候发现没单子呀,大单都在计费部门呢。真是置之死地而后生,先学习一下网路部门各种专业系统,比如话务网管,数据网管,传输网管,wlan……各种,每个系统都有哪个集成商在建,用的什么数据库,买没买,为什么不买?然后挨个走访,都去说原来ORACLE不重视你们是我们不对,我来了以后一定好好为大家服务,顺便一起吃饭一起喝酒其乐融融,广种薄收嘛。不过我也比较倒霉赶上移动不让买oracle数据库,用也不能买,集成商偷偷用是你们的事,出了事让Oracle告你们,反正我每个项目都有一句话问你们了能不能不用oracle.您要说不能,那你回去再想想!!!不过凑巧,信令监测这个项目出来了,这么大数据量,用我家的exadata一体机可以。所有集成商我都去了一遍除了华为不理我,我都说我们可以,功夫不负有心人,中兴觉得我们的方案确实可行,真的带着数据来测了,结果很好,比原来快太多了,几十倍到上百倍提升!简直不敢相信自己的眼睛。其实oracleexadata借鉴了masterslavemapreduce的思想,又有快速处理数据的保证,也解决了IO问题。一体机的事回头我给大家细讲,这里不做广告了。不要误会真不是做广告,因为exadata从前天我加入大数据团队后就不算我的业绩了。中兴真的很实在,很务实的在投标时,把我们的技术作为亮点交了上去。结果可以预见计划部和大云负责人把他们给骂回去了,政治上太不正确了,能解决问题重要吗?再说也没人敢汇报我们能做这件事吧!报国无门呐!

  • 十一:当时要选了我们的一体机,是不是信号质量早会变好了呢?几个月后,广东移动彻底否定了只用hadoop做信令监测项目,这时oracle广东的同事偷偷摸摸把中兴的测试报告给广东移动看过以后,移动惊呆了,又测试了一遍后,觉得太牛逼了,要求所有参与厂商尝试使用exadata做为平台做相应系统测试。华为依然不服,非要用sybase结果败下阵来,其实华为那会儿自己已经采购了oracle一体机自己用,但是为了追求项目利润不给客户用。中兴不知道为啥没有参与这个项目,可能是寒心了吧,丢个项目没关系,不能犯政治错误!商务招标结果就是,使用oracleexadata作为业务分析平台,研究院大云作为历史数据存储,考虑到hadoop的弊病同事采用mpp架构软件辅助处理!其实后两块完全是政治考虑,完全没必要,也为后来的麻烦不断打下了坚实的基础。不过这种顾全大局的做法还是要鼓励的,要不这样,这项目也不能进行下去了,高实在是高。顺便说一句这个项目我可一分钱奖金也没拿到,所以不算做广告啊!信令监测这个大数据项目终于得以完美应用,但是这个政治上错误的做法依然不能大规模推广,大家继续忍受信号开始变差的移动吧!

  • 我也说说大数据十二:回过头来说说什么是大数据,很推崇冬吴相对论里面的说法,过去数据统计采用的是抽样,无论多大的样本都存在不准确性,比如你来统计oracle销售的勤奋成度,你的样本抽到了硬件部门,结论是很勤奋,这时候你又碰巧搜到了我所在的EPM/BI/大数据部门,发现非常非常勤奋,这时候你又扩大了样本范围,更多销售被计算进来,结果发现也不是那么勤奋了啦。所以这就是抽样的缺陷,那么大数据呢,是直接把所有销售一股脑的计算进来,这样就准确的多了。另外为什么大数据不太好出效果呢?因为他是一个结论,你不好总结出来为什么这个结果,所以你得不停探讨研究为什么这样,才能找到原因加以解决问题。比如到底是因为东西不好卖?还是老板问题?还是制度问题?为什么同是一个公司差距那么大呢?再举个栗子,燕子低飞就是要下雨,无数人都发现了,但是为什么这样呢?大数据让你发现了结论但是原因需要你来发现。讲ppt时候中国各路谚语都可以引用,什么正月十五雪打灯呀,瑞雪照丰年呀,男子手要绵呀,老祖宗也不知道为什么的。燕子的事容我卖个关子吧!哈哈!

作者:徐尽欢

来源:尽欢说大数据

PPV课其他精彩文章:


1、回复“干货”查看干货 数据分析师完整知识结构

2、回复“答案”查看大数据Hadoop面试笔试题及答案

3、回复“设计”查看这是我见过最逆天的设计,令人惊叹叫绝

4、回复“可视化”查看数据可视化专题-数据可视化案例与工具

5、回复“禅师”查看当禅师遇到一位理科生,后来禅师疯了!!知识无极限

6、回复“啤酒”查看数据挖掘关联注明案例-啤酒喝尿布

7、回复“栋察”查看大数据栋察——大数据时代的历史机遇连载

8、回复“数据咖”查看数据咖——PPV课数据爱好者俱乐部省分会会长招募

9、回复每日一课查看【每日一课】手机在线视频集锦

PPV课大数据ID:ppvke123(长按可复制)

大数据人才的摇篮!专注大数据行业人才的培养。每日一课,大数据(EXCEL、SAS、SPSS、Hadoop、CDA)视频课程。大数据资讯,每日分享!数据咖—PPV课数据爱好者俱乐部!

原文始发于微信公众号(PPV课数据科学社区):☞【观点】徐尽欢:我也说说大数据

原创文章,作者:ppvke,如若转载,请注明出处:http://www.ppvke.com/archives/21043

联系我们

4000-51-9191

在线咨询:点击这里给我发消息

工作时间:周一至周五,9:30-18:30,节假日休息