1. 首页
  2. 数据分析

【每天一个数据分析师】面对毫无基础的业务人员,好的分析师解释逻辑,而不是细节

论坛君

“每天一个数据分析师”在第七期有幸采访到谢宇先生,他是中国联通广西分公司的大数据负责人,有超过7年的电信行业数据挖掘经验,目前主要负责大数据应用规划、基础平台设计、大数据商业变现。下面进入正题。

DA:您是怎么走上数据挖掘这条道路的?简单说一下您的学习和从业经历。

谢宇:从高中信息学竞赛开始,就对计算机解题感兴趣了;大学做过数学建模竞赛,同样是利用解决问题。工作以后做中国移动的经营分析系统,也就是俗称商业智能。信息学和数学建模竞赛分别是使用Pascal和Matlab,这跟工作以后使用的SQL有很大不同,SQL思维适应了一段时间。

第一次做数据挖掘项目是非常机缘巧合。当时数据挖掘项目已经启动,然而项目上会数据挖掘的同事离职了,领导说你做过类似的竞赛,来做数据挖掘吧,没办法,只好硬着头皮上。项目大概是找一些lookalike用户,向其推荐产品。当时看了几篇相关论文,另外把clementine的demo也重复看了几遍,就把项目做了。几年后回头再看,许多地方做得不到位的。没办法,当时数据挖掘人才真的难找(当然现在也难找)。另外推荐初学者用clementine进行数据挖掘学习,这是个简单易学的工具。

DA:在多年的从业经历中,您感到国内在数据应用方面发生了哪些变化?未来还会有哪些趋势出现?可否举例说明?

谢宇:这个问题很大,我从自己理解的角度回答,不甚完善。

尽管数据挖掘早在2000年(甚至更早)就已经被引入国内了,但是大范围使用的时间不算长,这跟数据存储/运算能力,人才培养情况,市场接受度等因素相关。特别从2013年,也就是俗称的“大数据元年”开始,更多的公司使用了数据挖掘,阿里成立蚂蚁金服,依托他们庞大的交易数据,做了不少应用,做信用,做风控等等,马云也提出DT战略。百度也推出他们基于DeepLearning的许多应用,比如BaiduEye,魔图等等。

实际数据要应用起来,链条非常长,因为这涉及到:业务——抽象成模型——数据准备和探索——建模调参——给出相应的业务解释等。上面说到的流程仅仅是数据建模的部分,更别说整个产品或者营销案涉及到的用户心理层面、流程嵌入和界面开发等环节了。所以说数据应用非常复杂。但是可以肯定的是,数据应用将在各方面都普及起来,这就需要大量的数据分析师去支撑。

DA:以您的经验,在实际应用中,数据分析师最常碰到的问题是什么?可否举例说明?

谢宇:实际应用中,最常碰到的就是业务人员/产品经理需求不明确。不少未经训练过的业务人员,他们的需求非常多,但是又无法理清这其中的关系。在需求沟通中,提问和追问非常有必要。你要多问他为什么要这么做?通常他告诉你的原因会比较浅,这时候你必须继续追问,直到他回答不上来或者你觉得解释了本质的原因为止。另一个问题就是业务人员不了解数据挖掘/大数据能做什么,他们会告诉你应该如何比较两个群体的均值,如何看某个指标的趋势,但你知道这些可以用决策树、神经网络解决,用数据挖掘的方法解决会更准确易懂。

例如需求人员想了解持双卡双待手机的客户有哪些,这些客户是否更容易从一个运营商迁移到另一个运营商。那么我们要考虑的是两个问题,但业务人员通常会说,你帮我用均值比较双卡双待手机用户和非双卡双待手机用户的均值,看看哪个用户群离网的人更多。业务人员这么跟你说是很难让人理解的,这时候你就得抽丝剥茧,通过提问的方式,了解他想干吗,分解成不同的子目标。所以你看抛开专门调算法做算法的人不谈,那是极少数人,学习机器学习算法只是工作中很小的一部分,现在很多软件例如R、python、rapidminer都有现成的包,更多的工作量还在于业务理解和抽象成数学模型上,再加上上面提到的营销心理或者是界面设计(针对营销产品/营销案或者软件产品),整个链条非常长。

这时候你要问了,那我只做好算法行不行,答案是不行的。也许在有些公司是可以的,做做算法就糊弄过去了,合同签了交付完,不用考虑落地。但这肯定不是长久之计。对分析师来说也太简单,生搬硬套算法,毫无使用价值。实际应用中要考虑的东西太多。

DA:从技术和实战的层面看,您在工作过程中遇到过比较大的或者让您印象深刻的困难是什么,后来是怎么解决的?

谢宇:工作中最困难的从来不是来自于技术,而是来自于业务抽象成技术,技术再还原到业务,抽象和还原的两个过程。这两个过程做不好,项目直接走样。技术还原到业务做得不好,业务人员压根不用你的模型。

例如以前,一次跟业务人员讲决策树原理,为什么要用决策树,他立马听不懂,因为他不知道什么叫树的根节点、叶子节点、什么叫信息熵,这些对他统统都是陌生词汇。结果讲解直接被打断,开始教育我了,说你用我的方法,把他们分类好,把每一类的样本的交叉检验(其实是想说直方图)画出来,然后做比较等等。后来吃一堑长一智,再跟业务人员讨论的时候,你不能说这个东西是计算信息增益度算出来的,你得说计算机它通过计算,选择了最合适的指标来做分类,所以放在了最靠近最开始分类节点,这样能够最大效率的去分好类别。

当你面对毫无基础的业务人员,不要想着把每个细节、原理都解释清楚,你的目标是首先确保自己模型逻辑没有问题,然后让业务人员点头,这要用通俗的语言把推理过程描述清楚,业务人员会理解这个逻辑,理解好逻辑,那么细节数学上,计算机实现上怎么做,就是你的责任了。好的分析师会解释逻辑,而不是解释数据处理细节。

DA:您认为现在数据分析人才的就业现状和前景怎么样?

谢宇:要看数据分析人才的定义是什么。到招聘网站上搜“数据分析”,会发现用人单位有基础阶需求,例如要求大专生,会excel录入数据,写写vlookup做关联,这类薪酬相对肯定低一些。那高的,金字塔顶部的,高得就没谱了,年薪100~200w的都有,一般由猎头来搞定了。如果讨论总体情况,那必然是向好的。我在知乎上看过一篇文章有句话印象很深刻:即使人类历史重来无数遍,都可以肯定,毕达哥拉斯定理(勾股定理)都会早于航天技术的出现。人类在收集越来越多的数据,数据分析会产生更多的价值。数据越来越多,不雇佣分析师,怎么才能搞清楚数据之间的关系,从而用于业务的展开和流程的优化呢,所以分析师岗位会越来越多。那么问题来了,越来越多的岗位是否会带来薪酬的下降。在供大于求的情况下,这种情况应该会很明显,但是在求远远大于供的情况下,暂时还是不会出现这种情况。那么有人会问,真到了那时候怎么办?骚年,不断提升自己的技能水平,缩短劳动时间,创造更多超额剩余价值,才是王道啊。我相信优秀的分析师必然会有的一个性质是:对问题保持强烈的好奇心。

DA:您认为,从事数据挖掘的人才需要什么样的素质和技能才能满足当前的用人需求?

谢宇:每个岗位要求不一样。通用点就是逻辑性强、很强的自我驱动和学习能力。

单就数据分析技能而言有:数据挖掘、数据可视化、数学建模、多维分析。而这里面又有很多细分的知识点,特别是数学建模,非常有用,但对功力要求挺高的。数据挖掘的话,只考虑常用的那些算法,则易学易用,通用性强。

DA:作为一位过来人,您对想要踏入本行业的新鲜人有什么建议?

谢宇:知乎上收到过不少这样的提问。我认为最重要的是一定要做项目,能找到一个有经验的人愿意带,那真是再幸运不过。我的观点是数据分析很多可以复制的,但经验这个东西,实在宝贵,不做项目,无法凭空变出来,而现在有经验的人太少了,不少数据分析师还处于套模型的阶段,并没有深刻理解与业务人员交流的重要性。车品觉(阿里巴巴集团副总裁、数据委员会会长)也说鼓励分析人员跟业务人员多泡在一起,就是这个道理。

另外自己看书很好,有老师快速带入门也是一种选择。

DA:能否推荐一些关于数据挖掘的实用性较强的参考书籍?

谢宇:书不在多在精:

  • 《决战大数据》车品觉——数据分析方法论,内涵丰富的数据分析管理经验

  • 《数据挖掘技术:应用于市场营销、销售与客户关系管理》林那夫 (Gordon S.Linoff) (作者), 贝里 (Michael J.A.Berry) (作者), 巢文涵 (译者)——有技术也有方法论,写得很好很全,实用性非常强。(不过译本有些语句不通顺,是原版导致的,用词方面,大家凑合着看~,相信收获一定匪浅。)

DA:谢谢您的分享。最后,方便留下您的联系方式以便交流吗?

谢宇:邮箱:life4data@sina.com。

(End)

来源:人大经济论坛

【每天一个数据分析师】面对毫无基础的业务人员,好的分析师解释逻辑,而不是细节

1、回复“数据分析师”查看数据分析师系列文章

2、回复“案例”查看大数据案例系列文章

3、回复“征信”查看相关征信的系列文章

4、回复“可视化”查看可视化专题系列文章

5、回复“SPPS”查看SPSS系列文章

6、回复“答案”查看hadoop面试题题目及答案

7、回复“爱情”查看大数据与爱情的故事

8、回复“笑话”查看大数据系列笑话

9、回复“大数据1、大数据2、大数据3、大数据4”查看大数据历史机遇连载

PPV课大数据ID:ppvke123(长按可复制)

大数据人才的摇篮!专注大数据行业人才的培养。每日一课,大数据(EXCEL、SAS、SPSS、Hadoop、CDA)视频课程。大数据资讯,每日分享!数据咖—PPV课数据爱好者俱乐部!

原文始发于微信公众号(PPV课数据科学社区):【每天一个数据分析师】面对毫无基础的业务人员,好的分析师解释逻辑,而不是细节

原创文章,作者:ppvke,如若转载,请注明出处:http://www.ppvke.com/archives/18697

联系我们

4000-51-9191

在线咨询:点击这里给我发消息

工作时间:周一至周五,9:30-18:30,节假日休息