1. 首页
  2. 数据挖掘

数据挖掘岗面试总结

数据挖掘岗面试总结

这个岗位叫法很多,算法岗,数据挖掘岗,机器学习岗,基础研究等等……

总结一下从16年3月开始到9月底这半年的面试情况

正式校招只参加了百度和腾讯的笔试百度:实习生面试朋友帮我内推了,推了很多岗位,蛋疼,最开始的是个搞分布式平台的岗位,后面的岗位就不再接受简历1面要写代码,题目是输入根节点和两个子节点,找到最小公共父节点,2叉树只有孩子节点后面问了一些算法优化问题,理论差,不太懂。。2面还要写代码,写一个栈,添加一个接口,返回当前栈最小值,要求时空都为O(1)聊的有点久,1小时40分钟,问了一些算法问题,简历上东西因为岗位不对口的问题,没有继续下去

校招面试

师姐给我内推的,一面聊了2个半小时,写了很多代码用MapReduce写好友推荐,在一堆单词里面找出现次数最多的k个

其他代码题基本都能在剑指offer和微软面试100题上找到,题目已经忘了

后面又聊了比赛和项目

二面基本都在问hadoop,数据结构与算法又聊了1个半小时,hadoop原理,shuffle如何排序,map如何切割数据,如何处理数据倾斜,join的mr代码如何写动态规划,树结构,链表结构等等三面应该是部门老大面的,问了很多性格方面的问题,还有些比赛和项目中遇到的问题只聊了半个小时,要了身份证,说后面会安排笔试

后来笔试通过了,也就顺利的拿下百度

腾讯:内推过几次都跪了,估计王者荣耀部门要求比较高到了正式校招的时候,参加了笔试,顺利通过

一面的时候,瞎推了一些模型公式

AUC的定义和本质,有哪些计算方法

然后在纸上手写了些代码,聊了些比赛和项目,总之聊的比较开心二面的时候感觉没咋聊好,问的问题都答的不太好先是叫我用C语言写内存拷贝……拿着笔很尴尬的说我不会,但是应该有安全性问题需要考虑下然后又问了动态规划,还有些剑指offer上常见的题目,有的答上来,有的说见过但是忘记了

Hadoop,Spark,storm下面的产品,原理,适用场景

DNN原理,应用

然后又开始聊项目和比赛……估计是上一个面试官评价比较好的原因吧,2面就这么过了HR面就随便瞎扯了一些东西,问比赛和项目里遇到过的困难,问了自己的优势还问了我拿到了哪些公司offer,对意向的公司的一个排序是什么,期望待遇然后说是9月28之前出结果,过与没过都能在微信上查到。

9月27号上午,HR跟我谈待遇,顺利拿下腾讯

阿里:

实习生面试2面之后跪了被扔给其他部门重新一面一面聊了挺多,让我把一个完整的数据挖掘流程讲一下,从预处理,特征工程,到模型融合。介绍常用的算法,gbdt和xgboost区别,具体怎么做预处理,特征工程,模型融合常用方式,融合一定会提升吗?2面不太好,问了怎么在2G内存里找100TB数据的中位数,还有怎么解决mapreduce数据倾斜,经常用什么语言工具开发然后答的不好被刷掉了,简历被扔到菜鸟网络,重新开始一面一面还是问简历的东西,二面应该是总监级的人物吧,天池比赛的菜鸟网络就是他出题。二面问了我的研究方向,怎么把研究内容应用到实际中,还做 了其他哪些研究。不知道为啥,没有3面,直接HR面了。3月31号是最后一次面试,直到4月21号才HR面

问我对菜鸟网络的了解,最近的项目,在比赛中的角色,自己的短板,职业规划,期望工作地点,是保研的还是考研的

校招面试

本来可以直接终面的,但是不想去菜鸟然后我就叫朋友帮我内推了蚂蚁1面已经忘了问了些啥,反正就是那些机器学习里面的东西,数据结构算法,比赛,项目2面是辽原,应该是蚂蚁金服AI部门老大吧问了如何在海量数据中查找给定部分数据最相似的top200向量,向量的维度也很高因为之前了解过其他面蚂蚁金服的朋友,也有问到这个题目的所以反应比较快,直接就说可以用KD树,聚类,simhash然后又问怎么衡量两个商品的性价比,这个题目以前阿里星面试的时候也被问过,就随便扯了下后面问了些比赛和项目终面的时候跟我说蚂蚁金服没名额了,问我愿不愿意去架构部门做java web开发,果断拒绝没有参加正式校招的笔试,现在想起来挺后悔校招过了很久之后又有机会重新面试,没什么状态直接放弃

京东:

实习生面试不知道在哪找到的邮箱,投了进去就直接开始面试一面还是问的些简历上的东西,只聊了20分钟就说有事,后面让同事来。。。二面也是问的简历上的比赛和最近做的项目校招面试还是让之前内推的这位总监帮忙内推,结果他告诉我他已经离职创业去了……然后把简历转给了他的接班人大概过了很久很久吧,连京东笔试都过了,才开始安排面试一天之内两连面,还是问了很多机器学习算法的东西为什么LR需要归一化或者取对数,为什么LR把特征离散化后效果更好为什么把特征组合之后还能提升,反正这些基本都是增强了特征的表达能力,或者说更容易线性可分吧

还问了项目和比赛,之后就没消息了

后来参加了京东的一个算法比赛,拿到亚军

总监面过了一周之后发了offer

比赛诚意十足,给真SP

华为大牛专场笔试满分,现场面了2面装逼过度,后面没给offer

其他公司都是实习面试过,校招没面

总结经常会问到的问题,经典算法推导(加分项),原理,各个损失函数之间区别,使用场景,如何并行化,有哪些关键参数

比如LR(并行算法的几种优化方法经常被问到),FFM,SVM,RF,KNN,EM,Adaboost,PageRank,GBDT,Xgboost,HMM,DNN,推荐算法,聚类算法,图像,自然语言,等等机器学习领域的算法,这些基本都会被问到

XGB和GBDT区别与联系也会经常问到:https://www.zhihu.com/question/41354392/answer/128008021?group_id=773629156532445184

有个容易进坑的问题,树模型中被分裂过的特征还会不会再次被选中作为分裂节点。很明显是有可能被选中的,每次计算信息增益都是对剩下的样本来做计算的,这个时候用过的特征再次计算不同的分列点可能增益还会排在前面。

哪些优化方法,随机梯度下降,牛顿拟牛顿原理

生成模型,判别模型线性分类和非线性分类各有哪些模型SVM核技巧原理,如何选择核函数特征选择方法有哪些常见融合框架原理,优缺点,bagging,stacking,boosting,为什么融合能提升效果信息熵和基尼指数的关系(信息熵在x=1处一阶泰勒展开就是基尼指数)如何克服过拟合,欠拟合L0,L1,L2正则化(如果能推导绝对是加分项,一般人最多能画个等高线,L0是NP问题)其实上面的这些问题基本都能在《李航:统计学习方法》《周志华:机器学习》里面找到,能翻个4,5遍基本就无压力了另外可以报一下小象学院的机器学习班,等到开团的时候报也就300左右,讲的挺不错的,有算法推导和代码实现,我也是看了之后才明白很多算法的原理还会问一些常见的数据结构和算法,写代码的题基本都是出自《剑指offer》和《微软面试100题》,只要刷几遍,代码题这里搞定也是加分项其余的基本就是问问比赛,项目,遇到的问题,如何解决,在团队中的角色,评价自己面试官问你还有问题要问没,最好别瞎问,多看看别人的面经吧比如问点现在这个部门做的业务,遇到过的问题,部门发展的一个规划最好别叫面试官评价你,要是评价不好会影响心情,自己的面试表现自己应该清楚

可以在自己面试的时候做记录,经常复习,先从小公司面起,积累经验

另外要定位准确,自己的水平自己清楚,不要死磕大公司,浪费了大量时间还经常1面被刷

没事审视下自己的简历,不要把自己不熟悉的东西写上去,像什么精通之类的建议改成了解吧……不然会被问哭的

不要装逼写2页,我很多项目比赛都没写进去,只写了几个名次靠前的比赛,能吹一点的项目,其他没写进去的可以找机会主动说出来

项目即使很水,也要吹的很难很厉害的样子

比赛和项目尽量突出里面的难点,自己做的贡献

多刷题也比较重要,我自己的感受是内推问的问题会比通过了笔试问的要难一些,深一些算法的推导同样重要,之前我也是看到那些公式就蛋疼,后面没办法,看书看视频,多手推几遍,这样面试的时候更有底气个人觉得在面试的时候能手推算法的应该比较少,所以优势是很大的

实习生面试跪掉的原因就是没有复习,对算法的原理了解不够深入,所以在校招的时候,9月开始用了将近一个月的时间来复习

建议多交一些牛逼的朋友,我们有个群,6个人,有4个百度offer,有3个腾讯offer,还有个研二估计是下一个阿里星吧(一年前的预测成真了,wepon真的拿到阿里星了……)

10.9号,我们群里终于有一个阿里了,终于集齐了bat,可以召唤单挑之王了……他就是天音大魔王

我们经常一起打比赛,在群里讨论学术,装逼扯淡什么的,今年只要参加了的比赛,基本都拿奖了吧……

另外感觉大公司也并没有学校歧视,我的学校211都不是,问都没问过学校的问题

我本科是个学渣,读研开始写代码,所以两年,可以改变很多事情

下面是我准备面试整理的一些资料,里面有很多算法以及面试问题

http://download.csdn.NET/detail/bryan__/9640531

大量算法题参考资料

http://blog.csdn.net/v_july_v/article/details/6543438

http://blog.csdn.Net/hackbuteer1

机器学习公开课

https://www.julyedu.com/video/play/18/10

面试算法资料

http://www.cnblogs.com/tornadomeet/p/3395593.html

机器学习知识点总结

https://bbs.aliyun.com/read.PHP?spm=5176.100258.100258.8.bhrQ8k&tid=294564&displayMode=1&page=1&toread=1#tpc

http://m.blog.csdn.net/article/details?id=50244695

面试编程题十大经典算法

http://mp.weixin.qq.com/s?__biz=MjM5Nzk2MDU5NA==&mid=2652545706&idx=3&sn=87e964154fa54999719c34c4b67dfff7&scene=0#wechat_redirect

最后是我参加比赛的情况,截止17年6月,天池积分榜排名第五,拿到3次top3,成为天池平台的第七位数据科学家。2年竞赛生涯圆满,至此正式退役。

数据挖掘岗面试总结

END.

已获作者授权,未经许可严禁转载

来源:http://blog.csdn.net/bryan__/article/details/52672912

原文始发于微信公众号(PPV课数据科学社区):数据挖掘岗面试总结

原创文章,作者:ppvke,如若转载,请注明出处:http://www.ppvke.com/archives/10319

联系我们

4000-51-9191

在线咨询:点击这里给我发消息

工作时间:周一至周五,9:30-18:30,节假日休息