百度的机器学习/数据挖掘/自然语言处理工程师岗位一面的面试基本情况、提问问题、代码题目等。
8月初参与了百度提前批的机器学习/数据挖掘/自然语言处理工程师岗位面试,所在部门是搜索方向的。一面结束之后就知道凉了,分享一下一面凉经。
其中,感觉提问环节会问得很细致,而且面试官会根据你前一个问题的回答,来进一步追问,考察对机器学习、深度学习算法原理的细致理解。面试官很和蔼,从整个面试过程中收获到了很多关于机器学习算法的新的理解。
这也是秋招的第一次面试,也确实感受到和实习生面试比起来,秋招面试更加注重对代码、算法基本原理、底层的理解(当然这个也要看你具体报的工作岗位方向);同时一定要刷题——这次面试的时候面试官也一直强调,准备秋招的面试时,一定注意刷题的积累,这个是绝对不能马虎的。
面试情况
下午15:00开始,持续45分钟左右。
线上视频面试,1位面试官,部门领导;面试官很和蔼。
首先要求做自我介绍,随后提问25分钟,算法题目2道、20分钟。
提问问题
在暑期实习做什么的,都参与了哪些具体的工作,是不是主要偏向开发而不是算法?
目前对NLP接触多吗,主要接触深度学习的哪些领域,用得比较多的模型有哪些?
机器学习接触过哪些,用过哪些模型?
有没有接触过大型的深度学习项目,具体做了些什么,过程中具体用的什么模型,RNN还是DNN?
硕士毕业的大论文和小论文做什么的,进展如何,什么时候毕业?
详细介绍一下你的研究生毕业项目中,深度学习的内容,到底是做什么的,输入数据和输出数据是怎么样的,项目背景到底是怎么样的,是不是就是回归分析、没有分类分析,用的损失函数是什么?
为什么你的研究生项目中,RNN效果不如DNN效果,说说你的想法?
为什么要预测遥感影像数据,有什么应用的价值,如何来验证?
既然已经有了其他卫星数据,你们还要预测另一个数据?
你知道我们部门是做什么的吗?对NLP领域了解如何?
卷积神经网络是否有用过,了解理论原理吗?
有没有做过分类任务,用过哪些算法来做的,用的什么语言来实现?
说一说随机森林的理论原理,如何判断每一个节点对应结果的优劣?
Dropout会让神经元随机的失效吗?如果同样的数据,在模型确定之后代入进去,Dropout还会随机使得神经元失效吗,得到的结果还会变化吗?神经网络的模型结构一旦确定,Dropout是不是就不改变了?
讲一讲BatchNorm的原理,它有什么作用?
过拟合是什么意思,为什么会出现过拟合,讲一讲它出现的一些可能原因?
数据集中在一个范围上,会不会让神经网络过拟合?
如何缓解过拟合情况,Dropout是如何缓解过拟合的?
CNN神经网络如何缓解过拟合?
可不可以通过调整损失函数来缓解过拟合,以及L1、L2正则是否可以缓解?
L1、L2正则是如何缓解过拟合的?
算法题目
C++找出最长连续序列。
C++括号匹配。
面试结束提问
目前深度学习是不是主要还是文字处理比较主流,比如NLP这一类算法?
反馈情况
大概几天后,官网显示,流程结束。