社招面经 | NLP算法岗(百度)

一面

自我介绍+项目

项目细节

batchsize大或小有什么问题

LR怎么设置

机器学习基础:

L1L2正则化

优化器

激活函数

(老生常谈,不再赘述)

python基础:

yeild是什么

与return的区别

线程进程

装饰器

python内部实现的多线程有什么问题

假的多线程

Linux基础:

AWK

nohup

用过最复杂的linux命令是什么

NLP基础 :

word2vec  两种训练方式哪种更好?

对生僻词谁更好?

CBOW模型中input是context(周围词)而output是中心词,训练过程中其实是在从output的loss学习周围词的信息也就是embedding,但是在中间层是average的,一共预测V(vocab size)次就够了。

skipgram是用中心词预测周围词,预测的时候是一对word pair,等于对每一个中心词都有K个词作为output,对于一个词的预测有K次,所以能够更有效的从context中学习信息,但是总共预测K*V词。

skipgram胜出✌️

编程题:

最长公共子序列

(老生常谈,不再赘述)

 

二面

自我介绍+项目

CRF作用

标注的时候样本不均衡怎么办

数据增强

损失函数有个weight参数也可以一定程度解决这个问题 (如果正例少,损失函数的w就提高,(会提高F1 ))

Transformer

self-attention 有什么作用(捕获依赖关系)

梯度消失爆炸(CEC机制)

螺旋爆炸编程题快问快答环节�

问了很多编程题,要求列出公式以及完整思路,最后选一个写出代码

时间太久了=_= 小媛只记住了这几个

最大上升子序列(dp[i] = dp[j]+1 (j < i && nums[j] < nums[i]))

旋转数组找K值

只有01生成器,如何生成 0-3等概率,如何生成 0-k等概率(模拟二进制)

各种python基础:

python2python3map的差别

装饰器

线程安全/读写锁/智能指针

大文件字典:比如{abc:'aabc','cba','ccab'} mapreduce

Hadoop

流式抽样

对数据流的随机抽样

http://page.renren.com/601034756/note/873554062

蓄水池抽样算法(Reservoir Sampling)

https://www.jianshu.com/p/7a9ea6ece2af

1/n的概率留下当前的,手中的k个每个的概率是1/n-1

跳台阶+有一次后退机会(dp[i][0/1])

 

三面

项目各种发散的不同的业务场景问题* N

人际需求问题

上线遇到用户反馈错误怎么解决

迅速学习编程语言的能力

能否接受算法之外的其他工作比如开发

面试官说后续等消息,可能要很久

已经训好的模型,放到新的数据上怎么提高性能,模型不允许fintuing

增量训练

在线学习方法


#社招##面经##百度#
全部评论

相关推荐

不愿透露姓名的神秘牛友
10-30 18:44
中国联通 人工智能创新中心 43w
点赞 评论 收藏
分享
4 53 评论
分享
牛客网
牛客企业服务