b站-主站技术中心-算法开发,一二三面经,已口头oc
一面:8.11
自我介绍
介绍实习项目;
对于极度不平衡的样本,如何选取更有用的特征,acc不能很好的评估效果,如果更好的评估
如何处理回译效果不好,同义词替换效果不好,EDA数据增强的阈值,无监督的怎么做的。
介绍word2vec,负采样的细节,fasttext的改进,特征hash的作用
算法题:
用rand2实现rand5,解释拒绝采样,让我算数学期望。
概率p输出1,概率1-p输出0,等概率输出0和1,并求数学期望。
二面:8.13
介绍论文做的东西,
1.介绍一下Bert以及三个下游任务,self-attention
2.除了Bert其他预训练模型的拓展
3.实习的邮件分类:
数据不平衡问题,采样
fasttext(从word2vec说起)
word2vec的负采样,为什么用词频来选择负样本,为什么词频越高越容易被选择成为正样本(和TF-IDF类似),
2.除了Bert其他预训练模型的拓展
3.实习的邮件分类:
数据不平衡问题,采样
fasttext(从word2vec说起)
word2vec的负采样,为什么用词频来选择负样本,为什么词频越高越容易被选择成为正样本(和TF-IDF类似),
对词频高的词进行打压,因为在正样本中已经训练了很多次了,这样的花就会很多被预测为高频词,因此要将他作为负样本进行打压。
介绍CNN的两个核心,一个是共享参数,一个是局部提取特征。对于多channel的理解。
4.对B站了解吗?平时都看些什么。如何建立B站的知识图谱。
5.xgboost bagging、boosting(基于残差的训练方式)
介绍CNN的两个核心,一个是共享参数,一个是局部提取特征。对于多channel的理解。
4.对B站了解吗?平时都看些什么。如何建立B站的知识图谱。
5.xgboost bagging、boosting(基于残差的训练方式)
三面:8.25
B站一般看什么,对B站是怎么看的?弹幕文化了解吗?
如何看待大数据杀熟? 如何看待滴滴被下架的事情?
没有钱,没有手机,也不能寻找周围的帮助,也不知道B站,怎么找到上海b站?
从算法工程师的角度,如何预测苏州的房价?
三个优点和三个缺点?
期望五年后的自己是什么样子?
hr:9.3
电话通知面试过了,保留offer,等10月谈薪,没有意向书,
问能不能实习,目前有哪些offer。