星环科技nlp算法岗实习-凉经
-
自我介绍
-
问项目和论文
-
怎么得到病人信息的embedding
-
病人就诊信息输入是怎么构造的
-
病人的就诊信息时序信息怎么体现的
-
得到的病人的embedding用在什么下游任务
-
合并症是同时对多个疾病预测吗
-
二分类的时候采用的评价指标(AUC、F1值)
-
为什么用AUC呢?
-
ROC曲线的横纵坐标是什么,对于假正率过高会导致AUC会偏高(负例样本太多),怎么看?
-
随机森林、GBDT的区别。
-
XGBoost相对于GBDT的优化有哪些
-
-
数据结构
-
python里的gil锁
-
python里的多线程、多进程
-
-
算法相关
-
dropout在训练和预测的时候有什么区别?在训练的时候和预测的时候需要做什么处理。
-
类别不平衡问题有哪些解决方法,在不同的场景里。(除了上、下采样,改loss权重,还有别的方法吗)
-
正则表达式的底层实现的数据结构是什么
-
从海量数据集中匹配一段字符串,除了正则还有什么别的办法,从数据结构和算法方面思考。
-
word2vec模型输出层参数优化方面做了哪些工作,loss_function优化。
-
了解transE或者DistMult吗
-
transformer的提出是为了解决了问题,transformer里的时序性是怎么体现的
-
了解spark吗
-
-
算法题:给定数组list,返回任意一个出现次数最多的数。