贪心学院面试整理7
hnsw:如何从海量文本中快速查找出相似文本
annoy:一个区域随机取2个点,然后根据中轴线划分。就这样一直划分下去,直到每个区域k个点。
trick1:两边都遍历
trick2:多棵树
友节点更新操作:如果新节点的距离更小,则把它作为新的友节点。
KD树
递归搜索,判断是否需要进入另一个空间搜索
![图片说明]
(https://uploadfiles.nowcoder.com/images/20201006/3291832_1601993014229_A66F18AD9DC0DCEE5CBBCEEEA53AE358 "图片标题")
GBDT
XGBOOST:
二阶导数下降会更加快一些
LTR:
列表评价信息不能用PR:
- 文章只能被分为相关和不相关两档
- 没有排序信息
WMD的主要优势
word centroid distance
relaxed distance loss
Transformer一些细节
Synthesizer: Rethinking self-attention in transformer models
一定要qkv么?
Low-Rank BottleNeck in Multi-head Attention Models
QK维度减小,V维度不变
Reformer
BERT
MASK任务
NSP任务
ERNIE:mask方式不同