推荐系统全栈:倒排/向量召回+DNN排序+推理引擎+后端服务
又是一年秋招季(虽然已经进行一半了),当年我也是一名每天刷校招信息的牛友,每天面对卷上天的算法赛道(现在看来当时还没那么卷),好在最终是得偿所愿。感谢牛客。
工作一段时间后再回看,校招的时候一般看的都是手撕 + 八股 + 论文 + 项目,但是最近几年校招面试也是越来越卷,面试官不仅看重选手的这些硬实力,还很看重过往经验和团队工作的契合度。然而,对于想要找搜广推算法的牛友来说,除非有比较长期的实习经历,否则很难对推荐系统的全貌有一个完全的把握,因为实在是一个太复杂的系统,涉及到数个算法、后端、前端、测试、运维、数仓团队的协作,整个流程下来可能要有几十种组件,几十个服务,几十个数据表。
为了把这些分散在各个地方的知识串起来,作为工作一段时间后的知识梳理,作为给校招同学们的参考,用Python实现了一个推荐系统的核心流程,包含倒排召回、向量召回、DeepFM训练,特征上线,模型部署、后端服务。使用到了PyTorch + Redis + Elasticsearch + Feast + Triton + Flask,一台笔记本即可运行,全部环境封在了Conda和Docker里,不会污染本地环境,可以放心食用。下面是GitHub仓库地址,里面包含所有的代码和对应的说明。
https://github.com/akiragy/recsys_pipeline
下面是一段简介:
- Conda环境安装pandas和PyTorch模拟工业界的HDFS -> Spark -> GPU集群的离线模型训练。
- Conda环境安装Flask模拟工业界的Spring推荐后端。
- Docker环境安装Redis + Elasticsearch + Feast Feature Store + Triton Inference Server四个组件,用本机localhost调用Docker来模拟工业界的推荐后端RPC调用各个组件。
- Redis用于存储召回所需的user标签和向量。
- Elasticsearch用于构建召回所需的item标签和向量索引。
- Feast用于存储排序所需的user和item特征。
- Triton用作排序所需的实时打分引擎。
整个推荐系统的架构图如下,下面将分离线、离线到在线、在线三个阶段来介绍召回和排序模块的开发部署流程。
#我的求职思考##你觉得今年秋招难吗#