大模型推理优化工程师

薪资面议
2024-10-30










岗位职责
1. 配合模型应用和模型训练同事,上线大模型推理服务,推动大模型相关算法的落地;
2. 持续跟进前沿技术,优化大模型推理性能,提升线上模型服务吞吐量,降低模型推理延迟,控制推理机器成本
3. 开发和优化大模型推理系统,提升模型推理系统的性能,稳定性,可观测性,易用性等
4. 使用GPU编程和系统优化手段实现高性能的推理优化算法,并将其落地于大模型推理系统中
岗位要求
1. 高性能计算,AI编译器,计算机科学,数值分析优化等相关教育背景,硕士及以上学历;
2. 熟练掌握Python,有工程开发经验,熟练掌握另一门系统级编程语言(如C++/Rust)者优先;
3. 熟悉常见的LLM推理加速框架和方法原理,如onnx/TensorRT/TensorRT-LLM/vllm/sglang,能够根据业务需求定制优化者优先;
4. 了解计算机体系结构,熟悉CPU/GPU下性能优化基本原理和方式方法,有服务端GPU程序加速经验者优先;
5. 具备CPU/GPU异构编程能力,包括但不限于CUDA, Triton,Candle等;熟悉至少一种GPU加速库,如cublas,cutlass等;
6. 熟悉分布式推理常用加速方法,有分布式系统开发经验或大模型分布式部署经验者优先;
7. 具备严谨细致的工作态度,较强的团队协作能力;