社招-网络SRE-杭州/上海
团队介绍
蚂蚁集团作为一家聚焦金融的科技公司,基础设施团队负责提供支撑全站业务的强大算力服务,算力涵盖但不限于传统的微服务、AI训练与推理、搜索推荐、高性能分布式缓存等多个领域。秉承云原生和Google SRE的先进设计思想与理念,我们致力于构建一个高性能、稳定、经济且绿色的算力生态。我们的重点工作领域涵盖但不限于:
- 实施基于基础设施即代码(IaC)和配置驱动的多云管理平台工程
- 采用AIOps和SLO驱动的模式,不断优化算力资源的配置和使用效率
- 通过数据化运营及智能化探索服务工作的各个方面,包括大模型全生命周期、搜索推荐链路等
团队愿景
- 肩负提升蚂蚁AI智能工程至尖端水平的重任,确保AI和搜索技术架构在关键时刻的卓越表现和极致的性能。
网络SRE
岗位职责
- 负责接入网络和AI网络方向的稳定性工作,包括容监控、定位、应急、容灾、限流和自愈等;
- 深入理解上述平台的架构及用户场景,对生产问题进行诊断和优化,帮助业务在可用性、成本、效率上做好合适的架构设计。
- 负责技术风险平台应用架构设计和系统实施,使系统体系化并具有前瞻性,能快速发现业务风险和及时管控;
- 负责上述平台的容量把控、性能优化、成本优化、以及运营效率提升。
- 支撑双11、双12大促,新春红包等重大活动的保障与业务护航。
岗位要求
- 熟悉TCP/IP协议,熟悉Linux内核协议栈,具有网络协议栈优化,内核模块开发工作经验;熟悉TLS协议,了解openssl实现原理,具有安全加解密协议工作经验;
- 熟悉QUIC以及HTTP1.1/HTTP2/HTTP3.0等标准以及协议原理,具有协议实现以及优化经验;
- 熟悉一种或多种多媒体传输协议,如RTMP/RTP/RTCP等, 熟悉webRTC架构以及实现,有实时音视频传输优化经验;
- 熟悉开源负载均衡,网关代理(如Nginx、Haproxy、envoy、OpenResty等), 有分析其代码实现或模块编写经验;精通高性能服务器编程采用的核心技术,如IO处理、多线程;掌握性能分析和调优手段,对系统稳定性、扩展性有思考;
- 精通高性能网络协议相关技术,深度参与自研和优化,如 RDMA、RoCE、DCQCN、CXL、InfiniBand 等;
- 深入研究和应用集合通信相关技术,如 NCCL、MPI、Gloo 等;具备软硬件结合和网络可编程经验,如 DPU、SmartCard、SONiC、P4、DOCA 等;
- 大规模 AI/HPC 数据中心网络架构经验,满足 AI 应用对网络性能、可靠性和安全性的高要求;
- 有管理经验,对 AI 技术及行业有前瞻性战略思考经验者优先;熟悉深度学习框架(Pytorch, Tensorflow等),熟悉各组件和类库,常见 AI 模型经验者优先;
联系方式
邮箱:changcheng.xx@antgroup.com
#蚂蚁集团##社招内推##稳定性##AI#