云原生基础设施SRE岗_蚂蚁集团招聘内推

SRE(Site Reliabilitiy Engineering)是结合传统软件工程与系统运维形成的新的技术体系，用以组建大规模高可用的分布式系统。蚂蚁基础设施中间件SRE团队的使命在于确保基础设施在快速演进的同时，具备高可用性以及扩展性。团队从高可用的角度切入到基础设施各部分组件的研发设计，通过工程化手段来优化生产运行中低效，繁复的操作，并致力于建设完善的监控体系以提高故障处理效率。本职位包含大数据 SRE、数据智能运维分析专家、中间件 SRE、平台研发专家、区块链 SRE 5 个岗位（P5、P6、P7、P8均有需求）职位描述一、大数据 SRE 1. 负责高可用体系建设，如故障自动定位、自动恢复、自适应容灾等，保障业务持续可用； 2. 负责双十一等重大活动保障，保障海量峰值下用户体验丝般顺滑，同时确保成本可控； 3. 负责人工智能和大数据领域新技术探索及落地，如资源调度、存储计算分离、离在线混部、分布式计算等。二、中间件 SRE 蚂蚁金服中间件团队使用 Service Mesh、SofaStack、Serverless 等技术，上层业务提供统一高效的服务注册、消息、定时任务、限流等能力。中间件SRE团队致力于打造新一代中间件云原生系统的SLA体系，建设各种场景下的高可用能力，推进新的云原生技术在蚂蚁快速落地的同时，为上游业务提供5个9的可用率。加入我们，你将 1. 设计中间件系统的高可用技术风险体系，用以保障双十一等大型活动的平稳进行 2. 设计并支撑 Service Mesh、Serverless 在蚂蚁大规模场景下的接入、部署和升级方案 3. 建设中间件系统的监控和SLA规范，能够利用算法对监控进行持续降噪 4. 建设中间件变更防御、异常定位和自愈系统，能够快速定位和处理故障三、平台研发专家 1. 负责自动化体系的建设。如快速部署变更、自动恢复、自适应容灾等，提升技术效能； 2. 负责双十一等重大活动保障，保障海量峰值下用户体验丝般顺滑，同时确保成本可控； 3. 负责人工智能和大数据领域新技术探索及落地，如资源调度、存储计算分离、离在线混部、分布式计算等四、区块链 SRE 1. 负责蚂蚁金服区块链业务的运维保障工作，包括交付、监控、变更、应急响应、故障恢复； 2. 负责区块链高可用、高效运行等运维体系的建设，对高可用和效能提升有深刻的理解和实践； 3. 负责区块链技术风险相关各领域的功能研发，提升自动化、高可用、智能化等技术风险能力； 4. 参与重大项目（比如双11，双12）的技术保障工作，对技术风险领域进行评审和分析，保障重大项目顺利完成； 5. 熟悉技术风险和区块链技术的发展趋势，为团队在技术风险领域的持续发展提出建议和贡献; 五、规模化运维方向蚂蚁金服基于pouch、Kubenetes等技术建设统一PAAS调度平台为上层业务提供高效的资源调度服务，单集群节点规模超过万台，SRE团队致力于打造新一代云原生系统的SLA体系，为上游业务提供5个9的可用率，在确保资源利用率和规模化运维效率的同时，建设各种复杂场景下的高可用能力。 1. 有强烈的技术热情，工作责任感。 2. 至少精通一门编程语言，Java/Golang优先 3. 熟悉Linux系统和 Shell，对网络及基础设施层有一定的了解和知识储备 4. 有Docker、k8s 、微服务治理及资源调度经验者优先 5. 熟悉监控及自动化部署平台研发，具有大规模集群调度和架构设计经验优先 6. 有良好的沟通，团队协作能力，熟悉DevOps流程

一、大数据 SRE 1. 3年以上的大规模集群实战运维经验，熟悉软件开发和系统架构，熟悉 Shell 脚本，掌握至少一门编程语言，Node、C++ 或者 Java 优先； 2. 熟悉服务管理、单元部署、自动扩容等运维系统建设，对成本控制、效能提升和故障排查有深刻的理解和实践； 3. 具有广告或搜索业务背景者优先，具有大规模集群调度和架构设计经验优先； 4. 具有 hadoop/spark/Flink/storm/elasticsearch/kafka 等大数据产品及消息队列系统开发/运维经验者优先；二、中间件 SRE 1. 有强烈的技术热情，工作责任感。 2. 至少精通一门编程语言，Java/Golang优先 3. 熟悉Linux系统和Shell，对网络、存储等基础设施领域有一定的了解和知识储备 4. 有Docker、k8s 、微服务治理经验者优先 5. 熟悉运维自动化部署平台研发，具有大规模集群架构设计经验优先 6. 有良好的沟通，团队协作能力，熟悉DevOps流程三、平台研发专家 1. 3年以上的大规模集群管控平台开发经验，掌握至少一门编程语言。Java、Node 优先； 2. 具有监控及自动化部署平台研发背景者优先，具有大规模集群调度和架构设计经验优先； 3. 对云平台有了解，有 IaaS/PaaS/SaaS 背景者优先； 4. 对网络及基础设施层有一定的了解和知识储备，熟悉 Linux 系统和 Shell 5. 有 Docker、k8s 及资源调度经验者优先； 6. 有产品经验优先四、区块链 SRE 1. 2年以上的大规模集群实战运维经验，熟悉 IAAS/PAAS/SAAS 基础知识，熟悉软件开发过程； 2. 系统运维能力过硬，熟悉 linux/shell/Nginx/网络/数据库/监控/日志/docker等技术，故障排查经验丰富，有较强的动手能力和技术敏感度； 3. 熟悉自动变更、高可用、容灾等运维系统建设，对高可用能力和效能的提升有深刻的理解和实践； 4. 掌握 PYTHON/JAVA 中一门以上的编程语言，有运维开发经验，做过正式的软件项目开发，具有开源项目开发经验者优先； 5. 具有 AWS、Google Cloud Platform、阿里云使用经验者优先

云原生基础设施SRE岗

发布者

蚂蚁集团