- 岗位职责
SRE(Site Reliabilitiy Engineering)是结合传统软件工程与系统运维形成的新的技术体系,用以组建大规模高可用的分布式系统。蚂蚁基础设施中间件SRE团队的使命在于确保基础设施在快速演进的同时,具备高可用性以及扩展性。团队从高可用的角度切入到基础设施各部分组件的研发设计,通过工程化手段来优化生产运行中低效,繁复的操作,并致力于建设完善的监控体系以提高故障处理效率。
本职位包含大数据 SRE、数据智能运维分析专家、中间件 SRE、平台研发专家、区块链 SRE 5 个岗位
(P5、P6、P7、P8均有需求)
职位描述
一、大数据 SRE
1. 负责高可用体系建设,如故障自动定位、自动恢复、自适应容灾等,保障业务持续可用;
2. 负责双十一等重大活动保障,保障海量峰值下用户体验丝般顺滑,同时确保成本可控;
3. 负责人工智能和大数据领域新技术探索及落地,如资源调度、存储计算分离、离在线混部、分布式计算等。
二、中间件 SRE
蚂蚁金服中间件团队使用 Service Mesh、SofaStack、Serverless 等技术,上层业务提供统一高效的服务注册、消息、定时任务、限流等能力。中间件SRE团队致力于打造新一代中间件云原生系统的SLA体系,建设各种场景下的高可用能力,推进新的云原生技术在蚂蚁快速落地的同时,为上游业务提供5个9的可用率。加入我们,你将
1. 设计中间件系统的高可用技术风险体系,用以保障双十一等大型活动的平稳进行
2. 设计并支撑 Service Mesh、Serverless 在蚂蚁大规模场景下的接入、部署和升级方案
3. 建设中间件系统的监控和SLA规范,能够利用算法对监控进行持续降噪
4. 建设中间件变更防御、异常定位和自愈系统,能够快速定位和处理故障
三、平台研发专家
1. 负责自动化体系的建设。如快速部署变更、自动恢复、自适应容灾等,提升技术效能;
2. 负责双十一等重大活动保障,保障海量峰值下用户体验丝般顺滑,同时确保成本可控;
3. 负责人工智能和大数据领域新技术探索及落地,如资源调度、存储计算分离、离在线混部、分布式计算等
四、区块链 SRE
1. 负责蚂蚁金服区块链业务的运维保障工作,包括交付、监控、变更、应急响应、故障恢复;
2. 负责区块链高可用、高效运行等运维体系的建设,对高可用和效能提升有深刻的理解和实践;
3. 负责区块链技术风险相关各领域的功能研发,提升自动化、高可用、智能化等技术风险能力;
4. 参与重大项目(比如双11,双12)的技术保障工作,对技术风险领域进行评审和分析,保障重大项目顺利完成;
5. 熟悉技术风险和区块链技术的发展趋势,为团队在技术风险领域的持续发展提出建议和贡献;
五、规模化运维方向
蚂蚁金服基于pouch、Kubenetes等技术建设统一PAAS调度平台为上层业务提供高效的资源调度服务,单集群节点规模超过万台,SRE团队致力于打造新一代云原生系统的SLA体系,为上游业务提供5个9的可用率,在确保资源利用率和规模化运维效率的同时,建设各种复杂场景下的高可用能力。
1. 有强烈的技术热情,工作责任感。
2. 至少精通一门编程语言,Java/Golang优先
3. 熟悉Linux系统和 Shell,对网络及基础设施层有一定的了解和知识储备
4. 有Docker、k8s 、微服务治理及资源调度经验者优先
5. 熟悉监控及自动化部署平台研发,具有大规模集群调度和架构设计经验优先
6. 有良好的沟通,团队协作能力,熟悉DevOps流程
- 岗位要求
一、大数据 SRE
1. 3年以上的大规模集群实战运维经验,熟悉软件开发和系统架构,熟悉 Shell 脚本,掌握至少一门编程语言,Node、C++ 或者 Java 优先;
2. 熟悉服务管理、单元部署、自动扩容等运维系统建设,对成本控制、效能提升和故障排查有深刻的理解和实践;
3. 具有广告或搜索业务背景者优先,具有大规模集群调度和架构设计经验优先;
4. 具有 hadoop/spark/Flink/storm/elasticsearch/kafka 等大数据产品及消息队列系统开发/运维经验者优先;
二、中间件 SRE
1. 有强烈的技术热情,工作责任感。
2. 至少精通一门编程语言,Java/Golang优先
3. 熟悉Linux系统和Shell,对网络、存储等基础设施领域有一定的了解和知识储备
4. 有Docker、k8s 、微服务治理经验者优先
5. 熟悉运维自动化部署平台研发,具有大规模集群架构设计经验优先
6. 有良好的沟通,团队协作能力,熟悉DevOps流程
三、平台研发专家
1. 3年以上的大规模集群管控平台开发经验,掌握至少一门编程语言。Java、Node 优先;
2. 具有监控及自动化部署平台研发背景者优先,具有大规模集群调度和架构设计经验优先;
3. 对云平台有了解,有 IaaS/PaaS/SaaS 背景者优先;
4. 对网络及基础设施层有一定的了解和知识储备,熟悉 Linux 系统和 Shell
5. 有 Docker、k8s 及资源调度经验者优先;
6. 有产品经验优先
四、区块链 SRE
1. 2年以上的大规模集群实战运维经验,熟悉 IAAS/PAAS/SAAS 基础知识,熟悉软件开发过程;
2. 系统运维能力过硬,熟悉 linux/shell/Nginx/网络/数据库/监控/日志/docker等技术,故障排查经验丰富,有较强的动手能力和技术敏感度;
3. 熟悉自动变更、高可用、容灾等运维系统建设,对高可用能力和效能的提升有深刻的理解和实践;
4. 掌握 PYTHON/JAVA 中一门以上的编程语言,有运维开发经验,做过正式的软件项目开发,具有开源项目开发经验者优先;
5. 具有 AWS、Google Cloud Platform、阿里云使用经验者优先