- 岗位职责
盘古是阿里云飞天操作系统的基础存储平台,支撑了全部阿里云业务。它是一个完全自主研发的分布式存储平台,用一种架构支持低延迟和高吞吐的各种业务。在这个由数十万台机器构成的平台上,你将接触最全面的硬件类型、系统问题、分布式故障模式,对性能指标、稳定要求最高的在线关键业务。也会见证数据抢修等重大故障处理的惊心动魄和成功喜悦。全方位的监、管、控,保障线上稳定运行是盘古演进至今,从阿里云走向整个阿里巴巴集团存储中台的核心竞争力。
1.负责阿里云分布式存储管理子系统和控制子系统(分析系统运行状况,快速定位问题,及时安全地调整
系统运行)的设计、开发,上线运行,直面线上数十万台机器的挑战
2.根据云存储的各种业务需求,开发从对外服务到机器层面的全链路管理功能
3.开发实用工具和系统,帮助高效地发现线上问题和定位,支持线上系统的平稳运行,推动业务快速发展
- 岗位要求
1. 3 年以上分布式系统相关工作经历,熟练的系统架构,复杂系统软件的设计能力和调试能力,有存储系
统管理经验优先
2. 精通以下语言之一:C++、Python、Java 。编程习惯良好,有Linux 上深厚系统经验者优先
3. 善于独立思考,能够主动发现问题、分析问题,有系统化的问题分析能力和解决问题的能力。有通过数
据分析发现问题,善于将运行数据系统呈现者优先,有分布式存储系统 SRE 经验是很好的匹配
4. 大规模云计算存在很多未决问题,欢迎缺少上述经验但热衷探索未知领域,爱学习、肯钻研,喜欢挑战
的同学!