l 负责公司大数据、机器学习和模拟器平台的日常技术支持,确保服务运行的后台基础设施的稳定性和高可用。
l 负责对云端服务器的监控、维护和升级,以及存储系统的维护和监控。
l 负责开发部署大数据平台服务和模拟器服务到云端,以及服务的升级、弹性伸缩。
l 负责GPU服务器的管理扩容,深度学习训练环境的搭建、部署、维护和升级。
岗位要求
l 本科及以上学历, 计算机相关专业。对Linux系统运维有一定了解,了解计算机网络基础知识,3年以上运维开发或应用运维经验。
l 熟悉公有云的服务,并有实际的系统应用经验。
l 至少掌握1门开发语言(Python、Go,Java等), 能完成日常脚本和自动化运维的开发。
l 熟悉 Docker和Kubernetes工作原理和架构,有大规模容器运维经验优先。