【阿里巴巴】一起来挑战世界领先规模的CPU/GPU集群

写在前面:有投必应全程进度跟踪,1v1简历辅导,团队工程&学术氛围浓厚,除了有复杂精密的工程组件外还有很多可以探索的学术子领域(我组实习生刚中一篇NSDI,另有SoCC等顶会在投),成长空间巨大。可以直接扫码投递简历,也可以直接怼我的微信:cqkgodeep 

我们团队的主要职责:超大规模的CPU以及GPU机器学习集群管理,CPU/GPU混合调度,压榨服务器的每一个时间片算力,提升集群整体的资源利用率,为集团节省海量成本,先进的云原生基础设施,挑战世界一流的研发体验,领先业界的稳定性体系。

大部门介绍:

阿里巴巴集团的电商、本地生活、云计算等庞大的业务矩阵构筑在电商与AI紧密结合的技术体系之上,在云原生时代这里已拥有数十万台强大的异构服务器,活跃着数万工程师精英。这个高度复杂的系统由TRE团队负责其稳定性,要为核心链路提供五个九的可用性以及无差错的资金运转,为此我们围绕故障发现、定位、自愈、变更风控和红蓝攻防等方面建设了强大的平台能力,同时也沉淀出一整套技术风险防控和稳定性建设的解决方案。TRE还负责在这个规模范围内,设定和落实硬件系统架构方向、研发混部和弹性相结合的智能调度系统、制定和优化集团整体资源预算、建设实时化的性能分析平台。TRE的研发效能团队,基于云原生的研发基础设施,致力于一切代码化、可编程的、全云端的研发流程,服务全集团的几万工程师,提供世界一流的体验,追求代码高质量工作更快乐。我们的目标是在稳定安全的前提下不断把研发效能与资源效率双双推向极致,同时TRE协同相关团队推进电商与AI和云原生技术的契合,强化新电商技术领先世界的体系优势。





#阿里巴巴##秋招##内推##校招#
全部评论
{"pureText":"","imgs":[{"alt":"WFgf4sO0PdtS0QRs7sDV8HBe6KlTaXFv.jpg","src":"https://uploadfiles.nowcoder.com/images/20210803/4265629_1627986683648/D6DDC3B0AC9A06AF3D9E696A4104DFD3","height":"1893.0","width":"1440.0"}]}
点赞 回复 分享
发布于 2021-08-03 18:31
哪篇nsdi?😂
点赞 回复 分享
发布于 2021-08-22 17:14

相关推荐

ProMonkey2024:5个oc?厉害! 但是有一个小问题:谁问你了?😡我的意思是,谁在意?我告诉你,根本没人问你,在我们之中0人问了你,我把所有问你的人都请来 party 了,到场人数是0个人,誰问你了?WHO ASKED?谁问汝矣?誰があなたに聞きましたか?누가 물어봤어?我爬上了珠穆朗玛峰也没找到谁问你了,我刚刚潜入了世界上最大的射电望远镜也没开到那个问你的人的盒,在找到谁问你之前我连癌症的解药都发明了出来,我开了最大距离渲染也没找到谁问你了我活在这个被辐射蹂躏了多年的破碎世界的坟墓里目睹全球核战争把人类文明毁灭也没见到谁问你了(别的帖子偷来的,现学现卖😋)
点赞 评论 收藏
分享
点赞 收藏 评论
分享
牛客网
牛客企业服务