微步在线 机器学习算法工程师 二面面经
地狱一样的理论问询,今年秋招最难的一场……
数学问了中心极限定理,大数定理,Γ分布和κ分布关系……
机器学习问了特征选择,特征归一化,马尔科夫链,gibbs采样,集成学习,选择性偏差,决策树并行计算,xgboost和adaboost样本权重……
深度学习问了卷积原理,梯度传播稳定性,BN本质,torch和tensorflow的图理论……
大模型问了很多工程上的问题,出现loss spike啦,波峰波谷啦,训练到一半出现异常值啦怎么处理……
还有很多理论上的,flash attention v1/v2/v3是怎么解决访存瓶颈的,位置编码外推,从0开始训长文本模型,4D并行通信开销,zero,megatron和deepspeed应用场景,MLA的实践问题……
GPU集群问了架构方式,k8s,坏点检测,负载均衡……
python问了线程锁,线程池,资源分配,垃圾回收……
以上只是我听的懂的问题里的一部分,还有好多已经忘记的和根本没听过的概念
感觉微步确实很看重理论基础,应该是相当技术导向的,面试官人也很不错,只是感觉我答的不太好,对我有点无语hh。
--------------------------------------------------------------------------------------------------------------------------
本来准备说凉经的,但刚写到这被hr告知过了二面了,感谢面试官大哥
数学问了中心极限定理,大数定理,Γ分布和κ分布关系……
机器学习问了特征选择,特征归一化,马尔科夫链,gibbs采样,集成学习,选择性偏差,决策树并行计算,xgboost和adaboost样本权重……
深度学习问了卷积原理,梯度传播稳定性,BN本质,torch和tensorflow的图理论……
大模型问了很多工程上的问题,出现loss spike啦,波峰波谷啦,训练到一半出现异常值啦怎么处理……
还有很多理论上的,flash attention v1/v2/v3是怎么解决访存瓶颈的,位置编码外推,从0开始训长文本模型,4D并行通信开销,zero,megatron和deepspeed应用场景,MLA的实践问题……
GPU集群问了架构方式,k8s,坏点检测,负载均衡……
python问了线程锁,线程池,资源分配,垃圾回收……
以上只是我听的懂的问题里的一部分,还有好多已经忘记的和根本没听过的概念
感觉微步确实很看重理论基础,应该是相当技术导向的,面试官人也很不错,只是感觉我答的不太好,对我有点无语hh。
--------------------------------------------------------------------------------------------------------------------------
本来准备说凉经的,但刚写到这被hr告知过了二面了,感谢面试官大哥
全部评论
这难度真绝了
太狠了吧😅
地狱难度啊这
话说微步是什么公司啊
相关推荐
点赞 评论 收藏
分享