因为投的比较晚,所以目前进行到一面,后面是主管面和HR 面。 一面(1小时20分钟):主要是聊项目和论文,撕了一道蒙特卡洛估计的题 从论文的DDPG算法开始聊,TD3,SAC算法,应用场景,优缺点啥的 聊王者荣耀比赛,从网络结构设计(特征工程、channel attention,self-attention,multi-head value estimation),奖励函数设计,算法设计(dual-clip PPO + NoisyNet, 此处对RL 中的探索方法展开了一下),训练流程设计(自对弈模型筛选、策略集成),聊完之后面试官已经比较满...