我这边之后主要是做天工大模型RLHF,偶尔会有一些Function Call 相关工作,公司核心业务核心组。 要求:1. 211硕士及以上2. 一周实习3天及以上3. 研究方向和RL 相关,熟悉ppo,dpo等rl算法4. 有llm模型调参经验5. base 北京,特别优秀可以remote 薪资:硕士400/d,PhD about 1.5k/d(phd 的范围需要看面评)