岗位职责
随着大模型(LLMs) 的快速发展,能力边界被不断突破, 传统的 metric-based的benchmark和方法远远不能够满足当前模型不断进化的需求。我们的目标就是打造 LLMs/MLLM领域的"ImageNet" , 指引我们通向AGI的路径。在这里你会负责下述至少一件事情:
深入理解 LLMs/MLLM 模型从数据、训练 到 评测的全流程,抽象认知能力维度,完善评测体系和构建业界前沿的Benchmark;
深入理解metric-based 评估方法,创新性的运用mulit-agent、self-critical/self-refinement、evaluator LLM 等手段打造scalable的自动化评测范式。
对模型进行全方面细致的评测,对模型能力进行深入归因分析,产出围绕模型的客观认知,为模型训练迭代提供重要的指导意见;
追踪NLP/多模态方向前沿进展,积极主动地学习和探索新的方法和技术。
岗位要求
NLP/机器学习/深度学习等相关专业在校生,具备优秀的逻辑思维能力,对解决挑战性问题充满热情;
良好的 pytorch / python 技术栈,具备熟练的阅读代码和编写代码的能力,参与过有影响力开源项目/有acm获奖经验的优先。
有一定做研究的经验,发表过相关论文者优先 (如ACL、NeurlPS、EMNLP、CVPR、ICCV、ACM MM等)