1. 介绍两个你所做的工作(论文或项目)2. 针对论文1,你的研究背景是什么?你通过什么方式解决的?(我的主要研究目标是减少图像字幕模型输出的语言偏置现象)3. 针对语言偏执现象,你的方法的优势是什么(针对于那些在处理数据集上面的方法)4. 你的提出的模块可能确实有效果上的提升,但是无疑增加了模型的复杂程度,你是否设计了实验证明你的方法确实会比那些在数据集上做处理的方法好(如果没有那你该怎么去设计)5. 详细介绍Transformer的结构(word embedding, self-attention, cross-attention, multi-head attention, FFN, d...