ACL 2024参会记录与论文分享

ACL(The 62nd Annual Meeting of the Association for Computational Linguistics)会议是自然语言处理领域最重要的国际会议,每一年举办一次,被中国计算机学会(CCF)列为A类会议,在自然语言处理领域享有极高的学术声誉(https://2024.aclweb.org/)。北京时间2024年8月11日,我前往泰国曼谷参加ACL 2024学术会议,并在会议上做了Oral报告和Poster宣讲。

  • 作者:罗皓灏,邓扬,沈颖,See-Kiong Ng,Tat-Seng Chua
  • 类别:主会长文
  • 合作单位:新加坡国立大学,琶洲实验室,广东省消防科学与智能应急技术重点实验室
  • 文章链接:https://aclanthology.org/2024.acl-long.432.pdf
  • 代码链接:https://github.com/Luohh5/Chain-of-Exemplar

摘要:

在教育教学领域,构建优秀的多项选择题(MCQs)对提高学生学习成绩和学习兴趣具有重要作用。由于目前的大部分教育内容具有多模态来源,而现有问题生成方法主要侧重于基于文本的输入,忽略了图片特征的整合。在本研究中,我们聚焦于多模态多项选择题生成这一任务,旨在基于多模态知识生成特定学科的教育问题,并提供具有迷惑性的干扰选项。为了解决这个问题,我们引入了一个基于范例的思维链(Chain-of-Exemplar,CoE)的新框架,该框架利用基于思维链推理的多模态大语言模型(MLLMs)来改进干扰选项生成。此外,CoE利用三阶段上下文示例检索来检索相似范例,以指导生成更具学科针对性的教育问题。在ScienceQA数据集上的实验结果表明,CoE在问题生成和干扰选项生成方面均优于现有方法,适用于各种学科和教育水平。

 

引言:

我们的工作聚焦于教育领域的多选题生成任务,如图1所示,多选题由一个题干和若干个答案选项组成。在教育教学领域,多选题对于促进学生深入掌握知识和提升学生学习兴趣具有重要意义。研究表明,经过精心设计的多选题能很大程度地提高学生的学习能力和学习成绩。衡量多选题质量好坏的一个重要标准是干扰选项是否足够具有迷惑性,干扰项的迷惑性越高,越能提高学生的阅读理解能力和思考推理能力,进而提高学生的学习成绩。然而,人工设计优质的多选题具有较高的人力和经济成本,为了减轻人力负担,如何自动生成多选问题逐渐受到广泛关注。现有的问题生成研究主要侧重于基于文本单模态的输入,且往往忽视生成干扰选项。此外,现有的方法缺少针对具体学科或学生的知识水平的特殊定制。因此,为了解决这些难题,我们提出了一个名为 CoE 的新框架。这个框架利用多任务学习策略生成优质的问题和令人迷惑的干扰项,并进行多模态思维链推理。同时,我们还利用检索到的范例问题来指导模型生成。实验结果表明,我们的 CoE 框架在无论是问题生成还是干扰项生成任务上都优于目前最先进的方法。

图1 多选问题生成图例

方法介绍:

如图2所示我们的整体模型架构由 4 个不同的模块组成:包括问题生成器(Question Generator)、原理生成器(Rationale Generator)、干扰项生成器(Distractor Generator)和上下文范例检索模块(Contextualized Exemplar Retrieval)。

图2 CoE模型框架

其中,三个生成器使用共享权重的多模态大语言模型作为主干网络。通过引入思维链推理策略,我们利用这3个生成器将任务分解为多个子任务,生成中间推理步骤,一步一步实现问题生成和干扰项生成。

此外,为了指导大模型生成,我们还引入了相似语境范例检索模块,以下统称为CER模块,以检索最相似的示例并将其用作示范。具体地,CER 模块会判断训练数据中每个样本之间的相似性,以便检索数据集中最相关的样本作为范例,生成更针对特定主题和学科的多选问题。如图4所示,我们首先使用一个名为 AnglE 的模型将每个样本的上下文、答案和问题等属性信息编码成向量。将所有向量置于具有丰富语义特征的潜在样本空间中。如果两个向量在潜在空间中的位置接近,它们就更有可能在相似领域内含有类似的信息。随后,我们会计算当前测试实例与数据集中其他样本之间每个属性向量的余弦相似度来判断他们之间的特征相似性。随后,我们将当前测试实例与检索到的范例拼接成一个格式化prompt,作为三个生成器的输入。在随后的生成过程中,检索到的范例会提供测试实例上下文中可能不存在的补充知识,并对输出进行灵活控制,使其风格与范例相似,这种方法对于上下文有限的问题生成任务非常有效。同时,CER 模块检索到的相似领域知识,也可以使生成的内容更贴近当前的主题。

图4 CER模块检索流程图例

我们将上下文范例检索模块与思维链推理相结合,来构建基于范例的思维链框架。具体来说,CoE 推理框架包括三个生成阶段:问题生成、原理生成和干扰项生成。

在训练时期,我们采用多任务学习的策略对多模态大语言模型进行指令调整。具体来说,我们将三个生成任务的数据样本进行组合和打乱,从而生成格式化数据。我们的训练目标是最小化三个生成任务的负对数似然损失之和。同时在3个任务中训练模型,可以防止思维链训练过程中因为中间错误进一步影响后续生成器的输出,从而使模型对prompt的措辞选择更加鲁棒。

在推理时期,3个生成过程都与训练阶段的几乎一致。由于在推理阶段不会给出测试实例的问题,因此我们在CER模块中只计算答案和上下文相似度之间的最大值。

 

实验结果:

  • 数据集:我们在 ScienceQA 数据集上进行实验,这个数据集是唯一适合我们任务的多模态教育问答数据集,因为它在每个样本中添加了详细的问题原理和答案解释。由于它是问答数据集,基于问答任务和问题生成任务的对偶关系,我们利用上下文和正确答案作为输入,对 ScienceQA 数据进行反向处理,并生成相应的多选题作为输出。
  • 评估指标:我们选择了两个自动指标BLEU-4 和 ROUGE-L用于评估问题生成,以及 ROUGE-L 和 准确率两个自动指标来评估干扰项生成。这里提到了准确率具体来说是我们用正确答案和模型生成的干扰项的组合替换了 ScienceQA 中原来的选项,其他数据保持不变。我们利用已有的多模态问答模型(由 ScienceQA 数据集训练)来回答我们 "修改后 "多选问题,计算问答模型在新的多选问题上的准确率。准确率越低,说明我们的干扰选项越具有迷惑性。
  • 基准模型:我们将 CoE 与在 ScienceQA 上的sota方法进行了比较,包括 VL-T5、MultiQG-Ti 和 Multimodal-CoT。我们还使用了zero-shot和few-shot的 ChatGPT 作为基准模型。

 

问题生成实验结果:

我们首先对CoE在问题生成任务上进行性能评估,下表展示了 CoE 与baseline在自动评估指标上的性能对比。如表1所示,与其他所有baseline相比, CoE 表现出了更优越的性能

 

表1 问题生成的自动评估结果,↑表示数值越高越好,↓表示数值越低越好

 

然而,BLEU-4 和 ROUGE-L 指标只侧重于评估生成问题与groundtruth之间是否完全匹配,而忽略了问题的生成多样性。为了增强评估的全面性,我们利用 Distinct-n 分数作为额外的自动指标来衡量生成问题的多样性。具体来说,它计算的是语料库中不同 n-gram 的数量,数量越多,说明问题的多样性越强。如表2所示,CoE 在问题多样性方面也优于现有的所有baseline。

 

表2 问题生成的多样性评估结果

进而,我们对生成的问题质量进行了人工评估。 我们随机抽取了 50 个由不同模型生成的问题样本,并根据 4 项指标从 1到 5(从最差到最好)进行评分:4个指标包括可读性、合理性、复杂性和趣味性。其中可读性衡量的是对应年级的学生是否能读懂这个问题,问题设置有无歧义,合理性衡量的是这个问题是否和这个学科相关,复杂性衡量的是学生是否需要通过一定的推理和思考才能回答这个问题,趣味性衡量的是学生是否有兴趣回答这一问题。如表3所示,CoE 在这4个指标上都优于其他所有baseline,其性能与groundtruth非常接近。

表3 问题生成的人工评估结果,↑表示数值越高越好,↓表示数值越低越好

 

干扰项生成实验结果:

与问题生成任务类似,我们先对干扰项生成进行自动评估,其中ROUGE-L指标越高说明生成结果和groundtruth越接近,准确率越低说明生成的干扰项越具有迷惑性,干扰项的质量越高。这个表格也列出了 CoE 与baseline的比较。如表4所示,我们的 CoE 框架在所有科目和年级的表现都高度一致且优于其他所有baseline,这进一步证明了它的有效性和通用性。

表4 干扰项生成的自动评估结果,↑表示数值越高越好,↓表示数值越低越好

 

同样地,我们还邀请了人工标注者回答包含了不同方法生成的干扰项的多选问题,他们回答的准确率将作为评估干扰项质量的人工评价指标。此外,我们还设置了其他 3 个人工指标并且同样采用了 5 分制,指标包括重叠度、语义相关性和创新性。重叠度衡量干扰项是否会和正确答案完全一致,语义相关度衡量生成的干扰项与上下文和问题是否相关,而创新性衡量生成的干扰项是否不局限于groundtruth。如表5所示, CoE 在大部分指标上都优于所有其他基准模型,甚至在准确率上优于groundtruth。

 

表5 干扰项生成的人工评估结果,↑表示数值越高越好,↓表示数值越低越好

 

消融实验:

我们通过量化的方式衡量思维链推理、CER 模块、多任务学习为CoE带来的性能提升,同时观察在去除图像或文本上下文输入时CoE的性能变化。可以从表6中看到,去除上述的任何一个模块都会导致CoE的性能下降,进一步证明了框架中的每一个模块都是有利于提升模型的理解、推理能力,有利于提高模型的性能。

 

表6 消融实验结果

 

为了进一步观察 CER 模块和思维链推理如何影响问题和干扰项的生成结果,我们在下图中展示了两个生成的实例。可以看到,去除了CER模块生成出来的问题虽然也和上下文相关且能用给定的正确答案回答,但相较于添加了CER模块的问题更加简单,学生需要的推理和思考就不那么复杂,就更容易回答。而去除了思维链推理模块生成的干扰项则更加不合理,在一众陆生和鸟类动物中出现了章鱼这种生存环境完全不一致的生物,学生在遇到这种干扰项时更加容易排除。

 

 

图5 案例分析

总结:

我们在文章中提出了一个名为 CoE 的新框架,它结合了检索示范和思维链推理,能从文本和图像的多模态输入中生成教育领域的多选问题,并采用了一种易于应用的多任务学习策略来微调生成模型。我们在 ScienceQA 数据集上的实验表明,CoE 的性能优于现有基准模型,并达到了新的sota。

全部评论

相关推荐

评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客企业服务