第32届国际多媒体会议(ACM International Conference on Multimedia, ACM MM)将于2024年10月28日-11月1日在澳大利亚墨尔本召开。我院刘杰教授团队的一篇长文被录用。ACM MM是国际多媒体领域最重要的顶级会议,被CCF推荐为该领域唯一的A类国际学术会议。本次会议共收到来自全世界的4340篇有效投稿,最终录用1149篇,录用率约26.47%。
论文标题:An Entailment Tree Generation Approach for Multi-modal Multi-Hop Question Answering with Mixture-of-Experts and Iterative Feedback Mechanism
通讯作者:刘杰(团队负责人)
共同第一作者:张晴(计算机系教师),吕浩成(计算机技术22级研究生)
内容简介:随着大型语言模型(LLMs)的兴起,目前将多模态信息转换为文本描述以进行多模态多跳问题回答已成为一种流行且有效的方法。然而,我们认为当前的多模态多跳问题回答方法仍主要面临两个挑战:1)检索到的证据中包含大量冗余信息,导致因无关信息误导预测而显著降低性能。2)缺乏可解释的推理步骤,使模型难以发现处理复杂问题的逻辑错误。为了解决这些问题,我们提出了一种基于统一LLM的方法,但不重度依赖于LLM,以避免LLM潜在的错误,并创新性地将多模态多跳问题回答视为一个蕴涵树生成和问题回答的联合问题。具体而言,我们设计了一个多任务学习框架,重点在于促进跨可解释性和预测性任务的知识共享,同时通过专家混合机制防止特定任务间的错误干扰,并通过设计的迭代反馈机制,将联合训练的结果反馈给LLM重新生成蕴涵树,迭代优化潜在答案。本方法在WebQA官方(由CMU、微软提供)排行榜上(自2024年4月10日以来)一直名列第一,并在MultimodalQA上取得了竞争性成绩。
刘杰教授团队长期从事人工智能和自然语言处理方向的研究工作。该成果受到团队主持的新一代人工智能国家科技重大专项(2020AAA0109700)、国家自然科学基金联合基金重点项目(U23B2029)、国家自然科学基金面上项目(62076167)和87978797威尼斯老品牌毓秀创新项目(2024NCUTYXCX102)支持。