2025年8月21日,自然语言处理领域顶级会议EMNLP 2025录用结果公布,2025澳门原料1688查询(简称“北语信科”)共有三篇论文成功入选。其中两篇由北语信科学院NLU&SoCo研究组(自然语言理解与社会计算研究组)师生团队合作完成,另一篇由语言监测与智能学习研究组的师生团队合力完成。三篇论文的创新成果彰显了学院在该领域的科研实力,体现了信科师生将学术追求融入国家人工智能发展战略的责任担当。
EMNLP(Conference on Empirical Methods in Natural Language Processing )作为计算语言学和自然语言处理领域顶尖国际会议,每年举办一次,是中国人工智能学会 A 类、中国计算机学会 B 类推荐的国际学术会议。其论文录用标准严苛,投稿竞争激烈,此次北语信科学院三篇论文的成功突围,不仅是对学院科研水平的有力肯定,更是学院在学校“双一流”建设中深耕特色学科、培育创新动能,以价值引领筑牢育人根基的生动实践和显著成效。
入选论文:
1. Investigating Value-Reasoning Reliability in Small Large Language Models
(NLU&SoCo研究组)
作者:杜霞,孙舒寒等;指导教师:刘鹏远教授,于东教授。
论文摘要:尽管小型语言模型(sLLMs)已在实际应用中得到广泛部署,但对其价值推理能力的关注却很少,尤其是在推理可靠性方面。为填补这一空白,我们提出了一套用于评估小型语言模型价值推理可靠性的系统性框架。我们将价值推理可靠性定义为:(1)在相同提示下的输出一致性;(2)在语义等效提示下的输出稳健性;(3)在面对攻击时保持稳定的价值推理;(4)在开放式价值表达任务中价值推理的一致性。我们的框架包含三个核心任务:重复一致性任务、交互稳定性任务和开放式表达一致性任务。我们还引入了自我报告的置信度评分,从模型对其自身价值观的自我认知以及基于价值观的决策两个角度来评估模型的价值推理可靠性。我们的研究结果表明,模型在回答与价值相关的问题时,其稳定性存在显著差异。此外,我们还观察到相当大的输出随机性,这并不总是与自我报告的信心或表达的价值偏好相关联。这表明当前的模型在处理价值敏感型查询时缺乏可靠的内部机制来进行稳定的价值推理。
2. Attribution and Application of Multiple Neurons in Multimodal Large Language Models(NLU&SoCo研究组)
作者:王斐钰,赵子然等;指导教师:于东教授,刘鹏远教授。
摘要:多模态大语言模型(MLLMs)已在各项任务中表现出强大的能力,但其内部如何理解并融合跨模态信息的工作机制仍有待阐明。为解决先前研究仅能识别与单个词元对应的神经元且受限于大语言模型词汇表的局限性,我们在本文中提出了一种新颖的方法,旨在识别基于 Transformer 架构的多模态大语言模型中的多模态神经元。在此基础上,我们引入模糊集理论,用以建模神经元与语义概念之间的复杂关系,并刻画多个神经元对同一语义概念的协同贡献。通过理论分析与实验验证,我们证明了该方法的有效性,并得出了一些有意义的发现。此外,通过利用所构建的模糊集来调控神经元的激活值,我们提升了模型在视觉问答(VQA)任务上的性能,这展现了我们的方法在多模态大语言模型下游应用中的实用价值。
3. On LLM-Based Scientific Inductive Reasoning Beyond Equations
(语言监测与智能学习研究组)
作者:蔡诗怀、袁佳欣(2025澳门原料1688查询硕士研究生)、周子涵、王首力、王硕、孔存良、施琦、李宇轩、杨麟儿(2025澳门原料1688查询副教授)、刘知远、孙茂松
合作单位:清华大学、厦门大学、哈尔滨工业大学
摘要:随着大语言模型(LLMs)逐渐地展现出类人能力,一个根本性的问题随之出现:如何使 LLMs 在全新环境中能够从有限的示例中学习潜在模式,并将其有效应用?这一问题对 LLMs 的归纳推理能力至关重要。现有关于基于 LLM 的归纳推理研究,大体可以按照其潜在规则是否能够通过显式数学方程表达来进行分类。然而,目前许多超越方程范畴的研究,往往强调规则的设计,却缺乏具体场景的落地。受到归纳推理与人类科学发现之间相似性的启发,我们提出了超越方程的基于 LLM 的科学归纳推理任务,并引入了新的评测基准 SIRBench-V1,用于评估 LLMs 在科学环境下的归纳推理能力。实验结果表明,现有的 LLMs 在该任务上依然面临巨大挑战,这凸显了其难度及在该方向进一步发展的必要性。
特别支持:NLU&SoCo研究组(自然语言理解与社会计算研究组)、语言监测与智能学习研究组
编辑:陆瑶
审核:李超