2025_NIPS_Can Large Language Models Help Multimodal Language Analysis? MMLA: A Comprehensive Benchma

张开发
2026/5/30 12:31:37 15 分钟阅读
2025_NIPS_Can Large Language Models Help Multimodal Language Analysis? MMLA: A Comprehensive Benchma
文章核心总结与翻译一、主要内容本文提出了首个大规模多模态语言分析基准MMLA,用于评估基础模型在该领域的能力。MMLA涵盖6个核心语义维度(意图、情感、对话行为、情绪、说话风格、沟通行为),包含来自9个数据集的61K多模态话语(文本、音频、视频),覆盖76.6小时视频,来源包括影视、社交媒体等真实与模拟场景。研究通过零样本推理、监督微调(SFT)、指令微调(IT)三种方法,评估了8个主流分支的LLM和MLLM(参数规模0.5B-72B),发现现有模型即使经过微调,平均准确率仍低于70%,揭示了当前模型在理解高层认知语义上的局限性。二、创新点首个全面基准:MMLA是首个针对多模态语言分析的大规模基准,覆盖6个关键语义维度,填补了现有基准聚焦低层次语义的空白。多维度评估体系:整合9个异质数据集,采用三种评估方法,系统对比LLM与MLLM的性能差异,提供全面的模型能力洞察。关键发现:小尺度模型经微调后性能接近大模型;IT可训练统一模型处理多任务;MLLM在SFT后能有效利用非语言模态,显著优于LLM。三、核心部分翻译(Markdown格式)Abstract多模态语言分析是一个快速发展的领域,它利用多种模态来增强对人类对话话语背后高层语义的理解。尽管其意义重大,但鲜有研究探讨多模态大型语言模型(MLLM)理解认知层面语义的能力。本文中,我们提出了MMLA——一个专门设

更多文章