UNO-Bench – 美团LongCat推出的全模态大模型评测基准

智能 PRO 稿源：AI工具集 2025-11-09 02:23

UNO-Bench是什么

UNO-Bench是美团LongCat团队推出的全模态大模型评测基准。UNO-Bench针对现有评测体系的不足，通过高质量、多样化的数据构建，精准衡量模型的单模态与全模态能力。基准首次验证了全模态大模型的“组合定律”，揭示单模态与全模态能力的复杂关系。UNO-Bench创新的多步开放式问题和高效的数据压缩算法，提升了评测的区分度与效率，为推动全模态大模型的发展提供科学的评估工具。

UNO-Bench的主要功能

精准评估模型能力：通过高质量、多样化的数据集，同时衡量模型在图像、音频、视频和文本等单模态和全模态任务上的表现。
揭示能力组合规律：首次验证全模态大模型的“组合定律”，揭示单模态与全模态能力之间的复杂关系，为模型优化提供理论支持。
创新评测方法：引入多步开放式问题（MO），能有效评估模型在复杂推理任务中的能力衰减，精准区分模型的推理深度。
高效数据管理：通过聚类引导的分层抽样法，显著降低评测成本，同时保持模型排名的高度一致性。
支持多模态融合研究：为研究人员提供统一的评测框架，推动全模态大模型的发展，为未来更强模型的涌现预留空间。

UNO-Bench的技术原理

统一能力体系：将模型能力解构为感知层和推理层，感知层涵盖基础识别、跨模态对齐等能力，推理层包含空间推理、时序推理等高阶任务。双维框架为数据构建和模型评测提供清晰的蓝图。
高质量数据构建：

数据采集与标注：通过人工标注和多轮质检，确保数据的高质量和多样性。超过90%的数据为私有化原创，避免数据污染。
跨模态可解性：通过模态消融实验，确保98%以上的问题必须依赖多模态信息才能解答，避免单模态信息的冗余。
视听分离再组合：独立设计音频内容并与视觉素材人工组合，打破信息冗余，迫使模型进行真正的跨模态融合。
数据优化与压缩：采用聚类引导的分层抽样法，从大规模数据中筛选出代表性样本，降低评测成本，同时保持模型排名的一致性。

创新评测方法：将复杂推理任务拆解为多个子问题，要求模型给出开放式文本答案，通过专家加权评分，精准评估模型的推理能力。通过细分问题类型和多轮标注迭代，实现对多种问题类型的自动评分，评分准确率可达95%。
组合定律验证：通过回归分析和消融实验，揭示全模态性能并非单模态能力的简单线性叠加，是遵循幂律协同规律。非线性关系为模型融合效率的评估提供新的分析范式。