
LLMEval3 由复旦大学NLP实验室推出的大模型评测基准
声明:该文章由作者(梨涡远点)发表,转载此文章须经作者同意并请附上出处(0XUCN)及本页链接。。
LLMEval是由复旦大学NLP实验室推出的大模型评测基准,最新的LLMEval-3聚焦于专业知识能力评测,涵盖哲学、经济学、法学、教育学、文学、历史学、理学、工学、农学、医学、军事学、管理学、艺术学等教育部划定的13个学科门类、50余个二级学科,共计约20W道标准生成式问答题目。
自2022年以来,随着大模型技术的飞速发展,如何有效评估大模型的能力已成为一项关键的研究课题。为应对这一科学挑战,复旦大学NLP实验室启动了LLMEval大模型评测系列研究项目,旨在系统研究和优化大模型的评估方法,深入探索模型在不同场景下的表现,并从可解释性的角度分析评测结果。自项目启动以来,LLMEval已累计收集了近百万条评测数据,为大模型的评估与优化提供了宝贵的资源和实证分析。目前,LLMEval系列已顺利完成了前三期项目:
LLMEval-1专注于大模型的生成能力评测。项目涵盖了17个大类、453个问题,全面考察了大模型在事实性问答、阅读理解、编程等多个领域的表现。评测指标包括正确性、流畅性、信息量、逻辑性和无害性,评估方法多样,如分项评测和GPT-4自动评测。
LLMEval-2在LLMEval-1的基础上,进一步聚焦于专业领域的评测。该阶段针对用户在日常学习和生活中遇到的专业问题,特别是本科生和研究生的学术需求,设计了更为专业化的评测题目。LLMEval-2旨在弥补通用评测在反映模型知识覆盖率方面的不足,重点评估大模型在专业领域的实用性。
LLMEval-1和LLMEval-2的相关研究论文已被AAAI2024收录,详情请参阅 Zhang et al., 2024
LLMEval-3聚焦于专业知识能力评测,涵盖哲学、经济学、法学、教育学、文学、历史学、理学、工学、农学、医学、军事学、管理学、艺术学等教育部划定的13个学科门类、50余个二级学科,共计约20W道标准生成式问答题目。后续我们将继续收集题目将总题库扩充至100W。
[超站]友情链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
关注数据与安全,洞悉企业级服务市场:https://www.ijiandao.com/
- 1 共同擘画上合组织发展新蓝图 7904251
- 2 今日三预警齐发!局地最高温超40℃ 7808748
- 3 年轻人下班送外卖 有人月入3000元 7714557
- 4 “北京范儿”大赛激发全民共创热情 7616512
- 5 牛弹琴:马克龙气坏了 7519889
- 6 事关收入!开学前建议家长修改此信息 7425373
- 7 护网:警惕零日漏洞“定时炸弹” 7330911
- 8 45岁三甲医院脑梗专家自己脑梗了 7235800
- 9 塞尔维亚将对近3000种商品限价降价 7135789
- 10 鲁迅抽烟墙画被投诉:误导青少年 7045101