智源研究院推出FlagEval“天秤”大模型评测体系 2023-06-09 20:57:13

在今日的2023北京智源大会上，智源研究院宣布推出FlagEval（天秤）大语言模型评测体系。该体系从“能力、任务、指标”三维评测角度出发，结合超过600个维度对大模型进行全面测评。

据悉，天秤大模型的任务维度目前包含22个主观和客观评测数据集，共计超过84433道评测题目。