大语言模型评测对应用和后续发展至关重要,其评测范式包括经典和新型两种。经典评测范式涵盖自然语言理解和生成任务,本文介绍了流行的经典评测基准及新型评测范式下的代表性基准和实例,并总结了现有评测的不足。随后,文章提出了全面的大语言模型评测思想、相关指标和方法,并探讨了新的研究问题、挑战和未来方向。
1 自然语言处理的评测范式
自然语言处理的进步得益于有效的评估方法,这些评估方法常常依赖于一系列的基准数据集,模型在这些数据集上运行,通过其输出结果,评估系统会对模型能力给出评分。最初的评估基准通常只涉及单一任务与单一数据集,这是自然语言处理的基本评估模式。然而,为了全面评估大型语言模型,我们可能需要将多个数据集进行整合和重组,以形成更通用的评估基准。本文将这些评估模式划分为经典评测范式和新型评测范式,表1展示了一些典型的评测基准。接下来,我们将详细介绍这两种评估范式,并指出当前评估方法的不足之处。
表1 一些典型的评测基准
1.1 经典的自然语言处理评测
自然语言处理涵盖两大核心领域:自然语言理解(NLU)与自然语言生成(NLG)。在传统的评估框架中,主要聚焦于模型输出与参考答案之间的一致性。这一经典评估模式的结构如图1所示。
图1 经典评测的结构
1.1.1 自然语言理解能力评测
自然语言理解能力评测用于评估模型在理解自然语言方面的能力,常见任务有情感分析、文本匹配、文本分类和阅读理解等。已有GLUE、XTREME和CLUE等评测基准。GLUE包含9个任务,XTREME涉及40种语言、9个任务,CLUE则是大规模的中文理解评测基准。
1.1.2 自然语言生成能力评测
自然语言生成能力评测针对模型生成自然语言的能力,常见任务有机器翻译、生成式文本摘要、自动对话等。评测指标有BLEU、METEOR、ROUGE等。BLEU通过衡量模型生成译文与参考译文之间的N-gram匹配程度来计算得分。
1.1.3 同时考虑理解和生成的能力评测
随着大语言模型的发展,单一的评测基准已无法满足需求。新的评测基准如CUGE,涵盖了7种语言功能、18个主流NLP任务,全面评估汉语理解和生成能力。
1.2 面向多种能力的新型评测范式
新型评测范式不仅关注大型语言模型在理解和生成方面的能力,还关注模型本身所表现出的更多重要属性,如模型生成的内容是否符合社会道德准则。这种评测范式有助于从更多维度和更深层次去理解和评估自然语言处理模型的性能,推动自然语言处理技术的进一步发展和完善。同时,它也强调了模型的社会道德责任,要求模型生成的内容符合社会道德准则,以避免潜在的负面影响。
1.2.1 多种属性能力评测
研究者们为评估大语言模型表现,提出知识运用、数学推理、幻觉检测等能力评测。如TriviaQA、OpenBookQA评估知识运用,GSM 8 k评估数学推理,HaluEval评估幻觉检测。这些基准全面评估模型性能。
1.2.2 GPT-4模型评测
OpenAI用模拟考试(如SAT Math、Leetcode)和自然语言处理任务(MMLU、HellaSwag4、HumanEval1、DROP)评估GPT-4。结果显示,GPT-4在多数专业和学术考试中与人类相当,且在多个NLP基准上达到先进效果。微软提出的以人为中心的评测基准AGIEval,包括GRE、SAT等客观题,GPT-4在LSAT、SAT数学等超越人类平均表现,SAT数学准确率95%。然而,在复杂推理或特定领域知识任务上表现不佳。GPT-4的零样本学习能力接近小样本学习。
1.3 现有评测的不足
1.3.1 新生任务缺乏评测基准
通用大语言模型的发展需要更多应用场景和任务来评估其效果,但一些新生任务缺乏评测基准,这限制了该领域的发展。评测基准对于模型性能和不同模型之间的比较至关重要。缺乏它会使研究人员难以准确评估模型性能,并难以有效评估和比较新生算法和模型。因此,建立评测基准对于模型在新生任务上的应用研究至关重要。
1.3.2 评测任务缺乏区分度
大语言模型的能力已经非常强,使得许多评测任务失去了挑战性和区分度。这反映了大语言模型的发展超出了原有评估任务的范围。因此,需要注重评测任务的区分度和难度,以确保评测结果具有实际可参考的意义。
1.3.3 评估方式不公平
评估方式不公平主要体现在评估指标和数据集选择的不公平,以及人为因素可能导致评估结果的不公平。同一任务下的不同评测数据集可能产生矛盾的结果,而人为因素也可能导致评估结果存在偏差。
1.3.4 评估不全面
目前,模型单项能力的评测往往只针对单个任务上的单数据集单指标,无法全面反映模型的能力。对于自然语言生成能力的评测,需要考虑多个方面和不同的评测指标。同时,模型综合能力的评测也需要更加系统性的交互,以全面评估模型的综合能力和多种属性。
1.3.5 评测基准的污染问题
评测基准的污染问题指的是评测数据出现在模型训练数据中,这会影响评测的公正性和可信度。为了确保公正性和可信度,评测基准的测试数据不应包含在大语言模型训练数据中。评测基准的构建者和使用者需要谨慎考虑,确保独立性和代表性。
1.3.6 评估结果缺乏可解释性
现有评估方式在大语言模型评测中缺乏对评估结果的解释和分析,导致评估结果缺乏可解释性。这主要表现在数字化评估方式难以理解模型在不同任务和数据集上的表现差异,以及缺乏可解释性难以确定模型在特定任务上的优势和劣势。提高评估结果的解释性对于提高模型性能和优化至关重要。
2 全面的大语言模型评测
大语言模型评估方法HELM由Liang等人提出,旨在多个场景、任务和评估指标下评估大语言模型的能力。HELM首先对自然语言处理涉及的场景和任务进行分类和筛选,并以应用性任务作为评测重点。其次,明确大语言模型评估需要考虑的7个评测指标,如准确率,并设计了7个更具针对性的评估维度,如语言能力、推理能力等。最后,HELM对30个大语言模型在42个场景和上述评测指标下进行了评测,并公开了评测结果。HELM也指出了其评测中存在的遗漏和不足,例如部分场景和任务的缺失、部分评估方法的不足、部分模型和适配策略的遗漏等。由于不少大模型不再开源,全面评测大模型存在一定困难。HELM在评估中将大语言模型视为黑盒,这也是上述提及的遗漏和不足之一。HELM用到的评测属性包括准确率、校准度、泛化能力、适配能力、鲁棒性、效率、偏见和刻板印象、公平性和有害性。
2.1 准确率
准确率是衡量大语言模型性能的重要指标,它反映了模型预测或生成结果的正确比例。准确率对于大语言模型在自然语言处理任务中的应用至关重要。评估准确率的方法因场景和任务而异,常见的评估指标包括判别类问题的评测指标(如F1值和Accuracy值)、生成类问题的评测指标(如BLEU和ROUGE)以及精确匹配(EM)等。准确率指标在自然语言处理的评测中广泛应用,但在未来仍将与其他指标共同使用。
2.2 校准度
准确率衡量模型输出的正确性,而校准度衡量模型预测概率的准确性。校准度评估对大语言模型至关重要,因为它有助于提高模型的可靠性和置信度估计的准确性。高校准度的模型更可靠,预测结果更可能避免误解和错误决策。此外,校准度还帮助使用者理解模型预测结果,并在必要时进行人工介入。
期望校准误差(ECE)是一种评估模型校准度的方法,通过将概率区间均分成M个小区间,计算每个区间内预测正确的样例数与预测概率的乘积之和,再除以该区间内所有样例数,得到每个区间的准确率。然后计算每个区间的平均置信度,即该区间内所有样例预测概率的平均值。最后,将所有区间的校准差距的期望值相加,得到期望校准误差。
2.3 泛化能力
模型泛化能力的评估主要关注模型在域外数据集上的表现,通常在小样本或零样本设置下进行。小样本是指模型在预测时仅给少量示例作为参考,参数通常不作更新,如上下文学习。零样本与小样本类似,不同在于不提供参考样例,只给模型提供需要解答的问题和对应的文本,由模型直接推理出答案。由于小样本和零样本通常不对模型参数进行更新,这种评估方式能够较好地体现模型的泛化能力,泛化能力也在一定程度上预示着模型应用于下游任务时的效果。因此,泛化能力的评估是评估大语言模型能否广泛应用于诸多实际下游应用场景的关键之一,也将成为未来大型模型评估的一个重要组成部分。
2.4 适配能力
大模型在通用性和特定任务上的性能存在差异,需要考虑适配问题。适配是将原始模型转换成适用于下游具体任务的过程,适配能力指模型在不同适配策略下的性能优劣。适配策略有三种:不更新原模型参数的适配,增加适配层并调整适配层参数的适配,以及对原模型做全参数更新的适配。不更新模型参数的适配中,最典型的方法是通过设计提示和上下文例子使模型在下游任务上获得更好的效果。增加适配层并调整适配层参数的适配是一类高效率,低损耗的适配方法。一种极端的适配方式是更新模型的全部参数,具体而言,就是利用下游任务中的数据对模型进行再训练,从而迭代更新整个模型的参数。模型对不同适配策略的适配程度与模型的结构设计,预训练方式等因素有关。
2.5 鲁棒性
大语言模型在复杂现实世界中的表现可能并不突出,因为其鲁棒性不强,即对输入数据中的扰动或噪声的抵抗能力不足。模型鲁棒性的评估方法之一是对文本输入进行扰动,观察模型输出的变化。扰动大致分为两类:对抗扰动和非对抗扰动。对抗扰动是为了误导模型做出错误预测而故意对输入内容进行修改,对模型的预测结果会产生明显影响。非对抗扰动则是对输入内容更自然和随机的改动,用于模拟现实世界中输入的复杂情况。对抗扰动可以用来评估模型对恶意输入的处理能力,而非对抗扰动可用于衡量模型在现实世界中面对有自然误差的输入时的表现。在评估大语言模型时,需要综合考虑这两种扰动类型的影响,以更全面地评估模型的鲁棒性。
2.6 效率
大语言模型的效率包括训练效率和推理效率。训练效率涉及模型训练时的复杂程度,而推理效率则是模型不更新参数时的推理复杂度。评估模型效率的指标有能量消耗、二氧化碳排放量、参数个数、FLOPS、实际推理时间和执行层数等。这些评估有助于研究人员选择最适合的模型以满足应用需求。
2.7 偏见和刻板印象
大语言模型在应用于多种下游任务时,可能表现出歧视行为,这限制了其在一些领域的应用。大语言模型偏见和刻板印象指的是针对某个群体和某类属性标签产生的过于笼统且不合事实的概括性观点。评估模型中的偏见和刻板印象的方法主要分为两类:基于表示端的评估方法和基于生成端的评估方法。基于表示端的评估方法主要利用词向量在语义向量空间中的几何关系表征词汇间的关联程度,反映语言模型中的偏见和刻板印象。基于生成端的评估方法侧重于利用模型的生成来衡量其偏见程度。然而,这些评估方法通常需要依赖人工筛选的词表集合来代表某个待测群体或某类属性标签,这些词表本身可能会引入筛选者的固有偏见,且词表中的词汇组成也会对评测结果产生较大的影响。目前,NLP社区对于偏见的评估仍然存在一些问题,如偏见的界定标准模糊不清,某些评估方式与模型在下游应用上表现的相关性并不明确,除性别、种族外对其他形式的偏见(如宗教、国家等)研究较少,非英语语境下的偏见评估尚缺乏相关研究等。
2.8 公平性
大语言模型在下游任务中准确率提高,但其公平性问题受关注。公平性指模型在下游任务中对不同特征群体的性能差异,而偏见和刻板印象是模型内在属性。模型公平性评估包括预测公平性、机会平等性和反事实公平性。评估时需按群体特征划分数据子集,计算统计量并汇总。反事实公平性则通过扰动测试样例生成反事实数据评估。随着大语言模型发展,其应用形式或扩展至多语言、多模态,需迭代现有公平性评测范式以适应更广泛群体和复杂语言背景。
2.9 有害性
大语言模型的有害性是指其生成有害言论的能力。大语言模型有害性评估是一个重要的问题,需要开发有害性检测系统来检测文本中可能含有的有害成分。研发者需要谨慎地考虑系统设计的合理性、数据集标注的准确性和是否存在偏见等问题,同时需要平衡准确率和公平性,避免对某些群体的过度惩罚或忽视对他们的有害言论。提高系统及其数据的开源性和透明度有助于全面评估系统,提高可信度和有效性。
3 大语言模型评测的一些新方向
自ChatGPT推出后,生成式大语言模型的影响逐渐增强,但传统生成式评测方法面临挑战。为此,研究者开始探索新的评测模式,包括基于模型的评测、幻觉问题的评测和元评测。这些研究弥补了传统评测的不足,为评估模型性能提供了更精准、稳定和可靠的评估结果。
3.1 基于模型的评测
早期的自动化评测方法如BLEU和ROUGE主要基于“形式匹配”,存在对语义的忽视、对参考文本的依赖以及难以抓住不同任务间的细微差别及各个任务上的评测需求等局限性。为了克服这些局限性,研究者开始探索基于模型的评测方法,尤其是基于大语言模型的评测方法。这些方法具有强大的表示学习能力和语义理解能力,能更好地捕捉到不同生成任务之间的细微差别,与人类评测之间也有更好的相关性。其中,BERTScore、GPTScore、Kocmi & Federmann和PandaLM等有代表性。
BERTScore是一种基于BERT的文本相似度评估方法,通过计算待测文本与参考文本之间的余弦相似度来评估文本相似性,结构如图2所示。BERT for MTE是一种基于BERT的先进评测方法,通过句子对编码的方式,巧妙地将待测文本与参考文本融为一体。GPTScore是一种基于大语言模型的评测方法,根据生成内容的质量评估生成内容。Kocmi& Federmann是一种基于大语言模型的评测方法,模拟人类评估,使评估结果更加客观和准确。PandaLM是一种基于比较的评测模型,专注于在指令调优的语境下根据生成内容选出最优秀的模型。
图2 BERTScore的计算结构
图3 PandaLM 的评测结构图
未来可能的基于模型评测的研究方向包括:1. 开发更具鲁棒性的评测指标,降低噪声影响,提高稳定性和可靠性。2. 发展更可靠的评测方法,增强评测结果的可信度。3. 探索将特定知识注入大语言模型,提高专业领域的表现。4. 关注细粒度评估与可解释性增强。5. 摆脱对参考文本的依赖,利用大语言模型的泛化能力。6. 尝试结合基于模型评测和人类评测的有效方式,提高人类评测的可用性和基于模型评测的准确性。
3.2 幻觉问题的评测
生成式大语言模型在文本质量和流畅性方面取得了显著提升,但在生成内容时可能出现“幻觉”现象,即产生不准确或无根据的信息,影响其实用性和可靠性。幻觉分为内在和外在两类,可通过原文本直接证伪的为内在幻觉,不能通过原文本直接验证的为外在幻觉。评估幻觉现象的方法分为非大语言模型与基于大语言模型两类。大语言模型通过其理解和生成能力来评估文本的幻觉度,有直接和间接两种评测方法。直接评测法利用大语言模型作为代理,通过模板设计完成人类评测员的工作。间接评测法则利用模型生成能力,结合其他评测指标和方法,如SelfCheckGPT使用BERTScore、生成式问答与n-gram模型来衡量文本一致性,从而评估幻觉程度。
幻觉评测在未来研究应探索更复杂的模型和算法以提高幻觉检测的准确性和效率,并研究如何利用无标签或弱标签数据提高性能。同时,需要深入研究幻觉生成机制,包括语言理解和生成过程,以及训练过程中的因素。此外,设计通用幻觉评测方法也是未来的重要研究方向,需要深入理解幻觉本质和不同任务中的共性与特性,并设计能够捕捉任务间细微差别、与人类判断高度相关的评测指标。
3.3 元评测
元评测在大型语言模型评测中至关重要,旨在评估评测指标的有效性和可靠性,判断评测方法与人类评测的相关程度,对确保评测质量、减少误差及提升结果可信度具有关键作用。研究者通过对比不同评测方法,发现各自优势和局限,选择更适合特定任务和场景的评测方法,准确衡量模型性能。随着大型语言模型在各领域的广泛应用,评测方法本身的准确度和可信度日益受到关注。元评测中常见的相关性计算方法包括皮尔逊相关系数、斯皮尔曼秩相关系数和肯德尔τ系数,用于衡量生成内容分数与人类评分之间的相关性。
皮尔逊相关系数是评估两个变量线性关系强弱的指标。当两变量间存在强烈的线性相关性时,其表现优异。然而,它对非线性关系敏感度较低,并易受异常值和数据分布偏态的影响。因此,当变量间存在复杂的非线性关系或数据存在严重异常值或偏态时,皮尔逊相关系数可能不适用。
斯皮尔曼相关系数是一种强大的工具,用于测量两个变量之间的单调关系。这种指标基于数据的秩次计算,对于异常值和偏态数据具有显著的鲁棒性,并能有效地捕捉非线性关系。然而,它只能揭示两个变量之间的单调联系,当变量间存在复杂的多元依赖关系时,仅凭斯皮尔曼相关系数可能难以准确区分和识别。
肯德尔τ系数是一种基于数据秩次的系数,用于衡量两个变量之间的共同趋势。它通过计算配对的一致对数目和不一致对数目,再根据公式计算得出。该系数对异常值和偏态数据较为鲁棒,但在大样本数据中计算效率较低。
**研究方向。**未来的元评测需要在更细粒度上进行,以评估各评测指标在这些细粒度评估维度上的评测结果与人类判断的相关性,揭示评测指标在捕捉不同生成任务上的微妙差异的能力。针对评测指标公平性评估的元评测需要探究这些因素对评测指标性能的影响,研究评测指标捕捉模型对不同群体或语言的偏见和歧视的能力。针对评测指标鲁棒性评估的元评测通过基于扰动的方法研究评测指标的鲁棒性,可以揭示其在面对数据噪声、变化或对抗性样本时的稳定性。