斯坦福大学实锤GPT-4变笨了，OpenAI最新回应：确实存在“智力下降” 2023-07-21 22:05:36

大模型天花板GPT-4，它是不是……变笨了?

之前有不少用户提出质疑，并晒出了不少证据。对此，OpenAI7月14日澄清:“我们没有把GPT4弄笨。相反的，我们的每个新版本，都让GPT4比以前更聪明了。”

Peter Welinder是OpenAI的产品产品VP

但为了验证OpenAI的说法，斯坦福大学和加利福尼亚大学伯克利分校的三位研究员调查了3月至6月期间 ChatGPT 性能的变化。

论文地址: https://arxiv.org/abs/2307.09009

评估的对象包括GPT-3.5和 GPT-4两个大模型，并在四个任务上进行测试:数学问题、回答敏感/危险问题、代码生成以及视觉推理。

调查结论是:GPT-4性能确实变差了。

例如，在数学问题上，2023年3月版本的GPT-4能够以97.6%的准确率识别质数，而2023年6月版本的GPT-4在这个任务上的表现却很糟糕（准确率只有2.4%），并且忽略了连贯的思考Prompt。

对如此科学实验下的证据，OpenAI在博客“Function calling and other API updates”中更新回应到:确实在某些任务上的性能变差了。

We look at a large number of evaluation metrics to determine if a new model should be released. While the majority of metrics have improved， there may be some tasks where the performance gets worse.

我们会根据大量的评价指标来确定是否发布新的模型，虽然新模型大多数指标都有所改进，但可能在一些任务上模型性能会变差。

his is why we allow API users to pin the model version. For example， you can use gpt-4-0314instead of the generic gpt-4， which points to the latest model version.

这就是为什么我们允许API用户使用固定版本模型的原因。例如，用户可以选择使用 gpt-4-0314这个版本，而不是使用最新的 gpt-4版本。

Each individually pinned model is stable， meaning that we won’t make changes thatimpactthe outputs。

另外，OpenAI不会对固定版本的模型进行任何可能影响其输出结果的更改。

那么具体在哪些任务中GPT-4变差了呢?让我们一起来看论文细节。

01实验过程与其他结论

.

论文中，作者针对每种任务都设定了主要的性能指标，例如对于解决数学问题的任务，主要的性能指标是准确性;对于回答敏感问题的任务，主要的性能指标是回答率。此外，对于所有任务，他们都设定了两个通用的补充指标，即冗长度（verbosity）和重叠度(overlap)。

如前所述，在数学问题测试中，作者们研究了GPT-4和GPT-3.5在解决质数判断问题上的“时间表现”。实验方法是采用思维链（Chain-of-Thought）方法对数据集中的500个问题进行回答。

结果显示:两个模型表现出明显的前后不一致，GPT-4的准确率从3月的97.6%下降到6月的2.4%，同时，GPT-3.5的准确率从7.4%提高到了86.8%。此外，GPT-4的回答更简洁，GPT-3.5的回答则更长。

这种差异的原因可能与思维链效应有关。例如，3月的GPT-4能够很好地遵循思维链条步骤判断17077是否为质数，但6月的版本则直接给出了"No"。而GPT-3.5在3月倾向于先给出"No"，然后推理，但6月的版本修复了这个问题，正确地先写出推理步骤，然后给出正确答案"Yes"。这表明，由于模型的改变，即使是同样的Prompt方法，如思维链条，也可能导致性能大相径庭。

在敏感问题测试中，论文作者创建了一个包含100个不应由大模型直接回答的敏感问题的数据集，并手动标记了所有回复。

结果发现，GPT-4在3到6月间直接回答敏感问题的比例从21.0%降到5.0%，而GPT-3.5的比例从2.0%上升到8.0%，可能因GPT-4增强了安全性，而GPT-3.5没有相应的操作。

同时，GPT-4回复的文本长度也从600多字降到约140字。

另一方面，大模型“越狱”对服务的安全性构成了主要威胁。作者使用了一种叫做AIM（always intelligent and Machiavellian）的攻击，该攻击通过构造虚构故事，让大模型表现得像一个无过滤无道德的聊天机器人。

结果显示，当遭受AIM攻击时，GPT-4和GPT-3.5的回答率都大幅上升。但是，GPT-4的防御力在更新后显著增强，从3月的78%的回答率降到6月的31.0%，而GPT-3.5的回答率变化较小，仅降低了4%。这说明GPT-4对越狱攻击的防御力较GPT-3.5更强。

在代码生成能力测试中，作者创建了一个新的代码生成数据集，包括最新的50个LeetCode“easy”问题。结果显示:从3月到6月，“可直接执行”的生成数量降低。

如上图所示，3月份GPT-4有超过50%的生成结果是“可直接执行”的，但到了6月份只剩10%。GPT-3.5的情况也差不多，两种模型的生成结果冗余性也略有增加。

对此，斯坦福的研究员猜测原因可能是:生成的代码中添加了额外的非代码文本。

如上图所示，GPT-4在3月份和6月份生成的代码是有区别的。例如6月版在代码片段的前后添加了"python"和’’’，这可能是用来标示代码块的，同时还生成了更多的注释。

在视觉推理测试中，研究人员采用了ARC数据集进行评估，该数据集中的任务是根据几个例子，要求输入网格创建输出网格。

图注:视觉推理的整体表现。从三月版到六月版，GPT-4和 GPT-3.5的整体表现都有大约2% 的提升。生成长度大致保持不变。

GPT-4和 GPT-3.5的性能提升都很小。但是，它们的3月版和6月版在90% 的视觉谜题查询上的生成结果都一样。这些服务的整体性能也很低:GPT-4准确率为27.4%、GPT-3.5准确率为12.2%。

02专家推测:或许与 MoE 技术有关

对于GPT-4变笨，之前学术界有个观点是，后来的RLHF训练虽然让GPT-4更与人类对齐，也就更听从人类指示和符合人类价值观，但让也让它自身的推理等能力变差。

换句话说，人类的强硬“教化”将GPT-4的脑叶白质切除了。

也有专家认为是GPT变笨和它的「混合专家模型」（Mixture of Experts，MOE）的构架有关。

MoE 技术是在神经网络领域发展起来的一种集成学习技术，也是目前训练万亿参数量级模型的关键技术——由于现阶段模型规模越来越大，导致训练的开销也日益增长，而 MoE 技术可以动态激活部分神经网络，从而实现在不增加计算量的前提下大幅度增加模型参数量。

具体来说，MoE 会将预测建模任务分解为若干子任务，在每个子任务上训练一个专家模型（Expert Model），并开发一个门控模型(Gating Model)，该模型可根据要预测的输入来学习信任哪个专家，并组合预测结果。

MoE 技术引用到GPT-4时， GPT-4中这些小型专家模型会针对不同的任务和主题领域进行训练，例如可以有针对生物、物理、化学等方面的小型GPT-4专家模型，那么当用户向 GPT-4提出问题时，新系统就会知道要把这个问题发送给哪个专家模型。另外，为了以防万一，新系统可能会向两个或更多的专家模型发送查询，然后将结果混在一起。

对于这个做法，业界专家形容是“忒修斯之船”，即随着时间的推移，OpenAI 会把 GPT-4的各个部分替换掉:“OpenAI 正在将 GPT-4变成一支小型舰队。”

注:忒修斯之船，是一个古希腊思想实验，探讨一个物体在其所有组成部分被完全更换后，是否仍保持其原始身份的哲学悖论。即一艘船替换完所有组件后，这艘船还是原来的吗?

因此，GPT-4变笨很可能就与 MoE 这种训练方式有关:“当用户测试 GPT-4时，我们会问很多不同的问题，而规模较小的 GPT-4专家模型不会做得那么好，但它正在收集我们的数据，它会改进和学习。”斯坦福大学兼职教师Sharon Zhou介绍到。