斯坦福研究称：ChatGPT在部分任务表现变蠢准确率下降 2023-07-20 17:17:20

斯坦福大学和加州大学伯克利分校的研究人员发表了一篇论文，研究了 OpenAI 的 ChatGPT 大语言模型（LLM）在2023年3月至6月之间发生的变化。

他们发现，在经过三个月的评估后，ChatGPT 的性能在某些任务上明显恶化。例如，在判断质数和显示思考过程的任务中，GPT-4的准确率下降了95.2%，而 GPT-3.5的准确度大幅上升，提升了79.4%，从7.4%提高到了86.8%。另一个用限定符求一系列整数之和的问题在 GPT-4和 GPT-3.5中也出现了性能下降，分别为负42% 和20%。

与3月份相比，6月份的GPT-4更能抵抗越狱或通过特定提示规避内容保护边界，这一变化很可能被视为该公司的一项改进。

研究人员认为，提高监测和透明度可以避免 LLM 漂移的问题。这项研究揭示了企业在考虑采用生成式 AI 产品时需要注意的新领域，并称之为 “LLM 漂移”。要应对 LLM 漂移的影响，企业需要保持警惕，并进行连续的外部评估和监测。

本文地址：/news/2394.html

相关标签：斯坦福研究称 ChatGPT在部分任务表现变蠢准确率下降

斯坦福研究称：ChatGPT在部分任务表现变蠢 准确率下降 2023-07-20 17:17:20

斯坦福研究称：ChatGPT在部分任务表现变蠢准确率下降 2023-07-20 17:17:20