斯坦福大学和加州大学伯克利分校的研究人员发表了一篇论文,研究了 OpenAI 的 ChatGPT 大语言模型(LLM)在2023年3月至6月之间发生的变化。
他们发现,在经过三个月的评估后,ChatGPT 的性能在某些任务上明显恶化。例如,在判断质数和显示思考过程的任务中,GPT-4的准确率下降了95.2%,而 GPT-3.5的准确度大幅上升,提升了79.4%,从7.4%提高到了86.8%。另一个用限定符求一系列整数之和的问题在 GPT-4和 GPT-3.5中也出现了性能下降,分别为负42% 和20%。
与3月份相比,6月份的GPT-4更能抵抗越狱或通过特定提示规避内容保护边界,这一变化很可能被视为该公司的一项改进。
研究人员认为,提高监测和透明度可以避免 LLM 漂移的问题。这项研究揭示了企业在考虑采用生成式 AI 产品时需要注意的新领域,并称之为 “LLM 漂移”。要应对 LLM 漂移的影响,企业需要保持警惕,并进行连续的外部评估和监测。
相关标签: 斯坦福研究称 ChatGPT在部分任务表现变蠢 准确率下降
评论列表 (条)