OpenAI 很可能在未来几个月内发布其模型的权重。OpenAI 的 Andrej Karpathy 最近表示,所有这些对于转换器语言模型来说都是非常通用的。“如果 / 当 OpenAI 发布模型权重(我既不能确认也不能否认!),那么这里的大部分代码将非常相关。”
根据 OpenAI Karpathy 的说法,OpenAI 很可能会开源 GPT-3.5,他是深度学习领域的知名人物。需要注意的是,公司尚未正式宣布此事。这个对话是从 Twitter(现在是 X)的一个帖子中开始的,其中一个用户问 Karpathy 为什么一直在玩 Llama2,而不是为 OpenAI 构建 Jarvis。
这一新发展是在最近发布的 Baby Llama(又名 llama.c)的背景下的,Karpathy 在他最近的实验中探索了在单台计算机上运行大型语言模型(LLMs)的概念,这受到了 Meta 的 Llama2发布的启发。
Karpathy 表示,llama2.c 现在可以加载和推理 Meta 发布的模型。他进一步举了一个例子,即在云 Linux 服务器上的96个 OMP 线程上以大约3个标记 / 秒的速度推理最小的7B 模型,并且预计很快可以达到约300个标记 / 秒的速度。
此外,他表示,如果你可以让7B 模型以良好和交互性的速度运行,那么你可以在最小的 llama2.c 仓库代码中从 “从头训练的微模型” 到 “LoRA 微调的7B 基础模型” 进行转变(包括训练和推理)。可以实现更高的能力并使用更少的训练数据。
有趣的是,Karpathy 的方法的成功在于其能够以高度交互的速度运行,即使是包含几百万参数的合理大小的模型,并且是在一个包含1500万参数的 TinyStories 数据集的模型上训练的。
希望它能带回真正的 OpenAI,该公司最初是一家开源非营利公司,Karpathy 是最初的创始成员之一,在为开源社区做出贡献方面发挥了积极作用。
评论列表 (条)