LLaMA 等大型语言模型的成功推动了开源聊天机器人的发展,但对这些模型的许可限制限制了它们的商业用途。OpenLLaMA 为希望使用语言模型的企业提供了一种更易于访问且更具成本效益的选择.
OpenLLaMA 是 Meta 的 LLaMA 语言模型的开源复制品,可以用于商业目的。自 Meta 的 LLaMA 系列大型语言模型的揭开面纱以及随后的泄露以来,开源聊天机器人的发展已经猛增。诸如 Alpaca、Vicuna 和 OpenAssistant 的模型都以Meta的模型为基础,采用不同形式的指令调整。
然而,LLaMA 模型仅供研究使用许可,这限制了该模型的商业应用。
OpenLLaMA 复制了 Meta 的语言模型。基于其他免费提供的模型的替代方案与 Meta 模型的质量不匹配,因为 LLaMA 遵循 Deepmind 的Chinchilla缩放法则并且已经过特别大量数据的训练。
Berkeley AI Research 的研究人员希望在 OpenLLaMA 项目中复制 Meta 的 LLaMA 模型。该团队正在为该项目使用 Together 的 RedPajama 数据集。开源平台还宣布打算在4月复制 LLaMA 模型,作为第一步发布1.2万亿参数数据集。
Together网址:https://www.together.xyz/blog/redpajama-training-progress
伯克利团队现在发布了70亿参数 OpenLLaMA 模型的早期版本,该模型迄今已在1.2万亿token中的3000亿个上进行了训练。据说性能已经接近 LLaMA 的水平,并且团队相信经过全面训练的 OpenLLaMA 将与 Meta 的原始版本竞争。
除了70亿参数模型,OpenLLaMA 团队还在训练一个30亿参数版本,以便在资源有限的用例中使用强大的语言模型。该团队目前没有更大模型的计划。
评论列表 (条)