MosaicML推开源大语言模型MPT-7B-8K 上下文长度达8k 2023-07-20 18:09:31

（ChinaZ.com）7月20日消息:MosaicML 发布了名为 MPT-7B-8K 的7B 参数开源语言模型（LLM），支持8K 的上下文长度。与以前的模型相比，MPT-7B-8K LLM 在摘要和回答任务方面展现出卓越的能力。

据该公司称，该模型在 MosaicML 平台上进行训练，并从 MPT-7B 检查点开始进行预训练过程。预训练阶段使用Nvidia H100进行，另外在256个 H100上进行了三天的训练，包含了令人印象深刻的5000亿个token数据。

MosaicML 发布的 MPT-30B 在人工智能社区引起了轰动，MPT-30B 是一种开源且商业许可的基于解码器的 LLM。该公司声称其比GPT-3-175B更强大，参数只有GPT-3的17%，相当于300亿。

MPT-30B 在各种任务中的性能都超过了 GPT-3，并且证明比类似大小的模型训练效率更高。例如，LLaMA-30B 所需的 FLOPs 预算比 MPT-30B 大约高1.44倍，而 Falcon-40B 的 FLOPs 预算比 MPT-30B 高1.27倍。

MosaicML 声称，与之前发布的所有型号相比，新型号 MPT-7B-8K 在文档摘要和问答任务方面表现出卓越的熟练程度。该模型专门针对加速训练和推理进行了优化，以获得更快的结果。此外，它还允许在 MosaicML 平台内微调特定领域的数据。

该公司还宣布提供 MPT-7B-8k 的商用版本，强调其在包含1.5万亿token的广泛数据集上的出色训练，超越了 XGen、LLaMA、Pythia、OpenLLaMA 和 StableLM 等类似模型。

MosaicML 声称，通过使用 FlashAttention 和 FasterTransformer，该模型在快速训练和推理方面表现出色，同时受益于llm-foundry 存储库提供的开源训练代码。

该公司发布了三种版本的模型:

MPT-7B-8k-Base: 这种解码器式 Transformer 基于 MPT-7B 进行预训练，并进一步优化，扩展序列长度为8k。它接受了5000亿个令牌的额外训练，产生了包含文本和代码的1.5万亿个token的大量语料库。

MPT-7B-8k-Instruct: 该模型专为长格式教学任务而设计，包括总结和问答。它是通过使用精心策划的数据集对 MPT-7B-8k 进行微调而制作的。

MPT-7B-8k-Chat: 此变体充当类似聊天机器人的模型，专注于对话生成。它是通过使用约15亿个聊天数据token对 MPT-7B-8k 进行微调而创建的。

Mosaic 声称，MPT-7B-8k 模型表现出与当前其他具有8k 上下文长度的开源模型相当或更好的性能，该公司的上下文学习评估工具证实了这一点。

官方博客:https://www.mosaicml.com/blog/long-context-mpt-7b-8k