元象开源多语言大模型XVERSE-13B 可免费商用 2023-08-07 09:37:45

元象XVERSE公司宣布开源其百亿参数的高性能通用大模型XVERSE-13B，可免费商用。

据介绍，XVERSE-13B 是由深圳元象科技自主研发的支持多语言的大语言模型（Large Language Model），基于它生成的服务包括了文本生成、自动化写作、数据分析、知识问答等方面。

主要特点如下:

模型结构:XVERSE-13B 使用主流 Decoder-only 的标准 Transformer 网络结构，支持8K 的上下文长度（Context Length），为同尺寸模型中最长，能满足更长的多轮对话、知识问答与摘要等需求，模型应用场景更广泛。

训练数据:构建了1.4万亿 token 的高质量、多样化的数据对模型进行充分训练，包含中、英、俄、西等40多种语言，通过精细化设置不同类型数据的采样比例，使得中英两种语言表现优异，也能兼顾其他语言效果。

分词:基于 BPE（Byte-Pair Encoding）算法，使用上百 GB 语料训练了一个词表大小为100，278的分词器，能够同时支持多语言，而无需额外扩展词表。

训练框架:经过对算子、通信、并行策略及调度等的优化，千卡集群上的峰值算力利用率达到58.5%，达到业界前列。

项目地址：https://github.com/xverse-ai/XVERSE-13B