智源开源中英文语义向量模型BGE 支持免费商用 2023-08-07 16:12:13

近日，智源发布最强开源可商用中英文语义向量模型BGE（BAAI General Embedding），在中英文语义检索精度与整体语义表征能力均超越了社区所有同类模型，如OpenAI 的text embedding002等。

此外，BGE 保持了同等参数量级模型中的最小向量维度，使用成本更低。

据介绍，中文语义向量综合表征能力评测 C-MTEB 的实验结果显示，BGE中文模型（BGE-zh）在对接大语言模型最常用到的检索能力上领先优势尤为显著，检索精度约为 OpenAI Text Embedding002的1.4倍。

与中文能力相类似，BGE 英文模型（BGE-en）的语义表征能力同样出色。根据英文评测基准 MTEB 的评测结果(Table2)，尽管社区中已有不少优秀的基线模型，BGE 依然在总体指标(Average)与检索能力(Retrieval)两个核心维度超越了此前开源的所有同类模型。

同时，BGE 的各项能力都显著超越社区中最为流行的选项:OpenAI Text Embedding002。

BGE 模型链接:

https://huggingface.co/BAAI/

BGE 代码仓库:

https://github.com/FlagOpen/FlagEmbedding

C-MTEB 评测基准链接:

https://github.com/FlagOpen/FlagEmbedding/tree/master/benchmark