1. 首页
  2. Blog
  3. 令爷原创

C-MTEB 中文嵌入模型大详解

文本嵌入(Text Embedding)是将文本(如单词、句子或段落)转换为密集、低维、连续的向量表示的一项关键技术。这些向量能够捕捉文本的语义信息,是构建现代AI应用(如语义搜索、问答系统、文本聚类、检索增强生成 RAG 等)的基石。

C-MTEB (Chinese Massive Text Embedding Benchmark) 是目前业界公认的最全面、最权威的中文文本嵌入模型评测基准。它涵盖了分类、聚类、排序、检索、语义相似度(STS)等多种任务和30多个数据集,能够全方位地评估模型在不同场景下的综合性能。

以下是根据 C-MTEB 排行榜整理的当前表现最顶尖的十一大中文嵌入模型,我将对它们进行详细说明。

1. TencentBAC/Conan-embedding-v2

  • 研发机构: 腾讯业务安全与内容合规部(Business Security and Content Compliance Department)
  • 模型特点:
    • 卓越性能: 在 MTEB 和 C-MTEB 中英文双榜上均取得了SOTA(State-of-the-Art,即最先进)的性能。
    • 超长上下文: 支持高达 32,768 个 Token 的超长文本输入,非常适合处理长文档。
    • 跨语言能力: 支持中英双向的跨语言检索,能够用中文查询英文内容,反之亦然。
    • 全新基座: 基于从零开始训练的 Conan-1.4B 大模型,拥有更适合嵌入场景的词表和模型结构。
  • 性能优势: Conan-embedding-v2 是一个表现极为全面的模型,在检索、排序、分类等所有任务上都名列前茅。其超长的上下文能力和跨语言特性使其在处理复杂、多语言的长文档应用中具有巨大优势。目前通常通过API提供服务。
  • Hugging Face 链接: https://huggingface.co/TencentBAC/Conan-embedding-v2

2. Alibaba-NLP/gte-Qwen2-7B-instruct

  • 研发机构: 阿里巴巴 (Alibaba NLP)
  • 模型特点:
    • 强大基座: 基于阿里巴巴最新开源的 Qwen2-7B 指令微调大语言模型构建,继承了其强大的语义理解能力。
    • 指令微调: 在查询(Query)侧进行了指令微调,使其能更好地理解用户意图,提升检索精度。
    • 大参数量: 模型参数达到 70 亿(7B),是目前嵌入模型中规模最大的之一。
    • 长上下文: 支持高达 32,768 个 Token 的输入。
    • 向量维度: 3584
  • 性能优势: 作为 GTE (General Text Embedding) 系列的最新力作,gte-Qwen2-7B-instruct 在中英文 MTEB 榜单上均名列前茅。它完美结合了先进大语言模型和嵌入技术的优点,特别是在语义检索任务上表现突出。
  • Hugging Face 链接: https://huggingface.co/Alibaba-NLP/gte-Qwen2-7B-instruct

3. Alibaba-NLP/Qwen3-Embedding-0.6B

  • 研发机构: 阿里巴巴 (Alibaba NLP)
  • 模型特点:
    • 最新基座: 基于最新发布的 Qwen 3.0 系列模型构建,参数量为 6 亿(0.6B),在同等规模下性能领先。
    • 高效推理: 提供了 GGUF (GPT-Generated Unified Format) 格式,专为在 CPU 和消费级 GPU 上进行本地化、高效推理而优化。
    • 多语言能力: 继承了 Qwen 系列强大的多语言能力,支持超过 100 种语言。
    • 超长上下文: 支持高达 65,536 个 Token 的输入,在长文本处理上具备顶尖能力。
  • 性能优势: Qwen3-Embedding-0.6B 是一个极具吸引力的新选择,它在保持顶尖性能的同时,通过 GGUF 格式极大地降低了本地部署的门槛。对于希望在个人设备或边缘端部署高性能嵌入模型的开发者来说,这是一个理想的选择。
  • Hugging Face 链接: https://huggingface.co/Alibaba-NLP/Qwen3-Embedding-0.6B

4. BAAI/bge-large-zh-v1.5

  • 研发机构: 北京智源人工智能研究院 (BAAI)
  • 模型特点:
    • 业界标杆: BGE (BAAI General Embedding) 系列是业界应用最广泛、最知名的嵌入模型之一,而 bge-large-zh-v1.5 是其针对中文的旗舰版本。
    • 指令优化: 在 v1.5 版本中,优化了在不使用检索指令(如 "为这个句子生成表示以用于检索相关文章:")情况下的性能,使其在各类场景下使用更便捷。
    • 均衡性能: 在检索、相似度、分类等各项任务上表现均衡且强大。
    • 向量维度: 1024
    • 最大长度: 512 Tokens
  • 性能优势: BGE 模型是许多 RAG 应用的默认和首选模型。它拥有强大的社区支持和丰富的实践案例,性能稳定可靠,是平衡性能和易用性的绝佳选择。
  • Hugging Face 链接: https://huggingface.co/BAAI/bge-large-zh-v1.5

5. infgrad/stella-mrl-large-zh-v3.5-1792d

  • 研发机构: Infgrad (讯飞旗下)
  • 模型特点:
    • MRL (Matryoshka Representation Learning): 采用了“俄罗斯套娃”表示学习技术,可以在不重新训练的情况下,通过截断向量来获得不同维度的嵌入,从而灵活地平衡性能和效率。
    • 高维表示: 完整向量维度高达 1792,能够编码更丰富的语义信息。
    • 中文优化: 模型名称中的 zh 表明其专门为中文场景优化。
  • 性能优势: Stella 系列模型以其创新的 MRL 技术而闻名。这使得开发者可以根据实际需求(如数据库存储成本、检索速度)选择合适的向量维度,而不需要牺牲太多性能,灵活性极高。
  • Hugging Face 链接: https://huggingface.co/infgrad/stella-mrl-large-zh-v3.5-1792d

6. NetEase-Youdao/bce-embedding-base_v1

  • 研发机构: 网易有道 (NetEase Youdao)
  • 模型特点:
    • 中英双语: BCE (Bilingual and Crosslingual Embedding) 模型专为中英双语和跨语言任务设计。
    • 配套Reranker: 同时发布了配套的 Reranker(重排序)模型,两者结合可以在检索任务中达到更高的精度。
    • 产品验证: 该模型已在有道速读、有道翻译等内部产品中得到广泛应用和验证。
    • 开源生态: 是知名开源项目 QAnything 的核心组件之一。
  • 性能优势: 对于需要同时处理中英文内容,或进行跨语言搜索的应用场景,BCEmbedding 是一个非常理想的选择。其经过大规模产品验证,稳定性和效果有保障。
  • Hugging Face 链接: https://huggingface.co/maidalun1020/bce-embedding-base_v1

7. sensenova/piccolo-large-zh-v2

  • 研发机构: 商汤科技 (SenseTime) SenseNova
  • 模型特点:
    • 高效设计: Piccolo(短笛)系列模型在追求高性能的同时,也注重模型的效率和速度。
    • 多任务混合训练: 采用了多任务混合损失函数进行训练,使其能够更好地泛化到不同类型的下游任务。
    • 大规模数据: v2 版本使用了高达 2000 万的训练数据对,保证了模型的鲁棒性。
  • 性能优势: Piccolo 模型在 C-MTEB 榜单上曾多次登顶,以其高精度和高效率著称,是一个综合实力非常强的选手。
  • Hugging Face 链接: https://huggingface.co/sensenova/piccolo-large-zh-v2

8. Baichuan-AI/Baichuan-text-embedding

  • 研发机构: 百川智能 (Baichuan AI)
  • 模型特点:
    • API优先: 主要通过 API 提供服务,与百川大模型生态紧密结合。
    • 中文原生: 模型专门为中文语言设计和优化。
    • 历史冠军: 曾是 C-MTEB 榜单的冠军,性能得到了广泛认可。
    • 向量维度: 1024
    • 最大长度: 512 Tokens
  • 性能优势: 对于已经在使用百川大模型服务的开发者来说,Baichuan-text-embedding 是一个无缝集成的选择。其性能优异,特别是在理解和处理中文特有的语言现象方面有独到之处。
  • 官方文档: https://platform.baichuan-ai.com/docs/text-embedding

9. INTSIG/acge_text_embedding

  • 研发机构: 合合信息 (INTSIG)
  • 模型特点:
    • 轻量高效: 相比榜单上动辄数十亿参数的大模型,acge 模型体量较小,占用资源少,推理速度快。
    • 可变维度: 支持可变的输出维度,让企业能够根据具体场景合理分配资源。
    • 场景通用: 旨在支持在不同场景下构建通用的分类模型、提升长文档信息抽取精度。
    • 最大长度: 1024 Tokens
  • 性能优势: acge_text_embedding 证明了小模型也能有大作为。它在 C-MTEB 榜单上登顶,为资源受限但又追求高性能的场景提供了极具性价比的解决方案。
  • 官方介绍: https://www.textin.com/market/detail/acge_text_embedding

10. iFlytek's Spark Embedding

  • 研发机构: 科大讯飞 (iFLYTEK)
  • 模型特点:
    • 大模型赋能: 其嵌入能力源于讯飞星火认知大模型,具备强大的通用语义理解能力。
    • 多模态支持: 星火大模型本身支持文本、语音、图像等多种模态,其嵌入能力也具备多模态的潜力。
    • 生态整合: 与讯飞的语音识别、语音合成等技术深度整合,形成完整的 AI 技术栈。
  • 性能优势: 科大讯飞的模型优势在于其深厚的自然语言处理(尤其是语音)技术积累。对于需要处理包含语音和文本等混合信息的应用,讯飞的嵌入技术能提供独特的价值。虽然在 Hugging Face 上没有独立的嵌入模型,但其能力通过星火大模型的 API 体现出来。
  • 官方网站: https://xinghuo.xfyun.cn/

11. shibing624/text2vec-large-chinese

  • 研发机构: Langboat (由前Google研究员创立)
  • 模型特点:
    • 经典基线: text2vec-large-chinese 是一个非常经典且广泛使用的中文嵌入模型,是许多后续模型进行比较的基线(Baseline)。
    • 基于BERT: 采用了 BERT 架构,并在大规模中文语料上进行了预训练。
    • 简单易用: 使用 sentence-transformers 库可以非常方便地加载和使用,社区教程丰富。
    • 向量维度: 1024
  • 性能优势: 虽然其在 C-MTEB 上的绝对分数可能不如最新的大参数模型,但 text2vec 的稳定性和易用性使其至今仍在许多项目中被采用。它是一个可靠的、经过长期检验的选择,非常适合作为项目初期的技术选型。
  • Hugging Face 链接: https://huggingface.co/shibing624/text2vec-large-chinese

总结与选择建议

从以上顶尖模型可以看出中文嵌入技术的几个趋势:

  1. 大模型基座化: 越来越多的顶级嵌入模型基于强大的大语言模型(如 Qwen2, Qwen3)进行微调,以获得更强的语义理解能力。
  2. 上下文长度激增: 对长文本的处理能力日益重要,上下文长度从 512 迅速扩展到 32K 甚至 64K。
  3. 多语言与跨语言: 中英双语甚至多语言能力成为新的竞争点。
  4. 技术创新: 如 MRL(可变维度)、GGUF(高效推理)等新技术不断涌现,以满足更灵活的部署需求。

如何选择?

  • 追求极致性能与长文本: 选择 TencentBAC/Conan-embedding-v2 Alibaba-NLP/gte-Qwen2-7B-instruct
  • 追求本地高效部署: Alibaba-NLP/Qwen3-Embedding-0.6B 提供了 GGUF 格式,是本地化部署的绝佳选择。
  • 寻求稳定可靠的社区标杆: BAAI/bge-large-zh-v1.5 是不会错的选择。
  • 需要中英跨语言能力: NetEase-Youdao/bce-embedding-base_v1 是最佳选择。
  • 资源有限但追求性价比: INTSIG/acge_text_embedding sensenova/piccolo-large-zh-v2 表现优异。
  • 需要灵活的维度控制: infgrad/stella-mrl-large-zh-v3.5-1792d 提供了独特的 MRL 功能。
  • 快速原型验证: shibing624/text2vec-large-chinese 简单易用,是很好的起点。

原创文章,作者:曾确令,如若转载,请注明出处:https://www.zengqueling.com/czwqrmxdxj/

联系我们

15602395067

在线咨询:点击这里给我发消息

邮件:eden7@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息

QR code