文本嵌入(Text Embedding)是将文本(如单词、句子或段落)转换为密集、低维、连续的向量表示的一项关键技术。这些向量能够捕捉文本的语义信息,是构建现代AI应用(如语义搜索、问答系统、文本聚类、检索增强生成 RAG 等)的基石。
C-MTEB (Chinese Massive Text Embedding Benchmark) 是目前业界公认的最全面、最权威的中文文本嵌入模型评测基准。它涵盖了分类、聚类、排序、检索、语义相似度(STS)等多种任务和30多个数据集,能够全方位地评估模型在不同场景下的综合性能。
以下是根据 C-MTEB 排行榜整理的当前表现最顶尖的十一大中文嵌入模型,我将对它们进行详细说明。
1. TencentBAC/Conan-embedding-v2
- 研发机构: 腾讯业务安全与内容合规部(Business Security and Content Compliance Department)
- 模型特点:
- 卓越性能: 在 MTEB 和 C-MTEB 中英文双榜上均取得了SOTA(State-of-the-Art,即最先进)的性能。
- 超长上下文: 支持高达 32,768 个 Token 的超长文本输入,非常适合处理长文档。
- 跨语言能力: 支持中英双向的跨语言检索,能够用中文查询英文内容,反之亦然。
- 全新基座: 基于从零开始训练的 Conan-1.4B 大模型,拥有更适合嵌入场景的词表和模型结构。
- 性能优势:
Conan-embedding-v2
是一个表现极为全面的模型,在检索、排序、分类等所有任务上都名列前茅。其超长的上下文能力和跨语言特性使其在处理复杂、多语言的长文档应用中具有巨大优势。目前通常通过API提供服务。 - Hugging Face 链接: https://huggingface.co/TencentBAC/Conan-embedding-v2
2. Alibaba-NLP/gte-Qwen2-7B-instruct
- 研发机构: 阿里巴巴 (Alibaba NLP)
- 模型特点:
- 强大基座: 基于阿里巴巴最新开源的 Qwen2-7B 指令微调大语言模型构建,继承了其强大的语义理解能力。
- 指令微调: 在查询(Query)侧进行了指令微调,使其能更好地理解用户意图,提升检索精度。
- 大参数量: 模型参数达到 70 亿(7B),是目前嵌入模型中规模最大的之一。
- 长上下文: 支持高达 32,768 个 Token 的输入。
- 向量维度: 3584
- 性能优势: 作为 GTE (General Text Embedding) 系列的最新力作,
gte-Qwen2-7B-instruct
在中英文 MTEB 榜单上均名列前茅。它完美结合了先进大语言模型和嵌入技术的优点,特别是在语义检索任务上表现突出。 - Hugging Face 链接: https://huggingface.co/Alibaba-NLP/gte-Qwen2-7B-instruct
3. Alibaba-NLP/Qwen3-Embedding-0.6B
- 研发机构: 阿里巴巴 (Alibaba NLP)
- 模型特点:
- 最新基座: 基于最新发布的 Qwen 3.0 系列模型构建,参数量为 6 亿(0.6B),在同等规模下性能领先。
- 高效推理: 提供了 GGUF (GPT-Generated Unified Format) 格式,专为在 CPU 和消费级 GPU 上进行本地化、高效推理而优化。
- 多语言能力: 继承了 Qwen 系列强大的多语言能力,支持超过 100 种语言。
- 超长上下文: 支持高达 65,536 个 Token 的输入,在长文本处理上具备顶尖能力。
- 性能优势:
Qwen3-Embedding-0.6B
是一个极具吸引力的新选择,它在保持顶尖性能的同时,通过 GGUF 格式极大地降低了本地部署的门槛。对于希望在个人设备或边缘端部署高性能嵌入模型的开发者来说,这是一个理想的选择。 - Hugging Face 链接: https://huggingface.co/Alibaba-NLP/Qwen3-Embedding-0.6B
4. BAAI/bge-large-zh-v1.5
- 研发机构: 北京智源人工智能研究院 (BAAI)
- 模型特点:
- 业界标杆: BGE (BAAI General Embedding) 系列是业界应用最广泛、最知名的嵌入模型之一,而
bge-large-zh-v1.5
是其针对中文的旗舰版本。 - 指令优化: 在 v1.5 版本中,优化了在不使用检索指令(如 "为这个句子生成表示以用于检索相关文章:")情况下的性能,使其在各类场景下使用更便捷。
- 均衡性能: 在检索、相似度、分类等各项任务上表现均衡且强大。
- 向量维度: 1024
- 最大长度: 512 Tokens
- 业界标杆: BGE (BAAI General Embedding) 系列是业界应用最广泛、最知名的嵌入模型之一,而
- 性能优势: BGE 模型是许多 RAG 应用的默认和首选模型。它拥有强大的社区支持和丰富的实践案例,性能稳定可靠,是平衡性能和易用性的绝佳选择。
- Hugging Face 链接: https://huggingface.co/BAAI/bge-large-zh-v1.5
5. infgrad/stella-mrl-large-zh-v3.5-1792d
- 研发机构: Infgrad (讯飞旗下)
- 模型特点:
- MRL (Matryoshka Representation Learning): 采用了“俄罗斯套娃”表示学习技术,可以在不重新训练的情况下,通过截断向量来获得不同维度的嵌入,从而灵活地平衡性能和效率。
- 高维表示: 完整向量维度高达 1792,能够编码更丰富的语义信息。
- 中文优化: 模型名称中的
zh
表明其专门为中文场景优化。
- 性能优势: Stella 系列模型以其创新的 MRL 技术而闻名。这使得开发者可以根据实际需求(如数据库存储成本、检索速度)选择合适的向量维度,而不需要牺牲太多性能,灵活性极高。
- Hugging Face 链接: https://huggingface.co/infgrad/stella-mrl-large-zh-v3.5-1792d
6. NetEase-Youdao/bce-embedding-base_v1
- 研发机构: 网易有道 (NetEase Youdao)
- 模型特点:
- 中英双语: BCE (Bilingual and Crosslingual Embedding) 模型专为中英双语和跨语言任务设计。
- 配套Reranker: 同时发布了配套的 Reranker(重排序)模型,两者结合可以在检索任务中达到更高的精度。
- 产品验证: 该模型已在有道速读、有道翻译等内部产品中得到广泛应用和验证。
- 开源生态: 是知名开源项目 QAnything 的核心组件之一。
- 性能优势: 对于需要同时处理中英文内容,或进行跨语言搜索的应用场景,BCEmbedding 是一个非常理想的选择。其经过大规模产品验证,稳定性和效果有保障。
- Hugging Face 链接: https://huggingface.co/maidalun1020/bce-embedding-base_v1
7. sensenova/piccolo-large-zh-v2
- 研发机构: 商汤科技 (SenseTime) SenseNova
- 模型特点:
- 高效设计: Piccolo(短笛)系列模型在追求高性能的同时,也注重模型的效率和速度。
- 多任务混合训练: 采用了多任务混合损失函数进行训练,使其能够更好地泛化到不同类型的下游任务。
- 大规模数据: v2 版本使用了高达 2000 万的训练数据对,保证了模型的鲁棒性。
- 性能优势: Piccolo 模型在 C-MTEB 榜单上曾多次登顶,以其高精度和高效率著称,是一个综合实力非常强的选手。
- Hugging Face 链接: https://huggingface.co/sensenova/piccolo-large-zh-v2
8. Baichuan-AI/Baichuan-text-embedding
- 研发机构: 百川智能 (Baichuan AI)
- 模型特点:
- API优先: 主要通过 API 提供服务,与百川大模型生态紧密结合。
- 中文原生: 模型专门为中文语言设计和优化。
- 历史冠军: 曾是 C-MTEB 榜单的冠军,性能得到了广泛认可。
- 向量维度: 1024
- 最大长度: 512 Tokens
- 性能优势: 对于已经在使用百川大模型服务的开发者来说,
Baichuan-text-embedding
是一个无缝集成的选择。其性能优异,特别是在理解和处理中文特有的语言现象方面有独到之处。 - 官方文档: https://platform.baichuan-ai.com/docs/text-embedding
9. INTSIG/acge_text_embedding
- 研发机构: 合合信息 (INTSIG)
- 模型特点:
- 轻量高效: 相比榜单上动辄数十亿参数的大模型,acge 模型体量较小,占用资源少,推理速度快。
- 可变维度: 支持可变的输出维度,让企业能够根据具体场景合理分配资源。
- 场景通用: 旨在支持在不同场景下构建通用的分类模型、提升长文档信息抽取精度。
- 最大长度: 1024 Tokens
- 性能优势:
acge_text_embedding
证明了小模型也能有大作为。它在 C-MTEB 榜单上登顶,为资源受限但又追求高性能的场景提供了极具性价比的解决方案。 - 官方介绍: https://www.textin.com/market/detail/acge_text_embedding
10. iFlytek's Spark Embedding
- 研发机构: 科大讯飞 (iFLYTEK)
- 模型特点:
- 大模型赋能: 其嵌入能力源于讯飞星火认知大模型,具备强大的通用语义理解能力。
- 多模态支持: 星火大模型本身支持文本、语音、图像等多种模态,其嵌入能力也具备多模态的潜力。
- 生态整合: 与讯飞的语音识别、语音合成等技术深度整合,形成完整的 AI 技术栈。
- 性能优势: 科大讯飞的模型优势在于其深厚的自然语言处理(尤其是语音)技术积累。对于需要处理包含语音和文本等混合信息的应用,讯飞的嵌入技术能提供独特的价值。虽然在 Hugging Face 上没有独立的嵌入模型,但其能力通过星火大模型的 API 体现出来。
- 官方网站: https://xinghuo.xfyun.cn/
11. shibing624/text2vec-large-chinese
- 研发机构: Langboat (由前Google研究员创立)
- 模型特点:
- 经典基线:
text2vec-large-chinese
是一个非常经典且广泛使用的中文嵌入模型,是许多后续模型进行比较的基线(Baseline)。 - 基于BERT: 采用了 BERT 架构,并在大规模中文语料上进行了预训练。
- 简单易用: 使用
sentence-transformers
库可以非常方便地加载和使用,社区教程丰富。 - 向量维度: 1024
- 经典基线:
- 性能优势: 虽然其在 C-MTEB 上的绝对分数可能不如最新的大参数模型,但
text2vec
的稳定性和易用性使其至今仍在许多项目中被采用。它是一个可靠的、经过长期检验的选择,非常适合作为项目初期的技术选型。 - Hugging Face 链接: https://huggingface.co/shibing624/text2vec-large-chinese
总结与选择建议
从以上顶尖模型可以看出中文嵌入技术的几个趋势:
- 大模型基座化: 越来越多的顶级嵌入模型基于强大的大语言模型(如 Qwen2, Qwen3)进行微调,以获得更强的语义理解能力。
- 上下文长度激增: 对长文本的处理能力日益重要,上下文长度从 512 迅速扩展到 32K 甚至 64K。
- 多语言与跨语言: 中英双语甚至多语言能力成为新的竞争点。
- 技术创新: 如 MRL(可变维度)、GGUF(高效推理)等新技术不断涌现,以满足更灵活的部署需求。
如何选择?
- 追求极致性能与长文本: 选择
TencentBAC/Conan-embedding-v2
或Alibaba-NLP/gte-Qwen2-7B-instruct
。 - 追求本地高效部署:
Alibaba-NLP/Qwen3-Embedding-0.6B
提供了 GGUF 格式,是本地化部署的绝佳选择。 - 寻求稳定可靠的社区标杆:
BAAI/bge-large-zh-v1.5
是不会错的选择。 - 需要中英跨语言能力:
NetEase-Youdao/bce-embedding-base_v1
是最佳选择。 - 资源有限但追求性价比:
INTSIG/acge_text_embedding
或sensenova/piccolo-large-zh-v2
表现优异。 - 需要灵活的维度控制:
infgrad/stella-mrl-large-zh-v3.5-1792d
提供了独特的 MRL 功能。 - 快速原型验证:
shibing624/text2vec-large-chinese
简单易用,是很好的起点。
原创文章,作者:曾确令,如若转载,请注明出处:https://www.zengqueling.com/czwqrmxdxj/