几个文本向量化的模型 text embedding

acge_text_embedding
https://huggingface.co/aspire/acge_text_embedding
模型大小 1.2GB 左右使用方式 pip install --upgrade sentence_transformers

from sentence_transformers import SentenceTransformer
sentences = ["数据1", "数据2"]
model = SentenceTransformer('aspire/acge_text_embedding') # 或者是 git clone 下来的目录的绝对路径
print(model.max_seq_length)
embeddings_1 = model.encode(sentences, normalize_embeddings=True)
embeddings_2 = model.encode(sentences, normalize_embeddings=True)
similarity = embeddings_1 @ embeddings_2.T
print(similarity)

相关文档：https://cloud.tencent.com/developer/article/2411633 文本向量化模型新突破——acge_text_embedding勇夺C-MTEB榜首
https://developer.aliyun.com/article/1490359 文本向量化模型新突破——acge_text_embedding勇夺C-MTEB榜首
stella_en_1.5B_v5
https://huggingface.co/dunzhang/stella_en_1.5B_v5
文件大小 1.2GB 左右
The models are trained based on Alibaba-NLP/gte-large-en-v1.5 and Alibaba-NLP/gte-Qwen2-1.5B-instruct. Thanks for their contributions!