如果需要实现相似检索,又不想使用 OpenAI 的 Embedding API,可以考虑使用 Text2Vec,这是一个开源的文本向量表征工具,把文本转化为向量矩阵,实现了 Word2Vec、RankBM25、Sentence-BERT、CoSENT 等文本表征、文本相似度计算模型,开箱即用。text2vec, Text to Vector.
文本向量表征工具,把文本转化为向量矩阵,是文本进行计算机处理的第一步。
text2vec 实现了 Word2Vec、RankBM25、BERT、Sentence-BERT、CoSENT 等多种文本表征、文本相似度计算模型,并在文本语义匹配(相似度计算)任务上比较了各模型的效果。此外,text2vec 支持多种输入格式,包括纯文本、CSV 文件、JSON 文件等。如果你需要一个高质量的文本向量表征工具,那么 text2vec 是值得一试的。
GitHub 地址:https://github.com/shibing624/text2vec