AI与.NET技术实操系列（五）：向量存储与相似性搜索在 .NET 中的实现

摘要：在当今这个数据爆炸的时代，信息的快速存储与高效检索已经成为技术领域的核心挑战。随着人工智能（AI）和机器学习（ML）的迅猛发展，向量存储和相似性搜索技术逐渐崭露头角，成为处理海量数据的利器。对于使用 .NET 的开发者来说，掌握这些技术不仅意味着能够开发出更智

在当今这个数据爆炸的时代，信息的快速存储与高效检索已经成为技术领域的核心挑战。随着人工智能（AI）和机器学习（ML）的迅猛发展，向量存储和相似性搜索技术逐渐崭露头角，成为处理海量数据的利器。对于使用 .NET 的开发者来说，掌握这些技术不仅意味着能够开发出更智能、更高效的应用，更是在信息洪流中保持竞争力的关键。借助向量存储，我们可以将复杂的数据（如文本、图像或音频）转化为高维向量，通过相似性搜索快速找到与查询最相关的内容，从而大幅提升信息检索的精度和效率。

向量存储和相似性搜索的应用潜力令人振奋。从智能推荐系统到图像检索工具，再到自然语言处理（NLP）中的语义搜索，这些技术正在重塑我们与数据的交互方式。通过在向量空间中使用距离度量（如余弦相似度或欧氏距离），开发者可以实现高效的匹配机制，为用户提供个性化的体验。然而，技术的实现并非一帆风顺，高维数据的存储、计算资源的优化、索引结构的构建以及实时性能的保障，都是开发者需要面对的难题。

本文将通过一个具体的实践任务——实现一个简单的文档相似性搜索系统，深入探讨如何在 .NET 中应用向量存储和相似性搜索技术。我们将从基础知识入手，逐步介绍向量存储的选择与使用，并通过清晰的代码示例，引导读者完成一个功能完备的搜索应用。

希望本文能为你打开向量存储的大门，激发你在 .NET 开发中探索智能技术的热情。

在进入实践之前，我们先来梳理向量存储和相似性搜索的基本概念及其工作原理。

什么是向量存储？

向量存储（Vector Store）是一种专门设计用于存储和检索高维向量的数据库系统。在 AI 和 ML 领域，数据通常被转化为高维向量（称为 embeddings），以捕捉其语义或特征信息。例如，一段文本可以通过预训练模型（如 BERT）转换为一个 384 维的向量，图像可以通过卷积神经网络提取特征向量。向量存储通过优化这些高维数据的存储结构和查询机制，支持快速的相似性搜索，帮助开发者高效地找到与查询最相关的内容。

什么是相似性搜索？

相似性搜索（Similarity Search）是一种旨在找到与查询项最相似的项的搜索技术。在向量空间中，相似性通常通过距离度量来衡量，常见的度量方法包括：

余弦相似度：计算两个向量夹角的余弦值，反映方向的相似性，广泛用于文本搜索。

欧氏距离：计算两个向量间的直线距离，常用于图像和数值数据的匹配。

曼哈顿距离：计算向量在各维度上的差值之和，适用于特定场景。

通过这些度量，相似性搜索能够在海量数据中快速定位与查询最接近的结果，极大地提升了搜索效率。

向量存储的工作原理

向量存储依赖以下核心技术来实现高效的存储和查询：

索引结构：如 KD-Tree、HNSW（层次可导航小世界图），用于加速相似性搜索。

近似最近邻（ANN）：通过牺牲少量精度换取更高的搜索速度，适用于大规模数据集。

分布式架构：支持数据的并行处理和存储，满足高并发需求。

这些技术的结合使得向量存储能够应对高维数据的挑战，为实时应用提供强大支持。

在 .NET 中实现向量存储和相似性搜索，开发者可以选择多种工具和服务。以下是几个常见选项：

Milvus

Milvus 是一个开源的向量数据库，专为高维向量存储和搜索设计。它支持多种索引类型（如 HNSW、IVF）和距离度量，提供高性能的搜索能力。Milvus 可通过 RESTful API 或客户端 SDK 与 .NET 集成。

qDrant

qDrant 是一个轻量级向量数据库，适合中小规模应用。它支持实时数据插入和搜索，提供简单易用的 API，方便快速上手。

Azure AI Search

Azure AI Search 是微软提供的云端搜索服务，支持向量搜索和全文搜索。它与 Azure 生态无缝集成，适合企业级应用。

本文将以 Milvus 为例，展示如何在 .NET 中实现向量存储和搜索。Milvus 以其高性能和灵活性，成为许多 AI 项目的首选。

为了帮助读者深入理解向量存储的实际应用，我们将实现一个简单的文档相似性搜索系统。该系统能够将文档转换为向量，存储到 Milvus 中，并支持用户查询相似文档。

系统设计

系统的核心组件包括：

文档向量化：使用预训练模型将文本转换为向量。

向量存储：将向量存储到 Milvus 并构建索引。

相似性搜索：根据用户查询生成向量并搜索相似结果。

结果展示：返回最相似的文档。

我们将使用 SentenceTransformers 生成向量，并通过 Milvus 实现存储和搜索。

准备工作

在开始之前，需要完成以下准备：

创建Milvus-Test文件夹，并新建如下文件夹：

下载milvus-standalone-docker-compose.yml，重命名成docker-compose.yml后移入到刚刚创建好的Milvus-Test文件夹中

安装 Milvus：使用 Docker 部署 Milvus（docker compose up -d）

实现步骤1. 文档向量化

首先，使用 SentenceTransformers 将文档转换为向量（需 Python 环境）：

fromsentence_transformersimportSentenceTransformer

model = SentenceTransformer('all-MiniLM-L6-v2')
documents = ["This is document one.", "This is document two.", "This is document three."]
embeddings = model.encode(documents)
embeddings是包含每个文档向量的数组（维度为 384）。2. 存储向量到 Milvus

安装Nuget包：

dotnet addpackage Milvus.Client --version2.3.0-preview.1

使用 C# 检测 Milvus 是否正常运行的代码：

MilvusClient milvusClient = newMilvusClient("{Endpoint}", "{Port}", "{Username}", "{Password}", "{Database}(Optional)");
MilvusHealthState result =awaitmilvusClient.HealthAsync;

使用 C# 调用 Milvus 创建集合代码：

stringcollectionName = "book";
MilvusCollection collection = milvusClient.GetCollection(collectionName);

//Check if this collection exists
varhasCollection =awaitmilvusClient.HasCollectionAsync(collectionName);

if(hasCollection){
awaitcollection.DropAsync;
Console.WriteLine("Drop collection {0}",collectionName);
}

awaitmilvusClient.CreateCollectionAsync(
collectionName,
new {
FieldSchema.Createlong>("book_id", isPrimaryKey:true),
FieldSchema.Createlong>("word_count"),
FieldSchema.CreateVarchar("book_name",256),
FieldSchema.CreateFloatVector("book_intro",2L)
}
);

使用 C# 调用 Milvus 插入向量代码：

Random ran = new;
Listlong> bookIds =new;
Listlong> wordCounts =new;
Listfloat>> bookIntros =new;
Liststring> bookNames =new;
for(longi =0L; i 2000; ++i)
{
bookIds.Add(i);
wordCounts.Add(i +10000);
bookNames.Add($"Book Name{i}");

float vector =newfloat[2];
for(intk =0; k 2; ++k)
{
vector[k] = ran.Next;
}
bookIntros.Add(vector);
}

MilvusCollection collection = milvusClient.GetCollection(collectionName);

MutationResult result =awaitcollection.InsertAsync(
newFieldData
{
FieldData.Create("book_id", bookIds),
FieldData.Create("word_count", wordCounts),
FieldData.Create("book_name", bookNames),
FieldData.CreateFloatVector("book_intro", bookIntros),
});

// Check result
Console.WriteLine("Insert count:{0},", result.InsertCount);

3. 构建索引

为加速搜索，需在集合上构建索引：

MilvusCollection collection = milvusClient.GetCollection(collectionName);
awaitcollection.CreateIndexAsync(
"book_intro",
//MilvusIndexType.IVF_FLAT,//Use MilvusIndexType.IVF_FLAT.
IndexType.AutoIndex,//Use MilvusIndexType.AUTOINDEX when you are using zilliz cloud.
SimilarityMetricType.L2);

// Check index status
IList indexInfos =awaitcollection.DescribeIndexAsync("book_intro");

foreach(varinfoinindexInfos){
Console.WriteLine("FieldName:{0}, IndexName:{1}, IndexId:{2}", info.FieldName , info.IndexName,info.IndexId);
}

// Then load it
awaitcollection.LoadAsync;
}

4. 实现相似性搜索

根据用户查询搜索相似文档：

Liststring> search_output_fields =new { "book_id" };
Listfloat>> search_vectors =new {new {0.1f0.2f} };
SearchResults searchResult =awaitcollection.SearchAsync(
"book_intro",
newReadOnlyMemoryfloat> {new {0.1f0.2f} },
SimilarityMetricType.L2,
limit:2);

// Query
stringexpr = "book_id in [2,4,6,8]";

QueryParameters queryParameters =new;
queryParameters.OutputFields.Add("book_id");
queryParameters.OutputFields.Add("word_count");

IReadOnlyList queryResult =awaitcollection.QueryAsync(
expr,
queryParameters);