何时使用全文索引

当你需要对文本内容进行关键词检索并按相关性排序时，应使用全文索引。它在以下场景中表现出色：

全文索引与倒排索引的区别：倒排索引用于标量字段的精确过滤（如 status = "active"），而全文索引用于文本内容的关键词检索与相关性排序。

工作原理

假设你有一个包含文章内容的 Collection：

全文索引首先通过分词器将文本拆分为 Token。以 Jieba 分词器为例：

分词后，全文索引会按配置顺序应用 Token 过滤器，例如：

索引构建和查询会使用同一套分词器与过滤器配置，因此需要在创建字段时确定好文本分析策略。

将分词结果反转，构建从词项到 Document 列表的映射：

查询"机器学习"时，全文索引直接定位到包含该词项的 Document [1, 3]，然后使用 BM25 算法计算每个 Document 的相关性评分。

BM25 综合考虑以下因素对结果排序：

当查询包含多个词项（如"机器学习自然语言处理"）时，全文索引使用 WAND（Weak AND） 算法优化检索性能：

这使得在大规模数据集上也能高效返回 top-k 结果，无需对所有候选 Document 完整评分。

分词器决定了文本如何被拆分为词项，直接影响检索效果。索引和查询使用相同的分词配置。详见分词器。

参数	说明	调优建议
`tokenizer_name`	分词器，用于将文本拆分为可检索 Token	英文或类英文文本用 `standard`；它实现了 Unicode UAX #29 词边界规则，行为类似 Elasticsearch standard tokenizer；需要保留空白切分语义时用 `whitespace`，中文或中英混合文本用 `jieba`
`filters`	分词后的 Token 过滤器，按数组顺序执行	英文文本建议使用 `["lowercase", "stemmer"]`；类英文文本或包含重音符号的文本还可以加入 `ascii_folding`，以获得重音无关匹配
`extra_params`	分词器和过滤器专用 JSON 配置	详见各分词器和 Token 过滤器的配置说明

参数	说明	调优建议
`match_string` / `matchString`	由字段分词器处理的自然语言查询文本	适合简单的用户输入搜索
`query_string` / `queryString`	支持短语和布尔运算符的结构化查询表达式	当调用方需要显式指定必选词、排除词、分组或短语时使用
`default_operator` / `defaultOperator`	裸词之间的默认布尔运算符	需要更高召回时使用 `OR`，希望每个裸词都必须匹配时使用 `AND`

全文索引和向量索引解决的是不同维度的检索需求：

在 Zvec 中，全文检索和向量检索在单个查询路线中互斥：同一个 Query / ZVecQuery 不应同时设置 fts 和 vector / id。如需结合关键词匹配与语义检索，请使用多条查询路线配合重排序，或分别执行查询后在应用层合并结果。