何时使用倒排索引

当你需要频繁地按特定字段值进行查找时，应使用倒排索引。它在以下场景中表现出色：

✅ 精确值过滤：
- status = "active"
- category IN ("electronics", "books")
✅ 范围查询：
- age > 25
✅ 文本模式匹配：
- 前缀匹配：product_name LIKE "Wireless%"
- 后缀匹配：email LIKE "%@engineering.company.com"
✅ 数组或集合成员查询：
- 包含任一：tags CONTAIN_ANY ["sport", "music"]
- 包含全部：permissions CONTAIN_ALL ["read", "write"]

工作原理

假设你正在整理一个食谱 Collection。每个食谱是一个 document，包含结构化字段 cuisine、author 和 url。

Doc ID	Cuisine	Author	URL
1	Italian	Julia Chen	`https://cooking.com/italian-pasta-carbonara`
2	Thai	Liam Tran	`https://cooking.com/thai-basil-42`
3	Mexican	Elena Gomez	`https://cooking.com/mexican-pork-chicken-65`
4	Italian	Marco Rossi	`https://cooking.com/italian-pizza-37`
5	Italian	Marco Rossi	`https://cooking.com/italian-pasta-20`
6	Chinese	Julia Chen	`https://cooking.com/chinese-spicy-hot-pot`

常规的（"正向"）视角的问题是：

Document #1 包含哪些值？ → Cuisine: Italian, Author: Julia Chen

但倒排索引将这个映射反转。它回答的是：

哪些 Document 包含值 Italian？ → [1, 4, 5]

为了实现快速查找，我们对频繁被搜索的字段（如 cuisine 和 author）构建倒排索引。

倒排索引：cuisine

倒排索引：author

有了这些索引，查询变得极其高效 ✨：

我们不对 url 建立索引，因为它很少用于查询。对其建立索引会浪费存储空间并减慢写入速度，而收益甚微。一旦我们有了 Document ID，可以直接从原始数据中获取其 url。

因为它将标准映射进行了反转：

方向	映射
正向	Document ID → 词项列表
倒排	词项 → Document ID 列表

这种反转使得基于关键词的搜索变得高效。无需检查每个 Document 是否包含查询词项，而是直接跳转到该词项并立即获取所有匹配的 Document。

虽然倒排索引功能强大，但也有一定代价：