工程系统 ·
RAG 检索增强生成原理
解释 RAG 的检索、重排、上下文拼接和生成流程,以及它为什么能缓解知识更新问题。
RAG Embedding Vector DB
RAG 是什么
RAG 的核心思路是在生成前先从外部知识库检索相关材料,再把材料作为上下文交给大模型生成答案。
典型流程
- 文档切分:把长文档拆成适合检索的 chunk。
- 向量化:用 embedding 模型把文本转为向量。
- 向量检索:根据用户问题召回候选片段。
- 重排:用 reranker 或规则筛选更相关的上下文。
- 生成:把问题和上下文放入 prompt,让模型回答。
工程关注点
RAG 的质量通常取决于切分策略、召回率、重排质量和 prompt 约束。只换大模型不一定能解决引用错误、上下文噪声和多跳推理不足的问题。