大模型---RAG

张开发

• 2026/4/16 10:19:20 • 15 分钟阅读

分享文章

目录1.什么是RAG2.RAG的作用3.RAG的基本流程（1）索引构建（2）在线问答4.RAG与微调的关系1.什么是RAGRAG（Retrieval-Augmented Generation）把参数化记忆（模型权重里学到的知识)和非参数化记忆（外部知识库/文档索引）结合起来，在生成答案前先检索相关文档，再把检索结果作为条件输入给生成模型。参考论文：2005.11401如下图所示，给定输入x，系统先用”检索器”去外部文档库里找相关文档z，再把“输入+检索到的文档”一起交给生成器产生输出y；训练时，检索器和生成器可以进行端到端联合优化。左边绿色框为检索器，不同任务的输入都先进入Query Encoder，被编码成一个查询向量q(x)，论文中，RAG的检索器基于DPR（Dense Passage Retriever），采用双塔结构：q(x)是编码查询，d(z)是编码文档，文中通过它们的向量相似度来判断相关性，也就是说，查询向量和文档向量越接近，文档越可能被检索出来。图中间的MIPS(Maximum Inner Product Search)，表示系统会在文档索引里，寻找与查询向量 q(x) 内积最大的那些文档向量 d(z)，也就是找top-k最相关文档。Document Index 是 RAG 的非参数化记忆，论文中，RAG 的非参数记忆是一个dense vector index of Wikipedia，也就是把 Wikipedia 文档做成向量索引，供检索器访问。右边蓝色框为生成器，检索器找到相关文档以后，这些文档会和原始输入一起送入右边的Generator（论文里使用的是一个预训练的seq2seq模型），并且把输入x和检索到的文档z做拼接，然后让生成器输出答案 y。系统不是假设只有一个文档绝对正确，其把检索到的文档z当作一个潜变量(latent variable)，对top-k文档分别计算生成概率，再把这些概率按检索器给出的做加权求和，也就是图中标的“Marginalize”训练时，梯度不仅更新生成器，也会回传到查询编码器q，也就是检索器的一部分。为了避免频繁重建整个文档索引，他们在训练时固定了文档编码器和索引，只微调查询编码器和生成器。2.RAG的作用仅靠参数记忆有天然边界：① 参数记忆不够新：模型训练截止后，后来的事实、公司政策、内部知识、最新价格、最新文档，它都不知道。RAG特别适合回答不在模型训练数据里的问题，比如公司内部文档、最新项目资料等；② 参数记忆不够准：即使模型“知道一些”，也可能在细节上编造。RAG的价值就是给模型外部依据，让回答有 grounding。③ 参数记忆不够私有：RAG 的一个关键好处就是能在查询时注入你的私有数据，而不是重新训练模型。3.RAG的基本流程最标准的RAG可以拆成两个阶段：索引构建以及在线问答（1）索引构建流程：收集文档--解析文档--切块（chunki

大模型---RAG

最新文章

中等职业学校智慧校园平台：让教学管理更轻松的实用工具

避开这3个坑！用SARscape处理L波段数据时的实战经验总结

AI人体骨骼检测新手教程：5分钟从零到一，可视化你的姿态

哔哩下载姬：轻松解锁B站视频下载的终极方案，打造你的个人离线资源库

面向BEV感知的 4D 标注方案

痛点可视化：在亚马逊，如何用一张主图讲清“对手的麻烦，你的解法”

推荐文章

CrossMgrLapCounter：嵌入式设备接入赛事计时系统的WebSocket协议库

Java Iterator

Mac上Xcode搞C++竞赛？手把手教你添加万能头文件stdc++.h（附完整代码）

利用BurpSuite Intruder模块实现验证码失效场景下的表单暴力破解

机器学习中的常用算法（非传统算法）

深度学习检测不准确智能电表:一个案例研究 python源代码，代码按照高水平文章复现

相关文章

科研绘图不止Origin：聊聊OriginPro 2021与Python/Matlab的共存与选择

StructBERT在客服系统中的实战应用：智能情绪分析与工单分类

30元玩客云变身全能软路由：手把手教你用Docker部署AllinOne直播服务

FinalBurn Neo终极指南：开源街机模拟器的技术架构与实战应用

OpCore-Simplify终极指南：10分钟完成黑苹果配置的完整解决方案

Qwen3.5-9B成本优化实践：Spot实例调度+自动启停+GPU资源弹性伸缩

分享文章

更多文章

Stable Yogi Leather-Dress-Collection 数据准备：使用Python爬虫收集皮革设计素材

RMBG-2.0与YOLOv8结合应用：智能目标检测与背景去除

82 年架构师自研「马年万能架构底座」开源！67 个模块全量 3D 元宇宙引擎，源码直接给！

长提示词优化：5 大核心技巧，让大模型复杂任务输出稳定可控

OpenClaw教育应用：Qwen3.5-9B实现个性化习题生成系统

SmolVLA创意写作工坊：从故事大纲到分镜头脚本的自动生成

Lychee金融风控应用：多模态交易数据分析

Pixel Script Temple应用场景：有声书脚本生成、儿童动画分集大纲、播客故事线设计

安装cURL依赖-编译-打包

Nanbeige4.1-3B智能助手落地：从镜像部署到用户可用的端到端实操路径

软件233数据分析和可视化

小白也能看懂！收藏这份AI Agent核心概念与工程实践指南，快速入门大模型开发