听劝,别在简历里写熟悉RAG了......

张开发
2026/6/6 10:33:51 15 分钟阅读
听劝,别在简历里写熟悉RAG了......
我面试过不少人说熟悉RAG结果一问就穿帮。RAG绝大多数工程师只碰到前半段拿个LangChain,上个向量库,把chunk和embedding丢进去跑个检索看起来跑通了实际啥也没掌握。但只要你简历上写了面试官就会问你下面这些当然不写也不一定逃得过Chunk是怎么切的固定语义还是自适应Embedding模型选型和维度怎么来的Rerank用没用怎么融合BM25和dense检索Prompt是你写的吗有没有评估hit rate、hallucination?说实话不是算法出身的人如果没系统做过推荐系统或者检索优化很多人说不清。RAG的前半段几乎就是推荐系统那套召回排序精排的逻辑embedding向量化特征建模检索多路召回rerank打分排序大模型RAG面试题汇总为什么大模型需要外挂向量)知识库?最直接的方法利用外部知识对大模型进行微调思路构建几十万量级的数据然后利用这些数据对大模型进行微调以将额外知识注入大模型优点简单粗暴缺点这几十万量级的数据并不能很好的将额外知识注入大模型训练成本昂贵。不仅需要多卡并行还需要训练很多天RAG思路是怎么样?加载文件读取文本文本分割文本向量化问句向量化在文本向量中匹配出与问句向量最相似的topk个匹配出的文本作为上下文和问题一起添加到prompt中提交给LLM生成回答RAG核心技术是什么?RAG 核心技术embedding思路将用户知识库内容经过embedding存入向量知识库然后用户每一次提问也会经过embedding利用向量相关性算法例如余弦算法找到最匹配的几个知识库片段将这些知识库片段作为上下文与用户问题一起作为promt 提交给LLM 回答。RAG prompt 模板如何构建?已知信息{context}根据上述已知信息简洁和专业的来回答用户的问题。如果无法从中得到答案请说“根据已知信息无法回答该问题”或“没有提供足够的相关信息”不允许在答案中添加编造成分答案请使用中文。问题是{question}RAG 工作流程从RAG的工作流中看RAG模块有文档块切分、文本嵌入模型、提示工程、大模型生成RAG各模块有哪些优化策略?文档块切分设置适当的块间重叠、多粒度文档块切分、基于语义的文档切分、文档块摘要。文本嵌入模型基于新语料微调嵌入模型、动态表征。提示工程优化优化模板增加提示词约束、提示词改写。大模型迭代基于正反馈微调模型、量化感知训练、提供大context window的推理模型。此外还可对query召回的文档块集合进行处理如元数据过滤、重排序减少文档块数量。RAG有哪些关键指标和能力?评估RAG在不同下游任务和不同检索器中的应用可能会得到不同的结果。然而一些学术和工程实践已经开始关注RAG的通用评估指标和有效运用所需的能力。关键指标集中于三个关键指标答案的准确性、答案的相关性和上下文的相关性。关键能力RGB的研究分析了不同大语言模型在处理RAG所需的四项基本能力方面的表现包括抗噪声能力、拒绝无效回答能力、信息综合能力和反事实稳健性从而为检索增强型生成设立了标准。RAG有哪些评估框架?RAGAS和ARES是较新的方法为什么需要对RAG进行评测?在探索和优化RAG检索增强生成器的过中中如何有效评其其性能已经成为关键问题。RAG有哪些评估方法?独立评估检索模块评估RAG检索模块性能常用命中率、MRR、NDCG、精确度等指标衡量系统排名项目有效性。生成模块将检索文档与查询结合形成输入评估指标关注检索文档与查询的上下文关联性。端到端评估对RAG模型对特定输入生成的最终响应进行评估涉及模型生成的答案与输入查询的相关性和一致性。无标签的内容评估评价指标是答案的准确性、相关性和无害性有标签的内容评估评价指标是准确率Accuracy和精确匹配EMlangchain 内置问答分句效果不佳问题文档加工一种是使用更好的文档拆分的方式如项目中已经集成的达摩院的语义识别的模型及进行拆分一种是改进填充的方式判断中心句上下文的句子是否和中心句相关仅添加相关度高的句子另一种是文本分段后对每段分别及进行总结基于总结内容语义及进行匹配如何尽可能召回与query相关的Document问题在本地知识切分为Document时需平衡Document长度、embedding质量与召回数量的关系。文本切分算法尚不完善时建议优先使用结构化程度高、段落语义关联性弱的本地知识。较短的Document通常能提升embedding质量通过Faiss搜索时与query的相关度也更高。使用Faiss搜索的核心前提是高质量文本向量化工具因此建议基于本地知识对其进行微调也可结合ES与Faiss的搜索结果优化检索效果。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

更多文章