AI答非所问?你的知识库为什么不好用?4500字长文带你读懂rag发展史

学习 

文章摘要:本文简要介绍了RAG(检索增强生成)的发展历程,从最初的Naive RAG到Advanced RAG、Modular RAG、Graph RAG,再到终极形态的Agentic RAG。文章详细描述了各种RAG系统的特点、局限性和应用场景,并探讨了文档处理在RAG系统中的重要性和相关开源项目的应用。最后,文章提出了AI自主决策在RAG发展中的重要性,并指出知识库的质量和适应性对RAG系统效果的影响。 关键词:RAG、科技前沿、AI答非所问、知识库、发展历程 一、引言 近年来,随着人工智能技术的飞速发展,大型语言模型(LLM)在文本生成和自然语言理解方面取得了显著成果。然而,模型对静态训练数据的依赖限制了其响应动态实时查询的能力,导致输出过时或不准确。为解决这一问题,检索增强生成(RAG)成为一种解决方案,它通过集成实时数据检索来增强LLM,以提供与上下文相关的最新响应。 二、RAG的基础组件 RAG的主要核心组件包括从用户的输入到检索、对检索到的信息的加工处理,再到大模型的生成,最后把生成结果返回给用户。像deepseek等app应用的联网搜索功能其实就是RAG的一种应用。 三、RAG的发展历程 1. Naive RAG:基础但差点意思 Naive RAG系统依赖于简单的基于关键字的检索技术从静态数据集中获取文档。然后,检索到的文档用于增强语言模型的生成功能。虽然存在上下文复杂性最小、易于实施等优点,但其缺乏上下文感知、碎片化输出以及可扩展性问题限制了其应用场景。 2. Advanced RAG:突破性的技术革新 Advanced RAG引入了密集向量搜索、上下文重新排序和迭代检索等技术突破,使答案更精准,适用于科研分析、个性化推荐等应用。然而,计算开销和可扩展性受限等挑战仍然存在。 3. Modular RAG:灵活组装与定制化 Modular RAG把RAG拆成可替换的模块,按需定制,打破了“一刀切”的局面,成为企业落地RAG的主流选择。通过混合检索策略、工具集成和可组合管道等技术创新,Modular RAG适应了特定用例的需求。 4. Graph RAG:关系大师的出现 Graph RAG是一种基于图的检索增强生成方法,通过集成基于图的数据结构扩展了传统的检索增强生成系统。利用图形数据中的关系和层次结构来增强多跳推理和上下文丰富,Graph RAG可实现更丰富、更准确的生成输出。然而,其有限的可扩展性和数据依赖性等局限性仍需解决。 5. Agentic RAG:RAG的终极形态 Agentic RAG是RAG发展的最新形态,涉及AI自主决策。通过引入AI技术,Agentic RAG能够自主处理复杂的任务和决策过程,实现了RAG系统的智能化和自主性。然而,知识库的质量和适应性对Agentic RAG的效果具有重要影响。 四、文档处理在RAG系统中的重要性和相关开源项目的应用 在RAG系统中,文档处理是一个核心模块,其好坏会很大程度影响后续的检索结果和回答生成效果。为应对模型输入token的限制和避免拆分不当,常规的rag系统会对文档进行分片处理。以GraphRag为代表的图rag通过从文档中提取丰富的关系和层次结构,能够轻松处理需要多步推理的复杂任务。 五、结论 随着RAG技术的不断发展,其应用场景和效果不断提升。从Naive RAG到Agentic RAG,RAG系统不断突破技术瓶颈,实现了更高的精准度和自主性。然而,知识库的质量和适应性仍是影响RAG系统效果的重要因素。未来,随着技术的不断进步,RAG系统将更加智能化、自主化,为人工智能的发展带来更多可能性。

阅读anthropic building-effective-agents 文章有感而发

学习 

本文作者阅读了anthropic的关于构建有效agent的文章后有所感悟,分享了自己在智能创作领域的体验与心得。作者详细阐述了工作流和agent的构建流程,强调预定义代码路径编排和工具的清晰定义对工作流程的重要性。作者同时探讨了如何让模型更准确地使用工具的方法,包括对工具的定义进行改进,并通过示例进行验证迭代。最后,作者提到模型返回结果的格式化控制问题,并对智能创作的未来发展提出展望。

大升级!LLM应用监控、测试、优化一步到位!

学习 

本文介绍了使用langfuse工具在开发基于检索增强生成(RAG)模型应用时的监控追踪方法。文章详细描述了langfuse的功能,包括LLM可观测性、提示管理、LLM评估、数据集管理等。文章还介绍了langfuse最近的v3.0.0大版本升级,包括新引入的Async Worker、Redis、Clickhouse和S3 / Blob Storage等技术,并解释了选择这些技术的理由。此外,文章还展示了如何使用langfuse进行trace、提示词管理,并总结了langfuse在LLM应用开发生态系统中的作用。最后,文章呼吁读者关注公众号并分享使用langfuse的经验和想法。

微软开源的处理工具 - markitdown

学习 

微软最近开源了一个名为markitdown的Python工具,能够将多种文件格式(包括PDF、PowerPoint、Word、Excel等)转换为Markdown格式。除了基本转换功能外,markitdown还支持调用大模型处理图像和音视频数据。该工具具有多种应用场景,如非结构化数据转换、提高模型训练效率、复杂文档解析、知识管理和团队协作、数据源集成、在线文档与静态网站构建等。此外,markitdown还支持API集成,可方便地将PDF转Markdown功能集成到内部流程、数据管道或知识管理系统中,实现全自动化处理与持续更新。这是科技前沿的一种重要工具,尤其对于需要大量处理文件和数据的场景非常有用。

ChatGpt崩了,Gemini 2.0上线


今天上午访问ChatGPT时服务似乎出现故障,疑似因能源问题导致。与此同时,谷歌发布了Gemini 2.0,这是一项科技前沿的多模态模型新进展。Gemini 2.0在性能上相较于前代产品有了大幅提升,支持多模态输入与输出,并能直接调用Google搜索、执行代码以及第三方用户定义的函数等工具。此外,它还推出了Gemini 2.0 Flash实验模型,并集成了文本转语音和图像生成技术。谷歌还在开发过程中采取了负责任的态度,通过与责任与安全委员会合作识别潜在风险。