个人学习工作分享

标签
科技前沿

AI答非所问？你的知识库为什么不好用？4500字长文带你读懂rag发展史

学习

文章摘要：本文简要介绍了RAG（检索增强生成）的发展历程，从最初的Naive RAG到Advanced RAG、Modular RAG、Graph RAG，再到终极形态的Agentic RAG。文章详细描述了各种RAG系统的特点、局限性和应用场景，并探讨了文档处理在RAG系统中的重要性和相关开源项目的应用。最后，文章提出了AI自主决策在RAG发展中的重要性，并指出知识库的质量和适应性对RAG系统效果的影响。关键词：RAG、科技前沿、AI答非所问、知识库、发展历程一、引言近年来，随着人工智能技术的飞速发展，大型语言模型（LLM）在文本生成和自然语言理解方面取得了显著成果。然而，模型对静态训练数据的依赖限制了其响应动态实时查询的能力，导致输出过时或不准确。为解决这一问题，检索增强生成（RAG）成为一种解决方案，它通过集成实时数据检索来增强LLM，以提供与上下文相关的最新响应。二、RAG的基础组件 RAG的主要核心组件包括从用户的输入到检索、对检索到的信息的加工处理，再到大模型的生成，最后把生成结果返回给用户。像deepseek等app应用的联网搜索功能其实就是RAG的一种应用。三、RAG的发展历程 1. Naive RAG：基础但差点意思 Naive RAG系统依赖于简单的基于关键字的检索技术从静态数据集中获取文档。然后，检索到的文档用于增强语言模型的生成功能。虽然存在上下文复杂性最小、易于实施等优点，但其缺乏上下文感知、碎片化输出以及可扩展性问题限制了其应用场景。 2. Advanced RAG：突破性的技术革新 Advanced RAG引入了密集向量搜索、上下文重新排序和迭代检索等技术突破，使答案更精准，适用于科研分析、个性化推荐等应用。然而，计算开销和可扩展性受限等挑战仍然存在。 3. Modular RAG：灵活组装与定制化 Modular RAG把RAG拆成可替换的模块，按需定制，打破了“一刀切”的局面，成为企业落地RAG的主流选择。通过混合检索策略、工具集成和可组合管道等技术创新，Modular RAG适应了特定用例的需求。 4. Graph RAG：关系大师的出现 Graph RAG是一种基于图的检索增强生成方法，通过集成基于图的数据结构扩展了传统的检索增强生成系统。利用图形数据中的关系和层次结构来增强多跳推理和上下文丰富，Graph RAG可实现更丰富、更准确的生成输出。然而，其有限的可扩展性和数据依赖性等局限性仍需解决。 5. Agentic RAG：RAG的终极形态 Agentic RAG是RAG发展的最新形态，涉及AI自主决策。通过引入AI技术，Agentic RAG能够自主处理复杂的任务和决策过程，实现了RAG系统的智能化和自主性。然而，知识库的质量和适应性对Agentic RAG的效果具有重要影响。四、文档处理在RAG系统中的重要性和相关开源项目的应用在RAG系统中，文档处理是一个核心模块，其好坏会很大程度影响后续的检索结果和回答生成效果。为应对模型输入token的限制和避免拆分不当，常规的rag系统会对文档进行分片处理。以GraphRag为代表的图rag通过从文档中提取丰富的关系和层次结构，能够轻松处理需要多步推理的复杂任务。五、结论随着RAG技术的不断发展，其应用场景和效果不断提升。从Naive RAG到Agentic RAG，RAG系统不断突破技术瓶颈，实现了更高的精准度和自主性。然而，知识库的质量和适应性仍是影响RAG系统效果的重要因素。未来，随着技术的不断进步，RAG系统将更加智能化、自主化，为人工智能的发展带来更多可能性。

阅读anthropic building-effective-agents 文章有感而发

学习

本文作者阅读了anthropic的关于构建有效agent的文章后有所感悟，分享了自己在智能创作领域的体验与心得。作者详细阐述了工作流和agent的构建流程，强调预定义代码路径编排和工具的清晰定义对工作流程的重要性。作者同时探讨了如何让模型更准确地使用工具的方法，包括对工具的定义进行改进，并通过示例进行验证迭代。最后，作者提到模型返回结果的格式化控制问题，并对智能创作的未来发展提出展望。

大升级！LLM应用监控、测试、优化一步到位！

学习

本文介绍了使用langfuse工具在开发基于检索增强生成（RAG）模型应用时的监控追踪方法。文章详细描述了langfuse的功能，包括LLM可观测性、提示管理、LLM评估、数据集管理等。文章还介绍了langfuse最近的v3.0.0大版本升级，包括新引入的Async Worker、Redis、Clickhouse和S3 / Blob Storage等技术，并解释了选择这些技术的理由。此外，文章还展示了如何使用langfuse进行trace、提示词管理，并总结了langfuse在LLM应用开发生态系统中的作用。最后，文章呼吁读者关注公众号并分享使用langfuse的经验和想法。

微软开源的处理工具 - markitdown

学习

微软最近开源了一个名为markitdown的Python工具，能够将多种文件格式（包括PDF、PowerPoint、Word、Excel等）转换为Markdown格式。除了基本转换功能外，markitdown还支持调用大模型处理图像和音视频数据。该工具具有多种应用场景，如非结构化数据转换、提高模型训练效率、复杂文档解析、知识管理和团队协作、数据源集成、在线文档与静态网站构建等。此外，markitdown还支持API集成，可方便地将PDF转Markdown功能集成到内部流程、数据管道或知识管理系统中，实现全自动化处理与持续更新。这是科技前沿的一种重要工具，尤其对于需要大量处理文件和数据的场景非常有用。

ChatGpt崩了，Gemini 2.0上线

杂的文

今天上午访问ChatGPT时服务似乎出现故障，疑似因能源问题导致。与此同时，谷歌发布了Gemini 2.0，这是一项科技前沿的多模态模型新进展。Gemini 2.0在性能上相较于前代产品有了大幅提升，支持多模态输入与输出，并能直接调用Google搜索、执行代码以及第三方用户定义的函数等工具。此外，它还推出了Gemini 2.0 Flash实验模型，并集成了文本转语音和图像生成技术。谷歌还在开发过程中采取了负责任的态度，通过与责任与安全委员会合作识别潜在风险。