个人学习工作分享|生命不止，折腾不息。

fast-graphrag 探索（4）- 我把模型服务干崩了！

学习

本文描述了使用fast-graphrag模型处理研报数据的过程中遇到的问题及解决方法。首先，文章介绍了初试牛刀阶段遇到的问题，主要是模型处理结果出乎意料，经过检查发现是因为参数设置不当导致的。接着，文章描述了抽丝剥茧找到症结的过程，并进行了代码修改。然后，文章提及了并发量过高导致的问题，通过限制并发量解决了问题。最终，作者成功解决了所有问题，对成果感到欣慰。文章关键词为python、fast-graphrag探索、AI、rag、开源。

GitHub Copilot免费试用，百度苹果闹掰了

GitHub Copilot宣布免费试用，但每月限制代码补全和聊天信息次数。虽然限制，但它有GitHub庞大的代码库作为支持，因此具有显著优势。同时，百度与苹果正在商谈人工智能模型整合事宜。文章还讨论了其他代码辅助工具和AI编程工具的体验与推荐。

重磅更新！飞牛NAS再也不用担心停电了

nas

飞牛NAS系统更新了版本0.8.27，新增了许多功能。其中最大的亮点是UPS功能，可以在断电后自动安全关机，提高了数据安全性。此外，更新还包括文件共享协议新增文件范围可选远程挂载、外接存储和应用文件，mac用户可以通过时间机器将数据备份到飞牛上。管理员可以创建备份任务时备份所有文件，包括其他用户的目录和应用文件。此外，还新增了花生壳应用作为内网穿透的新选择。总体而言，此次更新增强了飞牛NAS系统的功能性和用户体验，为保障数据安全提供了有力支持。

大升级！LLM应用监控、测试、优化一步到位！

学习

本文介绍了使用langfuse工具在开发基于检索增强生成（RAG）模型应用时的监控追踪方法。文章详细描述了langfuse的功能，包括LLM可观测性、提示管理、LLM评估、数据集管理等。文章还介绍了langfuse最近的v3.0.0大版本升级，包括新引入的Async Worker、Redis、Clickhouse和S3 / Blob Storage等技术，并解释了选择这些技术的理由。此外，文章还展示了如何使用langfuse进行trace、提示词管理，并总结了langfuse在LLM应用开发生态系统中的作用。最后，文章呼吁读者关注公众号并分享使用langfuse的经验和想法。

Duplicati alist备份百度网盘提示error

Q&A

使用Duplicati和alist备份数据至百度网盘时遇到错误提示，提示某个文件大小超过限制导致无法备份。经对比发现，可能是百度网盘对文件大小有限制（如限制为50M）。解决方法是调整远程卷的大小，减少数据量后再次备份。文章提醒读者重视数据安全，建议采用多种方案进行备份。

腾讯云智能结构化OCR实战：从图片到结构化数据的高效转换

学习

本文介绍了作者使用腾讯云智能结构化OCR服务的实战体验。文章首先描述了作者的需求背景，即汇总多个理财子公众号发布的理财产品的数据。由于遇到一些识别不准确和费用较高的问题，作者尝试使用腾讯云的智能结构化OCR服务，并详细介绍了其特点和优势。文章还包含了价格的讨论、SDK的安装、代码示例、验证和web部署等部分。整体上，文章总结了腾讯云智能结构化识别相较于传统OCR的优势，并鼓励读者分享自己的经验和看法。摘要：本文讲述了作者使用腾讯云智能结构化OCR服务进行理财产品的数据汇总的实战体验。文章详细描述了腾讯云智能结构化OCR的特点和优势，包括其高效、精准的数据提取和结构化处理能力。作者通过示例代码和验证过程展示了如何使用腾讯云智能结构化OCR服务，并提供了web部署的简要说明。本文旨在帮助读者了解腾讯云智能结构化OCR的实用性和便捷性，并鼓励分享自己的经验和看法。

微软开源的处理工具 - markitdown

学习

微软最近开源了一个名为markitdown的Python工具，能够将多种文件格式（包括PDF、PowerPoint、Word、Excel等）转换为Markdown格式。除了基本转换功能外，markitdown还支持调用大模型处理图像和音视频数据。该工具具有多种应用场景，如非结构化数据转换、提高模型训练效率、复杂文档解析、知识管理和团队协作、数据源集成、在线文档与静态网站构建等。此外，markitdown还支持API集成，可方便地将PDF转Markdown功能集成到内部流程、数据管道或知识管理系统中，实现全自动化处理与持续更新。这是科技前沿的一种重要工具，尤其对于需要大量处理文件和数据的场景非常有用。

fast-graphrag 探索（3）- insert

学习

摘要：本文介绍了在Python中使用fast-graphrag进行文档插入的流程。首先介绍了state_manager属性及其相关类和实例的作用。然后详细描述了插入文档到GraphRAG时的操作步骤，包括调用state_manager的insert_start方法、读取历史数据、提取实体和关系、过滤重复数据、进行节点和边的插入操作等。文章还提到了使用embedding_service对插入的节点进行编码，生成嵌入向量，并存储在entity_storage中。最后，文章总结了整个插入流程，并预告了下一部分将介绍fast-graphrag的查询部分。

fast-graphrag 探索（2）

学习

本文探讨了fast-graphrag的源码，重点介绍了GraphRAG类及其与BaseGraphRAG类的关系。文章解释了数据类、泛型、类型提示和依赖注入等概念，通过简单的图类示例说明了使用泛型的好处。文章还详细描述了GraphRAG类的初始化过程，包括配置类、后初始化方法、服务实例化和工作空间管理等方面的内容。最后，文章总结了本篇内容并预告了下篇将研究fast graphrag的insert策略，同时鼓励读者在评论区分享经验和看法。

ChatGpt崩了，Gemini 2.0上线

杂的文

今天上午访问ChatGPT时服务似乎出现故障，疑似因能源问题导致。与此同时，谷歌发布了Gemini 2.0，这是一项科技前沿的多模态模型新进展。Gemini 2.0在性能上相较于前代产品有了大幅提升，支持多模态输入与输出，并能直接调用Google搜索、执行代码以及第三方用户定义的函数等工具。此外，它还推出了Gemini 2.0 Flash实验模型，并集成了文本转语音和图像生成技术。谷歌还在开发过程中采取了负责任的态度，通过与责任与安全委员会合作识别潜在风险。