最近一直在忙着升级以前开发的rag系统,然后前段时间也看了很多GraphRag的框架,什么fast-graphrag,lightrag这些。还给这些框架提了小小的pr,也都合进去了。
这些框架很多其实就是一个demo,真要落地配上图数据库很麻烦。
唉,不过Rag就是这样,demo三天,落地半年。
因为我以前用的是nebula数据库,所以这一次的目标也是搭配nebula数据库来实现的,看了一圈,网上关于这方面的文档还是比较少,所以打算在这里分享一下自己的开发(踩坑)过程。
这一次会使用Llama-index、nebula数据库以及deepseek-v3来实现GraphRag。
先来一个效果图,最近两天比较火的何同学事件,我拿了一篇自媒体写的文章,加上百度的简介信息,提取出了一个图结构。(目前出现了“何世杰”和“何同学”两个实体,应该要进行一个合并或者关联操作。不过数据量足够大的情况下,何世杰这个节点应该是可以通过真名之类的关系关联到何同学。)
然后我新增了一段文本,何同学(本名:何世杰),模型顺利提取出了两个节点的关联关系。