如何提高知识库检索的正确性? #2007
Replies: 15 comments 12 replies
-
个人想法:将问题和答案保存到数据库中的一张表上,共享唯一id。将问题和答案分别上传,用户输入的query问题匹配到问题知识库,得到问题唯一id,通过查表获得答案。 |
Beta Was this translation helpful? Give feedback.
-
这是QA形式的数据,如果是纯文档类型的,需要向量数据库根据问题召回相关文档块,再让模型总结给出答案,效果就更不稳定了。 |
Beta Was this translation helpful? Give feedback.
-
感谢解答。通过id将问题和答案关联确实是比较合理的方案,我看看如何实现。 |
Beta Was this translation helpful? Give feedback.
-
是的,QA形式感觉是最简单的场景了。个人觉得纯文档更依靠大模型的理解和总结能力 |
Beta Was this translation helpful? Give feedback.
-
是的,如果数据量比较少,QA形式的效果比纯文本不处理的效果要好。 |
Beta Was this translation helpful? Give feedback.
-
如果你能很好的拿到Q,那么你可以修改你的代码,将A放在metadata中,此方式能够确保搜索到Q的情况下一定能够获得A的原文,但是如此一来你就需要想办法修改源码将metadata中的数据替换成你的doc去让LLM在此基础上适当润色以获得略微不同的答案。 |
Beta Was this translation helpful? Give feedback.
-
Beta Was this translation helpful? Give feedback.
-
Beta Was this translation helpful? Give feedback.
-
能否可以实现对csv文档,指定某几列入向量库,在返回的时候是返回对应csv该行的整行内容? |
Beta Was this translation helpful? Give feedback.
-
把存量的文档转换为QA形式的文档,工作量太大了 |
Beta Was this translation helpful? Give feedback.
-
有时候,即使Q和A 对得上,但 topK大一点或者小一点,甚至即使 topK 保持不变,仍然不能杜绝 AI 返回个东拼西凑的结果。有时候想想,有时间把把存量的文档转换为高质量、低重复性的QA形式的文档, 直接向量化相似性查询,结果就能保证准确性和准确率了,反而没得必要非要将查询结果提交给 AI 再来给你总结一下或者提炼一下 |
Beta Was this translation helpful? Give feedback.
-
如果我已经有了现成的 Q&A 文档,那么怎么做比较好呢?是直接做成 CSV 提交给知识库、自己定义分词器、还是修改代码拿到 Q 的之后自己去某个地方查 A 出来反馈?我的 A 有时候篇幅比较大,啰嗦的地方可能有上千字了。 |
Beta Was this translation helpful? Give feedback.
-
哪种文档切分的效果好一些 |
Beta Was this translation helpful? Give feedback.
-
博主,这个项目你的效果调的咋样了。 |
Beta Was this translation helpful? Give feedback.
-
场景:QA问答
当前正确率:目前知识库200个问题,正确率70%左右
做了什么:
1、试过用 .json和.txt格式,文本切分后,检索效果不好。
2、利用 .csv格式存储QA,目前看下来这种格式匹配度更高。
3、基于官方给的流程图,看了知识库文件上传-解析成文本-解析成文档-存储的过程。目的是希望通过优化其中一些步骤,提高知识库准确率。一路看下来,发现.csv文件解析比较特殊,是通过row进行切分,把问题和答案存进page_context中,存到向量库。向量成矩阵的过程我没看到。有点不知道如何下手。。
我看到有一个方案,是将问题和答案分别上传,检索正确率会提高。如果是这样做,用户输入的query问题确实可以很好的匹配上问题知识库,但是如何对应上该问题的答案呢?
最后,如果大佬有好的优化意见,请指教。十分感谢!!
QA示例:
Beta Was this translation helpful? Give feedback.
All reactions