继日记的数据库之后我完成了对其它材料的向量化数据库以及对ai对话的摘要数据库。
我在写日记文本的存储时,因为我的初衷仅仅是分析我的日记,而我比较熟悉我的日记的一些情况,所以我在存储的过程中就对我的日记做了一些预处理,采取了生成式的方法来进行类似于摘要优先检索的策略(不过实际不是摘要那么简单,我日记中我熟知的一些议题之类的东西我也有写一个预分析的处理)最后形成的一个双联的数据库(我没有用RAPTOR的原因也是这个,相对来说这是对我日记定制性很强的一个策略)
但是在写其它材料的存储时我最开始也想用预处理的思路,但是遇到了没法构建预处理的方法的问题,因为我无法预计输入的材料是什么类别,进而像日记那样写专门的预处理思路。我考虑过直接写一个巨大的metadata字段,里面是我依据CBT,人本主义等流派写的一大堆枚举类型让llm去选择,但是最后考虑到性能的原因放弃了,最终采取了朴素的small2bi方法。
对于对话记录的摘要,我最开始考虑让ai给我一些做结构化摘要的思路,但ai提供的回答都不是很理想。最后我考虑了心理咨询中常用的咨询记录格式,最终从SOAP,DAP,PAIP三种方法中选择了PAIP(problem,assessment,intervention,plan)的格式让llm去做摘要。