No.68413990 - X岛揭示板

回应模式 - No.68413990

No.68413990 - 技术宅

无标题无名氏No.68413990 只看PO

2026-04-02(四)11:27:22 ID:aJm3cqo 回应

来点代码做中学记录串|∀ﾟ

无标题无名氏No.68417662

2026-04-02(四)21:42:24 ID: aJm3cqo (PO主)

屈服了，打算直接拿Langchain的SemanticChunker拿来用了( ﾟ∀。)不自己造轮子了。后续会试着拿Hichunk拿来对比一下，看看论文天花乱坠，实际效果如何

无标题无名氏No.68422694

2026-04-03(五)19:28:03 ID: aJm3cqo (PO主)

>>No.68417662
我拿我自己日记测试的时候发现大多数情况下SemanticChunker的切分几乎和依据日期直接切分的结果一样，我在想这是因为我日记本身同一天内语意相关性就比较强，还是说我需要调一下参数。目前打算扩大一下用于测试的文本范围试一下。

无标题无名氏No.68423801

2026-04-03(五)23:26:18 ID: aJm3cqo (PO主)

今天晚上什么也没干( ﾟ∀。)
为什么呢，因为我发现今晚我写的test不知道为什么导入不了我的src了，但明明昨天晚上还能正常运行。
我一开始怀疑是我今天写的代码有问题，于是我删除了今天写的代码，然后再重启了一次解释器，import还是会报错。
我猜可能是vscode抽风了，因为我以前写Verilog的时候也遇到过这样的情况，满屏幕报错但其实代码正常跑没问题。
所以我跑了一遍，得，报错了( `д´)
于是我显示修改了sys.path再试了一遍，还是不行。
最终我启动了终极武器:重启，行了?!!
(因为不知道哪来的敏感词，我排了好久，改之又改，文风变成了诡异的一坨)

无标题无名氏No.68423822

2026-04-03(五)23:32:31 ID: aJm3cqo (PO主)

>>No.68423801
但我当然不满足于重启，万一下次又不行了怎么办？
所以我加上了我今天写的测试，再试了一遍，又报错了。
我备份了原本的测试文件之后再次重启，结果重启之后报错的代码又跑成功了?(;´Д`)
经过我多次控制变量的实验之后我终于找到了问题。
我猜测应该是vscode在工作区中打开文件的时候会直接把当前文件所在目录当成根目录?(也有可能是错误的推断)
前面的测试中有时报错有时不报错是因为我后来反复的测试过程中有时打开整个项目文件夹，有时只打开test文件夹，有时只打开单独的test文件，而打开整个项目文件夹时系统目录就是正确的，大概是这个原因?
总之现在在我每次都是打开整个项目文件夹之后就再也没遇到过报错了。
但是为什么以前我没遇到这样的问题呢( ﾟ∀。)真是奇怪啊

无标题无名氏No.68465936

2026-04-10(五)23:28:33 ID: aJm3cqo (PO主)

继日记的数据库之后我完成了对其它材料的向量化数据库以及对ai对话的摘要数据库。
我在写日记文本的存储时，因为我的初衷仅仅是分析我的日记，而我比较熟悉我的日记的一些情况，所以我在存储的过程中就对我的日记做了一些预处理，采取了生成式的方法来进行类似于摘要优先检索的策略(不过实际不是摘要那么简单，我日记中我熟知的一些议题之类的东西我也有写一个预分析的处理)最后形成的一个双联的数据库(我没有用RAPTOR的原因也是这个，相对来说这是对我日记定制性很强的一个策略)
但是在写其它材料的存储时我最开始也想用预处理的思路，但是遇到了没法构建预处理的方法的问题，因为我无法预计输入的材料是什么类别，进而像日记那样写专门的预处理思路。我考虑过直接写一个巨大的metadata字段，里面是我依据CBT,人本主义等流派写的一大堆枚举类型让llm去选择，但是最后考虑到性能的原因放弃了，最终采取了朴素的small2bi方法。
对于对话记录的摘要，我最开始考虑让ai给我一些做结构化摘要的思路，但ai提供的回答都不是很理想。最后我考虑了心理咨询中常用的咨询记录格式，最终从SOAP，DAP，PAIP三种方法中选择了PAIP(problem,assessment,intervention,plan)的格式让llm去做摘要。

无标题无名氏No.68465957

2026-04-10(五)23:31:46 ID: aJm3cqo (PO主)

这些内容里反而RAG的实现不是问题最大的，反正我只是照着现成的思路抄( ﾟ∀。)本质脚本小子小肥。
大多数的时间花在了如何从心理咨询的角度去给数据库做一个适应，比如非日记的其它材料我想了很久最后还是放弃了，只不过把做过的尝试留档也许以后会有用到的机会，比如一些复合的检索策略之类的，还有就是对话记录的摘要怎样去提取出真正重要的信息而不是草率的摘要，这些内容我觉得相比起查知识，去哪查才是真的更重要( ´д`)不然很多时候查了很多资料都是在重复造轮子做无用功。

无标题无名氏No.68472398

2026-04-12(日)10:30:57 ID: aJm3cqo (PO主)

我发现用ai写测试会很爽( ﾟ∀。)好像很省工作量，写一些对小部件的短平快的基本测试很提高效率

无标题无名氏No.68482091

2026-04-13(一)23:01:37 ID: aJm3cqo (PO主)

让cc改进了一下自己的日记检索，感觉自己在业务逻辑上也比不过ai了( ﾟ∀。)cc的思路要全面好多，突然好焦虑自己被淘汰

无标题无名氏No.68497645

2026-04-16(四)16:39:47 ID: aJm3cqo (PO主)

发现ai coding也是一门艺术(;´Д`)因为前面使用claude code的体验很好，所以后面都是自己写核心的模块，剩下的都让ai来写，结果文件一多之后ai就会把接口搞错，如果我一开始没有注意到，象征性review一遍就继续把进度推进下去，后面就错误的接口套错误的接口，然后ai的逻辑也开始乱套，最后屎就像吃了华莱士一样喷发(´ﾟДﾟ`)我不该让ai涉及架构的，现在试图修复到现在还是无能为力，只好git回滚了，就当白耗了这几天的token