No.68413990 - X岛揭示板

No.68413990 - 无标题 - 技术宅

回应模式

No.68413990

名称

管理员

E-mail

标题

颜文字

正文

附加图片

水印

•程序语言、压制投稿、视频制作以及各计算机领域的技术问题
•我觉得还是CSDN靠谱一点
•本版发文间隔为15秒。

无标题无名氏 2026-04-02(四)11:27:22 ID:aJm3cqo [举报] [订阅] [只看PO] No.68413990 [回应]

来点代码做中学记录串|∀ﾟ

…

无标题无名氏 2026-04-02(四)11:29:47 ID:aJm3cqo (PO主) [举报] No.68414009

背景提要:肥肥是某大一计科生，在上大学之前没有接触过代码。现在仅有的知识储备只有CS50,CS61B,CS61C这几门课的内容，但是感觉离实践都比较远，再加上想要自己给自己写个Agent小玩具，所以Agent开发做中学记录串，堂堂连载!(つд⊂)

…

无标题无名氏 2026-04-02(四)16:41:12 ID:aJm3cqo (PO主) [举报] No.68415983

肥肥的计划是写一个能够分析自己日记的心理咨询agent，两天来的进展:
两天来的进展:
1.熟悉了Langchain,LangSmith的使用
2.使用Langchain的Chroma集成写了一个存储日记的向量数据库，采用了联合存储的结构，构建了两个collection，第一个collection存储日记的原文本，第二个collection存储日记的概括、情感、模式识别等信息支持模糊检索，同时metadata中存储日期和我自己写的一些枚举表来支持过滤。两个collection共用基于原文本哈希得到的id来实现联合检索。

…

无标题无名氏 2026-04-02(四)16:45:50 ID:aJm3cqo (PO主) [举报] No.68416015

目前数据库能够跑通，但是测试的时候发现切分上传的文本时，模型会丢弃不少的原文本。
ver1.1:我解除了max_token的限制，但是结果没有改善，说明不是token数量导致的截断问题。
ver1.2:我调整了提示词，强调了切分的原则，问题仍然没有改善。
ver1.3:我将日记切分拆分为了两步，先概括整体结构，再依据结构切分，仍然没有改善。
ver1.4:调整了用于结构概括的模型的提示词，仍然没有改善|ー` )

目前我找到了jina ai的一篇关于长文本分块的研究，正在研读中

…

无标题无名氏 2026-04-02(四)16:54:16 ID:PS9gmen [举报] No.68416080

让大模型切分？不是个好主意。用规则或者启发式更可控。

…

无标题无名氏 2026-04-02(四)17:04:36 ID:Mghtdjb [举报] No.68416114

火山的那个知识库切片的时候也是一样的问题|∀ﾟ蹲一手

…

无标题无名氏 2026-04-02(四)17:18:44 ID:KCmDwxu [举报] No.68416208

现在大一都如此恐怖了吗，我大一的时候还在阿巴阿巴( ﾟ∀。)7

可以问一下po是在国内还是国外就读的吗

…

无标题无名氏 2026-04-02(四)20:55:05 ID:aJm3cqo (PO主) [举报] No.68417460

>>No.68416080
我查了许多LLM-based的方法，发现即使抛开生成效率不谈，许多也是在demo上表现良好，一落地都各有各的问题( ﾟ∀。)不过我一开始单纯是懒人想法想让大模型包办

…

无标题无名氏 2026-04-02(四)20:55:39 ID:aJm3cqo (PO主) [举报] No.68417462

>>No.68416208
在国内读的( ﾟ∀。)其实只是本质水货一个

…

无标题无名氏 2026-04-02(四)20:58:15 ID:aJm3cqo (PO主) [举报] No.68417474

在查解决方法的时候看到了一个和我相反的思路，小块文本向量化，大段保留，先检索小段再定位的大块(Small-to-Big Retrieval)，和我的概括大块，然后先定位大块再检索小块的路子反过来了( ﾟ∀ﾟ)mark一下，有精力的话我会尝试一下这种方法再评估一下效果

…

无标题无名氏 2026-04-02(四)21:42:24 ID:aJm3cqo (PO主) [举报] No.68417662

屈服了，打算直接拿Langchain的SemanticChunker拿来用了( ﾟ∀。)不自己造轮子了。后续会试着拿Hichunk拿来对比一下，看看论文天花乱坠，实际效果如何

…

无标题无名氏 2026-04-03(五)19:28:03 ID:aJm3cqo (PO主) [举报] No.68422694

>>No.68417662
我拿我自己日记测试的时候发现大多数情况下SemanticChunker的切分几乎和依据日期直接切分的结果一样，我在想这是因为我日记本身同一天内语意相关性就比较强，还是说我需要调一下参数。目前打算扩大一下用于测试的文本范围试一下。

…

无标题无名氏 2026-04-03(五)23:26:18 ID:aJm3cqo (PO主) [举报] No.68423801

今天晚上什么也没干( ﾟ∀。)
为什么呢，因为我发现今晚我写的test不知道为什么导入不了我的src了，但明明昨天晚上还能正常运行。
我一开始怀疑是我今天写的代码有问题，于是我删除了今天写的代码，然后再重启了一次解释器，import还是会报错。
我猜可能是vscode抽风了，因为我以前写Verilog的时候也遇到过这样的情况，满屏幕报错但其实代码正常跑没问题。
所以我跑了一遍，得，报错了( `д´)
于是我显示修改了sys.path再试了一遍，还是不行。
最终我启动了终极武器:重启，行了?!!
(因为不知道哪来的敏感词，我排了好久，改之又改，文风变成了诡异的一坨)

…

无标题无名氏 2026-04-03(五)23:32:31 ID:aJm3cqo (PO主) [举报] No.68423822

>>No.68423801
但我当然不满足于重启，万一下次又不行了怎么办？
所以我加上了我今天写的测试，再试了一遍，又报错了。
我备份了原本的测试文件之后再次重启，结果重启之后报错的代码又跑成功了?(;´Д`)
经过我多次控制变量的实验之后我终于找到了问题。
我猜测应该是vscode在工作区中打开文件的时候会直接把当前文件所在目录当成根目录?(也有可能是错误的推断)
前面的测试中有时报错有时不报错是因为我后来反复的测试过程中有时打开整个项目文件夹，有时只打开test文件夹，有时只打开单独的test文件，而打开整个项目文件夹时系统目录就是正确的，大概是这个原因?
总之现在在我每次都是打开整个项目文件夹之后就再也没遇到过报错了。
但是为什么以前我没遇到这样的问题呢( ﾟ∀。)真是奇怪啊

…

无标题无名氏 2026-04-10(五)23:28:33 ID:aJm3cqo (PO主) [举报] No.68465936

继日记的数据库之后我完成了对其它材料的向量化数据库以及对ai对话的摘要数据库。
我在写日记文本的存储时，因为我的初衷仅仅是分析我的日记，而我比较熟悉我的日记的一些情况，所以我在存储的过程中就对我的日记做了一些预处理，采取了生成式的方法来进行类似于摘要优先检索的策略(不过实际不是摘要那么简单，我日记中我熟知的一些议题之类的东西我也有写一个预分析的处理)最后形成的一个双联的数据库(我没有用RAPTOR的原因也是这个，相对来说这是对我日记定制性很强的一个策略)
但是在写其它材料的存储时我最开始也想用预处理的思路，但是遇到了没法构建预处理的方法的问题，因为我无法预计输入的材料是什么类别，进而像日记那样写专门的预处理思路。我考虑过直接写一个巨大的metadata字段，里面是我依据CBT,人本主义等流派写的一大堆枚举类型让llm去选择，但是最后考虑到性能的原因放弃了，最终采取了朴素的small2bi方法。
对于对话记录的摘要，我最开始考虑让ai给我一些做结构化摘要的思路，但ai提供的回答都不是很理想。最后我考虑了心理咨询中常用的咨询记录格式，最终从SOAP，DAP，PAIP三种方法中选择了PAIP(problem,assessment,intervention,plan)的格式让llm去做摘要。

…

无标题无名氏 2026-04-10(五)23:31:46 ID:aJm3cqo (PO主) [举报] No.68465957

这些内容里反而RAG的实现不是问题最大的，反正我只是照着现成的思路抄( ﾟ∀。)本质脚本小子小肥。
大多数的时间花在了如何从心理咨询的角度去给数据库做一个适应，比如非日记的其它材料我想了很久最后还是放弃了，只不过把做过的尝试留档也许以后会有用到的机会，比如一些复合的检索策略之类的，还有就是对话记录的摘要怎样去提取出真正重要的信息而不是草率的摘要，这些内容我觉得相比起查知识，去哪查才是真的更重要( ´д`)不然很多时候查了很多资料都是在重复造轮子做无用功。

…

无标题无名氏 2026-04-12(日)10:30:57 ID:aJm3cqo (PO主) [举报] No.68472398

我发现用ai写测试会很爽( ﾟ∀。)好像很省工作量，写一些对小部件的短平快的基本测试很提高效率

…

无标题无名氏 2026-04-13(一)23:01:37 ID:aJm3cqo (PO主) [举报] No.68482091

让cc改进了一下自己的日记检索，感觉自己在业务逻辑上也比不过ai了( ﾟ∀。)cc的思路要全面好多，突然好焦虑自己被淘汰

…

无标题无名氏 2026-04-16(四)16:39:47 ID:aJm3cqo (PO主) [举报] No.68497645

发现ai coding也是一门艺术(;´Д`)因为前面使用claude code的体验很好，所以后面都是自己写核心的模块，剩下的都让ai来写，结果文件一多之后ai就会把接口搞错，如果我一开始没有注意到，象征性review一遍就继续把进度推进下去，后面就错误的接口套错误的接口，然后ai的逻辑也开始乱套，最后屎就像吃了华莱士一样喷发(´ﾟДﾟ`)我不该让ai涉及架构的，现在试图修复到现在还是无能为力，只好git回滚了，就当白耗了这几天的token

…

无标题无名氏 2026-04-16(四)16:41:56 ID:aJm3cqo (PO主) [举报] No.68497663

>>No.68497645
总结就是用ai用着用着就不review了让ai自由发挥，当ai开始掺和架构开始更改接口又因为上下文过长不断地summarize结果ai自己都忘了自己更改过的接口最后屎就越积越多(;´Д`)太绝望了

X岛 - Ver 1.0 beta by 酱酱酱
联系：help@nmbxd.com
免责声明：本站无法保证用户张贴内容的可靠性，投资有风险，健康问题请遵医嘱。