回应模式 - No.68413990


No.68413990 - 技术宅


无标题无名氏No.68413990 返回主串

2026-04-02(四)11:27:22 ID:aJm3cqo 回应

来点代码做中学记录串|∀゚

无标题无名氏No.68414009

2026-04-02(四)11:29:47 ID: aJm3cqo (PO主)

背景提要:肥肥是某大一计科生,在上大学之前没有接触过代码。现在仅有的知识储备只有CS50,CS61B,CS61C这几门课的内容,但是感觉离实践都比较远,再加上想要自己给自己写个Agent小玩具,所以Agent开发做中学记录串,堂堂连载!(つд⊂)

无标题无名氏No.68415983

2026-04-02(四)16:41:12 ID: aJm3cqo (PO主)

肥肥的计划是写一个能够分析自己日记的心理咨询agent,两天来的进展:
两天来的进展:
1.熟悉了Langchain,LangSmith的使用
2.使用Langchain的Chroma集成写了一个存储日记的向量数据库,采用了联合存储的结构,构建了两个collection,第一个collection存储日记的原文本,第二个collection存储日记的概括、情感、模式识别等信息支持模糊检索,同时metadata中存储日期和我自己写的一些枚举表来支持过滤。两个collection共用基于原文本哈希得到的id来实现联合检索。

无标题无名氏No.68416015

2026-04-02(四)16:45:50 ID: aJm3cqo (PO主)

目前数据库能够跑通,但是测试的时候发现切分上传的文本时,模型会丢弃不少的原文本。
ver1.1:我解除了max_token的限制,但是结果没有改善,说明不是token数量导致的截断问题。
ver1.2:我调整了提示词,强调了切分的原则,问题仍然没有改善。
ver1.3:我将日记切分拆分为了两步,先概括整体结构,再依据结构切分,仍然没有改善。
ver1.4:调整了用于结构概括的模型的提示词,仍然没有改善|ー` )

目前我找到了jina ai的一篇关于长文本分块的研究,正在研读中

无标题无名氏No.68417460

2026-04-02(四)20:55:05 ID: aJm3cqo (PO主)

>>No.68416080
我查了许多LLM-based的方法,发现即使抛开生成效率不谈,许多也是在demo上表现良好,一落地都各有各的问题( ゚∀。)不过我一开始单纯是懒人想法想让大模型包办

无标题无名氏No.68417462

2026-04-02(四)20:55:39 ID: aJm3cqo (PO主)

>>No.68416208
在国内读的( ゚∀。)其实只是本质水货一个

无标题无名氏No.68417474

2026-04-02(四)20:58:15 ID: aJm3cqo (PO主)

在查解决方法的时候看到了一个和我相反的思路,小块文本向量化,大段保留,先检索小段再定位的大块(Small-to-Big Retrieval),和我的概括大块,然后先定位大块再检索小块的路子反过来了( ゚∀゚)mark一下,有精力的话我会尝试一下这种方法再评估一下效果

无标题无名氏No.68417662

2026-04-02(四)21:42:24 ID: aJm3cqo (PO主)

屈服了,打算直接拿Langchain的SemanticChunker拿来用了( ゚∀。)不自己造轮子了。后续会试着拿Hichunk拿来对比一下,看看论文天花乱坠,实际效果如何

无标题无名氏No.68422694

2026-04-03(五)19:28:03 ID: aJm3cqo (PO主)

>>No.68417662
我拿我自己日记测试的时候发现大多数情况下SemanticChunker的切分几乎和依据日期直接切分的结果一样,我在想这是因为我日记本身同一天内语意相关性就比较强,还是说我需要调一下参数。目前打算扩大一下用于测试的文本范围试一下。

无标题无名氏No.68423801

2026-04-03(五)23:26:18 ID: aJm3cqo (PO主)

今天晚上什么也没干( ゚∀。)
为什么呢,因为我发现今晚我写的test不知道为什么导入不了我的src了,但明明昨天晚上还能正常运行。
我一开始怀疑是我今天写的代码有问题,于是我删除了今天写的代码,然后再重启了一次解释器,import还是会报错。
我猜可能是vscode抽风了,因为我以前写Verilog的时候也遇到过这样的情况,满屏幕报错但其实代码正常跑没问题。
所以我跑了一遍,得,报错了( `д´)
于是我显示修改了sys.path再试了一遍,还是不行。
最终我启动了终极武器:重启,行了?!!
(因为不知道哪来的敏感词,我排了好久,改之又改,文风变成了诡异的一坨)