写作绅士,读作丧尸 X岛揭示板
顺猴者昌 逆猴者亡 首页版规 |用户系统 |移动客户端下载 | 丧尸路标 | | 常用图串及路标 | 请关注 公众号:【矛盾苇草】| 人,是会思考的芦苇
常用串:·豆知识·跑团板聊天室·公告汇总串·X岛路标

No.67089397 - 无标题 - 学业打卡


回应模式
No.67089397
名 称
E-mail
标题
颜文字
正文
附加图片

•欢迎各路学霸考王互触
•可以询问备考问题、日西考试成绩
•本版发文间隔15秒


无标题 无名氏 2025-09-23(二)22:43:22 ID:fILFtkQ [举报] [订阅] [只看PO] No.67089397 [回应] 管理
开办一个学术打卡串,挑战每天更新一篇论文
无标题 无名氏 2025-09-23(二)22:47:48 ID:fILFtkQ (PO主) [举报] No.67089435 管理
9.22第一篇论文
今天读的是ThinkingVit,
创新点:通过决策概率的香农熵动态调整决策是否需要进一步进行,通过token回收融合机制复用中间特征,提高效率。
无标题 无名氏 2025-10-17(五)00:00:05 ID:fILFtkQ (PO主) [举报] No.67243318 管理
cdq的language models that think,chat beeter
基于奖励的强化学习RLVR很难应用到对话中去,而基于人类反馈的强化学习RLHF,很难先思考再回答的规划过程。
本文提出的RLMT框架,简化训练流程,泛化思考的应用场景。
强制思考,使用通用的,基于人类偏好的奖励模型来评估最终答案的质量。
除了可选的有监督微调预热,流程通过通用Prompt用模型生成包含思考过程和最终回答的完整输出,而奖励模型只评估最终答案,使用在线强化学习方法最大化奖励模型的期望得分。其中GPRO算法最佳。SFT预热不重要。
看的我云里雾里,感觉只是个a+b啊
无标题 无名氏 2025-10-17(五)23:23:59 ID:fILFtkQ (PO主) [举报] No.67249754 管理
迈向大语言模型后训练的统一视角
清华的一篇论文
通过一个参数,实时地反馈确定该选择sft还是rt,而这个性能值参数P的阈值由不同的基础模型决定。
无标题 无名氏 2025-11-16(日)19:32:51 ID:fILFtkQ (PO主) [举报] No.67442803 管理
虽然天天读论文,但是打卡没那么频繁,倒显得我一个月才读一篇论文
今天分享的是,在巨人的肩膀上,重编程视觉-语言大模型的通用深度伪造检测
南方科技大学的aaai2025
重编程是一种训练后的方法,不微调参数,使得数据能够迁移适配深度检测伪造任务的通用与高效性
clip方法是一种视觉语言模型,能够预测图像是否与文本描述匹配
在此之前都是使用了PEFT,来处理深度伪造方法,而本文提出repdfp,将输入图像调整为较小尺寸,与视觉提示词合并,然后通过最大化预测正确标签的似然值,来调整对伪造图像的鉴定
主要的优点就是重编程的参数量调整小,检测效果好
无标题 无名氏 2025-11-16(日)21:20:13 ID:fILFtkQ (PO主) [举报] No.67443555 管理
导师突然发了篇神秘论文,让我水一水更新吧
谷歌深度思考团队的深度伪造检测的缩放效应
主要工作似乎是提供了个scaledf的数据集
采用了随机图像质量压缩和随机扰动作为数据增强
得出结论,clip小规模数据集性能好,但是超大数据集没什么用,所有预训练模型都一样
即便1400万张图像,数据增强也喜欢重要(OMG)
但是对于没有学习过的伪造方法,泛化能力依旧相当有限(或许可以解释为什么数据增强有用)缩放不是万能的
无标题 无名氏 2025-11-18(二)09:16:46 ID:fILFtkQ (PO主) [举报] No.67453617 管理
联邦学习中的可溯源黑盒水印
白盒水印往往需要模型参数的访问权限
而黑盒水印无法验证是哪个客户端泄露的模型
将模型参数区分为主任务区域和水印区域,水印只注入到特定的,对主任务不重要的参数中
在服务器录个模型时,不聚合特有的水印区域参数,防止水印在聚合中混合消逝
为每个客户端分配不同的触发集和目标输出,确保水印互不冲突

UP主: