No.67089397 - X岛揭示板

No.67089397 - 无标题 - 学业打卡

回应模式

No.67089397

名称

管理员

E-mail

标题

颜文字

正文

附加图片

水印

•欢迎各路学霸考王互触
•可以询问备考问题、日西考试成绩
•本版发文间隔15秒

无标题无名氏 2025-09-23(二)22:43:22 ID:fILFtkQ [举报] [订阅] [只看PO] No.67089397 [回应]

开办一个学术打卡串，挑战每天更新一篇论文

…

无标题无名氏 2025-09-23(二)22:47:48 ID:fILFtkQ (PO主) [举报] No.67089435

9.22第一篇论文
今天读的是ThinkingVit，
创新点：通过决策概率的香农熵动态调整决策是否需要进一步进行，通过token回收融合机制复用中间特征，提高效率。

…

无标题无名氏 2025-10-17(五)00:00:05 ID:fILFtkQ (PO主) [举报] No.67243318

cdq的language models that think,chat beeter
基于奖励的强化学习RLVR很难应用到对话中去，而基于人类反馈的强化学习RLHF,很难先思考再回答的规划过程。
本文提出的RLMT框架，简化训练流程，泛化思考的应用场景。
强制思考，使用通用的，基于人类偏好的奖励模型来评估最终答案的质量。
除了可选的有监督微调预热，流程通过通用Prompt用模型生成包含思考过程和最终回答的完整输出，而奖励模型只评估最终答案，使用在线强化学习方法最大化奖励模型的期望得分。其中GPRO算法最佳。SFT预热不重要。
看的我云里雾里，感觉只是个a+b啊

…

无标题无名氏 2025-10-17(五)23:23:59 ID:fILFtkQ (PO主) [举报] No.67249754

迈向大语言模型后训练的统一视角
清华的一篇论文
通过一个参数，实时地反馈确定该选择sft还是rt，而这个性能值参数P的阈值由不同的基础模型决定。

…

无标题无名氏 2025-11-16(日)19:32:51 ID:fILFtkQ (PO主) [举报] No.67442803

虽然天天读论文，但是打卡没那么频繁，倒显得我一个月才读一篇论文
今天分享的是，在巨人的肩膀上，重编程视觉-语言大模型的通用深度伪造检测
南方科技大学的aaai2025
重编程是一种训练后的方法，不微调参数，使得数据能够迁移适配深度检测伪造任务的通用与高效性
clip方法是一种视觉语言模型，能够预测图像是否与文本描述匹配
在此之前都是使用了PEFT,来处理深度伪造方法，而本文提出repdfp，将输入图像调整为较小尺寸，与视觉提示词合并，然后通过最大化预测正确标签的似然值，来调整对伪造图像的鉴定
主要的优点就是重编程的参数量调整小，检测效果好

…

无标题无名氏 2025-11-16(日)21:20:13 ID:fILFtkQ (PO主) [举报] No.67443555

导师突然发了篇神秘论文，让我水一水更新吧
谷歌深度思考团队的深度伪造检测的缩放效应
主要工作似乎是提供了个scaledf的数据集
采用了随机图像质量压缩和随机扰动作为数据增强
得出结论，clip小规模数据集性能好，但是超大数据集没什么用，所有预训练模型都一样
即便1400万张图像，数据增强也喜欢重要（OMG）
但是对于没有学习过的伪造方法，泛化能力依旧相当有限（或许可以解释为什么数据增强有用）缩放不是万能的

…

无标题无名氏 2025-11-18(二)09:16:46 ID:fILFtkQ (PO主) [举报] No.67453617

联邦学习中的可溯源黑盒水印
白盒水印往往需要模型参数的访问权限
而黑盒水印无法验证是哪个客户端泄露的模型
将模型参数区分为主任务区域和水印区域，水印只注入到特定的，对主任务不重要的参数中
在服务器录个模型时，不聚合特有的水印区域参数，防止水印在聚合中混合消逝
为每个客户端分配不同的触发集和目标输出，确保水印互不冲突

X岛 - Ver 1.0 beta by 酱酱酱
联系：help@nmbxd.com
免责声明：本站无法保证用户张贴内容的可靠性，投资有风险，健康问题请遵医嘱。