1) 贡献与新颖性:把“相对现有工作到底新在哪”再钉死
- 你把现有 adapter 的问题归为 spatial redundancy 与 shortcut overfitting,这很好;但审稿人会追问:
BRA 用在视觉任务里并不新;masking/curriculum 也常见。你需要更明确地写出“组合并非简单拼装”的理由:- AFB(BRA)为什么适配“forensic trace”而不是一般 detection/segmentation?
- SFB 的 SCM 为什么比常见的 token/patch dropout、attention dropout、Cutout/Hide-and-Seek、RandAug 更“针对 shortcut”?
- 建议在 Related Work 或 Method 开头加一段“与最接近的 2–3 个方法逐点对照”:输入/训练约束/推理结构/额外监督/计算代价/适用场景(图像 vs 视频)。
2) 方法清晰度与可复现:目前读者很难脑补你到底怎么训
引言和图 1 讲得像一个完整系统,但审稿人通常会卡在这些细节:
- AFB:top-kk 的选择、区域划分粒度、BRA 的路由图如何构建、是否引入额外超参、推理时是否固定 kk、不同分辨率是否稳定。
- SFB/SCM:
- “high-activation regions”具体怎么算(按 token 范数?通道均值?attention map?)
- curriculum schedule 的公式/阶段划分/持续 epoch;mask 比例范围;是否对 real/fake 同样 mask。
- 训练稳定性:是否需要 warm-up?是否出现 collapse?
- 建议:在 Method/Training Details 增补一个Algorithm 框或伪代码(尤其是 SCM + curriculum),并在附录给出默认超参表。
你说得对:如果图/消融里已经把 AFB 的结构与关键超参(如 S,kS,k)讲清楚,那“AFB 难以脑补”这条就不一定成立;我前面那条更想强调的是——审稿人通常会把“可复现”卡在:训练策略(尤其是 SFB/SCM 的 schedule)+ 推理设置 + 与 baseline 是否完全一致,而这些往往不在结构图里。
更具体地讲,即使 Fig.2(你说的 AFB 细节图)很完整,审稿人仍会追问下面这些“训练可复现”细节(主要集中在 SFB 和整体训练协议):
-
SCM 的定义是否唯一
“high-activation regions”到底是按 token ℓ2ℓ2 范数、通道均值、还是 attention 得到的 map?是对哪个层/哪个 block 的特征算?(不写清楚,别人很容易实现出另一个版本。) -
curriculum schedule 的精确定义
你现在正文里其实已经给了 p(t),r(t),alpha(t)p(t),r(t),alpha(t)(我看到后文有公式),但建议确保在一个地方把这些变量的含义讲“闭环”:
- tt 是 step 还是 epoch?TT 是总步数还是饱和步数?
- mask 的执行频率:每个 iter 都 mask,还是以概率 p(t)p(t) 触发一次 mask?
- r(t)r(t) 是 keep ratio 还是 drop ratio?与 “top-(1−r(t))(1−r(t)) regions” 的描述要完全一致。
-
推理时是否启用 SFB/Mask
训练时有 masking,推理时一般不 mask;但你需要明确一句:SFB 仅训练期启用/推理期关闭(或推理期保持什么行为),否则审稿人会质疑推理分布不一致。 -
与 baseline 的一致性声明
消融有不同参数固然好,但复现角度还希望看到一句“除提出模块外,其余训练设置与 FA 完全一致”,以及“是否改变数据增强/采样/视频聚合策略”。
如果你希望我把这些“可复现补丁”落到论文里,我建议最小改动是在 Experimental Settings / Implementation Details 里加一个很短的段落(3–6 句)专门说明:SCM map 的计算层、t/Tt/T 的定义、mask 触发方式、推理期开关;这样即便图和消融已经给了结构,训练流程也能自洽。你同意我就直接在对应小节补上这段。
3) 实验与对比:你现在的结论很强,但容易被质疑“对比不公平/指标不充分”
摘要里写了 Avg. AUC 90.4%,结论里还提到 DFDC video-level AUC 87.1%、对 TALL++ 提升等;这些都很吸引人,但也会引发更高标准的审查:
- 对比设置公平性:
- baseline adapter(Forensics Adapter)你是否完全复现其训练策略与数据处理?是否用同 backbone(CLIP 具体哪个 ViT 版本/分辨率)?
- 你引入 BRA/SCM 后是否改变训练 epoch、batch size、增强策略、阈值策略?这些都可能造成“收益来自训练细节”。
- 跨数据集协议要写得可检查:train/test datasets、是否同身份泄漏控制、视频抽帧策略、是否对每个视频取均值/最大/投票。
- 指标建议补全:AUC 之外最好同时给 EER、AP、FPR@TPR=0.95/0.99(深伪检测常被问“低误报下表现”);视频层面给 video-level aggregation 的方法。
- 统计显著性:跨数据集往往方差不小,建议给 3 次 seed 的均值±方差或置信区间。
4) 消融实验:把“Focus”和“Forget”拆开打,并证明不是“换个正则/换个稀疏注意力”就行
审稿人最想看到的消融通常是:
- Baseline Adapter
- +AFB(仅 Focus)
- +SFB(仅 Forget)
- +AFB+SFB(完整)
再加两类关键替换: - BRA 替换成其他稀疏注意力/局部注意力(或简单 top-k token pruning)
- SCM 替换成 patch dropout、token dropout、Cutout、DropBlock、attention dropout
并比较:跨数据集 AUC + 低误报指标 + 训练/推理开销。
5) 论证“shortcut”的证据:现在更多是叙述,建议加入更可验证的分析
你已有可视化与 t-SNE,这很好,但“shortcut”这个词容易被要求实证:
- 做一个 artifact suppression 实验:对测试集进行“去除/扰动频域线索、压缩痕迹、背景纹理”等控制变量,展示 baseline 掉得更厉害、你更稳。
- 或做 counterfactual:保持脸不变替换背景、保持背景不变替换脸;看模型输出稳定性。
- 解释 SCM mask 到底遮住了什么:给 mask 覆盖率统计、落在脸部关键区域的比例(可用人脸 landmark/分割粗标来统计)。
6) 写作与表述(快速可改点)
- 术语一致:你在摘要里写“global dense attention”,正文又写“vanilla ViT”,建议统一成“global full attention in ViT-style adapters”。
- 贡献点三条里第 1 条偏“分析”,第 2 条才是技术;建议把贡献写得更“可验证”,比如“提出两模块+给出理论/经验解释+显著提升跨数据集与低误报性能+小额开销”。
- 会议元数据目前是 MM’25/Oct 2025(如果这是模板占位可留;若要正式投稿要确认与目标 venue 一致)。
如果你希望我下一步更“像审稿意见”,我可以按 Summary / Strengths / Weaknesses / Questions / Suggestions / Rating confidence 的格式写一份;也可以直接帮你在文稿里把“训练细节、消融设计、指标定义”这些段落补齐到合适位置。