FaF——MM

1) 贡献与新颖性：把“相对现有工作到底新在哪”再钉死

你把现有 adapter 的问题归为 spatial redundancy 与 shortcut overfitting，这很好；但审稿人会追问：
BRA 用在视觉任务里并不新；masking/curriculum 也常见。你需要更明确地写出“组合并非简单拼装”的理由：
- AFB（BRA）为什么适配“forensic trace”而不是一般 detection/segmentation？
- SFB 的 SCM 为什么比常见的 token/patch dropout、attention dropout、Cutout/Hide-and-Seek、RandAug 更“针对 shortcut”？
建议在 Related Work 或 Method 开头加一段“与最接近的 2–3 个方法逐点对照”：输入/训练约束/推理结构/额外监督/计算代价/适用场景（图像 vs 视频）。

2) 方法清晰度与可复现：目前读者很难脑补你到底怎么训

引言和图 1 讲得像一个完整系统，但审稿人通常会卡在这些细节：

AFB：top-kk 的选择、区域划分粒度、BRA 的路由图如何构建、是否引入额外超参、推理时是否固定 kk、不同分辨率是否稳定。
SFB/SCM：
- “high-activation regions”具体怎么算（按 token 范数？通道均值？attention map？）
- curriculum schedule 的公式/阶段划分/持续 epoch；mask 比例范围；是否对 real/fake 同样 mask。
- 训练稳定性：是否需要 warm-up？是否出现 collapse？
建议：在 Method/Training Details 增补一个Algorithm 框或伪代码（尤其是 SCM + curriculum），并在附录给出默认超参表。

你说得对：如果图/消融里已经把 AFB 的结构与关键超参（如 S,kS,k）讲清楚，那“AFB 难以脑补”这条就不一定成立；我前面那条更想强调的是——审稿人通常会把“可复现”卡在：训练策略（尤其是 SFB/SCM 的 schedule）+ 推理设置 + 与 baseline 是否完全一致，而这些往往不在结构图里。

更具体地讲，即使 Fig.2（你说的 AFB 细节图）很完整，审稿人仍会追问下面这些“训练可复现”细节（主要集中在 SFB 和整体训练协议）：

SCM 的定义是否唯一
“high-activation regions”到底是按 token ℓ2ℓ2 范数、通道均值、还是 attention 得到的 map？是对哪个层/哪个 block 的特征算？（不写清楚，别人很容易实现出另一个版本。）
curriculum schedule 的精确定义
你现在正文里其实已经给了 p(t),r(t),alpha(t)p(t),r(t),alpha(t)（我看到后文有公式），但建议确保在一个地方把这些变量的含义讲“闭环”：

tt 是 step 还是 epoch？TT 是总步数还是饱和步数？
mask 的执行频率：每个 iter 都 mask，还是以概率 p(t)p(t) 触发一次 mask？
r(t)r(t) 是 keep ratio 还是 drop ratio？与 “top-(1−r(t))(1−r(t)) regions” 的描述要完全一致。

推理时是否启用 SFB/Mask
训练时有 masking，推理时一般不 mask；但你需要明确一句：SFB 仅训练期启用/推理期关闭（或推理期保持什么行为），否则审稿人会质疑推理分布不一致。
与 baseline 的一致性声明
消融有不同参数固然好，但复现角度还希望看到一句“除提出模块外，其余训练设置与 FA 完全一致”，以及“是否改变数据增强/采样/视频聚合策略”。

如果你希望我把这些“可复现补丁”落到论文里，我建议最小改动是在 Experimental Settings / Implementation Details 里加一个很短的段落（3–6 句）专门说明：SCM map 的计算层、t/Tt/T 的定义、mask 触发方式、推理期开关；这样即便图和消融已经给了结构，训练流程也能自洽。你同意我就直接在对应小节补上这段。

3) 实验与对比：你现在的结论很强，但容易被质疑“对比不公平/指标不充分”

摘要里写了 Avg. AUC 90.4%，结论里还提到 DFDC video-level AUC 87.1%、对 TALL++ 提升等；这些都很吸引人，但也会引发更高标准的审查：

对比设置公平性：
- baseline adapter（Forensics Adapter）你是否完全复现其训练策略与数据处理？是否用同 backbone（CLIP 具体哪个 ViT 版本/分辨率）？
- 你引入 BRA/SCM 后是否改变训练 epoch、batch size、增强策略、阈值策略？这些都可能造成“收益来自训练细节”。
跨数据集协议要写得可检查：train/test datasets、是否同身份泄漏控制、视频抽帧策略、是否对每个视频取均值/最大/投票。
指标建议补全：AUC 之外最好同时给 EER、AP、FPR@TPR=0.95/0.99（深伪检测常被问“低误报下表现”）；视频层面给 video-level aggregation 的方法。
统计显著性：跨数据集往往方差不小，建议给 3 次 seed 的均值±方差或置信区间。

4) 消融实验：把“Focus”和“Forget”拆开打，并证明不是“换个正则/换个稀疏注意力”就行

审稿人最想看到的消融通常是：

Baseline Adapter
+AFB（仅 Focus）
+SFB（仅 Forget）
+AFB+SFB（完整）
再加两类关键替换：
BRA 替换成其他稀疏注意力/局部注意力（或简单 top-k token pruning）
SCM 替换成 patch dropout、token dropout、Cutout、DropBlock、attention dropout
并比较：跨数据集 AUC + 低误报指标 + 训练/推理开销。

5) 论证“shortcut”的证据：现在更多是叙述，建议加入更可验证的分析

你已有可视化与 t-SNE，这很好，但“shortcut”这个词容易被要求实证：

做一个 artifact suppression 实验：对测试集进行“去除/扰动频域线索、压缩痕迹、背景纹理”等控制变量，展示 baseline 掉得更厉害、你更稳。
或做 counterfactual：保持脸不变替换背景、保持背景不变替换脸；看模型输出稳定性。
解释 SCM mask 到底遮住了什么：给 mask 覆盖率统计、落在脸部关键区域的比例（可用人脸 landmark/分割粗标来统计）。

6) 写作与表述（快速可改点）

术语一致：你在摘要里写“global dense attention”，正文又写“vanilla ViT”，建议统一成“global full attention in ViT-style adapters”。
贡献点三条里第 1 条偏“分析”，第 2 条才是技术；建议把贡献写得更“可验证”，比如“提出两模块+给出理论/经验解释+显著提升跨数据集与低误报性能+小额开销”。
会议元数据目前是 MM’25/Oct 2025（如果这是模板占位可留；若要正式投稿要确认与目标 venue 一致）。

如果你希望我下一步更“像审稿意见”，我可以按 Summary / Strengths / Weaknesses / Questions / Suggestions / Rating confidence 的格式写一份；也可以直接帮你在文稿里把“训练细节、消融设计、指标定义”这些段落补齐到合适位置。

Dx's Tech Notes

Explorer