大家好,我简单分享一下这次 F²-Adapter rebuttal 的一些心得。我们这篇文章的审稿结果是两位 Weak Accept,三位 Borderline。整体来看,审稿人认可问题动机、框架直观性和实验结果,但主要质疑集中在三个方面:第一,方法新颖性不够,觉得像 Forensics Adapter 加 BiFormer 的 sparse attention,再加一个 curriculum masking;第二,和最相关 baseline 的提升幅度不够大;第三,对 AFB 和 SFB 的机制解释、定量验证还不够充分。

所以这次 rebuttal 我们没有简单逐条解释,而是先把所有评论归纳成几个共性问题,再用补充实验和更清晰的表述去回应。我的第一个体会是:rebuttal 最重要的不是“反驳审稿人”,而是帮审稿人降低疑虑。尤其当多个审稿人都提到同一个问题时,比如 novelty 和 improvement,就不能只在单个 reviewer response 里轻描淡写地回,而是要放在 Common Concerns 里优先回应。

第一个重点是关于 novelty。审稿人普遍认为 AFB 借鉴了 BiFormer,SFB 也像已有的 masking 或 curriculum 方法。我们在 rebuttal 里没有强行说每个模块都是全新机制,而是换了一个更稳的表述:我们的贡献不是单独发明一个 sparse attention block,而是针对 forensic adapter 的两个具体问题,设计了一条任务特定的 adaptation pathway。AFB 回答 “where to focus”,SFB 回答 “what to forget”,并且它们共同作用于 frozen CLIP branch 的适配过程。这样做的好处是既承认 inspiration,又把贡献落回到 face forgery detection 这个任务场景里。

第二个重点是关于提升幅度。KnET 和 aCJ9 都指出,相比 Forensics Adapter,原表里的平均 AUC 提升不大。这个问题只靠文字解释是不够的,所以我们补了 DF40 上缺失的 Forensics Adapter 对比。结果显示,在 DF40 六类 forgery type 上,我们的 Avg. AUC 从 Forensics Adapter 的 0.826 提升到 0.915,并且六类里五类更好。这个补充实验非常关键,因为它把“提升小”的质疑转化成了“在 cross-manipulation generalization 上有明显优势”。同时我们也没有回避原 cross-dataset 表里提升 modest,而是说明在高 AUC 区间继续提升本身更难,并强调新增参数也只是从 5.77M 到 6.97M。

第三个重点是机制验证。审稿人问 sparse attention 为什么适合 forgery,为什么 high activation 就可以代表 shortcut。我们补了三组 ablation:第一是 attention variants,对比 Local Attention、Swin Shifted Window 和我们的 AFB,证明 content-adaptive routing 比固定局部窗口更合适;第二是 region partition size,说明 S=4 最优,太粗会混入无关上下文,太细会削弱跨区域依赖;第三是 SFB 的 masked target,对比 random、low activation 和 high activation,结果 high activation masking 的 Avg. AUC 最好。这里我觉得一个很重要的写法是:不要说“所有高激活都是 shortcut”,这个说法太绝对;我们改成“高激活是 dominant response 的 practical proxy,其中一部分可能是 non-robust shortcut cues”。这样更严谨,也更容易被接受。

第四个体会是,rebuttal 里要把小问题快速、明确地解决掉。比如 aCJ9 提到 Figure 3 没标 manipulation type、Grad-CAM 来源不清楚、{1:1, 2:8, 3:15} 含义不明、Figure 1 里 V 到 KV 的示意是否正确。这些问题本身不一定致命,但会影响 reviewer 对论文完成度和可复现性的印象。所以我们逐条承诺修改:Grad-CAM 来自完整 F²-Adapter,Baseline Attn 是去掉 F2 的模型;mapping 表示 adapter block 1/2/3 分别和 CLIP visual transformer 的 1/8/15 层融合;Figure 2 和 Figure 1 的术语、caption 也会统一。

最后我总结几点这次 rebuttal 的经验。第一,先归纳共性问题,再逐个 reviewer 回应,比单纯按 reviewer 顺序写更有效。第二,对于 novelty 质疑,最好不要硬说“我们很新”,而是讲清楚“为什么这个组合在这个任务里是必要的”。第三,对于效果质疑,文字解释很弱,补实验最强。第四,对于机制假设,要用 ablation 把逻辑链补上,而且措辞要留有余地。第五,rebuttal 的语气要克制:感谢、承认合理性、给证据、说明 final version 会怎么改。

整体来说,我觉得这次 rebuttal 的核心策略就是:把审稿人的分散意见压缩成几个主要风险点,然后用新增实验、清晰定义和谨慎措辞去逐一拆解。rebuttal 不一定能彻底改变所有 reviewer 的判断,但至少要让 AC 看到:这些问题我们理解了,也确实有证据和修改方案来解决。