fa

原论文使用的是标准的 TinyViT 1。虽然轻量，但并未针对“高频伪造痕迹”做特殊设计。

引入频率域信息 (Frequency-aware Adapter)
- 痛点：论文目前的 Adapter 是纯 RGB 空间的 2。但众所周知，Deepfake 在频域（如 DCT、傅里叶变换）中往往比 RGB 域更容易暴露（如 F3Net, SPSL 3）。
- 改进灵感：
  - 在 BRA 模块之前或并行位置，加入一个 FFT (快速傅里叶变换) 分支 或 小波变换 (Wavelet) 模块。
  - 具体做法：将 Patch 做 FFT，提取幅值谱（Amplitude Spectrum），将频域 Token 与 RGB Token 进行融合。这能让 Adapter 不仅看到“边界”，还能看到“频谱伪影”。
- 参考：“Thinking in Frequency” (CVPR), “Frequency-aware ViT”.
多尺度/金字塔结构 (Multi-scale / Pyramidal Feature)
- 痛点：FA 采用了固定的 Patch Size (16x16) 4。然而，伪造区域的大小是不定的，有时是整个面部置换，有时只是嘴唇微调（Lip-sync）。单一尺度可能无法同时捕捉细微瑕疵和全局不一致。
- 改进灵感：
  - 借鉴 Swin Transformer 或 PVT (Pyramid Vision Transformer) 的思路，在 Adapter 内部引入多阶段下采样。
  - 或者简单点，使用 Dilated Attention (空洞注意力) 或大小不同的卷积核（Inception style）来提取多感受野特征，再送入你的 BRA 模块。

原论文的交互方式非常简单粗暴：Adapter 算出一个 Attention Bias ($\Delta$)，直接加到 CLIP 的 Attention Map 上 555。

可变形注意力交互 (Deformable Interaction)
- 痛点：Bias 矩阵是固定的 grid 形式。如果伪造痕迹发生了几何形变（Face Warping），固定网格的对齐效果可能受限。
- 改进灵感：
  - 利用 Deformable Attention (DAT, CVPR 2022) 的思想。让 Adapter 生成的不仅是 Bias，而是生成一组 Offset (偏移量)。
  - 具体做法：用 Adapter 指导 CLIP 的 Value 采样位置，让 CLIP 的 Attention 动态地“形变”去聚焦于伪造边界，而不仅仅是加一个权重。
Cross-Attention 显式查询
- 痛点：目前的 Add 操作 6 是一种隐式融合。
- 改进灵感：
  - 在 Adapter 和 CLIP 之间建立一个 Cross-Attention 层。
  - 将 Adapter 提取的高级伪造特征作为 Query，将 CLIP 的特征作为 Key/Value。这样可以更主动地从 CLIP 丰富的语义库中提取与伪造相关的特征，而不是被动地把知识“塞”给 CLIP。

原论文在 4.3 节的实验中得出结论：加入文本模态（使用 CoOp）反而降低了性能 7，认为文本引入了噪声。我认为这不仅是一个结论，更是一个巨大的改进机会。

细粒度语义提示 (Fine-grained Semantic Prompting)
- 分析：原论文失败的原因可能在于 Prompt 太简单（可能是 “A photo of a fake face” vs “A photo of a real face”）。这种全局标签无法对应局部的伪造痕迹。
- 改进灵感：
  - 参考 Visual Prompt Tuning (VPT) 或 BLIP 的思路。
  - 构建细粒度的 Prompt 集合，例如：“Inconsistent eye reflection”（眼睛反光不一致）, “Blurry boundary”（边界模糊）, “Unnatural lip movement”（嘴唇运动不自然）。
  - 具体做法：设计一组 Learnable Prompts，让 Adapter 不仅输出视觉 Mask，还要预测当前图片符合哪种“文本描述”。利用 CLIP 强大的图文对齐能力，如果一张图在 Embedding 空间更接近 “Blurry boundary” 的文本特征，则判定为假。这将把 Deepfake 检测变成一个 VQA (Visual Question Answering) 风格的任务。

原论文用了三个 Loss：分类 ($\mathcal{L}_0$)、边界重建 ($\mathcal{L}_1$)、对比学习 ($\mathcal{L}_2, \mathcal{L}_3$) 8。

掩码图像建模 (Masked Image Modeling, MIM)
- 灵感：参考 MAE (Masked Autoencoders) 或 SimMIM。
- 改进：在 Adapter 的训练中加入 MIM 任务。随机 Mask 掉一部分图像（特别是伪造边界区域），强迫 Adapter 还原被遮挡的像素。
- 逻辑：如果模型能很好地还原出“真实”的纹理，说明它理解了什么是“真”；如果它还原出了伪造的伪影，说明它捕获了伪造模式。这可以作为一个辅助 Loss。
难样本挖掘 (Hard Negative Mining)
- 灵感：Deepfake 中有很多“高频难样本”（即做得非常逼真的区域）。
- 改进：在 $\mathcal{L}_2$ (Patch-wise Contrastive Learning) 9 中引入动态权重。对于那些模型预测置信度高但错误的 Patch（即 Hard Examples），给予更高的 Loss 惩罚，迫使 BRA 模块去处理这些边缘情况。

—— 交互模块改进。替换简单的 add 融合。

痛点诊断：现在的融合方式是 x = x + clip_x (Add) 或者 CrossAttention。
- Add 太简单粗暴：CLIP 的 1024 个通道里，可能只有 10 个通道跟伪造检测有关（比如纹理通道），其他 1000 个通道都是干扰项（比如背景颜色）。直接相加会引入噪声。
- CrossAttention 太重，显存占用大。
改进思路：在融合之前，加一个 SE-Block (Squeeze-and-Excitation) 或者 Gate 机制。让 Adapter 自己决定：“CLIP 的这 1024 个通道里，哪几个对我重要？”然后给重要的通道加权，不重要的抑制。
创新点话术： “Adaptive Feature Selection”（自适应特征选择）或 “Gated Fusion Mechanism”（门控融合机制）。

DX's Digital Garden