框架图修改

当前框架图的主要问题

这个图现在最大的问题不是“好不好看”,而是“数学语义没有闭合”。读者可能能看懂大致流程,但很难准确理解每个符号、变量和阶段之间的关系。

1. Q/K/V 的来源没有画清楚

图里直接出现了 Q_winK_winQV_g,但没有画出最关键的 projection 过程:

$$ Q = XW^q,\quad K = XW^k,\quad V = XW^v $$

现在图看起来更像是输入特征经过一次 Avg Pool 就直接得到 Q_win/K_win,这会误导读者,因为它既和论文公式不一致,也和代码实现不一致。

2. Avg Pool 的位置会误导读者

现在图里的视觉逻辑接近:

$$ X \rightarrow \text{Avg Pool} \rightarrow Q_{win}, K_{win} $$

但更准确的顺序应该是:

  1. 先做区域划分
  2. 先得到 $Q^r, K^r, V^r$
  3. 再对 $Q^r, K^r$ 做区域内平均,得到 $Q_{win}, K_{win}$

也就是说,Avg Pool 应该作用在投影后的 Q^r/K^r 上,而不是作用在原始输入特征上。

3. S 没有显式出现,区域划分语义缺失

虽然图里画了格子,但没有明确告诉读者:

  • 特征图被划分成 $S \times S$ 个区域
  • 一共有 $S^2$ 个 region
  • 每个 region 内有 $\frac{HW}{S^2}$ 个 token
  • 默认设置里 $S = 4$

没有 S,读者就很难一眼理解这张图表达的是“区域级 coarse routing”,而不是普通 patch-level attention。

4. A_{win}I_{win} 的关系不够明确

图里虽然分别画了相似度热图和索引图,但缺少中间最关键的操作:

$$ A_{win} = Q_{win} K_{win}^T $$

以及

$$ I_{win} = \mathrm{TopKIndex}(A_{win}, k) $$

也就是说,图没有明确表现出:

  • 先算区域间相似度矩阵
  • 再从中做 top-$k$ 剪枝
  • 然后得到 routing index

现在这一步在图上是断裂的。

5. k 没有出现,稀疏性的核心超参数丢失

这会直接削弱图示对方法贡献的表达。因为你的方法和标准注意力最大的区别之一就是:

  • 不是看所有区域
  • 而是只保留 top-$k$ 个最相关区域

如果图里没有 k,读者不容易第一眼意识到这是一个稀疏路由机制。

6. Routing Weights 的来源不够清楚

右上角黄色框是有价值的,但目前来源不明确。理论上它应该来自 top-$k$ 相似度分数经过 softmax 后的结果,即类似:

$$ W_{win} = \mathrm{Softmax}(\mathrm{TopKValue}(A_{win}, k)) $$

现在图上只有一条黑色虚线绕过去,不足以让读者准确理解这个权重是怎么来的。

7. Token Gathering 到底 gather 了什么,没有讲清

图里有 K_gV_g,但还不够直观。容易让人看成只是把某个中间特征送进了 Sparse Attention,却不清楚:

  • Gather 的对象是 K/V
  • Q 保持当前区域的 query token
  • attention 只在被路由来的 K_g/V_g 上展开

最好让读者一眼看出:这是 “query region 保持自身查询,key/value 来自 top-$k$ routed regions”。

8. Q 的来源不明确

右下角 Q 直接进入 Sparse Attention,但没有表达出它来自当前 query region 的 token。这样会让人误以为这个 Q 是全局 query,而不是局部 query。

更严谨的标法可以是:

  • Q_i
  • Q_{local}
  • 或者 Queries of current region

9. LePE 的语义不清楚

虽然底部画出了 LePE 支路和加法,但没有说明:

  • 它是对谁做的 depth-wise convolution
  • 是对 $V$ 做局部增强,还是对最终输出做卷积修正

论文里写的是:

$$ \mathrm{Att}(Q, K_g, V_g) = \mathrm{Softmax}\left(\frac{QK_g^T}{\sqrt{d_k}}\right)V_g + \mathrm{LePE}(V) $$

所以图里最好明确标出来:

  • DWConv on V
  • Local Positional Encoding on V

10. 右侧蓝色小块和最终脸图语义不明确

这部分目前更像“装饰性输出”,但没有告诉读者它们分别代表什么:

  • token sequence?
  • heads?
  • output features?
  • routed visual tokens?
  • focused feature map?

如果右侧脸图代表最终聚焦区域或特征响应,也应该有一句说明,不然会显得语义松散。

11. 颜色编码没有图例

图中蓝色、橙色、绿色、黑色、红色都在承担不同语义,但没有 legend,读者只能猜。

至少应让颜色在图中有稳定对应,例如:

  • 蓝色:visual branch / gathered tokens
  • 橙色:query branch
  • 绿色:routing/index
  • 红色:selected regions

12. 两阶段结构虽然画出来了,但边界语义还不够强

从布局上能感觉出左边是 coarse routing,右边是 sparse attention,但没有明确写出:

  • Stage 1: Region-level Routing
  • Stage 2: Token-level Sparse Attention

如果不直接命名,读者只能依赖上下文去猜,不利于图独立阅读。

优先修改建议

如果只优先修最重要的部分,我建议先改这 5 个点:

1. 补上 Q/K/V projection

在输入特征之后,明确画出:

$$ Q = XW^q,\quad K = XW^k,\quad V = XW^v $$

这样读者才能知道后面所有变量从哪里来。

2. 把 Avg Pool 放到 Q^r/K^r 之后

不要让图看起来像是对原始输入特征直接池化。应该表现为:

$$ Q^r, K^r \xrightarrow{\text{region mean}} Q_{win}, K_{win} $$

3. 明确画出 Sk

建议直接在图中标出:

$$ S \times S \text{ regions},\quad k\text{-nearest routed regions} $$

或者至少在分区位置标 S=4,在 routing 位置标 Top-k, k=4

4. 在 A_{win} \rightarrow I_{win} 之间标出 Top-k

最好写成:

$$ A_{win} = Q_{win}K_{win}^T \xrightarrow{\text{Top-}k} I_{win} $$

这样图示逻辑会一下子闭合。

5. 明确 Routing Weights 来自 top-$k$ scores 的 softmax

可以在黄色框旁边直接标:

$$ W_{win} = \mathrm{Softmax}(\mathrm{TopKValue}(A_{win}, k)) $$

这样读者就能明白这个权重不是凭空来的,而是 routing 分数归一化后的结果。

进一步建议

如果你希望这张图不仅“能看”,而且“能独立承载方法贡献”,建议继续补这些点:

1. 明确 Token Gathering 的输入输出

建议在 gather 模块旁边写清楚:

$$ K_g = \mathrm{Gather}(K, I_{win}),\quad V_g = \mathrm{Gather}(V, I_{win}) $$

并在图上表达:

  • Q 不 gather
  • K/V 被 gather

2. 把 Q 标成局部 query

比如改成:

  • Q_i
  • Q_{local}
  • Query tokens of region i

避免被误解成全局 query。

3. 给 LePE 一个明确说明

建议标成:

  • DWConv(V)
  • LePE on V

这样读者会知道它是一个局部位置增强支路,而不是普通残差。

4. 给右侧输出一个名字

例如:

  • Focused visual tokens
  • Refined routed features
  • AFB output

避免右边蓝色小块和脸图显得没有定义。

5. 加一个简洁图例

如果不想让图太满,至少在图注或角落加一个简洁 legend,说明:

  • 蓝色代表视觉 token / gathered features
  • 橙色代表 query
  • 绿色代表 routing/index
  • 红色代表 selected regions

6. 直接标出两个阶段名称

建议在图上方或对应背景区域直接写:

  • Stage 1: Region-level Routing
  • Stage 2: Token-level Sparse Attention

这样即便脱离正文,读者也能明白这张图的逻辑结构。

总结

这张图的核心问题不是信息不够多,而是“最关键的数学约束没有被画出来”。当前图更像一个概念性流程示意图,但对于论文方法图来说,还需要更强的符号闭合与变量对齐。

如果修正得当,这张图应该让读者一眼看出三件事:

  1. 先做区域级相似度建图
  2. 再做 top-$k$ 稀疏路由
  3. 最后只在被选中的区域 token 上做细粒度注意力

这三点一旦在图上讲清楚,AFB 的方法贡献就会非常明确。