框架图修改

当前框架图的主要问题

这个图现在最大的问题不是“好不好看”，而是“数学语义没有闭合”。读者可能能看懂大致流程，但很难准确理解每个符号、变量和阶段之间的关系。

1. `Q/K/V` 的来源没有画清楚

图里直接出现了 Q_win、K_win、Q、V_g，但没有画出最关键的 projection 过程：

$$ Q = XW^q,\quad K = XW^k,\quad V = XW^v $$

现在图看起来更像是输入特征经过一次 Avg Pool 就直接得到 Q_win/K_win，这会误导读者，因为它既和论文公式不一致，也和代码实现不一致。

2. `Avg Pool` 的位置会误导读者

现在图里的视觉逻辑接近：

$$ X \rightarrow \text{Avg Pool} \rightarrow Q_{win}, K_{win} $$

但更准确的顺序应该是：

先做区域划分
先得到 $Q^r, K^r, V^r$
再对 $Q^r, K^r$ 做区域内平均，得到 $Q_{win}, K_{win}$

也就是说，Avg Pool 应该作用在投影后的 Q^r/K^r 上，而不是作用在原始输入特征上。

3. `S` 没有显式出现，区域划分语义缺失

虽然图里画了格子，但没有明确告诉读者：

特征图被划分成 $S \times S$ 个区域
一共有 $S^2$ 个 region
每个 region 内有 $\frac{HW}{S^2}$ 个 token
默认设置里 $S = 4$

没有 S，读者就很难一眼理解这张图表达的是“区域级 coarse routing”，而不是普通 patch-level attention。

4. `A_{win}` 和 `I_{win}` 的关系不够明确

图里虽然分别画了相似度热图和索引图，但缺少中间最关键的操作：

$$ A_{win} = Q_{win} K_{win}^T $$

以及

$$ I_{win} = \mathrm{TopKIndex}(A_{win}, k) $$

也就是说，图没有明确表现出：

先算区域间相似度矩阵
再从中做 top-$k$ 剪枝
然后得到 routing index

现在这一步在图上是断裂的。

5. `k` 没有出现，稀疏性的核心超参数丢失

这会直接削弱图示对方法贡献的表达。因为你的方法和标准注意力最大的区别之一就是：

不是看所有区域
而是只保留 top-$k$ 个最相关区域

如果图里没有 k，读者不容易第一眼意识到这是一个稀疏路由机制。

6. `Routing Weights` 的来源不够清楚

右上角黄色框是有价值的，但目前来源不明确。理论上它应该来自 top-$k$ 相似度分数经过 softmax 后的结果，即类似：

$$ W_{win} = \mathrm{Softmax}(\mathrm{TopKValue}(A_{win}, k)) $$

现在图上只有一条黑色虚线绕过去，不足以让读者准确理解这个权重是怎么来的。

7. `Token Gathering` 到底 gather 了什么，没有讲清

图里有 K_g 和 V_g，但还不够直观。容易让人看成只是把某个中间特征送进了 Sparse Attention，却不清楚：

Gather 的对象是 K/V
Q 保持当前区域的 query token
attention 只在被路由来的 K_g/V_g 上展开

最好让读者一眼看出：这是 “query region 保持自身查询，key/value 来自 top-$k$ routed regions”。

8. `Q` 的来源不明确

右下角 Q 直接进入 Sparse Attention，但没有表达出它来自当前 query region 的 token。这样会让人误以为这个 Q 是全局 query，而不是局部 query。

更严谨的标法可以是：

Q_i
Q_{local}
或者 Queries of current region

9. `LePE` 的语义不清楚

虽然底部画出了 LePE 支路和加法，但没有说明：

它是对谁做的 depth-wise convolution
是对 $V$ 做局部增强，还是对最终输出做卷积修正

论文里写的是：

$$ \mathrm{Att}(Q, K_g, V_g) = \mathrm{Softmax}\left(\frac{QK_g^T}{\sqrt{d_k}}\right)V_g + \mathrm{LePE}(V) $$

所以图里最好明确标出来：

DWConv on V
或 Local Positional Encoding on V

10. 右侧蓝色小块和最终脸图语义不明确

这部分目前更像“装饰性输出”，但没有告诉读者它们分别代表什么：

token sequence？
heads？
output features？
routed visual tokens？
focused feature map？

如果右侧脸图代表最终聚焦区域或特征响应，也应该有一句说明，不然会显得语义松散。

11. 颜色编码没有图例

图中蓝色、橙色、绿色、黑色、红色都在承担不同语义，但没有 legend，读者只能猜。

至少应让颜色在图中有稳定对应，例如：

蓝色：visual branch / gathered tokens
橙色：query branch
绿色：routing/index
红色：selected regions

12. 两阶段结构虽然画出来了，但边界语义还不够强

从布局上能感觉出左边是 coarse routing，右边是 sparse attention，但没有明确写出：

Stage 1: Region-level Routing
Stage 2: Token-level Sparse Attention

如果不直接命名，读者只能依赖上下文去猜，不利于图独立阅读。

优先修改建议

如果只优先修最重要的部分，我建议先改这 5 个点：

1. 补上 `Q/K/V` projection

在输入特征之后，明确画出：

$$ Q = XW^q,\quad K = XW^k,\quad V = XW^v $$

这样读者才能知道后面所有变量从哪里来。

2. 把 `Avg Pool` 放到 `Q^r/K^r` 之后

不要让图看起来像是对原始输入特征直接池化。应该表现为：

$$ Q^r, K^r \xrightarrow{\text{region mean}} Q_{win}, K_{win} $$

3. 明确画出 `S` 和 `k`

建议直接在图中标出：

$$ S \times S \text{ regions},\quad k\text{-nearest routed regions} $$

或者至少在分区位置标 S=4，在 routing 位置标 Top-k, k=4。

4. 在 `A_{win} \rightarrow I_{win}` 之间标出 `Top-k`

最好写成：

$$ A_{win} = Q_{win}K_{win}^T \xrightarrow{\text{Top-}k} I_{win} $$

这样图示逻辑会一下子闭合。

5. 明确 `Routing Weights` 来自 top-$k$ scores 的 softmax

可以在黄色框旁边直接标：

$$ W_{win} = \mathrm{Softmax}(\mathrm{TopKValue}(A_{win}, k)) $$

这样读者就能明白这个权重不是凭空来的，而是 routing 分数归一化后的结果。

进一步建议

如果你希望这张图不仅“能看”，而且“能独立承载方法贡献”，建议继续补这些点：

1. 明确 `Token Gathering` 的输入输出

建议在 gather 模块旁边写清楚：

$$ K_g = \mathrm{Gather}(K, I_{win}),\quad V_g = \mathrm{Gather}(V, I_{win}) $$

并在图上表达：

Q 不 gather
K/V 被 gather

2. 把 `Q` 标成局部 query

比如改成：

Q_i
Q_{local}
Query tokens of region i

避免被误解成全局 query。

3. 给 `LePE` 一个明确说明

建议标成：

DWConv(V)
LePE on V

这样读者会知道它是一个局部位置增强支路，而不是普通残差。

4. 给右侧输出一个名字

例如：

Focused visual tokens
Refined routed features
AFB output

避免右边蓝色小块和脸图显得没有定义。

5. 加一个简洁图例

如果不想让图太满，至少在图注或角落加一个简洁 legend，说明：

蓝色代表视觉 token / gathered features
橙色代表 query
绿色代表 routing/index
红色代表 selected regions

6. 直接标出两个阶段名称

建议在图上方或对应背景区域直接写：

Stage 1: Region-level Routing
Stage 2: Token-level Sparse Attention

这样即便脱离正文，读者也能明白这张图的逻辑结构。

总结

这张图的核心问题不是信息不够多，而是“最关键的数学约束没有被画出来”。当前图更像一个概念性流程示意图，但对于论文方法图来说，还需要更强的符号闭合与变量对齐。

如果修正得当，这张图应该让读者一眼看出三件事：

先做区域级相似度建图
再做 top-$k$ 稀疏路由
最后只在被选中的区域 token 上做细粒度注意力

这三点一旦在图上讲清楚，AFB 的方法贡献就会非常明确。

Dx's Tech Notes

Explorer

框架图修改

框架图修改

当前框架图的主要问题

1. `Q/K/V` 的来源没有画清楚

2. `Avg Pool` 的位置会误导读者

3. `S` 没有显式出现，区域划分语义缺失

4. `A_{win}` 和 `I_{win}` 的关系不够明确

5. `k` 没有出现，稀疏性的核心超参数丢失

6. `Routing Weights` 的来源不够清楚

7. `Token Gathering` 到底 gather 了什么，没有讲清

8. `Q` 的来源不明确

9. `LePE` 的语义不清楚

10. 右侧蓝色小块和最终脸图语义不明确

11. 颜色编码没有图例

12. 两阶段结构虽然画出来了，但边界语义还不够强

优先修改建议

1. 补上 `Q/K/V` projection

2. 把 `Avg Pool` 放到 `Q^r/K^r` 之后

3. 明确画出 `S` 和 `k`

4. 在 `A_{win} \rightarrow I_{win}` 之间标出 `Top-k`

5. 明确 `Routing Weights` 来自 top-$k$ scores 的 softmax

进一步建议

1. 明确 `Token Gathering` 的输入输出

2. 把 `Q` 标成局部 query

3. 给 `LePE` 一个明确说明

4. 给右侧输出一个名字

5. 加一个简洁图例

6. 直接标出两个阶段名称

总结

Graph View

Table of Contents

Backlinks

Dx's Tech Notes

Explorer

框架图修改

框架图修改

当前框架图的主要问题

1. Q/K/V 的来源没有画清楚

2. Avg Pool 的位置会误导读者

3. S 没有显式出现，区域划分语义缺失

4. A_{win} 和 I_{win} 的关系不够明确

5. k 没有出现，稀疏性的核心超参数丢失

6. Routing Weights 的来源不够清楚

7. Token Gathering 到底 gather 了什么，没有讲清

8. Q 的来源不明确

9. LePE 的语义不清楚

10. 右侧蓝色小块和最终脸图语义不明确

11. 颜色编码没有图例

12. 两阶段结构虽然画出来了，但边界语义还不够强

优先修改建议

1. 补上 Q/K/V projection

2. 把 Avg Pool 放到 Q^r/K^r 之后

3. 明确画出 S 和 k

4. 在 A_{win} \rightarrow I_{win} 之间标出 Top-k

5. 明确 Routing Weights 来自 top-$k$ scores 的 softmax

进一步建议

1. 明确 Token Gathering 的输入输出

2. 把 Q 标成局部 query

3. 给 LePE 一个明确说明

4. 给右侧输出一个名字

5. 加一个简洁图例

6. 直接标出两个阶段名称

总结

Graph View

Table of Contents

Backlinks

1. `Q/K/V` 的来源没有画清楚

2. `Avg Pool` 的位置会误导读者

3. `S` 没有显式出现，区域划分语义缺失

4. `A_{win}` 和 `I_{win}` 的关系不够明确

5. `k` 没有出现，稀疏性的核心超参数丢失

6. `Routing Weights` 的来源不够清楚

7. `Token Gathering` 到底 gather 了什么，没有讲清

8. `Q` 的来源不明确

9. `LePE` 的语义不清楚

1. 补上 `Q/K/V` projection

2. 把 `Avg Pool` 放到 `Q^r/K^r` 之后

3. 明确画出 `S` 和 `k`

4. 在 `A_{win} \rightarrow I_{win}` 之间标出 `Top-k`

5. 明确 `Routing Weights` 来自 top-$k$ scores 的 softmax

1. 明确 `Token Gathering` 的输入输出

2. 把 `Q` 标成局部 query

3. 给 `LePE` 一个明确说明