Vision-Language Connector: 視覚言語接続

概要

Vision-Language Connector は、Vision Transformer (ViT) が抽出した視覚特徴を、Large Language Model (LLM) が処理できる形式に変換する重要なモジュールである。Molmo2 では、標準的な VLM アーキテクチャ (Deitke ほか 2024年) に従い、画像とビデオの両方を統一的に処理できる設計を採用している。Connector を含めた全体構成は全体像の Molmo2 アーキテクチャ図 を参照。

アーキテクチャの詳細

多層特徴の使用

Molmo2 の Vision-Language Connector は、ViT の単一層ではなく、複数の層から特徴を抽出 する。

  • Third-to-last layer(最終層から3番目): 高レベルのセマンティック特徴
  • Ninth-from-last layer(最終層から9番目): 中レベルの特徴

この設計は、先行研究の Molmo (Deitke ほか 2024年) に従っており、異なる抽象度の視覚情報を組み合わせることで、より豊かな表現を実現している。

Attention Pooling

パッチレベルの特徴を削減するために、Attention Pooling を使用する。パッチの平均をクエリとし、各パッチ窓を単一のベクトルに集約する。

画像の場合: 2×2 Pooling

Input Patches (4×4 example):

表 1: 4×4 入力パッチの配置
Col 1 Col 2 Col 3 Col 4
Row 1 P₁ P₂ P₃ P₄
Row 2 P₅ P₆ P₇ P₈
Row 3 P₉ P₁₀ P₁₁ P₁₂
Row 4 P₁₃ P₁₄ P₁₅ P₁₆

After 2×2 Attention Pooling:

表 2: 2×2 Attention Pooling 後のトークン配置(16 → 4 トークン、1/4 に削減)
Col 1 Col 2
Row 1 T₁ (P₁~P₆) T₂ (P₃~P₈)
Row 2 T₃ (P₉~P₁₄) T₄ (P₁₁~P₁₆)

ビデオフレームの場合: 3×3 Pooling

ビデオではフレーム数が多いため、3×3 の窓 を使用してトークン数をさらに削減する。

Input Patches (9×9 example):

表 3: 9×9 入力パッチの配置
C1 C2 C3 C4 C5 C6 C7 C8 C9
R1 P₁ P₂ P₃ P₄ P₅ P₆ P₇ P₈ P₉
R2

After 3×3 Attention Pooling:

表 4: 3×3 Attention Pooling 後のトークン配置(81 → 9 トークン、1/9 に削減)
Col 1 Col 2 Col 3
Row 1 T₁ (9 patches) T₂ (9 patches) T₃ (9 patches)

Shared MLP Projection

最後に、プールされた特徴は Shared MLP によって投影される。この MLP は画像とビデオフレームで パラメータを共有 しており、統一的な視覚表現を学習する。ViT layer N-9ViT layer N-3 の特徴量を concat し、入力種別に応じた pooling(画像は 2×2、動画は 3×3)を経て、共通の MLP で視覚トークンに射影する、という一本の流れになっている。

Cropping 戦略

画像の Cropping

Molmo2 は、Multi-crop 戦略を採用している。

  • 1つのダウンスケール済み全体クロップ + 最大 K 個のオーバーラップタイルクロップ
  • トレーニング時: K = 8
  • 推論時: K = 24(高解像度処理)

K 個のクロップでタイル化できない画像は、ダウンスケールされる。すなわち、1 枚の元画像から「ダウンスケールされた全体クロップ」と「K 個のオーバーラップタイルクロップ \(C_1, C_2, \dots, C_K\)」が生成され、両方が ViT に入力される。

ノートColumn Tokens

Multi-crop 画像の場合、Column tokens を LLM への入力に含める。これにより、画像のアスペクト比情報を LLM に伝達できる。

単一クロップ画像(常に正方形)には Column tokens を含めない。

ビデオの Cropping

ビデオの場合、計算コストを削減するために以下の戦略を取る。

  • サンプリングレート: S = 2 fps(2秒ごとに1フレーム)
  • 各フレームは単一クロップとして処理(必要に応じてダウンスケール)
  • 最大フレーム数: F = 128(標準トレーニング)または F = 384(長尺コンテキストトレーニング)

ビデオ長が F/S 秒を超える場合は、F フレームを均一にサンプリングし、最終フレームは常に含める

ヒント最終フレームの特別な扱い

ビデオの 最終フレーム は常に含まれる。これは、多くのビデオプレイヤーが再生終了後に最終フレームを表示するため、ユーザーにとって特別な重要性を持つ可能性があるためである。

Bi-directional Attention

Molmo2 では、LLM が視覚トークンを処理する際に、画像トークン同士が相互に attend できる ように設計されている (Shen ほか 2024年; Gao ほか 2025年; Team ほか 2025年)

通常の LLM では、因果的マスク(causal mask)により、各トークンは自分より前のトークンにしか注意を向けられない。しかし、Molmo2 では、視覚トークンに対して bi-directional attention を許可している。

Standard Causal Attention:

表 5: 標準的な因果的アテンションマスク
T₁ T₂ T₃ T₄
T₁ × × ×
T₂ × ×
T₃ ×
T₄

Bi-directional Attention on Vision Tokens:

表 6: 視覚トークンへの Bi-directional Attention マスク(V: Vision tokens, T: Text tokens)
V₁ V₂ V₃ T₁ T₂
V₁ × ×
V₂ × ×
V₃ × ×
T₁ ×
T₂

これにより、異なるフレームや異なる画像からの視覚トークンが相互に情報を交換でき、時空間的な関係を学習できる。

重要Bi-directional Attention の効果

アブレーション研究により、視覚トークンへの Bi-directional attention が 性能を向上させる ことが確認されている。

特に、ビデオトラッキングやマルチイメージ理解など、複数のフレーム/画像間の関係を捉える必要があるタスクで有効である。

LLM への入力フォーマット

Vision-Language Connector によって生成された視覚トークンは、以下の形式で LLM に入力される。

ビデオの場合

<image_start> [Visual Tokens for Frame₁] <timestamp>0.5s</timestamp>
<image_start> [Visual Tokens for Frame₂] <timestamp>1.0s</timestamp>
...
[Subtitle text] <timestamp>0.5s-2.0s</timestamp>
  • 各フレームの視覚トークンに タイムスタンプ を付加
  • 字幕が利用可能な場合は、タイムスタンプ付きテキストとして追加

マルチイメージの場合

<image_start> [Visual Tokens for Image₁] <image>1</image>
<image_start> [Visual Tokens for Image₂] <image>2</image>
...
  • 各画像に 画像インデックス を付加

Multi-crop 画像の場合

<image_start> [Column Tokens] [Visual Tokens for Full Crop]
[Visual Tokens for Crop₁] [Visual Tokens for Crop₂] ...
  • Column tokens でアスペクト比を伝達
  • 全体クロップ + 部分クロップのトークンを結合

まとめ

Molmo2 の Vision-Language Connector は、以下の特徴を持つ。

  1. Multi-layer features: ViT の複数層(3rd-to-last, 9th-from-last)から特徴を抽出
  2. Adaptive pooling: 画像には 2×2、ビデオフレームには 3×3 の Attention Pooling
  3. Shared parameters: 画像とビデオで統一的な MLP projection
  4. Multi-crop strategy: 高解像度処理のため、最大24個のクロップを使用
  5. Efficient video processing: 2 fps サンプリング + 最終フレームの保持
  6. Bi-directional attention: 視覚トークン間の相互作用を許可(性能向上)
  7. Column tokens: Multi-crop 画像のアスペクト比情報を伝達

この設計により、Molmo2 は画像とビデオを統一的に処理しながら、計算効率と表現力のバランスを実現している。

参考文献

Deitke, Matt, Christopher Clark, Sangho Lee, ほか. 2024年. 「Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language Models」. arXiv preprint arXiv:2409.17146. https://arxiv.org/abs/2409.17146.
Gao, Mingze, Jingyu Liu, Mingda Li, ほか. 2025年. TC-LLaVA: Rethinking the Transfer from Image to Video Understanding with Temporal Considerations」. Proceedings of the AAAI Conference on Artificial Intelligence. https://arxiv.org/abs/2409.03206.
Shen, Xiaoqian, Yunyang Xiong, Changsheng Zhao, ほか. 2024年. LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding」. arXiv preprint arXiv:2410.17434. https://arxiv.org/abs/2410.17434.
Team, Gemma, Aishwarya Kamath, Johan Ferret, ほか. 2025年. Gemma 3 Technical Report」. arXiv preprint arXiv:2503.19786. https://arxiv.org/abs/2503.19786.