Diffusion Language Models 全体像

Diffusion Language Models(DLLM)は、画像生成で成功した拡散モデルの考え方を言語モデリングに持ち込む試みである。Autoregressive(AR)LLM が左から右への逐次生成を行うのに対し、DLLM は系列全体を並列に扱い、[MASK] トークンを段階的に埋めていく iterative refinement で生成する。本書は、現代的な DLLM を理解するための主要文献を整理し、定式化・サンプリング戦略・連続拡散モデルとの対応関係を体系的にまとめる。

DLLM とは何か

AR LLM との違い

AR LLM はトークン列を \(p_\theta(x) = \prod_i p_\theta(x_i \mid x_{<i})\) と因子化し、左から右へ 1 トークンずつ生成する。一方 DLLM は、系列全体に対する分布 \(p_\theta(x)\) を「ノイズを段階的に除去する過程」として学習する。具体的には、

  • Forward 過程: クリーンな系列 \(x_0\) にノイズを徐々に加え、最終的にすべて [MASK] の系列にする
  • Reverse 過程: 全 [MASK] から始め、各ステップで [MASK] を予測して埋めていく

という構造である。AR と違い、生成順序は逐次でなく並列でよく、左右両方向の文脈を見ながら埋められる。

なぜ DLLM が注目されるか

  • 並列生成: 1 ステップで複数トークンを同時に確定できるため、推論時のステップ数を削減可能
  • 双方向の文脈利用: 各トークンの予測時に左右両方の context を見られる
  • 編集・穴埋めの自然な定式化: 任意の位置の [MASK] を埋める設定は、infilling・編集タスクに自然
  • 推論時介入の余地: ステップごとに介入できるため、guidance や制御が AR より柔軟に乗る

定式化の系譜

DLLM の主要な定式化は、masked / absorbing discrete diffusion の流れに沿って発展してきた。

flowchart LR
    MaskGIT["MaskGIT (2022)<br/>画像版・confidence unmask"]
    D3PM["D3PM (2021)<br/>離散拡散の基礎数学"]
    SEDD["SEDD (2024)<br/>concrete score / ratio matching"]
    MDLM["MDLM (2024)<br/>BERT 訓練に帰着"]
    LLaDA["LLaDA (2025)<br/>8B スケール・実用サンプラ"]
    Dream["Dream (2025)<br/>対抗モデル"]

    D3PM --> MDLM
    D3PM --> SEDD
    MDLM --> LLaDA
    MDLM --> Dream
    MaskGIT -.-> LLaDA
    MaskGIT -.-> Dream
図 1: 離散拡散言語モデルの定式化の系譜

D3PM(Austin+ 2021)が discrete diffusion の foundational な数学を提供し、MDLM(Sahoo+ 2024)がそれを「重み付き BERT 訓練」という極めて簡潔な目的関数に集約した。LLaDA(Nie+ 2025)はこの定式化を 8B パラメータにスケールし、実用的なサンプリング戦略を提示している。

→ 詳細: MDLM: Masked Diffusion Language Models

→ 詳細: LLaDA: 大規模 Masked DLM とサンプリング

MDLM の中核アイデア

MDLM の核心は、連続時間 \(t \in [0,1]\) で各トークンを独立に確率 \(t\)[MASK] に置換する forward 過程を考えると、ELBO が 重み \(1/t\) の masked cross-entropy に簡略化されることである。

\[\mathcal{L} = \mathbb{E}_{t, x_t} \left[ \frac{1}{t} \sum_i \mathbf{1}[x_t^i = \texttt{[MASK]}] \log p_\theta(x^i \mid x_t) \right]\]

これは BERT のランダムマスク予測の連続時間一般化であり、「DLLM の訓練とは何か」を 1 本の式で表現する。

→ 詳細: MDLM: Masked Diffusion Language Models

サンプリング戦略

LLaDA に代表される現代的な DLLM のサンプラは、おおむね次のループを回す。

  1. 全位置を [MASK] で初期化
  2. 各ステップで全位置に予測を出す
  3. 信頼度上位 \(k\) 個を unmask、残りはそのまま、または再マスク
  4. 全位置が確定するまで繰り返す

この confidence-based unmasking の原型は、画像生成の MaskGIT(Chang+ 2022)に遡る。低信頼度位置の再マスク(low-confidence remasking)や、ブロック単位で半自己回帰的に生成する semi-autoregressive sampling など、実用的な工夫が多数提案されている。

→ 詳細: LLaDA: 大規模 Masked DLM とサンプリング

→ 詳細: MaskGIT: Confidence-based Iterative Unmasking の源流

連続拡散モデルとの対応関係

画像系で発展した連続拡散モデル(DDPM, SBM, VP-SDE 等)と MDLM は、構造的には強く対応するが数学的対象が異なる

  • 対応する部分: forward でノイズを加えて reverse で除く構造、ELBO から損失を導出する流れ、SNR 重み付け、guidance の枠組み
  • 対応しない部分: スコア関数 \(\nabla_x \log p(x)\)、SDE / probability flow ODE、VE/VP の区別

連続拡散の知識を「型」として持っておくと MDLM の式が一発で読めるが、離散側ではスコアではなく \(x_0\)-prediction の cross-entropy で同じ目的を達成している、と理解すると良い。

→ 詳細: 連続拡散と離散拡散の橋渡し

関連する離散拡散の系譜

MDLM 以外にも離散拡散の定式化はいくつかあり、それぞれ異なる選択をしている。

  • D3PM: uniform / absorbing / discretized Gaussian など多様な遷移行列を統一的に扱う foundational な定式
  • SEDD: 確率比 \(p(y)/p(x)\)(concrete score)を学習する ratio matching ベースの定式

これらを知っておくと、MDLM の選択(absorbing transition + \(x_0\)-prediction CE)がなぜ「スコア関数を回避した」結果として簡潔になるのかが見える。

→ 詳細: D3PM と SEDD: 離散拡散の別の選択肢

分野の成熟度

DLLM は AR LLM に比べてまだ多くの領域が未確立である。

  • 訓練レシピ: mask schedule・ノイズ設計が研究中
  • サンプリング: confidence-based unmask、remasking、semi-AR など発展途上
  • 推論時介入: guidance、constrained decoding、編集系の介入など AR 側で蓄積された手法の DLLM 翻案はこれから本格化
  • 評価: DLLM 固有の評価軸(denoising step あたりの性能等)は未開拓
  • 理論: 表現力・収束性・AR との対応など初期段階

AR LLM の領域で確立された手法を DLLM へ翻案するだけでも研究テーマになる open space である。

→ 詳細: DLLM 分野の現状と未解決問題

本書の読み方

章は番号順に読むことを推奨する。各章は独立にも読めるが、定式化(01 MDLM)→ 実装の最先端(02 LLaDA)→ 連続拡散との対応関係(03)→ 離散拡散の別系統(04)→ サンプラの源流(05)→ 分野の現状(06)という流れで、抽象から具体、そして俯瞰へと積み上がっていく構成になっている。

特に最初の 3 章(01 → 02 → 03)が本書の中核である。01 で訓練の定式化、02 で推論の実装、03 で連続拡散モデルとの数理的対応をつかむことで、現代的な DLLM の全体像が立体的に見える。残りの 04〜06 は各論であり、関心に応じて取捨選択して構わない。

ヒント連続拡散の知識を既に持つ読者へ

連続拡散モデル(DDPM, SBM, VP-SDE 等)を知っているなら、01 MDLM を読みながら適宜 連続拡散と離散拡散の橋渡し を先回りして参照すると、「ああ、あの \(x_0\)-prediction の離散版ね」と即座に見える。ただし離散側ではスコアではなく cross-entropy で同じ目的を達成する点に注意。

本書は主要文献の理解を目的としており、以下は扱わない:

  • 個別実装の詳細なコードレベルの解説(公式リポジトリと論文の Appendix を参照)
  • DLLM を使った具体的アプリケーション開発の手順
  • 最新の preprint 全般のフォロー(執筆時点で公開済みの主要論文に限定)

また、本書は「分野の地図」を提供することを目的としており、各論文の網羅的なベンチマーク再現や厳密な定理証明には踏み込まない。

まず読む 3 本

主要論文・記事へのリンクは各章で個別に示すが、最初に押さえるべき 3 本を挙げておく。

  • MDLM: Sahoo et al. “Simple and Effective Masked Diffusion Language Models” arXiv:2406.07524
  • LLaDA: Nie et al. “Large Language Diffusion Models” arXiv:2502.09992
  • Sander Dieleman’s blog (sander.ai): “Diffusion language models” など、連続/離散の橋渡しに有用な俯瞰記事群