A Survey on Diffusion Language Models: Li et al. 2025 サーベイの俯瞰

本書は MDLM・LLaDA・MaskGIT・Block Diffusion といった主要文献を一本ずつ縦に深掘りすることで、拡散言語モデル(Diffusion Language Model, DLM)の定式化と実装の最先端を読み解く構成になっている。一方で Li らのサーベイ “A Survey on Diffusion Language Models” (Li ほか 2025年) は、同じ分野を横方向に俯瞰し、論文数の急増・主要モデルの時系列・タスク別の応用までを 1 本でまとめている。本章はこのサーベイそのものを 1 章として整理し、本書全体への地図として機能させる。サーベイを直接読まなくても、(1) どの領域がカバーされているか、(2) 既存章でどこを深掘りしているか、(3) サーベイでしか触れられていない領域はどこか、を一気に把握できる構成にしている。

サーベイの基本情報

項目 内容
タイトル A Survey on Diffusion Language Models
著者 Tianyi Li, Mingda Chen, Bowei Guo, Zhiqiang Shen
公開 arXiv:2508.10875 (2025 年 8 月)
GitHub Awesome-DLMs

サーベイの本文は 8 セクション構成で、§2 で分類体系、§3 で訓練、§4 で推論、§5 でマルチモーダル、§6 で性能比較、§7 で応用、§8 で課題と将来方向を扱う。GitHub レポジトリには対応する論文リストが整理されており、新規論文のキャッチアップにも有用である。

研究分野の規模感

サーベイの導入で強調されているのは、DLM 研究の急増である。離散拡散の foundational paper である D3PM を引用する論文のうち、タイトル / アブストラクトに “language” を含むものを「離散 DLM 関連論文」として集計すると、2024 年から 2025 年にかけて発表数が指数的に増えている。連続埋め込み拡散(continuous DLM)は早期から研究されてきたが、2024 年以降は離散拡散の方が圧倒的に活発である。

図 1: DLM 関連論文の年次推移。離散 DLM が 2024-2025 年に急増している。出典: (Li ほか 2025年)

図 1 を見れば、なぜ本書が MDLM・LLaDA など離散拡散側に章を厚く配置しているかが分かる。研究の重心が離散側に移った理由はいくつかある。第一に、MDLM が「重み付き BERT 訓練」という極めて簡潔な目的関数に集約されたこと。第二に、LLaDA が 8B スケールで AR 同サイズと同等性能を示したこと。第三に、商用クラスの Mercury や Gemini Diffusion が登場し、実用性が見えてきたことである。

主要モデルの時系列地図

サーベイは DLM のタイムラインを 3 色に分けて整理している: 連続埋め込み(continuous)、離散(discrete)、マルチモーダル(multimodal)の 3 系統である。

図 2: DLM の発展タイムライン。連続(青)、離散(橙)、マルチモーダル(紫)の 3 系統で色分け。出典: (Li ほか 2025年)

図 2 から読み取れる主要な流れは次のとおりである。

  • 2022 年以前: Diffusion-LM, SED, CDCD など連続埋め込み拡散が中心。画像拡散の枠組みを直接テキストに持ち込もうとした時代
  • 2023-2024 年: D3PM (2021) を起点に、SEDD, MDLM, MD4, RADD などの離散拡散の定式化が一気に成熟。[MASK] トークンを使う absorbing diffusion が事実上の標準に
  • 2025 年: LLaDA-8B が from-scratch で AR 同等性能を示し、Dream-7B が AR からの adaptation で competitive な結果を出す。さらに LLaDA-V / MMaDA / Dimple などマルチモーダル化が一気に進む
  • 商用化: Mercury (Inception Labs) と Gemini Diffusion (DeepMind) が実用速度(数千 tokens/秒)で出てくる

→ 詳細: Recent Discrete DLMs

→ 詳細: Multimodal DLM

サーベイの分類体系(taxonomy)

サーベイの中核は次の 4 軸での taxonomy である。

図 3: DLM の分類体系。Paradigms / Training / Inference / Multimodal & Applications の 4 軸。出典: (Li ほか 2025年)

図 3 の 4 軸を簡潔に整理する。

  • Paradigms (§2): 拡散がどの空間で起きるか。連続 / 離散 / ハイブリッド AR-Diffusion の 3 分類
  • Training Strategies (§3): pre-training(from scratch / AR adaptation / image-diffusion adaptation)と post-training(SFT, GRPO 系 RL, preference optimization)の 2 軸
  • Inference & Optimization (§4): parallel decoding, unmasking/remasking, guidance, efficiency(KV cache, feature cache, step distillation)
  • Multimodal & Applications (§5, §7): マルチモーダル DLM、conventional NLP, code generation, computational biology, robotics

本書はこの taxonomy のうち、Paradigms と Training の Pre-training を縦に深掘り(MDLM / LLaDA など)、残りを補完する形で新規章を追加している。

本書とサーベイの対応表

サーベイの各サブセクションと本書の対応章を @tbl-mapping に示す。本書を読む際の入口として、また「サーベイを読みながら本書の深掘りに飛ぶ」ための索引として使ってほしい。

表 1: サーベイの各セクションと本書の対応
サーベイのセクション 主要トピック 本書の対応章 カバレッジ
§2.1 Continuous DLMs Diffusion-LM, SED, CDCD, Plaid, TESS Embedding-space Diffusion 既存章でカバー
§2.2 Discrete DLMs D3PM, SEDD, MDLM, LLaDA, Dream, RADD, DFM, GIDD MDLM / LLaDA / D3PM and SEDD / Recent Discrete DLMs 既存 + 新章
§2.3 Hybrid AR-Diffusion SSD-LM, AR-Diffusion, BD3-LM, CtrlDiff, SpecDiff, SDAR, TiDAR, SDLM Block Diffusion / Hybrid AR-Diffusion 既存 + 新章
§3.1 Pre-training from scratch / AR adaptation / image-diffusion adaptation LLaDA / AR→DLM Adaptation 既存 + 新章
§3.2 Post-training DoT, DCoLT, diffu-GRPO, UniGRPO, VRPO 系 Post-training (RL) 新章
§4 Inference parallel decoding / KV cache / feature cache / step distillation Inference Acceleration 新章
§4.3 Guidance A-CFG, Freecache, DINGO Guidance 新章
§5 Multimodal DLMs LLaDA-V, MMaDA, Dimple, LaViDa, Fudoki, Muddit Multimodal DLM 新章
§6 Performance Study ベンチマーク横断比較 サーベイの図 6 を直接参照
§7 Applications Code, Bio, Robotics, NLP タスク群 Applications 新章
§8 Challenges parallelism trade-off, infrastructure, long-context, scalability Open Problems 既存章でカバー

リンク先のファイルはすべて本書内に存在する章である。サーベイで興味を持った領域があれば、対応章に飛ぶことで定式化や実装の細部まで踏み込める。

パラダイム 3 分類の意義

サーベイは拡散がどの空間で起きるかに基づき、連続 / 離散 / ハイブリッド AR-Diffusion の 3 分類を採用している。これは本書の overview.qmd で採用していた「絶対量子化された離散拡散」と「連続埋め込み拡散」の 2 項対立よりも、ハイブリッドという第三軸を加えている点に意義がある。

本書の overview では、現代的な DLM の中核として MDLM 起源の「[MASK] を埋める iterative refinement」を強調し、Diffusion-LM 系の連続埋め込み拡散を別系統として位置づけていた。これは MDLM/LLaDA を理解するための導入としては適切である。しかし、サーベイの 3 分類を加えることで、より広い構造が見える。

具体的には、AR と DLM は連続体として捉えるべきである、という見方が立つ。完全な AR は「ブロック長 1 で因果的」な極端ケース、完全な DLM は「全位置を同時に並列生成」する反対の極端ケースであり、Block Diffusion(BD3-LM)や SDAR, TiDAR などのハイブリッド AR-Diffusion は、その中間でブロック単位の半自己回帰を実現する。サーベイがこの 3 分類を明示することで、本書の Block Diffusion 章が単発の派生形ではなく、AR と DLM の連続体の中の一点として自然に位置づけられる。

このハイブリッド軸を意識すると、SpecDiff(speculative decoding に DLM を組み込む)や TiDAR(DLM で並列生成しつつ AR で出力)など、AR の利点と DLM の利点を組み合わせる工夫が今後増えると予想できる。サーベイで関連論文がまとまった節を持っているのはこのためである。

→ 詳細: Block Diffusion

→ 詳細: Hybrid AR-Diffusion

サーベイで強調されている重要な事実

サーベイを読み進めると繰り返し言及される、重要な観察事実を以下にまとめる。各項目は本書の対応章で詳しく扱われるが、まずサーベイの俯瞰として頭に入れておくと、個別論文を読むときの位置づけが鮮明になる。

1. 離散 DLM の方が連続 DLM より圧倒的に多い (2025 年時点)

連続埋め込み拡散は 2022 年頃の Diffusion-LM, SED から始まる初期の主流であったが、[MASK] を使う離散拡散の方が定式化が簡潔で(MDLM の重み付き BERT 損失)、かつスケールしやすい(LLaDA-8B)ことが判明し、研究の重心は離散側に移った。図 1 の傾向はこれを反映している。

2. LLaDA-8B が「from-scratch で AR 同サイズと同等」を初めて示した

それまでの DLM はベンチマークで AR に劣っていたが、LLaDA-8B (Nie ほか 2025年) が同等の事前訓練データで LLaMA3-8B と互角の性能を出した。これは「DLM は本質的に AR より弱い」という当時の暗黙の仮定を覆すマイルストーンであった。サーベイは LLaDA を分岐点として位置づけている。

3. マルチモーダル DLM が新しいフロンティア

LLaDA-V, MMaDA, Dimple, LaViDa などが 2025 年に集中して登場した。AR 系の VLM(LLaVA など)と異なり、DLM の双方向 context は cross-modal 推論や統一的な「理解 + 生成」モデルに自然に向く。サーベイの §5 が独立した章として扱われているのはこのためである。

4. 商用クラス(Mercury, Gemini Diffusion)の登場

Inception Labs の Mercury (Labs ほか 2025年) と Google DeepMind の Gemini Diffusion (Google DeepMind 2024年) が 2024-2025 年に登場し、数千 tokens/秒の推論速度を実現している。学術界の DLM がスケール 8B 程度に留まる中、商用側ではすでに実用速度のサービスが動いている点が示唆的である。

5. データ効率が AR より高い可能性

サーベイは複数の論文を引用し、DLM が multi-epoch 訓練で AR より効果的にデータを活用できる傾向を指摘している。これは ELBO の重み付け項 \(1/t\) が同じデータを異なるマスク率で繰り返し見せる効果と関係している。データが律速になりつつある現代の LLM 訓練において、これは無視できない利点である。

サーベイで言及されているが本書では深掘りしない領域

地図として機能させるため、本書が「サーベイに任せる」領域も明示しておく。

Performance Study (§6)

サーベイは GSM8K, HumanEval, MMLU など主要ベンチマークで DLM を AR と横並びで比較する図を提供している。本書ではこの種の網羅的なベンチマーク再現は扱わない(章ごとに代表的な数値は引用するが、横並び比較はサーベイの図を直接見るのが速い)。

図 4: DLM と AR の主要ベンチマークでの比較。出典: (Li ほか 2025年)

図 4 のような横断比較は、サーベイの図 6 を直接参照するのが効率的である。本書の各章では個別モデルの性能を扱うが、ベンチマーク横並びの全体像はサーベイ側に任せる。

Conventional NLP の細かいタスク群

サーベイは §7 で DiffusionNER, DiffuSum, EdiText, PoetryDiffusion, XDLM などを応用例として列挙している。本書の Applications 章では Code / Biology / Robotics を中心に扱い、conventional NLP の個別タスクへの応用は概観のみとする。タスク固有の論文を網羅したい場合はサーベイの §7 を参照されたい。

読書順の推奨

本書とサーベイをどちらから読むかで、推奨される順序が変わる。

サーベイから入る読者向け

サーベイで全体像をつかんでから、各論を本書で深掘りするパターン。

  1. サーベイの §1 (Intro), §2 (Paradigms), §8 (Challenges) を流し読み
  2. 本書の overview で本書の構成を確認
  3. 本書の MDLMLLaDA で離散拡散の定式化と最先端を理解
  4. 興味に応じて Recent Discrete DLMs, Block Diffusion, Hybrid AR-Diffusion, Multimodal DLM などに分岐
  5. サーベイの §6 (Performance) で全体性能を確認

既存章から入る読者向け

本書のメイン文献を読みながら、サーベイで周辺を補強するパターン。

  1. 本書の MDLMLLaDA で核となる定式化を押さえる
  2. 本書の 連続-離散橋渡し で連続拡散との対応関係を理解
  3. ここで本章(survey-li2025)に戻り、表 1 で「自分が読みたい領域がサーベイのどこにあるか」を確認
  4. 興味のあるサーベイの節 (§3 Training, §4 Inference, §5 Multimodal など) を読む
  5. 本書の対応章(Post-training (RL), Inference Acceleration, Multimodal DLM など)で深掘り
  6. 最後に Open Problems と サーベイの §8 で未解決問題を確認
ヒントサーベイと本書の役割分担

サーベイは幅優先(広く浅く)、本書は深さ優先(狭く深く)の役割分担になっている。サーベイ単体では各定式化の数式の意味まで踏み込まないし、本書単体では分野全体の論文網羅性は持たない。両方を併読することで、立体的に DLM 研究の全体像が見える。

サーベイは 2025 年 8 月時点での網羅を目指しているが、DLM 分野は月単位で新規論文が出ているため、最新の preprint は GitHub レポジトリ (Awesome-DLMs) で追うのが現実的である。また、サーベイは「何があるか」のリスト化に重点があり、「なぜそうなるか」の数理的説明は最小限である。MDLM の ELBO 導出や LLaDA のサンプリング戦略の細部は、本書の該当章を参照するか、原論文に当たる必要がある。

参考文献

Google DeepMind. 2024年. Gemini Diffusion. Product page. https://deepmind.google/technologies/gemini-diffusion/.
Labs, Inception, Samar Khanna, Siddhant Kharbanda, ほか. 2025年. Mercury: Ultra-Fast Language Models Based on Diffusion」. arXiv preprint arXiv:2506.17298. https://arxiv.org/abs/2506.17298.
Li, Tianyi, Mingda Chen, Bowei Guo, と Zhiqiang Shen. 2025年. 「A Survey on Diffusion Language Models」. arXiv preprint arXiv:2508.10875. https://arxiv.org/abs/2508.10875.
Nie, Shen, Fengqi Zhu, Zebin You, ほか. 2025年. 「Large Language Diffusion Models」. arXiv preprint arXiv:2502.09992. https://arxiv.org/abs/2502.09992.