Applications: DLM の応用領域

Diffusion Language Model（DLM）は、画像生成で確立した拡散モデルの枠組みを離散系列に持ち込んだものであり、その特性 — 並列性、双方向性、iterative refinement、編集の自然さ — は、自己回帰（Autoregressive, AR）的な大規模言語モデル（Large Language Model, LLM）が苦手な領域にこそ価値を発揮する。本章では survey (Li ほか 2025年) の §7 を中核に、DLM の応用を (1) コード生成、(2) 生物学・科学、(3) ロボティクス（視覚言語行動モデル, Vision-Language-Action, VLA）、(4) 従来型の自然言語処理（Natural Language Processing, NLP）の 4 領域に大別して整理する。

応用の系譜は大きく 2 系統に分かれる。第 1 は LLaDA (Nie ほか 2025年) や Dream (Ye ほか 2025年) のような汎用 DLM を base にして fine-tuning や RL を当てる路線で、近年の VLA や code 系の主流である。第 2 は特定領域に特化した DLM を最初から訓練する路線で、protein・molecule 系がここに属する。いずれも、AR では困難な「部分制約下の生成（infilling・motif scaffolding）」「並列推論によるスループット」「iterative refinement による誤り訂正」のどれかを構造的に活用している点が共通する。

Code Generation

コードは強い構文制約と長距離依存を持ち、書き換え・補完が頻繁に発生する。自然言語の左から右への因果性とは異なり、関数定義の前に参照を書く、後続の戻り値型に合わせて関数本体を訂正する、といった非系列的な編集が本質的に必要となる。DLM の global planning と iterative refinement はこの性質に親和的で、近年は AR と互角以上のスコアを示す DLM が複数登場している。

DiffuCoder: 専用の 7B masked DLM

DiffuCoder (S. Gong ほか 2025年) は、code 生成専用に訓練された 7B の masked DLM である。論文は code 生成における DLM の挙動を体系的に分析し、次の観察を提示する。

生成順の柔軟性: 温度を上げると確定順序が左→右から外れ、より「lateral」な生成軌道が現れる。AR では温度を上げても依然として位置順は左→右で固定だが、DLM では温度が確定順序そのものを変える
coupled-GRPO: training 時に応答候補の masked noise を補完的に構成する新規サンプリング方式。同じ系列を異なる mask パターンで 2 回 forward することで、GRPO（Group Relative Policy Optimization）の variance を抑え、HumanEval や MBPP で明確な性能向上をもたらす

DiffuCoder は、DLM 専用の post-training レシピが AR の RL レシピと別物として最適化されるべきであることを示した最初の本格的な事例である。Reinforcement Learning（RL）詳細は Post-training (RL) を参照。

DCoLT: outcome-based RL による reasoning 強化

DCoLT (Huang ほか 2025年) は、reverse diffusion 過程全体を 非線形な lateral thinking とみなし、outcome-based RL（最終 reward のみを使う設定）と unmasking policy module を組み合わせる手法である。LLaDA を base に code task で HumanEval を +19.5 改善し、AR では達成困難な領域に到達している。

DCoLT の重要な含意は、DLM の RL では「どのステップで何を unmask したか」という trajectory 全体を policy として扱える点にある。AR の RL が単一の生成軌道に対する reward 帰属に苦しむのに対し、DLM では複数の中間状態を経るため、reward を iterative refinement のどの段に帰属させるかという新しい設計余地が生まれる。

DUS: inference-only の dilated unmasking

Dilated Unmasking Scheduler（DUS）(Luxembourg ほか 2025年) は、追加学習を要しない inference-only の手法である。各 denoising step における joint entropy gain の上界を最小化するように、互いに非隣接な位置を選んで unmask する。

planner-free（外部 planner ネットワークを必要としない）
code 生成で speed-quality のトレードオフを改善
DiffuCoder などの既存 DLM にそのまま乗せられる

DUS の動機は単純で、隣接する位置を同時に unmask すると相互依存が強すぎて誤りが伝播するため、相関の弱い離れた位置を同時確定するほうが entropy 的に安全という観察に基づく。

Mercury Coder: 商用クラスの DLM

Mercury Coder (Labs ほか 2025年) は Inception Labs による商用 DLM で、code 生成における DLM のスループット優位性を実証した事例である。

主要 code ベンチマーク（HumanEval, MBPP 等）で速度最適化 AR モデルを 最大 10× 上回るスループット
品質は同等レンジを維持
API として商用提供されている

Mercury は、Gemini Diffusion (Google DeepMind 2024年) や Seed Diffusion (Song ほか 2025年) と並び、DLM が研究段階から商用プロダクトへ移行した転換点を示している。特に code 系は、低レイテンシと多数の補完候補生成が直接価値になる領域であり、DLM の並列性がそのまま製品差別化に直結する。

Biological and Scientific Applications

タンパク質、DNA、低分子（small molecule）といった生体高分子は、その振る舞いが配列の局所的順序ではなく大域的な構造で決まる。motif scaffolding（特定の機能部位を埋め込んで残りを設計）、conditional folding（部分配列条件付きで残りを生成）、inverse folding（構造から配列を逆引き）といった主要タスクは、いずれも 部分観測下での残り部分の生成であり、masked DLM の infilling 定式と自然に一致する。AR がこれらを扱うときに必要となる人工的な系列順序の選択を、DLM では構造的に回避できる。

Protein language diffusion: DPLM ファミリー

DPLM (X. Wang ほか 2024年a) は、protein 配列に対する masked diffusion language model で、生成と表現学習を両立する。ESM-2 などの masked language model（MLM）ベース protein モデルが表現学習に強く、AR 型 protein モデルが生成に強いという従来の二分を、DLM が一段で統一する。

DPLM-2 (X. Wang ほか 2024年b) は DPLM の multimodal 拡張で、3D 構造座標を離散 token 化し、配列と構造の 同時生成を可能にする。

配列 → 構造（folding）
構造 → 配列（inverse folding）
配列 + 構造の co-design

これらが単一モデルの 条件付き infilling として統一される。AR では配列と構造の生成順序を人為的に決める必要があり、co-design が原理的に難しいことと対照的である。

MeMDLM (Goel ほか 2024年) は、ESM-2 を base に膜タンパク質（transmembrane protein）の de novo 設計に特化した masked DLM である。膜タンパク質特有の疎水性パターン制約を、masked diffusion の途中状態に sequence-level の条件として注入する設計になっている。

CFP-Gen (Yin ほか 2025年) は Combinatorial Functional Protein generation を扱う diffusion 言語モデルで、機能、配列、構造の複数 modality 制約を統合する。多機能タンパク質設計で高い成功率を達成し、natural protein に匹敵する活性を持つ de novo 配列を生成する。

DSM (Hallee ほか 2025年) は LLaDA の masked diffusion 定式を protein 配列に適用したもので、DPLM と同様に generation と representation の両立を狙う。LLaDA inspired の RL 後段が将来の拡張余地として明示されている。

低分子生成: TransDLM と TGM-DLM

TransDLM (Xiong ほか 2024年) は text-guided molecular optimization に取り組む。目標物性を自然言語で記述し、それを条件として既存分子を編集して目標物性を満たすよう最適化する。AR で同じことをする場合、編集箇所を特定して再生成する 2 段階手順になり誤りの伝播が起こりやすいが、DLM では masked region の同時更新でこれを回避できる。

TGM-DLM (H. Gong ほか 2024年) は SMILES 文字列の token embedding を集合的・反復的に更新する text-guided molecule generation 手法で、追加データなしで MolT5-Base を上回る生成性能を達成する。SMILES の文法制約（括弧の対応、原子の valence 等）が長距離依存として効くため、双方向的な refinement が AR より有利に働く。

RL 統合と特殊目的: DRAKES, ForceGen

DRAKES (C. Wang ほか 2025年) は離散拡散モデル向けの RL fine-tuning 手法で、Gumbel-Softmax trick で離散サンプルを通して reward を backprop する。DNA・protein design の reward（binding affinity、機能活性等）が連続値である一方、生成 token は離散であるという gap を、Gumbel-Softmax で滑らかに繋ぐ。

ForceGen (Ni ほか 2024年) は mechanical unfolding の非線形目標（最大荷重、伸び等）を満たす de novo protein を生成する。protein language diffusion を mechanical objective で条件付けし、配列空間で機械物性を直接最適化する珍しい事例である。

DLM が生物系で構造的に有利な理由

motif scaffolding（既知の活性部位を固定して残りの配列を設計）は、masked DLM では 特定位置を観測済み、他を [MASK] という初期化で自然に書ける。AR で同じことをやるには、固定部位を跨いだ生成順序を人為的に設計するか、constrained decoding を別途実装する必要がある。同様に inverse folding（構造観測 → 配列予測）も、構造を条件として配列全体を masked diffusion で復元する formulation に綺麗に乗る。

Robotics (Vision-Language-Action)

視覚言語行動モデル（Vision-Language-Action, VLA）は、視覚観測 → 言語推論 → action token 列の生成を 1 つのモデルで行う枠組みである。action は離散 token 化（gripper open/close、関節角の bin 化等）すれば言語と同様に扱え、これを LLM/VLM（Vision-Language Model）の上に乗せるのが標準的なアプローチとなっている。DLM が VLA に向く理由は次の通り。

長 horizon の future prediction が並列化可能: 数十ステップ先の action 列を一括で iterative refinement
visual subgoal、chain-of-thought（CoT）、action を同時生成: 全部を [MASK] 系列として並列に解ける
prefix attention で観測を効率処理: visual observation を prompt 側に置けば KV cache が効く
誤り訂正の機会: AR で 1 度間違えた action を取り戻せないのに対し、DLM は後段で前の action を見直して再 mask できる

LLaDA-VLA: 汎用 DLM を VLA に転用

LLaDA-VLA (Y. Wen ほか 2025年) は LLaDA を base に、VLA タスクへ fine-tuning した最初期の事例である。鍵となる工夫は次の 2 点。

Localized special-token classification: action token の語彙が言語語彙より遥かに小さいため、action 位置のみで限定語彙の分類を行う
階層的 action 構造の decoding: 高レベル action（move to / grasp 等）→ 低レベル action（具体的な関節角）の階層を iterative refinement の段階に対応付ける

シミュレーション・実機の双方で AR な VLA ベースライン（OpenVLA 等）を上回る性能を示し、汎用 DLM が VLA への有力な base になることを実証している。

dVLA: MMaDA を backbone とした multimodal joint 生成

dVLA (J. Wen ほか 2025年) は、multimodal な diffusion foundation model である MMaDA (Yang ほか 2025年) を backbone とし、visual subgoal image, textual CoT, discretized action の 3 modality を joint diffusion で同時生成する。

視覚 subgoal: 数ステップ先の予測画像
textual CoT: 行動の理由付け（“reach for cup because…”）
action: 具体的な joint command

これらを 1 つの token 列に並べ、全体を masked diffusion で生成する。prefix-attention masking と KV caching により、長 horizon な操作タスクで AR より効率的な inference を実現する。

UD-VLA: 画像と action の joint discrete diffusion

UD-VLA（Unified Diffusion VLA）(J. Chen ほか 2025年) は、将来画像 token と action token を同一の token 空間で synchronously denoise する Joint Discrete Denoising Diffusion Process を提案する。

画像 token と action token を区別せず、同じ masked diffusion で扱う
両者の相互制約（“こう動けばこう見える”）を 1 つの denoising 過程で表現
ベンチマークで SOTA、かつ AR より明確に速い inference

UD-VLA の意義は、world model（次状態予測）と policy（次行動予測）を統一する点にある。AR では world model と policy を別ヘッドにする設計が標準だが、DLM では両者を joint denoising で結びつけられる。

Conventional NLP

大規模 DLM の登場以前から、diffusion ベースの自然言語処理は分類、抽出、要約、対話、機械翻訳など広範に試されてきた。これらの大半は legacy 寄りだが、DLM の構造的利点が際立つ代表例をいくつか取り上げる。

編集系: EditText

EditText (Lee ほか 2025年) は、SDEdit ベースの controllable coarse-to-fine text editing フレームワークである。連続拡散の SDEdit が「途中ノイズから denoise を再開して画像を編集」する発想を text に持ち込み、self-conditioning と組み合わせて編集精度を高める。infilling と編集は masked DLM の本質的な得意分野であり、AR の制約付き編集（特定箇所だけ書き換え、残りを保持）よりも自然に書ける。

Planning 系: PLANNER

PLANNER (Y. Zhang ほか 2023年) は段落生成のために latent diffusion planning module と autoregressive decoder を組み合わせる。latent space で段落の意味 embedding を diffusion で生成し、それを condition として最終テキストを AR で出力する。

latent diffusion で大域的構造（“段落全体のテーマと展開”）を捉える
AR で局所的流暢性を担保
反復や redundancy を抑制

「大域 plan は diffusion、局所表現は AR」という階層的役割分担は、DLM の構造的優位を活かす一つの設計パターンとして参考になる。

制約付き生成: PoetryDiffusion

PoetryDiffusion (Hu ほか 2024年) は詩の生成において、意味と韻律（metrical structure）の同時制約を扱う。

意味は diffusion model が生成
韻律は独立に訓練された metrical controller が強制
両者を inference 時に組み合わせる

韻律制約（音節数、押韻パターン）は系列の大域構造に依存するため、AR の局所 decoding では満たしにくい。DLM の iterative refinement に外部 controller を挟む設計は、制約付き生成一般のテンプレートとして応用できる。

対話: DiffusionDialog

DiffusionDialog (J. Xiang ほか 2024年) は対話生成における one-to-many 問題（同じ context に複数の妥当な応答）を、連続 latent 上の diffusion で扱う。AR の温度サンプリングでは多様性と品質が trade-off になるのに対し、latent diffusion は多様性を latent の samplingで、品質を decoding 段で個別に制御できる。

機械翻訳: XDLM

XDLM (L. Chen ほか 2023年) は、diffusion モデル向けに cross-lingual な pre-training 目的関数を導入し、言語間 mapping を pretraining 段階で学習させる。MT における diffusion の利点は、長距離依存の捕捉と、source 全体を見ながら target 全体を refinement できる点にある。

分類・抽出系: ROIC-DM, DiffusionNER, IPAD

これらは「ラベル空間を diffuse する」という変則的な使い方の DLM である。

ROIC-DM (Yuan ほか 2024年): text classification で class label を diffuse。adversarial robustness を改善
DiffusionNER (Shen ほか 2023年): 名前付きエンティティ認識（Named Entity Recognition, NER）を 境界（boundary）の denoising として定式化。エンティティの start/end 位置をランダム noise から iterative refinement
IPAD (X. Xiang ほか 2025年): scene text recognition を条件付きテキスト生成として枠組み、easy-first decoding で認識精度と inference speed をバランス

これらは「DLM = テキスト生成」という素朴な見方を超えて、任意の構造化出力を denoising で生成するという広い視野を提供する。境界、ラベル、選択集合のように離散構造を持つ出力は、いずれも DLM の射程に入る。

その他の代表

要約系では DiffuSum (H. Zhang ほか 2023年) が抽出型要約を文表現の diffusion で扱う。これも「選択する文集合を diffuse する」という構造化出力生成の例である。

領域横断の比較

各領域における代表手法と、DLM の構造的利点が具体的にどう活きているかを次表にまとめる。

表 1: 各応用領域における代表的な DLM 手法と構造的利点

領域	代表手法	base / type	DLM の主な利点	主結果・備考
Code	DiffuCoder (S. Gong ほか 2025年)	7B masked DLM 専用	iterative refinement, 非系列編集	coupled-GRPO で HumanEval/MBPP 改善
Code	DCoLT (Huang ほか 2025年)	LLaDA base + outcome RL	軌道全体を policy 化	HumanEval +19.5 改善
Code	DUS (Luxembourg ほか 2025年)	inference-only	joint entropy 制御	speed-quality 改善、planner-free
Code	Mercury Coder (Labs ほか 2025年)	商用 DLM	並列性	AR 比 10× throughput
Bio	DPLM (X. Wang ほか 2024年a)	masked protein DLM	infilling, 表現学習 + 生成	配列生成と representation 両立
Bio	DPLM-2 (X. Wang ほか 2024年b)	DPLM の multimodal 拡張	配列 + 構造の joint	folding / inverse folding 統一
Bio	MeMDLM (Goel ほか 2024年)	ESM-2 fine-tune	領域特化	膜タンパク質 de novo 設計
Bio	CFP-Gen (Yin ほか 2025年)	multimodal protein DLM	複合制約	多機能タンパク設計で高成功率
Bio	DSM (Hallee ほか 2025年)	LLaDA inspired	生成 + representation	LLaDA 型 RL の余地
Bio	TGM-DLM (H. Gong ほか 2024年)	text-guided SMILES	集合的 token 更新	MolT5-Base 超え
Bio	TransDLM (Xiong ほか 2024年)	text-guided molecule	編集の自然さ	誤伝播回避
Bio	DRAKES (C. Wang ほか 2025年)	RL fine-tune	Gumbel-Softmax で reward backprop	DNA/protein 設計
Bio	ForceGen (Ni ほか 2024年)	protein language diffusion	非線形 mechanical 目標	de novo protein
Robotics	LLaDA-VLA (Y. Wen ほか 2025年)	LLaDA base	階層 action, 並列推論	AR VLA baseline 超え
Robotics	dVLA (J. Wen ほか 2025年)	MMaDA backbone	視覚 + CoT + action joint	prefix attn + KV cache
Robotics	UD-VLA (J. Chen ほか 2025年)	joint discrete diffusion	world model + policy 統一	SOTA, 高速 inference
NLP	EditText (Lee ほか 2025年)	SDEdit + text	infilling, 編集	coarse-to-fine 制御
NLP	PLANNER (Y. Zhang ほか 2023年)	latent diffusion + AR	大域 plan	段落生成
NLP	PoetryDiffusion (Hu ほか 2024年)	diffusion + metrical controller	制約付き生成	意味 + 韻律
NLP	DiffusionDialog (J. Xiang ほか 2024年)	latent diffusion	one-to-many 対応	対話の多様性
NLP	XDLM (L. Chen ほか 2023年)	cross-lingual diffusion	双方向文脈	機械翻訳
NLP	ROIC-DM (Yuan ほか 2024年)	label を diffuse	adversarial robustness	text classification
NLP	DiffusionNER (Shen ほか 2023年)	boundary denoising	構造化出力	NER
NLP	IPAD (X. Xiang ほか 2025年)	iterative parallel decoding	easy-first	scene text recognition
NLP	DiffuSum (H. Zhang ほか 2023年)	文選択を diffuse	選択集合の生成	抽出型要約

商用化の現況

DLM の商用展開は 2024-2025 にかけて急加速している。

Mercury Coder (Labs ほか 2025年): Inception Labs、code 特化の商用 DLM、AR 比 10× throughput
Gemini Diffusion (Google DeepMind 2024年): Google DeepMind、汎用テキスト DLM の商用提供
Seed Diffusion (Song ほか 2025年): ByteDance、code 生成向け DLM

いずれも DLM の 並列性によるスループットを製品差別化の中核に据えている点が共通する。AR LLM の inference cost が問題となるユースケース（コーディングアシスタント、リアルタイム対話、バッチ処理）で、DLM が現実的な選択肢として登場した。

商用化が code から始まった理由

code 生成は、(1) 低レイテンシ要求が強い、(2) 多数の補完候補生成が直接価値、(3) 構文制約と非系列性が DLM と相性が良い、という 3 条件を満たすため、DLM の最初の商用化領域として選ばれた。テキスト一般の生成では AR の流暢性とコスト感度のバランスが既に商用最適化されており、DLM が割り込むハードルが高い。

今後の方向性

応用領域全体に通底する未解決の課題と研究方向は次の通り。

Test-time scaling と reasoning: DLM はステップ数 \(T\) を増やすことで品質を改善できるが、reasoning task で AR の chain-of-thought に相当する iterative refinement の長期化がスケール則として効くかは未確立。DCoLT のような RL ベース手法が一つの解
編集系の標準ベンチマーク不在: infilling、fill-in-the-middle（FIM）、controllable edit は DLM の最大の構造的優位だが、AR 側で確立した HumanEval 相当の DLM 固有ベンチマークが乏しい。EditText 等の評価指標が領域標準化されることが望まれる
専用 DLM vs 汎用 DLM: protein・molecule では領域特化の専用 DLM（DPLM, TGM-DLM）が成果を出し、code・VLA では汎用 DLM（LLaDA, MMaDA）からの fine-tuning が成果を出す。どちらが長期的に伸びるかは、専用データ量と汎用 base の representation 力の競争で決まる
multimodal 拡張: DPLM-2 や UD-VLA のような multi-modality joint diffusion は始まったばかりで、image・audio・3D・action を統一する diffusion foundation model の方向に伸びる余地が大きい
RL の標準化: coupled-GRPO（DiffuCoder）、outcome-based RL（DCoLT）、Gumbel-Softmax reward backprop（DRAKES）など、DLM 向け RL は各論文ごとに異なる。AR の RLHF / GRPO に相当する DLM 標準 RL レシピの確立が待たれる

参考文献

Chen, Jian, Wei Song, Pu Ding, ほか. 2025年. 「Unified Diffusion VLA: Vision-Language-Action Model via Joint Discrete Denoising Diffusion Process」. arXiv preprint arXiv:2511.01718. https://arxiv.org/abs/2511.01718.

Chen, Linyao, Aosong Feng, Boming Yang, と Zihui Li. 2023年. 「XDLM: Cross-lingual Diffusion Language Model for Machine Translation」. arXiv preprint arXiv:2307.13560. https://arxiv.org/abs/2307.13560.

Goel, Shrey, Vishrut Thoutam, Edgar Marroquin, ほか. 2024年. 「MeMDLM: De Novo Membrane Protein Design with Masked Discrete Diffusion Protein Language Models」. NeurIPS 2024 Workshop on AI for New Drug Modalities. https://arxiv.org/abs/2410.16735.

Gong, Haisong, Qiang Liu, Shu Wu, と Liang Wang. 2024年. 「Text-guided Molecule Generation with Diffusion Language Model」. Proceedings of the AAAI Conference on Artificial Intelligence. https://arxiv.org/abs/2402.13643.

Gong, Shansan, Ruixiang Zhang, Huangjie Zheng, ほか. 2025年. 「DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation」. arXiv preprint arXiv:2506.20639. https://arxiv.org/abs/2506.20639.

Google DeepMind. 2024年. Gemini Diffusion. Product page. https://deepmind.google/technologies/gemini-diffusion/.

Hallee, Logan, Nikolaos Rafailidis, David Bichara, と Jason P. Gleghorn. 2025年. 「Diffusion Sequence Models for Enhanced Protein Representation and Generation」. arXiv preprint arXiv:2506.08293. https://arxiv.org/abs/2506.08293.

Hu, Zhiyuan, Chumin Liu, Yue Feng, Anh Tuan Luu, と Bryan Hooi. 2024年. 「PoetryDiffusion: Towards Joint Semantic and Metrical Manipulation in Poetry Generation」. Proceedings of the AAAI Conference on Artificial Intelligence. https://arxiv.org/abs/2306.08456.

Huang, Zemin, Zhiyang Chen, Zijun Wang, Tiancheng Li, と Guo-Jun Qi. 2025年. 「Reinforcing the Diffusion Chain of Lateral Thought with Diffusion Language Models」. arXiv preprint arXiv:2505.10446. https://arxiv.org/abs/2505.10446.

Labs, Inception, Samar Khanna, Siddhant Kharbanda, ほか. 2025年. 「Mercury: Ultra-Fast Language Models Based on Diffusion」. arXiv preprint arXiv:2506.17298. https://arxiv.org/abs/2506.17298.

Lee, Che Hyun, Heeseung Kim, Jiheum Yeom, と Sungroh Yoon. 2025年. 「EditText: Controllable Coarse-to-Fine Text Editing with Diffusion Language Models」. arXiv preprint arXiv:2502.19765. https://arxiv.org/abs/2502.19765.

Li, Tianyi, Mingda Chen, Bowei Guo, と Zhiqiang Shen. 2025年. 「A Survey on Diffusion Language Models」. arXiv preprint arXiv:2508.10875. https://arxiv.org/abs/2508.10875.

Luxembourg, Omer, Haim Permuter, と Eliya Nachmani. 2025年. 「Plan for Speed: Dilated Scheduling for Masked Diffusion Language Models」. arXiv preprint arXiv:2506.19037. https://arxiv.org/abs/2506.19037.

Ni, Bo, David L. Kaplan, と Markus J. Buehler. 2024年. 「ForceGen: End-to-end de Novo Protein Generation based on Nonlinear Mechanical Unfolding Responses using a Language Diffusion Model」. Science Advances 10 (6): eadl4000. https://www.science.org/doi/10.1126/sciadv.adl4000.

Nie, Shen, Fengqi Zhu, Zebin You, ほか. 2025年. 「Large Language Diffusion Models」. arXiv preprint arXiv:2502.09992. https://arxiv.org/abs/2502.09992.

Shen, Yongliang, Kaitao Song, Xu Tan, Dongsheng Li, Weiming Lu, と Yueting Zhuang. 2023年. 「DiffusionNER: Boundary Diffusion for Named Entity Recognition」. Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics. https://arxiv.org/abs/2305.13298.

Song, Yuxuan, Zheng Zhang, Cheng Luo, ほか. 2025年. 「Seed Diffusion: A Large-Scale Diffusion Language Model with High-Speed Inference」. arXiv preprint arXiv:2508.02193. https://arxiv.org/abs/2508.02193.

Wang, Chenyu, Masatoshi Uehara, Yichun He, ほか. 2025年. 「Fine-tuning Discrete Diffusion Models via Reward Optimization with Applications to DNA and Protein Design」. International Conference on Learning Representations. https://arxiv.org/abs/2410.13643.

Wang, Xinyou, Zaixiang Zheng, Fei Ye, Dongyu Xue, Shujian Huang, と Quanquan Gu. 2024年a. 「Diffusion Language Models are Versatile Protein Learners」. International Conference on Machine Learning. https://arxiv.org/abs/2402.18567.

Wang, Xinyou, Zaixiang Zheng, Fei Ye, Dongyu Xue, Shujian Huang, と Quanquan Gu. 2024年b. 「DPLM-2: A Multimodal Diffusion Protein Language Model」. arXiv preprint arXiv:2410.13782. https://arxiv.org/abs/2410.13782.

Wen, Junjie, Min Zhu, Jiaqi Liu, ほか. 2025年. 「dVLA: Diffusion Vision-Language-Action Model with Multimodal Chain-of-Thought」. arXiv preprint arXiv:2509.25681. https://arxiv.org/abs/2509.25681.

Wen, Yuqi, Hao Li, K. Gu, Yiwen Zhao, Tao Wang, と Mingxiu Sun. 2025年. 「LLaDA-VLA: Vision Language Diffusion Action Models」. arXiv preprint arXiv:2509.06932. https://arxiv.org/abs/2509.06932.

Xiang, Jianxiang, Zhenhua Liu, Haodong Liu, Yin Bai, Jun Cheng, と Wentao Chen. 2024年. 「DiffusionDialog: A Diffusion Model for Diverse Dialog Generation with Latent Space」. LREC-COLING 2024. https://arxiv.org/abs/2404.06760.

Xiang, Xun, Zhaoqi Qiao, Xun Xu, と Yu Zhou. 2025年. 「IPAD: Iterative, Parallel, and Diffusion-based Network for Scene Text Recognition」. International Journal of Computer Vision. https://arxiv.org/abs/2312.11923.

Xiong, Yida, Kun Li, Jiawei Zhang, Dan Lin, Yan Che, と Wenhu Hu. 2024年. 「Text-Guided Multi-Property Molecular Optimization with a Diffusion Language Model」. arXiv preprint arXiv:2410.13597. https://arxiv.org/abs/2410.13597.

Yang, Ling, Ye Tian, Bowen Li, ほか. 2025年. 「MMaDA: Multimodal Large Diffusion Language Models」. arXiv preprint arXiv:2505.15809. https://arxiv.org/abs/2505.15809.

Ye, Jiacheng ほか. 2025年. 「Dream: Diffusion Language Models」. arXiv preprint.

Yin, Junbo, Chao Zha, Wenjia He, Chencheng Xu, と Xin Gao. 2025年. 「CFP-Gen: Combinatorial Functional Protein Generation via Diffusion Language Models」. International Conference on Machine Learning. https://arxiv.org/abs/2505.22869.

Yuan, Shilong, Wei Yuan, Hongzhi Yin, と Tieke He. 2024年. 「ROIC-DM: Robust Text Inference and Classification via Diffusion Model」. arXiv preprint arXiv:2401.03514. https://arxiv.org/abs/2401.03514.

Zhang, Haopeng, Xiao Liu, と Jiawei Zhang. 2023年. 「DiffuSum: Generation Enhanced Extractive Summarization with Diffusion」. Findings of the Association for Computational Linguistics: ACL 2023. https://arxiv.org/abs/2305.01735.

Zhang, Yizhe, Jiatao Gu, Zhuofeng Wu, Shuangfei Zhai, Joshua M. Susskind, と Navdeep Jaitly. 2023年. 「PLANNER: Generating Diversified Paragraph via Latent Language Diffusion Model」. Advances in Neural Information Processing Systems. https://arxiv.org/abs/2306.02531.