ML Notes — 日本語

Diffusion Language Models

Naoto Iwase — Fri, 15 May 2026 00:00:00 GMT

Diffusion Language Models（DLLM）は、画像生成で成功した拡散モデルの考え方を言語モデリングに持ち込む試みであり、近年 LLaDA や Dream といった大規模な実装例が登場している。本書は、現代的な DLLM を理解するための主要文献を整理し、定式化・サンプリング戦略・連続拡散モデルとの対応関係を体系的にまとめる。

One-Step Generation

Naoto Iwase — Wed, 11 Feb 2026 00:00:00 GMT

2025〜2026年にかけて、拡散モデルや Flow Matching の多ステップ推論を克服し、1回のネットワーク評価（1-NFE）で高品質な画像を生成する手法が急速に発展している。本シリーズでは、この分野を牽引する4つの論文をキュレートし、Flow Matching の拡張から全く新しいパラダイムまでの技術的進化を追う。

Molmo2

Naoto Iwase — Tue, 03 Feb 2026 00:00:00 GMT

Molmo2 (Multimodal Open Language Model 2) は、Allen Institute for AI (AI2) とワシントン大学が開発した完全オープンな Vision-Language Model (VLM) ファミリーである。最大の特徴は、ビデオグラウンディング（video grounding） 機能を備え、動画内の「いつ、どこで」特定のイベントや物体が発生したかを正確に指し示すことができる点である。

9つの新規データセット（完全にプロプライエタリモデルに依存せず構築）を使用し、オープンソースモデルの中で最高水準の性能を達成している。特に、ビデオポインティングとトラッキングでは、Gemini 3 Pro などのプロプライエタリモデルを上回る性能を示している。

論文: arXiv:2601.10611

コード: github.com/allenai/molmo2

Demo: playground.allenai.org

Olmo 3

Naoto Iwase — Mon, 02 Feb 2026 00:00:00 GMT

Olmo 3 は、Allen Institute for AI (AI2) が開発した 7B および 32B パラメータスケールの完全オープンな言語モデルファミリーである。このリリースは、モデルの全ライフサイクル（すべてのステージ、チェックポイント、データポイント、依存関係）を含む「モデルフロー (Model Flow)」全体を公開している。

論文: arXiv:2512.13961