Small Recursive Reasoning Models: HRM・TRM・GRAM の系譜と現在地

大規模言語モデル（Large Language Model, LLM）の chain-of-thought（思考連鎖, CoT）が reasoning の主流である一方、2025 年から 2026 年にかけて、まったく別系統の reasoning model 群が脚光を浴びている。Hierarchical Reasoning Model（HRM）、Tiny Recursive Model（TRM）、Probabilistic Tiny Recursive Model（PTRM）、Generative Recursive reAsoning Models（GRAM）、Lattice Deduction Transformers（LDT）の 5 論文はいずれも、数百万から数千万パラメータの小規模ニューラルネットを test-time に深く再帰展開して reasoning を実行する。千例規模の学習データで Sudoku や Abstraction and Reasoning Corpus for Artificial General Intelligence（ARC-AGI）を解き、特定タスクでは 671B parameters の Frontier LLM を上回ったと主張する。本書はこの recursive reasoning model という研究プログラムを、技術的中身・前史・評価・批判のすべての面から立体的に把握することを目的とする。

本書の中心問い

本書を貫く 4 つの問いを最初に置く。

Q1: CoT による sequential token scaling 以外に、test-time compute を投資する道はあるか。あるとして、その道は CoT の代替なのか補完なのか。

Q2: 「reasoning architecture」と呼ばれる構造の何が本質的に効くのか。脳の階層性、fixed-point 近似、adaptive halting、deep supervision、recursion のどれが load-bearing で、どれが装飾的説明にすぎないか。

Q3: 27M parameters の HRM や 7M parameters の TRM が、671B parameters の DeepSeek-R1 を ARC-AGI で上回る現象が報告されているが、これは何を意味するのか。アーキテクチャの勝利か、ベンチマークの偏りか、test-time の工夫の積み重ねか。

Q4: latent state 上で完結する reasoning は、自然言語 trace を生成する CoT 型の reasoning と何が違うのか。表現力・効率・解釈性・汎用性のどこにトレードオフがあるか。

主要モデル

本書は次の 5 論文を主要モデルとして扱う。それぞれ独立した章で数式・実験結果・批判を網羅する。HRM が 2025 年 6 月にこの研究プログラムを始動させ、TRM が 2025 年 10 月にその物語を ablation で剥がし、PTRM・GRAM・LDT の 3 論文が 2026 年 5 月に TRM の最小核から異なる方向に分岐した、というのが時系列上の位置関係である。本書では TRM への介入の規模が小さい順に PTRM・GRAM・LDT を並べる。

HRM (Hierarchical Reasoning Model) (Wang ほか 2025年): Sapient Intelligence と Tsinghua University が 2025 年 6 月に発表。脳の slow/fast 階層に着想を得た高レベル module \(f_H\) と低レベル module \(f_L\) の二重再帰、Deep Equilibrium Model（DEQ）由来の 1-step gradient、Q-learning ベースの adaptive halting を統合し、27M parameters・1000 サンプル訓練で ARC-AGI-1 公開評価セット 40.3 % を達成したと主張。

→ 詳細: HRM

TRM (Tiny Recursive Model) (Jolicoeur-Martineau 2025年): Samsung SAIL Montréal の Alexia Jolicoeur-Martineau が 2025 年 10 月に単著で発表。HRM の階層構造・fixed-point 近似・脳の物語を ablation で順次否定し、2 層・7M parameters・full backpropagation through time（BPTT）の単一ニューラルネットで HRM を上回る性能（ARC-AGI-1 で 44.6 %, ARC-AGI-2 で 7.8 %）を示した。ARC Prize 2025 Paper Award 1 位。

→ 詳細: TRM

PTRM (Probabilistic Tiny Recursive Model) (Sghaier ほか 2026年): Mila Québec AI Institute・ETS Montreal の Sghaier、Parviz と独立研究者の Jolicoeur-Martineau（TRM の原著者）による 2026 年 5 月の論文。学習済 TRM checkpoint をそのまま使い、各 deep recursion step で latent に Gaussian noise を加える test-time の procedure で並列軌道を探索する。TRM が既に持つ Q head を verifier として再利用するため再学習も task-specific augmentation も要らず、Sudoku-Extreme で 87.4 % → 98.75 %、Pencil Puzzle Bench で 62.6 % → 91.2 % に押し上げる。同時期に独立に attractor landscape 仮説に到達した Efstathiou & Balwani (Efstathiou と Balwani 2026年) と並読すると、機構解釈と工学解の両側から TRM の決定論的限界が解体される構造が見える。

→ 詳細: PTRM

GRAM (Generative Recursive Reasoning) (Baek ほか 2026年): KAIST、New York University、Mila の Baek、Jo、Kim、Ren、Bengio、Ahn による 2026 年 5 月の論文（ICLR 2026 Workshop on AI with Recursive Self-Improvement）。HRM/TRM の決定論的 latent transition に Gaussian な確率項を加え、amortized variational inference で訓練する。depth × parallel trajectory の 2 軸 test-time scaling と unconditional generation を同一モデルで獲得。Sudoku-Extreme で 97.0 %、ARC-AGI-1 で 52.0 % を達成。PTRM が test-time 介入だけで対処したのに対し、GRAM は学習段階の確率化により unconditional generation という追加能力も得ている。

→ 詳細: GRAM

LDT (Lattice Deduction Transformers) (Davis ほか 2026年): Amherst College の Davis、Axiom（商業数学 AI 企業）の Haller・Alfarano、Barnard/Columbia の Santolucito による 2026 年 5 月の論文。再帰型 Transformer の latent state を forward pass の間に abstract interpretation の lattice（Cousot & Cousot 1977） に投影し、解を出すか abstain するかの empirical soundness を獲得する。系譜は HRM → TRM → Sotaku（個人実装、800K で Sudoku-Extreme 98.9 %）→ LDT で、HRM/TRM/PTRM/GRAM の「approximate refinement」系統に対して独立な「sound deduction」系統に位置する。800K parameters で Sudoku-Extreme と Snowflake Sudoku を 100 % / 100 %、1.8M で Maze-Hard を 99.9 % 解き、全 Frontier LLM（Claude Opus 4.6、DeepSeek V4-Pro 1.6T、GPT-5.4）は 0 %。

→ 詳細: LDT

補助章 4 つと取り掛かりの 2 章

これら 5 論文だけでは「なぜ突然このアプローチが台頭したのか」「他の latent reasoning とは何が違うのか」「CoT と比べてどう優劣を見るべきか」「ベンチマーク上の本当の現在地はどこか」が見えない。次の 4 章でその空白を埋める。さらに最後に、論文を読んだ次に研究を起こす視点から、実装ガイドと未解決問題の 2 章を置く。

Depth recurrence の系譜: HRM の技術部品は 2016 年から 2021 年にかけて出揃っていた。Adaptive Computation Time（ACT, 2016）、Universal Transformer（2018）、Deep Equilibrium Models（DEQ, 2019）、PonderNet（2021）、Looped Transformers（2023–2024）、Geiping らによる Recurrent Depth in LLMs（2025）という系列で、HRM が本当に novel だったのは何かを位置付ける。

→ 詳細: Depth recurrence の系譜

Latent reasoning の分類: Coconut (Hao ほか 2025年)、Pause Tokens (Goyal ほか 2024年)、Quiet-STaR (Zelikman ほか 2024年)、Diffusion-of-Thought (Ye ほか 2024年)、Soft Thinking (Zhang ほか 2025年) など、「離散トークン列を介さない reasoning」は近年急速に体系化が進んだ。サーベイ (Zhu ほか 2025年) の分類軸を用いて、HRM/TRM/GRAM がこの広大な研究領域のどこに位置するかを示す。

→ 詳細: Latent reasoning の分類

Depth vs Token Scaling: OpenAI o1 や DeepSeek-R1 (DeepSeek-AI ほか 2025年) が確立した「thinking token を長く吐く」CoT scaling と、HRM/TRM/GRAM が示す「同じ層を深く再帰する」recurrent depth scaling は、test-time compute の異なる使い方を提案する。Snell ら (Snell ほか 2024年) の compute-optimal、Brown ら (Brown ほか 2024年) の log-linear coverage と並べて、両者の使い分けを論じる。

→ 詳細: Depth vs Token Scaling

ARC-AGI と小規模モデル: HRM/TRM が主戦場とする ARC-AGI は 2025 年から 2026 年にかけて大きく動いた。ARC Prize 2024 (Chollet ほか 2024年) と 2025 (Chollet ほか 2026年) の優勝手法、Test-Time Training（TTT）の有効性 (Akyürek ほか 2024年)、ARC-AGI-2/3 の登場、Frontier LLM の追い上げを整理し、HRM/TRM 系の現在地と限界を見極める。

→ 詳細: ARC-AGI と小規模モデル

実装ガイド: 主要 5 論文と前駆実装 Sotaku について、公式リポジトリ・ライセンス・必要な GPU・データ取得・落とし穴を 1 か所にまとめる。pip install で 30 分の最短経路から、論文値再現の 1 日経路、PTRM 自前実装の 1 週間経路まで、研究者が実際に手を動かすための取り掛かりを提供する。

→ 詳細: 実装ガイド

未解決問題: 本書の各章末に散在する「限界」「future work」を 9 つの open problem に整理する。CoT との adaptive allocation、verifier の天井問題、latent state の解釈性、open-domain への汎化、abstract domain の自動設計、train→test compute substitution、scaling law、ベンチマーク選定バイアス、AGI への道といった問題について、現状の到達点と取り掛かりの第一歩を示す。

→ 詳細: 未解決問題

本書を貫く 6 つの観察

章ごとに細部を見るだけでは読み落とす横断的なパターンを、最初に提示しておく。

観察 1: 系譜の長さ。 HRM の技術部品（depth-wise recurrence、weight-tied transformer、implicit differentiation、adaptive halting）は 2016 年から 2021 年にかけてほぼ出揃っていた。HRM/TRM/GRAM は突然の発明ではなく、長い depth recurrence 系統の合流点に立つ。「アーキテクチャ的に novel」と論じるときは、その novel が部品なのか組み合わせなのかレジームなのかを区別する必要がある。

観察 2: 物語の剥がれ。 HRM は「脳の階層構造」「fixed-point 近似」「adaptive halting」という 3 つの主張を装飾として持っていた。TRM の ablation はこの 3 つを順次外しても性能が改善することを示し、ARC Prize Foundation の独立検証は階層が 5 pp 程度しか効かないと指摘した。実証的検証は装飾的説明と本質的機構を分離する。本書はこの作業を主要 5 論文すべてに対して行う。

観察 3: depth と width の双対性。 PTRM が PPBench で「\(K=100\) 並列 rollout が depth 倍化を 4 倍上回る」と定量化した観察と、GRAM が示した「Sudoku-Extreme で \(N=20, K=16\) の並列軌道集約が \(K=320\) の深い decoder を超える」という結果は、test-time compute 配分論として重要な実例である。CoT 側の Best-of-N と recursion 深さの関係を考える上で、両者は独立な scaling 軸として扱える可能性がある。

観察 4: 解釈性と soundness のトレードオフ。 CoT の自然言語 trace は人間が読めて verifier も挟みやすい。一方、HRM/TRM/PTRM/GRAM の latent state は人間には可視ではない。これは「reasoning の構造を trace から読む」系列の研究手法（attribution graph、prefix consensus、faithfulness 分析）が直接適用できないことを意味する。PTRM は学習済 TRM の Q head が「事実上の verifier」として機能することを発見し、latent のままで verifier 統合を実現した。LDT はさらに踏み込み「latent を lattice に投影することで解釈可能にする」方向で攻め、解か abstain かの empirical soundness を獲得している。recursive reasoning の解釈性は単一の答えがある問題ではなく、設計判断ごとに別の軸が立ち上がる新カテゴリである。

観察 5: 評価ベンチマークへの依存性。 HRM/TRM/PTRM/GRAM が圧倒する Sudoku、Maze、ARC-AGI はいずれも格子状の構造化出力を持つタスクで、訓練時に puzzle 識別子による条件付けが許される。それ以外の reasoning タスク（HLE、FrontierMath、open-domain QA など）への汎化は未検証である。「小規模モデルが Frontier LLM を上回る」というナラティブを評価するには、ベンチマークの選定バイアスを明示的に意識する必要がある。本書執筆時点で PTRM は Pencil Puzzle Bench という別の verifier 装備の benchmark でも 91.2 % を出すことを示しているが、これも依然「閉じた constraint satisfaction」のスコープであり、open-domain reasoning との橋渡しは未解決のまま残されている。

観察 6: 確率化と sound deduction の直交分岐。 TRM の決定論的最小核から派生する 3 系統が 2026 年に出揃った。PTRM は test-time にだけ noise を流し学習済 TRM をそのまま使う最小介入である。GRAM は train-time に確率項を学習し variational に訓練することで unconditional generation も同一モデルで獲得する。LDT は確率性ではなく abstract interpretation の lattice projection を加え sound deduction を獲得する。三者は同じ問題（TRM の単一決定論的軌道の限界）に対する独立した工学解として並走しており、いずれが優位かは task の性質（複数解 CSP、verifier 装備、logical structure の明確さ等）で大きく変わる。

前提知識

Transformer と attention の基本、CoT と test-time scaling の概念、変分推論（Variational Inference, VI; GRAM の章で必要）、fixed-point iteration（HRM の章で深掘り）を仮定する。Adaptive Computation Time（ACT）と Deep Equilibrium Models（DEQ）の概要は本書の系譜章で扱うため事前知識は不要。

本書が扱わないこと

LLM の Reinforcement Learning from Verifiable Rewards（RLVR）や Process Reward Model（PRM）の詳細: 本書はこれらを LLM 側の話題として外し、recursive reasoning model 内の対応物（HRM の Q-head、GRAM の Latent PRM）に焦点を絞る。
Diffusion Language Model（DLLM）の基本定式: GRAM の variational latent trajectory は diffusion と数学的に類縁だが、本書では recursive reasoning 文脈での挙動のみを扱う。
ARC-AGI の競技史の網羅: 関連する範囲（HRM/TRM が比較対象とする手法）に絞る。
脳科学的妥当性の評価: HRM が引用する hierarchical processing や theta-gamma coupling の神経科学的根拠は、本書では「論文が引用しているもの」として記述するに留め、その妥当性自体を評価しない。
推論最適化の深掘り: 各モデルの公式リポジトリ・必要な計算資源・落とし穴は実装ガイドで扱う。一方、kernel-level 最適化や量子化のような低レイヤの実装最適化は対象外。

参考文献

Akyürek, Ekin, Mehul Damani, Adam Zweiger, ほか. 2024年. 「The Surprising Effectiveness of Test-Time Training for Few-Shot Learning」. arXiv preprint arXiv:2411.07279. https://arxiv.org/abs/2411.07279.

Baek, Junyeob, Mingyu Jo, Minsu Kim, Mengye Ren, Yoshua Bengio, と Sungjin Ahn. 2026年. 「Generative Recursive Reasoning」. arXiv preprint arXiv:2605.19376. https://arxiv.org/abs/2605.19376.

Brown, Bradley, Jordan Juravsky, Ryan Ehrlich, ほか. 2024年. 「Large Language Monkeys: Scaling Inference Compute with Repeated Sampling」. arXiv preprint arXiv:2407.21787. https://arxiv.org/abs/2407.21787.

Chollet, François, Mike Knoop, Gregory Kamradt, と Bryan Landers. 2024年. 「ARC Prize 2024: Technical Report」. arXiv preprint arXiv:2412.04604. https://arxiv.org/abs/2412.04604.

Chollet, François, Mike Knoop, Gregory Kamradt, と Bryan Landers. 2026年. 「ARC Prize 2025: Technical Report」. arXiv preprint arXiv:2601.10904. https://arxiv.org/abs/2601.10904.

Davis, Liam, Leopold Haller, Alberto Alfarano, と Mark Santolucito. 2026年. 「Lattice Deduction Transformers」. arXiv preprint arXiv:2605.08605. https://arxiv.org/abs/2605.08605.

DeepSeek-AI, Daya Guo, Dejian Yang, ほか. 2025年. 「DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning」. Nature 645: 633–38. https://arxiv.org/abs/2501.12948.

Efstathiou, Andreas, と Aishwarya Balwani. 2026年. 「Recursive Reasoning as Attractor Landscape Search: Mechanistic Dynamics of the Tiny Recursive Model」. Workshop on Latent and Implicit Thinking – Going Beyond CoT Reasoning, ICLR 2026. https://openreview.net/forum?id=kKps9W1K7n.

Goyal, Sachin, Ziwei Ji, Ankit Singh Rawat, Aditya Krishna Menon, Sanjiv Kumar, と Vaishnavh Nagarajan. 2024年. 「Think before you speak: Training Language Models with Pause Tokens」. International Conference on Learning Representations. https://arxiv.org/abs/2310.02226.

Hao, Shibo, Sainbayar Sukhbaatar, DiJia Su, ほか. 2025年. 「Training Large Language Models to Reason in a Continuous Latent Space」. Proceedings of the Conference on Language Modeling. https://arxiv.org/abs/2412.06769.

Jolicoeur-Martineau, Alexia. 2025年. 「Less is More: Recursive Reasoning with Tiny Networks」. arXiv preprint arXiv:2510.04871. https://arxiv.org/abs/2510.04871.

Sghaier, Amin, Ali Parviz, と Alexia Jolicoeur-Martineau. 2026年. 「Probabilistic Tiny Recursive Model」. arXiv preprint arXiv:2605.19943. https://arxiv.org/abs/2605.19943.

Snell, Charlie, Jaehoon Lee, Kelvin Xu, と Aviral Kumar. 2024年. 「Scaling LLM Test-Time Compute Optimally Can be More Effective than Scaling Model Parameters」. arXiv preprint arXiv:2408.03314. https://arxiv.org/abs/2408.03314.

Wang, Guan, Jin Li, Yuhao Sun, ほか. 2025年. 「Hierarchical Reasoning Model」. arXiv preprint arXiv:2506.21734. https://arxiv.org/abs/2506.21734.

Ye, Jiacheng, Shansan Gong, Liheng Chen, ほか. 2024年. 「Diffusion of Thoughts: Chain-of-Thought Reasoning in Diffusion Language Models」. Advances in Neural Information Processing Systems. https://arxiv.org/abs/2402.07754.

Zelikman, Eric, Georges Harik, Yijia Shao, Varuna Jayasiri, Nick Haber, と Noah D. Goodman. 2024年. 「Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking」. arXiv preprint arXiv:2403.09629. https://arxiv.org/abs/2403.09629.

Zhang, Zhen, Xuehai He, Weixiang Yan, ほか. 2025年. 「Soft Thinking: Unlocking the Reasoning Potential of LLMs in Continuous Concept Space」. arXiv preprint arXiv:2505.15778. https://arxiv.org/abs/2505.15778.

Zhu, Rui-Jie, Tianhao Peng, Tianhao Cheng, ほか. 2025年. 「A Survey on Latent Reasoning」. arXiv preprint arXiv:2507.06203. https://arxiv.org/abs/2507.06203.