Reliable Reasoning: 信頼できる LLM reasoning のための信号と手法

2025–2026 年に何が起きているのか

DeepSeek-R1 と OpenAI o1 が公開されてからの 18 ヶ月で、大規模言語モデル（Large Language Model, LLM）の reasoning 研究は新しい局面に入った。「効く手法を増やす段階」から「効くと思われていたものを疑い直す段階」への転換である。本書はその過程を ICLR 2026 / ACL 2026 / ICML 2026 / NeurIPS 2025 / EMNLP 2025 等の主要研究 190 本超で追跡し、訓練側の信号・推論 (inference) 側の信号・構造的アプローチ の 3 軸で整理する。

この期間に最も頻繁に独立な複数チームから再発見されたのは、reasoning 研究の前提自体を揺さぶる種類の知見だった。

Reinforcement Learning with Verifiable Rewards (RLVR) は新たな reasoning 能力を獲得していないらしい。Yue ら (Yang Yue ほか 2025年a) が「pass@K では base が逆転する」と報告して以降、Path Not Taken (Hanqing ほか 2025年)、Sparse but Critical (Meng ほか 2026年)、Post-Training as Reweighting (Bu ほか 2025年)、Reshaping Reasoning (X. Chen ほか 2025年)、GRPO Transcend (Ni ほか 2025年) が独立に「base 分布内の再重み付け」という同じ結論に到達した
Reasoning model の confidence は構造的に壊れている。Decoupling Reasoning (Ma ほか 2026年)、Taming Overconfidence (Leng ほか 2024年)、Reasoning about Uncertainty (Mei ほか 2025年)、DINCO (V. Wang と Stengel-Eskin 2025年)、Wired for Overconfidence (T. Zhao ほか 2026年) が、それぞれ独立に RLHF/RLVR 後の severe miscalibration を報告した
「深く考えている」と見える trace は実は myopic である。Extracting Search Trees (S. Chen ほか 2026年) は LLM の reasoning trace から探索木を抽出し、深いノードを展開していても実際の手選択は浅い情報で決定されることを定量化した。Reasoning Horizon (D. Ye ほか 2026年) は CoT の 70–85% 以降が回答に対する因果的影響をほぼ持たないことを示した
Process Reward Model (PRM) -guided 探索は素朴な Best-of-N を一貫しては超えない。Limits of PRM-Guided (Cinquin ほか 2025年) と Hard2Verify (Pandit ほか 2025年) は、frontier-level の問題で既存 PRM の generalization が崩れることを実証した

技術的な改善は続いている。しかし「何が本当に効いているのか」を巡る基礎研究が、目に見える効率改善と少なくとも同じ強度で進んでいる。

並行してもう一つ、本書を貫く observation がある。4 つの普段は交わらない研究系統 — 訓練、推論、探索、faithfulness 検査 — が独立に同じ操作（CoT を prefix で切って何かを測る）に到達している。詳細は後段の「横断的観察」で扱う。

本書を貫く 3 つの問い

中心問題

Q1. 訓練側: RLVR は base モデルの能力を本当に拡張しているのか、それとも既存能力の re-weighting にすぎないのか
Q2. 推論側: モデルが出した reasoning trace の「正しさ」を、ground truth なしにどう推定するか
Q3. 予算側: 限られた inference compute を、長さ・本数・探索のいずれに投じるべきか

これら 3 つは独立に発展してきた複数の研究系統が、2025–2026 年に急速に重なり始めている地点である。本書はその交差点を地図化する。

9 章の射程

RLVR の理論と限界

「RLVR は何をしているのか」という基礎の問いが、2025–2026 年に最大の論争に発展した。5 グループ以上が独立に「再重み付け説」に到達する一方、CoT-Pass@K (Wen ほか 2026年) のような別指標は逆に「RLVR は base を真に超える」と反論する。Two-Stage Dynamic View (Yang Yue ほか 2025年b) による「訓練ステージと問題難易度の関数として動的に切り替わる」という和解案までを追跡する。

→ 詳細: RLVR の理論と限界

GRPO と Reward 設計

Group Relative Policy Optimization (GRPO) はもはやベースラインで、DAPO (Q. Yu ほか 2025年) / Dr. GRPO (Z. Liu ほか 2025年) / GSPO (Zheng ほか 2025年) / VAPO (Yu Yue ほか 2025年) のいずれかを使う前提で議論が進む。さらに大きな潮流は「policy 自身の confidence や consistency を reward に流用する」系（TTRL、Intuitor、PPPO、PRIME 等）で、これらが本書を貫く「prefix」の観察と直接結びつく。一方で Spurious Rewards (Shao ほか 2025年) はランダム reward でも Qwen の精度が伸びるという衝撃的結果で、新規 reward 提案に cross-model robustness の検証義務を課した。

→ 詳細: GRPO と Reward 設計

Process Reward Models

step ラベルの希少性が PRM 普及の最大障壁だったが、MC rollout・log-likelihood ratio・outcome から逆伝播した pseudo label・next-token 確率・completer 一致という 5 つの独立な信号源で「ラベル無し PRM」が出揃った。同時に scalar head から CoT-verbalized verifier への「生成型 PRM」化が進み、verifier 側でも test-time compute scaling が可能になった。一方で Hard2Verify (Pandit ほか 2025年) のような difficulty 拡張ベンチでは既存 PRM が大幅に性能を落とし、PRM の generalization 限界が露呈している。

→ 詳細: Process Reward Models

Self-Consistency と重み付き多数決

Wang らの Self-Consistency (X. Wang ほか 2023年) を起点に、2025–2026 年は (i) 重み付け（DeepConf (Fu ほか 2025年)、CISC (Taubenfeld ほか 2025年)、CER (Razghandi ほか 2025年)、Self-Certainty (Z. Kang ほか 2025年)、IEW (Sharma と Chopra 2025年)）、(ii) prefix の活用（PoLR (Jindal ほか 2026年)、Path-Consistency (Zhu ほか 2024年)、Prefix-Confidence Scaling (Otth ほか 2025年)、ST-BoN (Y. Wang ほか 2025年)、Beyond the Last Answer (Hammoud ほか 2025年)、Prefix Consistency (Iwase ほか 2026年)）、(iii) 理論的支柱（加重多数決の MAP 最適性 (Kuang ほか 2025年)）、(iv) adaptive sampling（BEACON (Wan ほか 2025年)、ReASC (Kim ほか 2026年)）の 4 方向に拡張された。特に prefix を活用する系は 6 グループ以上が独立に同じ操作に到達した、本書を象徴する収束事例である。

→ 詳細: Self-Consistency と重み付き多数決

Confidence と Uncertainty

「モデルは自分の正しさを知っているか」を測る古典的な 3 経路（logit-based、verbalized、sampling-based）のうち、reasoning model では logit と verbalized の両方が信頼できないことが 2026 年に確定した。内部回路レベル（Wired for Overconfidence (T. Zhao ほか 2026年)）、decision-theoretic（Faithful? (Jiawei Wang ほか 2026年)）、直接比較（DINCO (V. Wang と Stengel-Eskin 2025年)）の 3 方面から否定的証拠が揃い、sampling-based 信号への移行が事実上の標準になりつつある。

→ 詳細: Confidence と Uncertainty

Test-Time Compute Scaling

「推論 (inference) 時に compute を投資すれば精度が上がる」という事実は確立した。問いは「上がるか」から「どこに、どう投資するか」に移った。Budget Forcing (Muennighoff ほか 2025年) と adaptive allocation（CaTS (C. Huang ほか 2025年)、T1 (M. Kang ほか 2025年)、Fractional Reasoning (S. Liu ほか 2025年)）、system 側最適化（ThinKV (Ramachandran ほか 2025年)、SpecReason (Pan ほか 2025年)、Sleep-time Compute (Lin ほか 2025年)）、latent reasoning（Coconut (Hao ほか 2024年)）、Markovian Thinker (Aghajohari ほか 2025年) による linear scaling 化を扱う。同時に「CoT は長すぎても短すぎても精度が下がる」という非単調性、そして数学に最適化された動作点が医療には自動転移しないというドメイン依存性 (X. Huang ほか 2025年) も整理する。

→ 詳細: Test-Time Compute Scaling

Tree Search と MCTS

AlphaMath (G. Chen ほか 2024年) と rStar-Math (Guan ほか 2025年) の MCTS 系、AB-MCTS (Inoue ほか 2025年) による wider/deeper の動的選択、VG-Search (H. M. Chen ほか 2025年) による「検証粒度」のスペクトラム統合、uncertainty-aware 系（UATS (Song ほか 2026年)、UVM (F. Yu ほか 2025年)）、verifier-free 系（SELT (M. Wu ほか 2025年)、MoB (Rakhsha ほか 2025年)）が並走する。Extracting Search Trees (S. Chen ほか 2026年) が示した「LLM の深い trace は myopic decision で説明できる」という faithfulness 警鐘は本章の決定的な観察である。

→ 詳細: Tree Search と MCTS

Reasoning 構造の分析

集約系・confidence 系・探索系とは別の第 4 の信号軸として、CoT 自身の構造を読む系統が 2025–2026 年に独立に立ち上がった。Reasoning Horizon (D. Ye ほか 2026年) は trace の 70–85% 以降が因果的に空であることを介入実験で示し、FSF (Feng ほか 2025年) は CoT を reasoning graph に変換した上で failed-step 比率が長さや review 率より強い予測因子だと実証した。CRV (Z. Zhao ほか 2025年) は内部 attribution graph から step の正誤を AUROC 92 で予測し、Four Habits of STaRs (Gandhi ほか 2025年) は自己改善モデルに共通する 4 つの認知パターンを同定した。

→ 詳細: Reasoning 構造の分析

Reasoning in Diffusion LLMs

LLaDA (Nie ほか 2025年)、Dream (J. Ye ほか 2025年)、MMaDA (Yang ほか 2025年) 等の masked diffusion LLM では、AR とは異なる「denoising trajectory」が時間軸になる。Prophet (Li ほか 2025年) は同一 trajectory 上で answer が早期に確定する現象を、Time-is-a-Feature (W. Wang ほか 2025年) は同一 trajectory の denoising step 間 majority vote を、I-DLM (Y. Yu ほか 2026年) は単一 forward 内 self-verify を提案する。AR で発展した prefix-based aggregation が DLLM では denoising step を時間軸として再発明されている。

→ 詳細: Reasoning in Diffusion LLMs

横断的観察

各章は独立して読めるが、章をまたいで観察される複数のパターンが本書の主張の核心である。

観察 1: 4 つの研究系統が「prefix」という共通の操作に独立収束した

訓練、推論、探索、faithfulness 検査という普段は交わらない 4 つの系統が、いずれも「CoT を prefix で切って何かを測る」という同一の操作に到達している。

訓練側: prefix の segment ごとに正解確率を probe して reward に流す GRPO-VPS (Jingyi Wang ほか 2026年)、正解確率の単調増加性を reward に組み込む PACR (Yoon ほか 2025年)、prefix を MDP 状態として価値推定する PPPO (Sun ほか 2025年)
推論側: 短い prefix を起点に後続を多サンプリングして集約する PoLR (Jindal ほか 2026年)、Prefix-Confidence Scaling (Otth ほか 2025年)、Path-Consistency (Zhu ほか 2024年)、ST-BoN (Y. Wang ほか 2025年)、Beyond the Last Answer (Hammoud ほか 2025年)、Prefix Consistency (Iwase ほか 2026年)
探索側: prefix を node として展開する MCTS 系（AlphaMath (G. Chen ほか 2024年)、rStar-Math (Guan ほか 2025年)）
Faithfulness 側: CoT を切断して回答させて忠実性を測る Early Answering (Lanham ほか 2023年)（再生成系と物理的に同操作・目的は逆）

互いを参照しないまま同じ操作に収束する事象が同時多発したことは、prefix が reasoning における load-bearing な単位である ことを強く示唆する。本書を通底するもっとも重要な観察である。

観察 2: 「効くと思われていた信号」への系統的疑念

2025–2026 年に独立に積み上がった 4 つの否定的発見が、reasoning 研究の前提を揺さぶっている。

RLVR の能力拡張仮説への疑念: Yue ら (Yang Yue ほか 2025年a) 以来 5 グループが独立に「再重み付け」を確認（RLVR の理論と限界）
Verbalized confidence への疑念: 5 グループが独立に severe miscalibration を確認（Confidence と Uncertainty）
Faithfulness への疑念: 深い trace と実際の意思決定の乖離（Tree Search と MCTS、Reasoning 構造の分析）
PRM-guided 探索への疑念: 素朴な BoN を一貫しては超えない（Process Reward Models）

これらを駆動力として、verifier-free 系、uncertainty-aware 系、sampling-based confidence、reasoning 構造分析といった「新しい信号源」探索が爆発的に増えた。観察 1 の収束現象は、この探索が独立に同じ着地点に向かっていることの裏返しでもある。

観察 3: ICLR 2026 で adaptive allocation が default になった

固定 K の self-consistency や固定 token budget の CoT は古いベースラインへ後退した。問題の難しさや confidence に応じて動的に compute を割り当てる手法 — CaTS (C. Huang ほか 2025年)、T1 (M. Kang ほか 2025年)、Fractional Reasoning (S. Liu ほか 2025年)、ThinKV (Ramachandran ほか 2025年)、DiffAdapt (X. Liu ほか 2025年)、BEACON (Wan ほか 2025年)、ReASC (Kim ほか 2026年) — が ICLR 2026 で同時採択された事実は、コミュニティが「適応的に決める」を default に切り替えたことを象徴する。

観察 4: trace の「構造」を読む新しい信号軸

集約系（複数 trace の合意）、confidence 系（単一 trace の token 分布）、test-time compute（trace 本数や長さの予算配分）に並ぶ第 4 の信号軸として、CoT 自身の構造を読む系統が独立に立ち上がった。Reasoning Horizon の causal vacuum、FSF の failed-step 比率、CRV の内部 attribution graph、Four Habits の認知パターンは、いずれも「単一の長さや confidence では捉えられない構造的特徴に予測信号がある」という直観に基づく。集約系（外部観測）と内部観測の統合は 2026 年の open question である。

観察 5: RLVR 後の miscalibration が Q1 と Q2 を接続する

RLHF / RLVR で訓練した reasoning model が confidence calibration を失う事象は、Q1（RLVR は何を学んでいるか）と Q2（推論時の信号として何が効くか）を直接接続する。再重み付けが既存の高確率分布を更に sharpen するという RLVR 像（観察 2 の前段）と、SFT 段階で 0.7–0.9 帯に幅広く分布していた confidence が RLHF 後に 1.0 近傍へ collapse する観察 (Leng ほか 2024年) が、同じ “sharpening” 現象の 2 つの表れとして読める可能性がある。両者を mechanistic に接続する研究はまだ少なく、open question である。

観察 6: ドメインで reasoning の性質が変わる

本書で扱う inference-time 手法の多くは数学に暗黙の最適化を受けている。医療など knowledge-intensive ドメインでは KI（Knowledge Index）–accuracy 相関が InfoGain–accuracy を支配し（Knowledge or Reasoning? (J. Wu ほか 2025年)）、最適 thinking budget は ~4K トークンで頭打ちになる（m1 (X. Huang ほか 2025年)）。budget forcing は正しい初期回答を覆す方向に働きうる。数学で得られた知見の transferability は章を跨いだ open question である。

本書の使い方

特定領域だけを知りたい: 該当章に直接飛んでよい。すべて独立して読めるよう設計した
領域全体を俯瞰したい: Self-Consistency と重み付き多数決（推論側の信号空間）と RLVR の理論と限界（訓練側の信号空間）から読むのが最短経路
新規研究を始める: 上記 6 観察のいずれかをエントリポイントにすると複数領域を横断する切り口が得やすい。特に観察 1（prefix 収束）と観察 2（系統的疑念）は本書の最強の主張で、各章を読むときに背景に置くと章をまたいだパターンが見えやすい

参考文献

Aghajohari, Milad, Kamran Chitsaz, Amirhossein Kazemnejad, ほか. 2025年. 「The Markovian Thinker: Architecture-Agnostic Linear Scaling of Reasoning」. arXiv preprint arXiv:2510.06557. https://arxiv.org/abs/2510.06557.

Bu, Dake, Wei Huang, Andi Han, ほか. 2025年. 「Post-Training as Reweighting: A Stochastic View of Reasoning Trajectories in Language Models」. arXiv preprint arXiv:2511.07368. https://arxiv.org/abs/2511.07368.

Chen, Guoxin, Minpeng Liao, Chengxi Li, と Kai Fan. 2024年. 「AlphaMath Almost Zero: Process Supervision without Process」. Advances in Neural Information Processing Systems. https://arxiv.org/abs/2405.03553.

Chen, Hao Mark, Guanxi Lu, Yasuyuki Okoshi, Zhiwen Mo, Masato Motomura, と Hongxiang Fan. 2025年. 「Rethinking Optimal Verification Granularity for Compute-Efficient Test-Time Scaling」. Advances in Neural Information Processing Systems. https://arxiv.org/abs/2505.11730.

Chen, Sixing, Ji-An Li, Saner Cakir, Sinan Akcali, Kayla Lee, と Marcelo G. Mattar. 2026年. 「Extracting Search Trees from LLM Reasoning Traces Reveals Myopic Planning」. arXiv preprint arXiv:2605.06840. https://arxiv.org/abs/2605.06840.

Chen, Xingwu, Tianle Li, と Difan Zou. 2025年. 「Reshaping Reasoning in LLMs: A Theoretical Analysis of RL Training Dynamics through Pattern Selection」. arXiv preprint arXiv:2506.04695. https://arxiv.org/abs/2506.04695.

Cinquin, Tristan, Geoff Pleiss, と Agustinus Kristiadi. 2025年. 「Limits of PRM-Guided Tree Search for Mathematical Reasoning with LLMs」. arXiv preprint arXiv:2510.20272. https://arxiv.org/abs/2510.20272.

Feng, Yunzhen, Julia Kempe, Cheng Zhang, Parag Jain, と Anthony Hartshorn. 2025年. 「What Characterizes Effective Reasoning? Revisiting Length, Review, and Structure of CoT」. arXiv preprint arXiv:2509.19284. https://arxiv.org/abs/2509.19284.

Fu, Yichao, Xuewei Wang, Yuandong Tian, と Jiawei Zhao. 2025年. 「Deep Think with Confidence」. arXiv preprint arXiv:2508.15260. https://arxiv.org/abs/2508.15260.

Gandhi, Kanishk, Ayush Chakravarthy, Anikait Singh, Nathan Lile, と Noah D. Goodman. 2025年. 「Cognitive Behaviors that Enable Self-Improving Reasoners, or, Four Habits of Highly Effective STaRs」. arXiv preprint arXiv:2503.01307. https://arxiv.org/abs/2503.01307.

Guan, Xinyu, Li Lyna Zhang, Yifei Liu, ほか. 2025年. 「rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking」. arXiv preprint arXiv:2501.04519. https://arxiv.org/abs/2501.04519.

Hammoud, Hasan Abed Al Kader, Hani Itani, と Bernard Ghanem. 2025年. 「Beyond the Last Answer: Your Reasoning Trace Uncovers More than You Think」. arXiv preprint arXiv:2504.20708. https://arxiv.org/abs/2504.20708.

Hanqing ほか. 2025年. 「The Path Not Taken: RLVR Provably Learns Off the Principals」. arXiv preprint arXiv:2511.08567. https://arxiv.org/abs/2511.08567.

Hao, Shibo, Sainbayar Sukhbaatar, DiJia Su, ほか. 2024年. 「Training Large Language Models to Reason in a Continuous Latent Space」. International Conference on Learning Representations. https://arxiv.org/abs/2412.06769.

Huang, Chengsong, Langlin Huang, Jixuan Leng, Jiacheng Liu, と Jiaxin Huang. 2025年. 「Efficient Test-Time Scaling via Self-Calibration」. International Conference on Learning Representations. https://arxiv.org/abs/2503.00031.

Huang, Xiaoke, Juncheng Wu, Hui Liu, Xianfeng Tang, と Yuyin Zhou. 2025年. 「m1: Unleash the Potential of Test-Time Scaling for Medical Reasoning with Large Language Models」. arXiv preprint arXiv:2504.00869. https://arxiv.org/abs/2504.00869.

Inoue, Yuichi, Kou Misaki, Yuki Imajuku, So Kuroki, Taishi Nakamura, と Takuya Akiba. 2025年. 「Wider or Deeper? Scaling LLM Inference-Time Compute with Adaptive Branching Tree Search」. Advances in Neural Information Processing Systems. https://arxiv.org/abs/2503.04412.

Iwase, Naoto, Yuki Ichihara, Mohammad Atif Quamar, と Junpei Komiyama. 2026年. 「Reliable Chain-of-Thought via Prefix Consistency」. arXiv preprint arXiv:2605.07654. https://arxiv.org/abs/2605.07654.

Jindal, Ishan, Sai Prashanth Akuthota, Jayant Taneja, と SACHIN DEV SHARMA. 2026年. 「THE PATH OF LEAST RESISTANCE: GUIDING LLM REASONING TRAJECTORIES WITH PREFIX CONSENSUS」. The Fourteenth International Conference on Learning Representations. https://openreview.net/forum?id=hrnSqERgPn.

Kang, Minki, Jongwon Jeong, と Jaewoong Cho. 2025年. 「T1: Tool-integrated Self-verification for Test-time Compute Scaling in Small Language Models」. International Conference on Learning Representations. https://arxiv.org/abs/2504.04718.

Kang, Zhewei, Xuandong Zhao, と Dawn Song. 2025年. 「Scalable Best-of-N Selection for Large Language Models via Self-Certainty」. Advances in Neural Information Processing Systems. https://openreview.net/forum?id=29FRqmVQK8.

Kim, Junseok, Nakyeong Yang, Kyungmin Min, と Kyomin Jung. 2026年. 「Reliability-Aware Adaptive Self-Consistency for Efficient Sampling in LLM Reasoning」. arXiv preprint arXiv:2601.02970. https://arxiv.org/abs/2601.02970.

Kuang, Peng, Yanli Wang, Xiaoyu Han, Yaowenqi Liu, Kaidi Xu, と Haohan Wang. 2025年. 「Optimal Aggregation of LLM and PRM Signals for Efficient Test-Time Scaling」. International Conference on Learning Representations. https://arxiv.org/abs/2510.13918.

Lanham, Tamera, Anna Chen, Ansh Radhakrishnan, ほか. 2023年. 「Measuring Faithfulness in Chain-of-Thought Reasoning」. arXiv preprint arXiv:2307.13702. https://arxiv.org/abs/2307.13702.

Leng, Jixuan, Chengsong Huang, Banghua Zhu, と Jiaxin Huang. 2024年. 「Taming Overconfidence in LLMs: Reward Calibration in RLHF」. arXiv preprint arXiv:2410.09724. https://arxiv.org/abs/2410.09724.

Li, Pengxiang, Yefan Zhou, Dilxat Muhtar, ほか. 2025年. 「Diffusion Language Models Know the Answer Before Decoding」. arXiv preprint arXiv:2508.19982. https://arxiv.org/abs/2508.19982.

Lin, Kevin, Charlie Snell, Yu Wang, ほか. 2025年. 「Sleep-time Compute: Beyond Inference Scaling at Test-time」. arXiv preprint arXiv:2504.13171. https://arxiv.org/abs/2504.13171.

Liu, Sheng, Tianlang Chen, Pan Lu, ほか. 2025年. 「Fractional Reasoning via Latent Steering Vectors Improves Inference Time Compute」. International Conference on Learning Representations. https://arxiv.org/abs/2506.15882.

Liu, Xiang, Xuming Hu, Xiaowen Chu, と Eunsol Choi. 2025年. 「DiffAdapt: Difficulty-Adaptive Reasoning for Token-Efficient LLM Inference」. International Conference on Learning Representations. https://arxiv.org/abs/2510.19669.

Liu, Zichen, Changyu Chen, Wenjun Li, ほか. 2025年. 「Understanding R1-Zero-Like Training: A Critical Perspective」. Conference on Language Modeling (COLM). https://arxiv.org/abs/2503.20783.

Ma, Zhengzhao, Xueru Wen, Boxi Cao, ほか. 2026年. 「Decoupling Reasoning and Confidence: Resurrecting Calibration in Reinforcement Learning from Verifiable Rewards」. arXiv preprint arXiv:2603.09117. https://arxiv.org/abs/2603.09117.

Mei, Zhiting, Christina Zhang, Tenny Yin, Justin Lidard, Ola Shorinwa, と Anirudha Majumdar. 2025年. 「Reasoning about Uncertainty: Do Reasoning Models Know When They Don’t Know?」 arXiv preprint arXiv:2506.18183. https://arxiv.org/abs/2506.18183.

Meng, Haoming, Kexin Huang, Shaohang Wei, ほか. 2026年. 「Sparse but Critical: A Token-Level Analysis of Distributional Shifts in RLVR Fine-Tuning of LLMs」. International Conference on Learning Representations. https://arxiv.org/abs/2603.22446.

Muennighoff, Niklas, Zitong Yang, Weijia Shi, ほか. 2025年. 「s1: Simple test-time scaling」. Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing, 編集者: Christos Christodoulopoulos, Tanmoy Chakraborty, Carolyn Rose, と Violet Peng. Association for Computational Linguistics. https://doi.org/10.18653/v1/2025.emnlp-main.1025.

Ni, Kangqi, Zhen Tan, Zijie Liu, Pingzhi Li, と Tianlong Chen. 2025年. 「Can GRPO Help LLMs Transcend Their Pretraining Origin?」 arXiv preprint arXiv:2510.15990. https://arxiv.org/abs/2510.15990.

Nie, Shen, Fengqi Zhu, Zebin You, ほか. 2025年. 「Large Language Diffusion Models」. arXiv preprint arXiv:2502.09992. https://arxiv.org/abs/2502.09992.

Otth, Matthias, Jonas Hübotter, Ido Hakimi, と Andreas Krause. 2025年. 「Maximizing Prefix-Confidence at Test-Time Efficiently Improves Mathematical Reasoning」. arXiv preprint arXiv:2507.18122. https://arxiv.org/abs/2507.18122.

Pan, Rui, Yinwei Dai, Zhihao Zhang, Gabriele Oliaro, Zhihao Jia, と Ravi Netravali. 2025年. 「SpecReason: Fast and Accurate Inference-Time Compute via Speculative Reasoning」. arXiv preprint arXiv:2504.07891. https://arxiv.org/abs/2504.07891.

Pandit, Shrey, Austin Xu, Xuan-Phi Nguyen, Yifei Ming, Caiming Xiong, と Shafiq Joty. 2025年. 「Hard2Verify: A Step-Level Verification Benchmark for Open-Ended Frontier Math」. arXiv preprint arXiv:2510.13744. https://arxiv.org/abs/2510.13744.

Rakhsha, Amin, Kanika Madan, Tianyu Zhang, Amir-massoud Farahmand, と Amir Khasahmadi. 2025年. 「Majority of the Bests: Improving Best-of-N via Bootstrapping」. Advances in Neural Information Processing Systems. https://arxiv.org/abs/2511.18630.

Ramachandran, Akshat, Marina Neseem, Charbel Sakr, Rangharajan Venkatesan, Brucek Khailany, と Tushar Krishna. 2025年. 「ThinKV: Thought-Adaptive KV Cache Compression for Efficient Reasoning Models」. International Conference on Learning Representations. https://arxiv.org/abs/2510.01290.

Razghandi, Ali, Seyed Mohammad Hadi Hosseini, と Mahdieh Soleymani Baghshah. 2025年. 「CER: Confidence Enhanced Reasoning in LLMs」. Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics. https://arxiv.org/abs/2502.14634.

Shao, Rulin, Shuyue Stella Li, Rui Xin, ほか. 2025年. 「Spurious Rewards: Rethinking Training Signals in RLVR」. arXiv preprint arXiv:2506.10947. https://arxiv.org/abs/2506.10947.

Sharma, Aman, と Paras Chopra. 2025年. 「The Sequential Edge: Inverse-Entropy Voting Beats Parallel Self-Consistency at Matched Compute」. arXiv preprint arXiv:2511.02309. https://arxiv.org/abs/2511.02309.

Song, Zeen, Zihao Ma, Wenwen Qiang, Changwen Zheng, と Gang Hua. 2026年. 「Adaptive Uncertainty-Aware Tree Search for Robust Reasoning」. arXiv preprint arXiv:2602.06493. https://arxiv.org/abs/2602.06493.

Sun, Yiliu, Zicheng Zhao, Yang Wei, Yanfang Zhang, と Chen Gong. 2025年. 「Well Begun, Half Done: Reinforcement Learning with Prefix Optimization for LLM Reasoning」. arXiv preprint arXiv:2512.15274. https://arxiv.org/abs/2512.15274.

Taubenfeld, Amir, Tom Sheffer, Eran Ofek, ほか. 2025年. 「Confidence Improves Self-Consistency in LLMs」. Findings of the Association for Computational Linguistics: ACL 2025, 編集者: Wanxiang Che, Joyce Nabende, Ekaterina Shutova, と Mohammad Taher Pilehvar. Association for Computational Linguistics. https://doi.org/10.18653/v1/2025.findings-acl.1030.

Wan, Guangya, Zixin Stephen Xu, Sasa Zorc, ほか. 2025年. 「BEACON: Bayesian Optimal Stopping for Efficient LLM Sampling」. arXiv preprint arXiv:2510.15945. https://arxiv.org/abs/2510.15945.

Wang, Jiawei, Yanfei Zhou, Siddartha Devic, と Deqing Fu. 2026年. 「Are LLM Decisions Faithful to Verbal Confidence?」 arXiv preprint arXiv:2601.07767. https://arxiv.org/abs/2601.07767.

Wang, Jingyi, Lei Zhu, Tengjin Weng, ほか. 2026年. 「GRPO-VPS: Enhancing Group Relative Policy Optimization with Verifiable Process Supervision」. International Conference on Learning Representations (ICLR). https://arxiv.org/abs/2604.20659.

Wang, Victor, と Elias Stengel-Eskin. 2025年. 「Calibrating Verbalized Confidence with Self-Generated Distractors」. International Conference on Learning Representations. https://arxiv.org/abs/2509.25532.

Wang, Wen, Bozhen Fang, Chenchen Jing, ほか. 2025年. 「Time Is a Feature: Exploiting Temporal Dynamics in Diffusion Language Models」. arXiv preprint arXiv:2508.09138. https://arxiv.org/abs/2508.09138.

Wang, Xuezhi, Jason Wei, Dale Schuurmans, ほか. 2023年. 「Self-Consistency Improves Chain of Thought Reasoning in Language Models」. International Conference on Learning Representations. https://openreview.net/forum?id=1PL1NIMMrw.

Wang, Yiming, Pei Zhang, Siyuan Huang, ほか. 2025年. 「Sampling-Efficient Test-Time Scaling: Self-Estimating the Best-of-N Sampling in Early Decoding」. Advances in Neural Information Processing Systems. https://arxiv.org/abs/2503.01422.

Wen, Xumeng, Zihan Liu, Shun Zheng, ほか. 2026年. 「Reinforcement Learning with Verifiable Rewards Implicitly Incentivizes Correct Reasoning in Base LLMs」. The Fourteenth International Conference on Learning Representations. https://openreview.net/forum?id=jGbRWwIidy.

Wu, Juncheng, Sheng Liu, Haoqin Tu, ほか. 2025年. 「Knowledge or Reasoning? A Close Look at How LLMs Think Across Domains」. arXiv preprint arXiv:2506.02126. https://arxiv.org/abs/2506.02126.

Wu, Mengsong, Di Zhang, Yuqiang Li, Dongzhan Zhou, と Wenliang Chen. 2025年. 「SELT: Self-Evaluation Tree Search for LLMs with Task Decomposition」. arXiv preprint arXiv:2506.07557. https://arxiv.org/abs/2506.07557.

Yang, Ling, Ye Tian, Bowen Li, ほか. 2025年. 「MMaDA: Multimodal Large Diffusion Language Models」. Advances in Neural Information Processing Systems. https://arxiv.org/abs/2505.15809.

Ye, Donald, Max Loffgren, Om Kotadia, と Linus Wong. 2026年. 「Mechanistic Evidence for Faithfulness Decay in Chain-of-Thought Reasoning」. arXiv preprint arXiv:2602.11201. https://arxiv.org/abs/2602.11201.

Ye, Jiacheng, Zhihui Xie, Lin Zheng, ほか. 2025年. 「Dream 7B: Diffusion Large Language Models」. arXiv preprint arXiv:2508.15487. https://arxiv.org/abs/2508.15487.

Yoon, Eunseop, Hee Suk Yoon, Jaehyun Jang, ほか. 2025年. 「PACR: Progressively Ascending Confidence Reward for LLM Reasoning」. arXiv preprint arXiv:2510.22255. https://arxiv.org/abs/2510.22255.

Yu, Fei, Yingru Li, と Benyou Wang. 2025年. 「Robust Search with Uncertainty-Aware Value Models for Language Model Reasoning」. arXiv preprint arXiv:2502.11155. https://arxiv.org/abs/2502.11155.

Yu, Qiying, Zheng Zhang, Ruofei Zhu, ほか. 2025年. 「DAPO: An Open-Source LLM Reinforcement Learning System at Scale」. arXiv preprint arXiv:2503.14476. https://arxiv.org/abs/2503.14476.

Yu, Yifan ほか. 2026年. 「Introspective Diffusion Language Models」. arXiv preprint arXiv:2604.11035. https://arxiv.org/abs/2604.11035.

Yue, Yang, Zhiqi Chen, Rui Lu, ほか. 2025年a. 「Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?」 NeurIPS 2025 Workshop on Efficient Reasoning. https://arxiv.org/abs/2504.13837.

Yue, Yang, Zhiqi Chen, Rui Lu, ほか. 2025年b. 「The Debate on RLVR Reasoning Capability Boundary: Shrinkage, Expansion, or Both? A Two-Stage Dynamic View」. arXiv preprint arXiv:2510.04028. https://arxiv.org/abs/2510.04028.

Yue, Yu, Yufeng Yuan, Qiying Yu, ほか. 2025年. 「VAPO: Efficient and Reliable Reinforcement Learning for Advanced Reasoning Tasks」. arXiv preprint arXiv:2504.05118. https://arxiv.org/abs/2504.05118.

Zhao, Tianyi, Yinhan He, Wendy Zheng, Yujie Zhang, と Chen Chen. 2026年. 「Wired for Overconfidence: A Mechanistic Perspective on Inflated Verbalized Confidence in LLMs」. arXiv preprint arXiv:2604.01457. https://arxiv.org/abs/2604.01457.

Zhao, Zheng, Yeskendir Koishekenov, Xianjun Yang, Naila Murray, と Nicola Cancedda. 2025年. 「Verifying Chain-of-Thought Reasoning via Its Computational Graph」. arXiv preprint arXiv:2510.09312. https://arxiv.org/abs/2510.09312.

Zheng, Chujie, Shixuan Liu, Mingze Li, ほか. 2025年. 「Group Sequence Policy Optimization」. arXiv preprint arXiv:2507.18071. https://arxiv.org/abs/2507.18071.

Zhu, Jiace, Yuanzhe Huang, Yingtao Shen, Jie Zhao, と An Zou. 2024年. Path-Consistency with Prefix Enhancement for Efficient Inference in LLMs. arXiv preprint arXiv:2409.01281. https://arxiv.org/abs/2409.01281.