Confidence と Uncertainty

大規模言語モデル(Large Language Model, LLM)が出したreasoning traceに対し、「モデル自身は答えが正しいと思っているか」を ground truth なしに推定したい。この問いは selective prediction、abstention、Best-of-N 重み付け、conformal prediction といった下流応用すべての入口に位置する。本章ではまず estimator の主要 3 経路を整理し、次に 2026 年に独立な複数のグループから報告された「強化学習(Reinforcement Learning, RL)後の系統的な miscalibration」を扱い、そのうえで sampling-based 信号の最新動向と下流タスクとの接続を見る。

3 つの推定経路

confidence estimator は入力に何を使うかで 3 系統に分かれる。logit-based は token の対数尤度や entropy を使い、verbalized はモデルに直接「自信度」を問い、sampling-based は複数サンプル間の同意度や分散を測る。それぞれの代表的な手法を 表 1 にまとめる。

表 1: confidence estimator の 3 経路
経路 入力 white/black box 代表手法 強み 弱み
logit-based token logprob, predictive entropy white-box EAS (Zhu ほか 2025年), Think Just Enough (Sharma と Chopra 2025年) 単一生成で取れて軽量 logit にアクセスできない API では使えない
verbalized モデルへの自己申告質問 black-box “Are you sure?” 系, DINCO (V. Wang と Stengel-Eskin 2025年) API でも取れる RL/RLHF 後に強い over-confidence
sampling-based 多サンプル間の同意度・分散 black-box semantic entropy, CISC (Taubenfeld ほか 2025年), DiverseAgentEntropy (Feng ほか 2024年) logit 不要、答えに対して直接的 N 回サンプリングのコスト

ICLR 2026 採択の TokUR (Zhang ほか 2025年) は低ランクなランダム重み摂動を decoding 時に注入して aleatoric と epistemic を分離する white-box 手法で、3 経路の中間に位置する変則例である。token-level の perturbation を集約することで「LLM が自分の reasoning 出力の信頼性を自己評価」する枠組みを与える。

RL 後の miscalibration

2026 年の最も大きな経験的発見は、「reasoning model 化のための post-training は confidence の calibration を深刻に劣化させる」というものである。同様の主張が独立に複数のグループから出ている。

重要2026 年に独立に確認された経験則

Reinforcement Learning with Verifiable Rewards(RLVR)または Reinforcement Learning from Human Feedback(RLHF)で訓練された reasoning model は、正答にも誤答にも極端に高い確率を割り当てる severe miscalibration を起こす。Expected Calibration Error(ECE)が base model 比で大幅に悪化し、verbalized 自信度は 85% 以上に飽和する。

Decoupling Reasoning and Confidence (Ma ほか 2026年) は、Group Relative Policy Optimization(GRPO)等で訓練した reasoning model が severe calibration degeneration を起こすことを示し、原因を「accuracy 最大化と calibration error 最小化の gradient conflict」と分析した。著者らは reasoning 目的と calibration 目的を分離する DCPO(Decoupled Calibration Policy Optimization)損失を提案し、accuracy を保ったまま ECE を改善する。

Reasoning about Uncertainty (Mei ほか 2025年) は o1、o3-mini、DeepSeek-R1、Claude 3.7 Sonnet 等に verbalized confidence を出させると、誤答にも 85% 以上の自信を割り当てる極端な over-confidence が観察されると報告した。さらに反直感的な depth paradox を示している: thinking budget を増やすほど calibration が悪化する。introspection prompt の効果はモデル依存で、o3-mini では改善するが Claude 3.7 では悪化する。

Taming Overconfidence in LLMs (Leng ほか 2024年) は RLHF 後の verbalized over-confidence の根本原因が、報酬モデルが高 confidence 表現にバイアスして高 reward を返すことだと特定した。PPO-M(reward model 訓練に confidence score を統合)と PPO-C(PPO 中に reward を historical 平均で再調整)を提案し、Llama3-8B / Mistral-7B / 6 データセットで calibration を改善した。RLHF 前後の confidence 分布の変化は 図 1 にはっきり現れる。SFT 段階では 0.7〜0.9 帯に幅広く分布していた confidence が、RLHF 後にはほぼ 1.0 近傍に集中してしまう。

図 1: Llama-3-8B の SFT-mixture 版(赤)と RLHF-100k 版(青)の CommonsenseQA 上での confidence 分布。RLHF 後はサンプルの大半が confidence ≈ 1.0 に押し上げられ、calibration の余地がほとんど失われている。出典: (Leng ほか 2024年)

これらは「sampling-based black-box 信号」が現代の reasoning model で必要な理由を新たに正当化する。logit-based / verbalized が壊れている前提で post-hoc な外側測定に投資する動機になる。

Verbalized confidence の崩壊

verbalized confidence については 2026 年に内部回路レベル、decision-theoretic な観点、calibration 直接比較の 3 方面で否定的な証拠が積み上がった。

Wired for Overconfidence (T. Zhao ほか 2026年) は過信を生む内部回路を mechanistic interpretability で同定した。中後層の MLP block と attention head の compact なセットが最終トークン位置で confidence を inflate しており、ここに targeted intervention を入れると calibration が改善する。verbalized 信号が「構造的に inflate されている」ことの内部回路レベルでの裏付けである。

DINCO(V. Wang と Stengel-Eskin 2025年) は「verbalized confidence は提示された claim への suggestibility が出るため過信になる」と診断し、モデル自身に複数の alternative claim を distractor として生成させ、各 claim に独立に verbalized confidence を出して合計で正規化する手法を提案した。10 generations の DINCO が 100 generations の self-consistency を上回るほど効率的に動作する。手法の構造は 図 2 のとおりで、main claim とその distractor の verbalized confidence 合計で正規化し、さらに entailment と contradiction で重み付けすることで「suggestibility による持ち上げ」を抑える。

図 2: DINCO の構成。main claim に対して LLM が自分で distractor を生成し、各々に独立な verbalized confidence を出した合計で main claim の confidence を正規化する。さらに含意(P(entail))で redundant な distractor を、矛盾(P(contradict))で non-contradictory な distractor をそれぞれ down-weight する。出典: (V. Wang と Stengel-Eskin 2025年)

Are LLM Decisions Faithful to Verbal Confidence? (J. Wang ほか 2026年) は RiskEval というベンチマークで、誤答に高い penalty を与える設定下でも、モデルは verbalized で低 confidence を出しても abstain しない「utility collapse」を発見した。verbalized confidence は数字としては出るが、decision-making に faithful ではない。これは calibration metric だけでは trustworthy 性に不十分という強い主張である。

ノート3 つの否定的証拠の役割分担
  • 内部回路: T. Zhao ほか (2026年) は「why」を mechanistic に説明する
  • decision-theoretic: J. Wang ほか (2026年) は「acted on されるか」を測る
  • calibration 直接比較: V. Wang と Stengel-Eskin (2025年) は「sampling-based に置き換えると何が改善するか」を示す

これらは独立に sampling-based 信号への移行を支持する。

Sampling-based estimator の最新動向

sampling-based 信号は N 個の reasoning trace を引いて、その agreement や entropy を見る系統である。古典的には self-consistency が基本道具で、2025–2026 年は「効率」と「diversity」を軸に拡張が続いている。詳細は Self-Consistency と重み付き多数決 を参照のこと。

CISC (Taubenfeld ほか 2025年) はモデル自身に各 reasoning path の self-assessment score を出させ、weighted majority vote する手法で、9 モデル 4 データセットで必要 path 数を 40 パーセント以上削減した。図 3 に self-consistency との対比を示す。同じ問題に対して 3 つの reasoning path を引き、self-consistency は単純な多数決で間違った答え C を選ぶのに対し、CISC は path ごとの自己評価 confidence で重み付けし、最も自信のあった path の答え A を採用する。重要な発見として、「最も calibrated な confidence 法が CISC で最も効果が低い」というケースが報告されている。ECE ベースの calibration metric が実用 discrimination と乖離する場面があるという論点である。

図 3: Self-consistency と CISC の対比。同じ問題から複数の reasoning path を引いて answer を集約するが、self-consistency が単純な path カウントで多数決するのに対し、CISC は各 path の自己申告 confidence で重み付けする。出典: (Taubenfeld ほか 2025年)

VecCISC (Petullo ほか 2026年) は CISC の critic LLM への multi-call が高コストである問題に対し、reasoning trace を semantic similarity でクラスタリングして redundant / degenerate / hallucinated trace を事前にフィルタする。CISC と同等以上の精度で token 使用を 47 パーセント削減する。

DiverseAgentEntropy (Feng ほか 2024年) は「同じ知識を異なる query 表現で問う」multi-agent 設定で entropy を計算する。通常の self-consistency は同じ質問への consistency しか見ないため context bias で同じ誤答を繰り返すケースに弱い。表面的な一致ではなく genuine な知識的 uncertainty を捕捉でき、hallucination 検出で state-of-the-art を達成した。

Unsupervised Confidence Calibration from a Single Generation (Zollo ほか 2026年) は N 回サンプリングの代わりとして、オフラインに unlabeled data 上で self-consistency-based 信号を作り、軽量 predictor に蒸留して deployment 時には 1 回生成のみで confidence を出すパイプラインを提案した。5 つの数学および QA タスク、9 reasoning model でベースラインを大きく上回り、分布シフトにも robust である。

ヒント「N 回サンプリング」を蒸留で 1 回に潰す流れ

Zollo ほか (2026年) は 2026 年に明確になった重要な方向性: 高品質な sampling-based 信号を訓練データ生成器として使い、それを 1 回生成で再現する軽量 predictor に蒸留する。推論 (inference) 時のコストを N 分の 1 にできるため、selective generation のような low-latency 応用と相性がよい。

Entropy trajectory と step-wise informativeness

logit-based 信号のうち、token 単位の entropy を「軌跡」として扱う系統が 2025 後半から急速に整理されてきた。

Entropy Trajectory Shape (X. Zhao 2026年) は reasoning ステップ間で per-step answer-distribution entropy を測り、その形状が最終正答率を予測することを発見した。monotone に減少する trajectory を持つ chain は non-monotone な chain より有意に正答率が高い。スカラ entropy ではなく trajectory shape が、安価かつ黒箱に近い形で取れる正答性指標として機能する。

Stepwise Informativeness Assumption (Català ほか 2026年) は、CoT の「entropy が下がるほど答えが正しい」という経験則を理論化する。Stepwise Informativeness Assumption (SIA) は「autoregressive モデルは answer-informative prefix を介して情報を蓄積する」という仮定で、最尤訓練と RL によってさらに強化される。Gemma-2、LLaMA-3.2、Qwen-2.5、DeepSeek、Olmo といった幅広いモデルで GSM8K、ARC、SVAMP 等にわたって実証された。

Entropy Area Score (EAS) (Zhu ほか 2025年) は生成中の token-level predictive entropy を積分してスカラに落とす。外部モデルも再サンプリングも不要で、ベンチマーク上で answer entropy と高相関を示す。さらに training data selection にも有効で、pass-rate ベース選別を上回る。図 4 は EAS が捕える信号の典型例である。上段の answer 確率は reasoning の前半で激しく振動し、後半に向けて 1 つの選択肢に収束していく。下段の token-level entropy はそれに対応して、前半で 1.5 bit 以上のピークが連続するのに対し、reasoning が固まる後半では一貫して 0.5 bit 未満に収まる。EAS はこの曲線の下面積を 1 スカラとして取り出す。

図 4: EAS が捕える生成中の不確実性の例。上段が token ごとの answer 候補 A/B/C/D の予測確率、下段がその token entropy。reasoning の進行と共に entropy が大きく下降する。出典: (Zhu ほか 2025年)

Think Just Enough (Sharma と Chopra 2025年) は token-level logprob から計算した Shannon entropy を early-stopping 信号として用い、reasoning model で 25–50 パーセントの token 削減を達成した。重要な観察として、この entropy-based emergent confidence は post-trained reasoning model(DeepSeek-R1 系)には現れるが、standard instruction-tuned や pre-trained model(Llama 3.3 70B)には現れない、と報告している。図 5 は GPT-OSS 20B / GPQA Diamond 上で正答と誤答の sequence-level entropy 分布が分離する様子を示す。誤答の方が一貫して entropy が高く(平均 0.97 bit vs 0.85 bit、Cohen’s d = 0.6)、早期停止 threshold として 0.845 bit を置くと正誤を実用的に弁別できる。

図 5: GPT-OSS 20B が GPQA Diamond の問題に解いた際の sequence-level entropy 分布。正答(青)と誤答(赤)で entropy 分布が分離しており、誤答ほど entropy が高い。これが entropy ベース early stopping の根拠となる。出典: (Sharma と Chopra 2025年)
ノートtrajectory 系統の共通示唆

X. Zhao (2026年)Català ほか (2026年)Zhu ほか (2025年)Sharma と Chopra (2025年) は、「entropy という 1 スカラよりも、entropy が時間方向にどう動くか」のほうが情報量が多いと一致して示している。これは下流の selective generation で「entropy がいつ落ち着いたか」で stop すべきか決める設計を後押しする。

下流応用

confidence 信号をどう使うかが本章の最後の論点である。代表的な下流タスクは abstention、selective generation、conformal prediction の 3 つに整理できる。

Abstention と selective generation

Knowing When to Quit (Davidov ほか 2026年) は生成途中で abstain を「明示的な action」として RL の中に組み込み、value function が abstention reward を下回ったら止める原理的枠組みを提案した。数学 reasoningと toxicity avoidance の両方で selective accuracy が改善し、一般条件下で「value < reward なら abstain が他のいかなる baseline より strictly 良い」と理論保証を与える。confidence 信号を abstention の入力として plug-in する応用の自然な土台になる。

Conformal prediction

conformal prediction は「真の答えを含む確率が少なくとも 1−α」という被覆保証付きで予測集合を返す枠組みである。LLM 向けには 2 つの ICLR 2026 採択論文が決定的に整備された。

Paraphrase-Robust Conformal Prediction (Xin ほか 2026年) は prompt の表記揺れに robust かつ conformal な被覆保証を保つ枠組みである。入力を paraphrase で展開し、補助モデルで predictive distribution を強化、複数 paraphrase の結果を集約する。Qwen2.5-7B、Llama-3.1-8B、Phi-3-small で nominal coverage を保ちつつ compact な prediction set を出した。

Online Reasoning Calibration (ORCA) (Zhou ほか 2026年) は conformal prediction を test-time training で動的に行う meta-learning 枠組みである。入力ごとに dynamic な calibration を行うことで、分布シフト下でも conformal risk の theoretical guarantee を保ちながら、in-distribution で 47.5 パーセント、out-of-distribution の MATH-500 で 67 パーセントの効率改善を達成した。

ヒントsampling-based 信号 × conformal の相性

Xin ほか (2026年) の paraphrase 軸と Feng ほか (2024年) の diverse-agent 軸は、「同じ知識を異なる表現で問う」点で兄弟である。sampling-based 信号を nonconformity score として読み替えれば、coverage guarantee 付きの confidence 推定が自然に書ける。

Training-time の対極: confidence を学習する

post-hoc に外から測る経路の対極として、confidence 表現を訓練中に内在化させるアプローチがある。Rewarding Doubt (Bani-Harouni ほか 2025年) は生成過程に confidence 表現を seamless に織り込む RL 訓練を提案した。報酬は proper scoring rule の対数版で、over confidence と under confidence の双方を罰する。学習したモデルは未学習タスクにも汎化する。Leng ほか (2024年) の PPO-M / PPO-C と同じく、「inference-time signal を整える」のではなく「training-time に校正性を組み込む」軸の代表である。

ノート推論時側と訓練時側は補完的

inference-time に外から測る経路(本章の大半)と training-time に組み込む経路(Bani-Harouni ほか (2025年)Leng ほか (2024年)Ma ほか (2026年))は対立というより補完関係にある。training-time fix は base のレベルを上げ、inference-time signal は残った不確実性を扱う。

章のまとめ

  • confidence estimator は logit-based、verbalized、sampling-based の 3 経路に大別され、現代の reasoning model では logit と verbalized の信頼性に系統的な疑義が出ている
  • 2026 年に独立な複数のグループ(Ma ほか (2026年)Mei ほか (2025年)Leng ほか (2024年))が「RL post-training が calibration を壊す」ことを確認した。これは sampling-based 黒箱信号への移行を正当化する
  • verbalized confidence については内部回路(T. Zhao ほか (2026年))、decision-theoretic(J. Wang ほか (2026年))、直接比較(V. Wang と Stengel-Eskin (2025年))の 3 方面で否定的証拠が揃った
  • sampling-based 系は efficiency と diversity の両軸で進化中で、特に Zollo ほか (2026年) の「N 回信号を 1 回蒸留する」流れと Feng ほか (2024年) の paraphrase 軸が中心である
  • entropy trajectory(X. Zhao (2026年)Català ほか (2026年)Zhu ほか (2025年)Sharma と Chopra (2025年))は logit-based 系を「スカラ」から「軌跡」へ拡張し、SIA で理論化された
  • 下流応用としては abstention(Davidov ほか (2026年))、selective generation、conformal prediction(Xin ほか (2026年)Zhou ほか (2026年))が主軸で、training-time 側の校正(Bani-Harouni ほか (2025年))と補完関係にある

参考文献

Bani-Harouni, David, Chantal Pellegrini, Paul Stangel, ほか. 2025年. 「Rewarding Doubt: A Reinforcement Learning Approach to Calibrated Confidence Expression of LLMs」. arXiv preprint arXiv:2503.02623. https://arxiv.org/abs/2503.02623.
Català, Mar Gonzàlez I., Haitz Sáez de Ocáriz Borde, George D. Montañez, と Pietro Liò. 2026年. 「The Stepwise Informativeness Assumption: Why are Entropy Dynamics and Reasoning Correlated in LLMs?」 arXiv preprint arXiv:2604.06192. https://arxiv.org/abs/2604.06192.
Davidov, Hen, Nachshon Cohen, Oren Kalinsky, ほか. 2026年. 「Knowing When to Quit: A Principled Framework for Dynamic Abstention in LLM Reasoning」. arXiv preprint arXiv:2604.18419. https://arxiv.org/abs/2604.18419.
Feng, Yu, Phu Mon Htut, Zheng Qi, ほか. 2024年. DiverseAgentEntropy: Rethinking LLM Uncertainty via Multi-Agent Approach」. Findings of the Association for Computational Linguistics: EMNLP 2025. https://arxiv.org/abs/2412.09572.
Leng, Jixuan, Chengsong Huang, Banghua Zhu, と Jiaxin Huang. 2024年. 「Taming Overconfidence in LLMs: Reward Calibration in RLHF. arXiv preprint arXiv:2410.09724. https://arxiv.org/abs/2410.09724.
Ma, Zhengzhao, Xueru Wen, Boxi Cao, ほか. 2026年. 「Decoupling Reasoning and Confidence: Resurrecting Calibration in Reinforcement Learning from Verifiable Rewards」. arXiv preprint arXiv:2603.09117. https://arxiv.org/abs/2603.09117.
Mei, Zhiting, Christina Zhang, Tenny Yin, Justin Lidard, Ola Shorinwa, と Anirudha Majumdar. 2025年. 「Reasoning about Uncertainty: Do Reasoning Models Know When They Don’t Know?」 arXiv preprint arXiv:2506.18183. https://arxiv.org/abs/2506.18183.
Petullo, James, Sonny George, Dylan Cashman, と Nianwen Xue. 2026年. VecCISC: Improving Confidence-Informed Self-Consistency with Reasoning Trace Clustering and Candidate Answer Selection」. Findings of the Association for Computational Linguistics: ACL 2026. https://arxiv.org/abs/2605.08070.
Sharma, Aman, と Paras Chopra. 2025年. 「Think Just Enough: Sequence-Level Entropy as a Confidence Signal for LLM Reasoning」. arXiv preprint arXiv:2510.08146. https://arxiv.org/abs/2510.08146.
Taubenfeld, Amir, Tom Sheffer, Eran Ofek, ほか. 2025年. 「Confidence Improves Self-Consistency in LLMs」. Findings of the Association for Computational Linguistics: ACL 2025, 編集者: Wanxiang Che, Joyce Nabende, Ekaterina Shutova, と Mohammad Taher Pilehvar. Association for Computational Linguistics. https://doi.org/10.18653/v1/2025.findings-acl.1030.
Wang, Jiawei, Yanfei Zhou, Siddartha Devic, と Deqing Fu. 2026年. 「Are LLM Decisions Faithful to Verbal Confidence?」 arXiv preprint arXiv:2601.07767. https://arxiv.org/abs/2601.07767.
Wang, Victor, と Elias Stengel-Eskin. 2025年. 「Calibrating Verbalized Confidence with Self-Generated Distractors」. International Conference on Learning Representations. https://arxiv.org/abs/2509.25532.
Xin, Jiayi, Evan Qiang, Xiang Li, Weijie J. Su, と Qi Long. 2026年. 「Paraphrase-Robust Conformal Prediction for Reliable LLM Uncertainty Quantification」. International Conference on Learning Representations. https://openreview.net/forum?id=Uf04r8gDn7.
Zhang, Tunyu, Haizhou Shi, Yibin Wang, ほか. 2025年. 「Token-Level Uncertainty Estimation for Large Language Model Reasoning」. International Conference on Learning Representations. https://arxiv.org/abs/2505.11737.
Zhao, Tianyi, Yinhan He, Wendy Zheng, Yujie Zhang, と Chen Chen. 2026年. 「Wired for Overconfidence: A Mechanistic Perspective on Inflated Verbalized Confidence in LLMs」. arXiv preprint arXiv:2604.01457. https://arxiv.org/abs/2604.01457.
Zhao, Xinghao. 2026年. 「Entropy Trajectory Shape Predicts LLM Reasoning Reliability: A Diagnostic Study of Uncertainty Dynamics in Chain-of-Thought」. arXiv preprint arXiv:2603.18940. https://arxiv.org/abs/2603.18940.
Zhou, Cai, Zekai Wang, Menghua Wu, ほか. 2026年. 「Online Reasoning Calibration: Test-Time Training Enables Generalizable Conformal LLM Reasoning」. arXiv preprint arXiv:2604.01170. https://arxiv.org/abs/2604.01170.
Zhu, Yongfu, Lin Sun, Guangxiang Zhao, Weihong Lin, と Xiangzheng Zhang. 2025年. 「Uncertainty Under the Curve: A Sequence-Level Entropy Area Metric for Reasoning LLM. arXiv preprint arXiv:2508.20384. https://arxiv.org/abs/2508.20384.
Zollo, Thomas, Jimmy Wang, と Richard Zemel. 2026年. 「Unsupervised Confidence Calibration for Reasoning LLMs from a Single Generation」. arXiv preprint arXiv:2604.19444. https://arxiv.org/abs/2604.19444.