リード
アプリが「不安泣き 70%、空腹泣き 20%、その他 10%」という推定を表示したとする。その数字を見たとき、何を思うだろうか。
「70% ということは、不安が原因だろう」と納得する人もいる。「たった 70%? 30% の確率で外れるなら信用できない」と感じる人もいる。どちらの読み方も、完全には正しくない。
確率的な推定を正しく読む力——キャリブレーション・リテラシーと呼んでもいい——は、AI を搭載したサービスが日常に広がるにつれて、親にとってもますます必要な知識になっている。この記事では、「70%」という数字が実際に何を言っていて、何を言っていないのかを、機械学習と予測モデルの文脈から整理する。
「確率 70%」は何を意味するか
まず根本から確認する。AI が「不安泣き 70%」と出力するとき、その 70% が意味するのは、「このモデルが同じ入力(泣き声の音響特徴・時刻・直前の授乳記録など)を受け取ったとき、70% の確率で不安泣きと推定する」ということだ。
これは「今この瞬間、この子が 70% 不安を感じている」という心理状態の直接計測ではない。モデルが持つ学習済みパターンと、今の入力との類似度が数値化されたものだ。
もうひとつ理解しておきたいのは、この 70% が信頼できる数字かどうかは、モデルの性能とは別の話だということだ。正確さ: accuracyの訳。予測モデルが正解と一致した割合。「全体の何%を当てたか」を見る指標で、確率の妥当性そのものは保証しない(accuracy)と較正: calibrationの訳。モデルが「70%」と出した予測が、実際に70%程度の割合で当たっているかを問う性能指標。正確さとは別軸(calibration)は区別される概念である。
キャリブレーション——70% は本当に 70% か
モデルの較正(calibration)とは、「モデルが 70% と言ったとき、実際に正解する割合が 70% に近いかどうか」を問う概念だ [1,2]。
予測モデルの開発と検証のフレームワークを整理したSteyerberg & Vergouwe(2014年)は、予測モデルの性能評価に不可欠な要素として較正を明示した [1]。Van Calsterらが2019年にBMC Medicineで発表した論文は、較正を「予測分析のアキレス腱」と呼び、多くの機械学習モデルが高い識別能: 陽性と陰性をどれだけ分けられるかというモデルの能力。AUC(曲線下面積)で測られ、較正とは別の性能軸(AUC)を持ちながらも較正に問題があることを指摘した [2]。
具体的に言うと、あるモデルが「70% と推定した事例」のうち、実際に正解だったのが 55% しかなければ、そのモデルは過信された確率を出力している(過信:overconfident)。逆に 85% が正解だったなら、モデルは確率を低く見積もっている(過小信頼:underconfident)。
Niculescu-MizilとCaruanaが2005年のICMLで発表した研究は、機械学習の代表的アルゴリズム(決定木ブースティング、ナイーブベイズ、ニューラルネットワークなど)の較正特性を系統的に比較し、アルゴリズムによって確率の歪み方のパターンが異なることを示した [3]。つまり「AI が出した確率」がキャリブレーションされているかどうかは、アルゴリズムと開発プロセスによって大きく変わる。
Brier スコアと信頼性図
較正を評価する指標として実用的なのがBrier スコア: 確率予測の精度を評価する指標。予測確率と実際の結果の二乗誤差を平均したもので、0に近いほど良く1に近いほど悪いだ [1,2,5]。1950年に気象予報の検証指標として開発されたこの指標は、予測確率と実際の結果の二乗誤差の平均で、0 が完全な予測、1 が最悪の予測を示す [5]。完全に無意味な予測(常に 50% を出すなど)より低い Brier スコアを持っているかどうかが、最低限の基準になる。
もうひとつは信頼性図(Reliability diagram / Calibration curve)だ。横軸に「モデルが予測した確率」、縦軸に「実際の陽性率」を取ったプロットで、対角線(y=x)に近いほど較正が良い。Memori のようなアプリが較正情報を開示する仕組みを持っているかどうかは、AI の透明性を判断する上で有用な指標になる。
「外れること」をどう考えるか
重要な前提として、確率的推定は「外れることがあって当然」だ。70% の確率で正しいモデルは、100回のうち30回は間違える。それはモデルの失敗ではなく、確率的推定の性質そのものだ。
Ghassemi, Oakden-Rayner, BeamがThe Lancet Digital Healthに発表した論文(2021年)は、医療 AI の文脈で「モデルの説明可能性への過度な期待」を批判し、適切な内的・外的検証の重要性を論じた [4]。医療現場と育児支援という文脈は異なるが、「AI の出力を点推定として受け取り、それに基づいて意思決定する」という構造は共通している。その構造のリスクを認識した上で AI を使うことが、誠実な利用のあり方だ。
では、どう使えばいいか
実用的な使い方として、以下の観点が参考になる。
推定を「仮説生成」として使う: 「不安泣き 70%」という出力は、「不安が原因かもしれないという仮説に 70% の信頼を置く」と読む。その仮説を持った上で、自分の観察(表情・体の緊張・直前の出来事)で確認する。AI は観察の代替ではなく、観察の入り口だ。
出力の変化パターンに注目する: 絶対値よりも、記録の積み重ねの中での推定の変化に意味がある場合がある。「先週より空腹泣きの割合が増えた」という時系列変化は、個別推定の信頼性とは別の情報を持ちうる。
較正についての疑問を持つ: AI を提供するサービスが「このモデルの較正データ」を公開しているかどうかを確認することは、情報リテラシーの実践だ。開示がない場合は、確率出力を絶対値として信頼することを控えることが賢明だ。
まとめ
「不安泣き 70%」という数字は、確率的推定だ。それが信頼できる数字かどうかは、モデルの較正に依存する。較正とは「70% と言ったとき、実際に 70% の割合で正しいか」を問う概念であり [1,2]、アルゴリズムによってその精度は大きく異なる [3]。
AI の出力を仮説として使い、自分の観察で検証する——その往復の中でこそ、AI は育児の補助ツールとして機能する。確率を「答え」として読む必要はない。確率は「問いの入り口」だ。
References
- Steyerberg EW, Vergouwe Y. Towards better clinical prediction models: seven steps for development and an ABCD for validation. Eur Heart J. 2014;35(29):1925–1931. doi:10.1093/eurheartj/ehu207. PMID: 24898551.
- Van Calster B, McLernon DJ, van Smeden M, Wynants L, Steyerberg EW; Calibration: the Achilles heel of predictive analytics. BMC Med. 2019;17(1):230. doi:10.1186/s12916-019-1466-7. PMID: 31842878.
- Niculescu-Mizil A, Caruana R. Predicting good probabilities with supervised learning. In: Proceedings of the 22nd International Conference on Machine Learning (ICML 2005). Bonn, Germany: ACM; 2005:625–632. doi:10.1145/1102351.1102430.
- Ghassemi M, Oakden-Rayner L, Beam AL. The false hope of current approaches to explainable artificial intelligence in health care. Lancet Digit Health. 2021;3(11):e745–e750. doi:10.1016/S2589-7500(21)00208-9.
- Brier GW. Verification of forecasts expressed in terms of probability. Mon Weather Rev. 1950;78(1):1–3. doi:10.1175/1520-0493(1950)078<0001:VOFEIT>2.0.CO;2.