本稿は「本当は書籍『評価指標入門』に書きたかったんだけど諸般の理由により書ききれなかった内容をgihyo.jpを借りて成仏させていく企画」の第一段「カリブレーション(Calibration、確率較正)」です。特に「機械学習のカリブレーションとビジネスの関係性を検討」してみたいというモチベーションで執筆します。 日本語では“確率較正”とも呼ばれるこの計算ですが、個人的にはカリブレーションという方が好きなので、ここではカリブレーションと統一して書きます。 早速ですが、まずカリブレーションとは「分類問題において、機械学習モデルの出力([0, 1]の値)をデータのクラス分布に近づける」ことです。例えば、二値分類問題において、モデルがあるデータ点に対して1を予測する確率が0.8である場合、そのデータ点が実際に1である割合も0.8になるように確率の数値を修正してしまう(これが較正)ということで