Scoring Rule

In der Entscheidungstheorie ist eine score function oder scoring rule, zu deutsch eine Bewertungs-Regel, ein Maß für die Performanz einer Wahrscheinlichkeitsvorhersage eines Modells, ohne dabei zu dichotomisieren. Im Rahmen der probabilistischen Klassifikation und der empirischen Risikominimierung können Scoring rules als Verlustfunktionen eingesetzt werden.

Motivation

Eine Dichotomisierung der Wahrscheinlichkeitsvorhersage wird häufig bei der Beurteilung eines binären Klassifikators angewandt. Ein Vorteil von Scoring rules gegenüber anderen Bewertungsmetriken wie Precision, Recall oder F-Score, ist, dass eine schlechtere Wahrscheinlichkeitskalibrierung zu einem schlechteren scoring führt (was für die anderen Bewertungsmetriken nicht zwingend der Fall ist).

Daher werden in der probabilistischer Klassifikation, bei der es um gute Wahrscheinlichkeitskalibrierung geht (d. h. die vorhergesagten Wahrscheinlichkeiten mit den tatsächlichen übereinstimmen sollen), proper score functions zur Bewertung und als Verlustfunktion herangezogen^[1].

Mit einer Kalibrationskurve kann herausgefunden werden, wie gut die Vorhersagen eines Modells kalibriert sind.

Definition

Eine Scoring rule ist eine Funktion, welche die Übereinstimmung einzelner Vorhersagen mit ihrer Beobachtung bewertet. Die Scoring rule $u:\Omega \times {\mathcal {F}}\to \mathbb {R}$ ist über dem zusammengesetzten Raum des Ergebnisraumes und der Wahrscheinlichkeitsmaße ${\mathcal {F}}$ definiert. Die Scoring-Funktion liefert die Bewertung $u(x,q)\in \mathbb {R}$ für die Vorhersage $q$ bei Eintritt des Ereignisses $x$ . Die Eintrittswahrscheinlichkeit des Ereignisses ist $P(X=x)$ , d. h. $X\sim P(X)$ .

Scoring rules werden in folgende Fälle unterschieden:

positive Orientierung, das heißt größere Scores sind besser
negative Orientierung, das heißt kleinere Scores sind besser

Erwartungswert der Scoring rule

Der Erwartungswert der Scoring rule $E_{X}[u(x,q)]=\sum _{x\in \Omega }\underbrace {p(X=x)} _{p_{x}}u(x,q)$ kann mithilfe einer zufälligen Stichprobe und einer Realisierung des Stichprobenmittelwertes geschätzt werden (welcher nach dem Gesetz der großen Zahlen konvergiert):

{\hat {E}}_{X}[u(x,q)]={\frac {1}{N}}\sum _{i=1}^{N}u(x_{i},q(x_{i})),

die Werte $q(x_{i})$ sind die Wahrscheinlichkeitsvorhersagen für den Eintritt des realisierten Ereignisses $x_{i}\in \Omega$ , $x_{i}\sim P(X)$ .

Einteilung

Eine Scoring rule $u$ positiver Orientierung heißt (analog für negative Orientierung, aber mit umgedrehten Ungleichungen)^[2]:

strictly proper, falls : $E_{X\sim p}[u(x,p)]>E_{X\sim p}[u(x,q)]$ für alle $q\neq p$
proper, falls : $E_{X\sim p}[u(x,p)]\geq E_{X\sim p}[u(x,q)]$ für alle $q\neq p$
improper, falls : $E_{X\sim p}[u(x,p)]<E_{X\sim p}[u(x,q)]$ für manche $q\neq p.$

Eine scoring rule $u(x,q)$ heißt somit proper, wenn der Vorhersagende motiviert wird, ehrlich und kohärent zu schätzen.

Proper score functions

Darstellung des erwarteten Scores $E_{X}[u(x,q)]$ für verschiedene Wahrscheinlichkeiten $p_{x}$ (vertikale Linie) verschiedener scoring functions. Die x-Achse ist die Prädiktion q. Rot: linear, orange: spherical, purple: quadratic, green: log.

Brier score

Die häufigste Definition^[3] des Brier score ist gegeben durch

$u(x,q)=(x-q)^{2}.$

Er sollte minimiert werden.

Logarithmische Score-Funktion

Die logarithmische Score-Funktion.

u(x,q)={\begin{cases}\log q&{\text{falls }}x=1\\\log(1-q)&{\text{falls }}x=0\\\end{cases}}

Erwartungswert der Logarithmische Score-Funktion unter Annahme, dass das Ereignis x=1 mit Wahrscheinlichkeit $p_{1}=0.8$ erscheint. Die blaue Linie wird durch die Funktion $0.8\log(q)+(1-0.8)\log(1-q)$ beschrieben. Das Maximum liegt bei $q=0.8$

Continuous ranked probability score

Der continuous ranked probability score (CRPS) ist eine strictly proper scoring rule. Der CRPS vergleicht eine einzelne Beobachtung $y$ mit der vorhergesagten Verteilung. Er wird wie folgt definiert:

$CRPS(F,y)=\int _{\mathbb {R} }(F(x)-\mathbb {1} (x\geq y))^{2}dx$

Dabei ist $F$ die vorhergesagte kumulative Verteilungsfunktion über einem Träger, welcher durch $x$ beschrieben wird und $y\in \mathbb {R}$ ist die Beobachtung. Beachte, dass die Vorhersage mehrere Wahrscheinlichkeiten schätzt, sodass eine kumulative Verteilungsfunktion F entsteht.

Wenn die Vorhergesagte Dichte eine Delta-Distribution $p(z)=\delta ({\hat {y}}-z)$ ist (also $F(x)=\int _{-\infty }^{x}\delta ({\hat {y}}-z)dz=\mathbb {1} (x\geq {\hat {y}})$ ) dann ist der CRPS äquivalent zum Mean absolute error (MAE): $CRPS(F,y)=\int _{\mathbb {R} }(\mathbb {1} (x\geq {\hat {y}})-\mathbb {1} (x\geq y))^{2}dx={\begin{cases}\int _{\hat {y}}^{y}1dx{\text{ für }}y>{\hat {y}}\\\int _{y}^{\hat {y}}1dx{\text{ sonst}}\end{cases}}=|{\hat {y}}-y|$

Sphärische scoring rule

Die Sphärische scoring rule:

u(x,q)=x/{\sqrt {q^{2}}}

Beispiel Bernoulli-verteilte Zufallszahl

Betrachte die Aufgabe der Wettervorhersage, bei der an jedem Tag eine Regenwahrscheinlichkeit q vorhergesagt wird und es an einem Tag entweder regnet (x = 1) oder nicht regnet (x = 0). Die echte Wahrscheinlichkeit, dass es regnet ist sei p und die Wahrscheinlichkeit, dass es nicht regnet 1-p. Wir betrachten somit eine Bernoulli-verteilte Zufallszahl $X\sim {\text{Ber}}(p)$ :

$X\in \{0,1\}$
$p(X=1)=p$
$p(X=0)=1-p$

Durch eine Statistik der vorhergesagten Wahrscheinlichkeiten q kann die tatsächliche Regenhäufigkeit p mit der Vorhersage abgeglichen werden. Besitzt die Vorhersage q oft eine große Abweichung zu p, so wird sie schlecht kalibriert genannt. Um den Vorhersagenden zu motivieren, die Wahrscheinlichkeitskalibrierung (seine Leistung) zu verbessern, kann ihm das Ziel gesetzt werden den Erwartungswert einer proper scoring rule positiver Orientierung $u(x,q)$ zu maximieren (oder bei negativer Orientierung zu minimieren).

Logarithmischer Score

Betrachte die Scoring-Funktion $u(x,q)={\begin{cases}\log(q){\text{ für }}x=1\\\log(1-q){\text{ für }}x=0\end{cases}}$ so ist $E_{X}[u(x,q)]=p\log(q)+(1-p)\log(1-q)$ . Maximierung des erwarteten Scores liefert:

\partial _{q}E_{X}[u(x,q)]|_{q^{*}}=\partial _{q}(\sum _{x\in \{0,1\}}p_{x}u(x,q))|_{q^{*}}=\partial _{q}(pu(1,q)+(1-p)u(0,q))|_{q^{*}}={\frac {p-q}{q-q^{2}}}|_{q^{*}}=0\implies q^{*}=p

Somit wird der erwartete Score durch die spezielle Wahl $q^{*}=p$ maximiert und $u(x,q)={\begin{cases}\log(q){\text{ für }}x=1\\\log(1-q){\text{ für }}x=0\end{cases}}$ ist eine proper scoring rule (positiver Orientierung).

Beachte: der negative Erwartungswert $-E_{X}[u(x,q)]=-p\log(q)+(1-p)\log(1-q)$ entspricht der Kreuzentropie. Die Wahl einer logarithmischen scoring rule ist per-se willkürlich, kann jedoch durch Maximierung der Likelihood-Funktion motiviert werden.

Quadratischer Score

Betrachte die Scoring-Funktion $u(x,q)=(x-q)^{2},$ so ist $E_{X}[u(x,q)]=p(1-q)^{2}+(1-p)(0-q)^{2}$ . Minimierung des erwarteten Scores liefert:

\partial _{q}E_{X}[u(x,q)]|_{q^{*}}=(2q-2p)|_{q^{*}}=0\implies q^{*}=p

Somit wird der erwartete Score durch die spezielle Wahl $q^{*}=p$ minimiert und $u(x,q)=(x-q)^{2}$ ist eine proper scoring rule (negativer Orientierung).

Absoluter Score

Betrachte die Scoring-Funktion $u(x,q)=|x-q|,$ (mit $0\leq q\leq 1$ ), so ist $E_{X}[u(x,q)]=p|1-q|+(1-p)|0-q|=p(1-q)+(1-p)q$ . Minimierung des erwarteten Scores liefert:

\partial _{q}E_{X}[u(x,q)]|_{q^{*}}=1-2p=0,

was nur für p = 0.5 wahr ist. Somit wird der erwartete Score nicht durch die spezielle Wahl $q^{*}=p$ minimiert und $u(x,q)=|x-q|$ ist keine proper scoring rule.

Probleme

Eine extreme Ungleichheit bei den Klassenhäufigkeiten macht die Schätzung von Wahrscheinlichkeiten schwer^[4].

Literatur

Some Comparisons among Quadratic, Spherical, and Logarithmic Scoring Rules, J. Eric Bickel, 7 https://doi.org/10.1287/deca.1070.0089

Weblinks

Video comparing spherical, quadratic and logarithmic scoring rules

Einzelnachweise

↑ Greenberg, Spencer. "Calibration scoring rules for practical prediction training." arXiv preprint arXiv:1808.07501 (2018). https://arxiv.org/abs/1808.07501
↑ Economic Value of Weather and Climate Forecasts. (1997). Vereinigtes Königreich: Cambridge University Press. Seite 36, google books
↑ Healthcare Data Analytics. (2015). USA: CRC Press. https://www.google.de/books/edition/Healthcare_Data_Analytics/Iun5CQAAQBAJ?hl=de&gbpv=1&dq=brier%20score%20definition%20most%20common&pg=PA366&printsec=frontcover
↑ Wallace, Byron & Dahabreh, Issa. (2012). Class Probability Estimates are Unreliable for Imbalanced Data (and How to Fix Them). Proceedings - IEEE International Conference on Data Mining, ICDM. 695-704. doi:10.1109/ICDM.2012.115

[1] Greenberg, Spencer. "Calibration scoring rules for practical prediction training." arXiv preprint arXiv:1808.07501 (2018). https://arxiv.org/abs/1808.07501

[2] Economic Value of Weather and Climate Forecasts. (1997). Vereinigtes Königreich: Cambridge University Press. Seite 36, google books

[3] Healthcare Data Analytics. (2015). USA: CRC Press. https://www.google.de/books/edition/Healthcare_Data_Analytics/Iun5CQAAQBAJ?hl=de&gbpv=1&dq=brier%20score%20definition%20most%20common&pg=PA366&printsec=frontcover

[4] Wallace, Byron & Dahabreh, Issa. (2012). Class Probability Estimates are Unreliable for Imbalanced Data (and How to Fix Them). Proceedings - IEEE International Conference on Data Mining, ICDM. 695-704. doi:10.1109/ICDM.2012.115

[1]

[2]

[3]

[4]