Clustering-Illusion

Die Clustering-Illusion (von englisch cluster ‚Häufung‘^[1]) beschreibt die menschliche Eigenschaft, zufälligen Mustern, die in ausreichend großen Datenmengen zwangsläufig vorkommen, Bedeutungen zuzuschreiben. Die Clustering-Illusion entsteht unter anderem aufgrund der menschlichen Repräsentativitätsheuristik und des Bestätigungsfehlers.

Zufällige Verteilung von 10.000 Punkten, bei der Häufungen (clusters) erkennbar sind; die auftretenden Muster entstehen zufällig. Die Erkennung eines nicht-zufällig verteilten Musters wäre eine Clustering-Illusion.

Beispiele

Beispielsweise halten die meisten Personen die Sequenz „OXXXOXXXOXXOOOXOOXXOO“ für nicht-zufällig,^[2] obwohl sie in Wirklichkeit viele Eigenschaften hat, die man in einem echten Zufallsdatenstrom erwarten würde, etwa gleiche Häufigkeit der beiden Ereignisse und die Tatsache, dass die Anzahl der direkt angrenzenden gleichen Symbole für jedes der beiden Symbole gleich ist. Offenbar erwarten die Betrachter solcher Sequenzen eine größere Abwechslung, als es der statistischen Vorhersage entspricht. Tatsächlich sind in kurzen Versuchsreihen scheinbar nicht-zufällige Serien ziemlich wahrscheinlich. Ob ein Datensatz Muster enthält oder nicht, kann oft mit statistischen Analysewerkzeugen oder sogar mit computergestützter Kryptoanalyse entschieden werden. Beispielsweise enthält die Sequenz „XXOXOXOOOXOXOOOXOX“ ein erkennbares Muster: die Position der X entspricht den Primzahlen ab 2 und die der O den Nichtprimzahlen. Computerprogramme zur Datenkompression sind dazu geeignet, in den Daten Muster zu erkennen und durch alternative Verweise zu ersetzen, aus denen der richtige Algorithmus die Originaldaten wiederherstellen kann. Große Datenmengen, die nichtzufällige Häufungen enthalten, lassen sich in der Regel gut komprimieren. Daten ohne echte Häufungen oder Muster sind dagegen eher schlecht oder gar nicht komprimierbar.

Die Clustering-Illusion ist Teil einer Studie von Thomas Gilovich, Robert Vallone und Amos Tversky.^[3] Dabei wurde die hot hand, Glückssträhnen der Werfer im Basketball, als durch Zufall erklärbar identifiziert. Neuere Forschungen auf einer breiten Datenbasis weisen allerdings darauf hin, dass sich tatsächlich ein Hot-Hand-Effekt mit einer erhöhten Trefferwahrscheinlichkeit im Bereich von 1,2 bis 2,4 Prozent nachweisen lässt.^[4] Obwohl in London nach dem Zweiten Weltkrieg Theorien zu den Mustern der eingeschlagenen V2-Raketen entwickelt wurden, konnte R. D. Clarke zeigen, dass die Verteilung zu einer zufälligen Verteilung passt.^[5]

Der sogenannte Leukämiecluster Elbmarsch, bei dem einzelne Leukämiefälle in der Elbmarsch Kernkraftwerken zugeordnet wurden, gilt ebenso als Beispiel für eine entsprechend falsche Bedeutungszuschreibung für ein als nicht zufällig empfundenes Muster.^[6] Die mögliche Zufälligkeit ist aber kein Ausschlusskriterium für womöglich unterschätzte konkrete Ursachen.^[6] Ein bekanntes Beispiel ist das Auftauchen militärischer Kennwörter wie Dieppe, Omaha, Utah und Mulberry vor den zugehörigen Militäroperationen in Kreuzworträtseln des britischen Daily Telegraphs während des Zweiten Weltkriegs.^[7] Der Verfasser der Kreuzworträtsel, im Hauptberuf Schulleiter, wurde deshalb zunächst vom Geheimdienst verdächtigt und vernommen, die Synchronizität von Rätselbegriff und Militäroperation aber als Zufall betrachtet. Tatsächlich hatte er, wie sich erst später herausstellte, seine Rätselvorlagen von Schülern auffüllen lassen, die die Kennwörter von Soldaten aufgeschnappt hatten.^[7]

Ein weiteres Beispiel sind die Fragen des SAT (ein wichtiger Multiple-Choice-Eingangstest für US-amerikanische Studenten). Sie werden von den Testentwicklern bewusst so gewählt, dass keine längeren Serien gleicher Antworten vorkommen, weil die Studenten erfahrungsgemäß solche Serien für unwahrscheinlich halten. Die Prüflinge könnten sich zu falschen Antworten gezwungen fühlen, nur um eine Serie zu vermeiden. Weitere Varianten der Clustering-Illusion sind z. B. die Pareidolie bei der Erkennung von Gesichtern auf Gegenständen oder die Apophänie bei der Schizophrenie.

Literatur

J. E. Fisk: Judgments under uncertainty: representativeness or potential surprise? In: British Journal of Psychology (London, England : 1953). Band 93, Pt 4. November 2002, S. 431–449, ISSN 0007-1269. PMID 12519527.
H. Nilsson, H. Olsson, P. Juslin: The cognitive substrate of subjective probability. In: Journal of experimental psychology. Learning, memory, and cognition. Band 31, Nummer 4, Juli 2005, S. 600–620, ISSN 0278-7393. doi:10.1037/0278-7393.31.4.600. PMID 16060768.

Einzelnachweise

↑ David Aronson: Evidence-Based Technical Analysis: Applying the Scientific Method and Statistical Inference to Trading Signals. In: Band 274 von Wiley Trading. John Wiley & Sons, 2011, ISBN 978-1-118-16058-9. Kapitel 2: The intuitive judgment and the role of heuristics.
↑ T. Gilovich: How We Know What Isn't So: The Fallibility of Human Reason in Everyday Life. The Free Press, New York 1993, ISBN 0-02-911706-2.
↑ T. Gilovich, R. Vallone, A. Tversky: The hot hand in basketball: On the misperception of random sequences. In: Cognitive Psychology. Band 17, 1985, S. 295–314.
↑ A. Bocskocsky, J. Ezekowitz, C. Stein: The hot hand: A new approach to an old ‘fallacy’ (Memento des Originals vom 17. Februar 2015 im Internet Archive) Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäß Anleitung und entferne dann diesen Hinweis.@1@2. 8th Annual Mit Sloan Sports Analytics Conference. 2014.
↑ R. D. Clarke: An application of the Poisson distribution. In: Journal of the Institute of Actuaries. Band 72, 1946, S. 481. (PDF) (Memento des Originals vom 23. Juni 2015 im Internet Archive) Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäß Anleitung und entferne dann diesen Hinweis.@1@2
↑ ^a ^b Hans-Hermann Dubben, Hans-Peter Beck-Bornholdt: Der Hund, der Eier legt: Erkennen von Fehlinformation durch Querdenken. Rowohlt E-Book, 2011, ISBN 978-3-644-44011-1 (google.com [abgerufen am 15. Oktober 2015]).
↑ ^a ^b Who put secret D-Day clues in the 'Telegraph' crossword? In: Telegraph.co.uk. Abgerufen am 16. Oktober 2015.

[Aronson-1] David Aronson: Evidence-Based Technical Analysis: Applying the Scientific Method and Statistical Inference to Trading Signals. In: Band 274 von Wiley Trading. John Wiley & Sons, 2011, ISBN 978-1-118-16058-9. Kapitel 2: The intuitive judgment and the role of heuristics.

[2] T. Gilovich: How We Know What Isn't So: The Fallibility of Human Reason in Everyday Life. The Free Press, New York 1993, ISBN 0-02-911706-2.

[3] T. Gilovich, R. Vallone, A. Tversky: The hot hand in basketball: On the misperception of random sequences. In: Cognitive Psychology. Band 17, 1985, S. 295–314.

[4] A. Bocskocsky, J. Ezekowitz, C. Stein: The hot hand: A new approach to an old ‘fallacy’ (Memento des Originals vom 17. Februar 2015 im Internet Archive) Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäß Anleitung und entferne dann diesen Hinweis.@1@2. 8th Annual Mit Sloan Sports Analytics Conference. 2014.

[5] R. D. Clarke: An application of the Poisson distribution. In: Journal of the Institute of Actuaries. Band 72, 1946, S. 481. (PDF) (Memento des Originals vom 23. Juni 2015 im Internet Archive) Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäß Anleitung und entferne dann diesen Hinweis.@1@2

[:0-6] Hans-Hermann Dubben, Hans-Peter Beck-Bornholdt: Der Hund, der Eier legt: Erkennen von Fehlinformation durch Querdenken. Rowohlt E-Book, 2011, ISBN 978-3-644-44011-1 (google.com [abgerufen am 15. Oktober 2015]).

[:1-7] Who put secret D-Day clues in the 'Telegraph' crossword? In: Telegraph.co.uk. Abgerufen am 16. Oktober 2015.

[1]

[2]

[3]

[4]

[5]

[6]

[7]