Eines Tages aß eine junge Frau zum Mittagessen eine große Schüssel Eiscreme, und ein Mitglied der Fakultät kam auf sie zu und sagte: „Sie sollten besser aufpassen, es gibt eine hohe statistische Korrelation zwischen Eiscreme und Ertrinken.“ Sie muss habe ihm einen verwirrten Blick gegeben, als er etwas mehr ausgearbeitet hat. "An Tagen mit den meisten Eisverkäufen ertrinken auch die meisten Menschen."
Als sie mein Eis fertig hatte, diskutierten die beiden Kollegen die Tatsache, dass nur weil eine Variable statistisch mit einer anderen assoziiert ist, dies nicht bedeutet, dass eine die Ursache für die andere ist. Manchmal versteckt sich eine Variable im Hintergrund. In diesem Fall verbirgt sich der Tag des Jahres in den Daten. An heißen Sommertagen wird mehr Eis verkauft als an schneereichen Wintertagen. Im Sommer schwimmen mehr Menschen und ertrinken daher im Sommer mehr als im Winter.
Die obige Anekdote ist ein Paradebeispiel für eine sogenannte lauernde Variable. Wie der Name schon sagt, kann eine lauernde Variable schwer fassbar und schwer zu erkennen sein. Wenn wir feststellen, dass zwei numerische Datensätze stark korreliert sind, sollten wir immer fragen: "Könnte es noch etwas geben, das diese Beziehung verursacht?"
Die folgenden Beispiele zeigen eine starke Korrelation, die durch eine lauernde Variable verursacht wird:
In all diesen Fällen ist die Beziehung zwischen den Variablen sehr stark. Dies wird typischerweise durch einen Korrelationskoeffizienten angezeigt, der einen Wert nahe 1 oder -1 hat. Es spielt keine Rolle, wie nahe dieser Korrelationskoeffizient an 1 oder -1 liegt. Diese Statistik kann nicht zeigen, dass eine Variable die Ursache für die andere Variable ist.
Lauernde Variablen sind naturgemäß schwer zu erkennen. Eine Strategie, falls verfügbar, besteht darin, zu untersuchen, was mit den Daten im Laufe der Zeit geschieht. Dies kann saisonale Trends aufzeigen, wie zum Beispiel das Eis, die verdeckt werden, wenn die Daten zusammengefasst werden. Eine andere Methode besteht darin, Ausreißer zu untersuchen und festzustellen, was sie von den anderen Daten unterscheidet. Manchmal gibt dies einen Hinweis darauf, was sich hinter den Kulissen abspielt. Die beste Vorgehensweise ist, proaktiv zu sein. Fragen Sie Annahmen und Entwurfsexperimente sorgfältig ab.
Nehmen wir im Eröffnungsszenario einen wohlmeinenden, aber statistisch nicht informierten Kongressabgeordneten an, der vorschlägt, das gesamte Eis zu verbieten, um das Ertrinken zu verhindern. Eine solche Gesetzesvorlage würde große Teile der Bevölkerung in Schwierigkeiten bringen, mehrere Unternehmen in die Insolvenz zwingen und Tausende von Arbeitsplätzen streichen, wenn die Eisindustrie des Landes geschlossen wird. Trotz aller Absichten würde diese Gesetzesvorlage die Zahl der Todesfälle durch Ertrinken nicht verringern.
Wenn dieses Beispiel etwas zu weit hergeholt scheint, betrachten Sie Folgendes, was tatsächlich passiert ist. In den frühen 1900er Jahren stellten die Ärzte fest, dass einige Säuglinge auf mysteriöse Weise aufgrund von Atemproblemen im Schlaf starben. Dies wurde Krippentod genannt und ist jetzt als SIDS bekannt. Eine Sache, die sich von Autopsien abhielt, die an SIDS-Verstorbenen durchgeführt wurden, war ein vergrößerter Thymus, eine Drüse in der Brust. Aufgrund der Korrelation von vergrößerten Thymusdrüsen bei SIDS-Babys nahmen die Ärzte an, dass ein ungewöhnlich großer Thymus eine falsche Atmung und den Tod verursachte.
Die vorgeschlagene Lösung bestand darin, den Thymus mit hoher Strahlenbelastung zu schrumpfen oder die Drüse vollständig zu entfernen. Diese Verfahren hatten eine hohe Sterblichkeitsrate und führten zu noch mehr Todesfällen. Schade ist, dass diese Operationen nicht durchgeführt werden mussten. Nachfolgende Untersuchungen haben gezeigt, dass diese Ärzte in ihren Annahmen falsch waren und dass der Thymus nicht für SIDS verantwortlich ist.
Das oben Gesagte sollte uns innehalten lassen, wenn wir glauben, dass statistische Nachweise verwendet werden, um Dinge wie medizinische Behandlungen, Gesetze und Bildungsvorschläge zu rechtfertigen. Es ist wichtig, dass bei der Interpretation von Daten gute Arbeit geleistet wird, insbesondere wenn die mit Korrelation verbundenen Ergebnisse das Leben anderer beeinträchtigen.
Wenn jemand sagt: „Studien zeigen, dass A eine Ursache für B ist, und einige Statistiken belegen dies.“ Seien Sie bereit zu antworten: „Korrelation impliziert keine Kausalität.“ Achten Sie immer darauf, was sich unter den Daten verbirgt.