Warum Signifikanz keine Wahrheit schafft

Die vertraute Zahl, die zu viel verspricht
Wer medizinische Studien liest, stößt immer wieder auf dieselbe Botschaft: Ein Ergebnis war „signifikant“ – meist im Sinne von p < 0,05, der üblichen „Signifikanzgrenze“ in der medizinischen Forschung. In der Laienpresse (und oft genug auch in Fachkreisen) wird daraus: Die Therapie wirkt. Für viele Studienautoren scheint der Signifikanzwert einem Wahrheitszertifikat gleichzukommen. Doch dieses Verständnis ist grundfalsch – und brandgefährlich. Denn es verleitet nicht nur Laien zu Fehlschlüssen, sondern wiegt auch Wissenschaftlerinnen und Wissenschaftler in einer falschen Sicherheit. Gerade in der evidenzbasierten Medizin (EBM), die sich einer empirisch gestützten, nachvollziehbaren Behandlung verschrieben hat, ist diese Verzerrung folgenschwer.
Was ein p-Wert wirklich bedeutet
Ein p-Wert von 0,05 bedeutet nicht: Die Hypothese ist mit 95 % Wahrscheinlichkeit wahr. Sondern: Wenn es in Wahrheit gar keinen Effekt gäbe (was in der Regel der sogenannten Nullhypothese eines Studienprojekts entspricht), wäre ein so extremes oder extremeres Ergebnis trotzdem in 5 % der Fälle zu erwarten. Es handelt sich also um eine bedingte Wahrscheinlichkeit – bedingt auf die Annahme, dass kein Effekt existiert. Andersherum: Selbst wenn es keinen realen Effekt beim Untersuchungsgegenstand gäbe, würde trotzdem eine von 20 Studien ein positives Ergebnis aufweisen, das nur auf Zufall beruht.
Das heißt: Der p-Wert misst nicht die Wahrscheinlichkeit der Hypothese, sondern die Wahrscheinlichkeit der Daten in einer konkreten Studie unter einer Annahme. Das ist ein kategorial anderer Sachverhalt. Wer das verwechselt, verkennt die Grundlagen statistischen Denkens.
Warum die Verwechslung so hartnäckig ist
Zum einen liegt es an der Alltagssprache: „signifikant“ bedeutet dort so viel wie „bedeutsam“. In der Statistik hingegen ist es eine technische Schwelle, willkürlich gesetzt und ohne Bezug zur klinischen Relevanz. Zum anderen besteht ein starker Wunsch nach Klarheit: Wirkt es oder nicht? Eine einfache p < 0,05-Grenze suggeriert genau das – ein Ergebnis ist „drin“ oder „draußen“. Doch genau diese Dichotomie führt in die Irre.
Bemerkenswert ist dabei, wie willkürlich diese Schwelle ist: Die 5-Prozent-Grenze wurde historisch eher pragmatisch als wissenschaftlich festgelegt. In Bereichen wie der Hochpräzisionsfertigung oder der chemischen Industrie gelten Toleranzen im Bereich von Tausendsteln bis Millionsteln. In der Medizin hingegen soll ein Irrtumsrisiko von 5 % als ausreichend gelten, um Therapien zu empfehlen oder abzulehnen. Die „Sicherheit“ ist also relativ – und stark kontextabhängig.
Die Pseudomedizin nutzt das aus
Gerade Anbieter von Verfahren ohne wissenschaftlich belegte Wirkprinzipien – Homöopathie, Akupunktur, Nahrungsergänzung – lieben den Signifikanzwert. Sobald irgendeine Studie ein p < 0,05 liefert (oft durch fragwürdiges Studiendesign oder statistischen Zufall), wird das als Beweis für Wirksamkeit verkauft. Das Publikum versteht: „Es ist wissenschaftlich erwiesen.“ Dass das Ergebnis vielleicht statistisch, aber nicht klinisch relevant war, bleibt unerwähnt. Ebenso die Frage, ob der Effekt reproduzierbar ist oder ob der Studienaufbau überhaupt valide Aussagen ermöglicht.
Aber auch die wissenschaftsbasierte Medizin ist nicht frei von Illusionen
In vielen klinischen Studien herrscht ein ähnlicher Schematismus. Statistik wird an spezialisierte Teammitglieder ausgelagert, deren Output kaum jemand im Team wirklich versteht. Der p-Wert wird zur Währung der Aussagekraft erhoben, obwohl er bestenfalls ein Indikator ist – und zwar einer mit erheblichen Schwächen. Effektstärken, Konfidenzintervalle, Plausibilität und Kontext treten in den Hintergrund.
Hinzu kommt: Der p-Wert bezieht sich immer nur auf die konkrete Studie mit ihren spezifischen Gegebenheiten, Limitationen und Freiheitsgraden. Bereits geringfügige Änderungen im Studiendesign, der Stichprobenwahl oder der Auswertung können den Wert stark verändern. Steven Novella spricht in diesem Zusammenhang von der hohen Empfindlichkeit des p-Werts gegenüber kleinen Änderungen der analytischen „Freiheitsgrade“ – ein Problem, das sich gerade bei Replikationen oft zeigt.
David Sackett, einer der Väter der evidenzbasierten Medizin, hat sich übrigens 1997 klar gegen eine „Kochbuchmedizin“ ausgesprochen. In seinem berühmten Essay kommt Statistik praktisch nicht vor. Sein Verständnis von EBM war: die beste verfügbare Evidenz in Verbindung mit klinischer Erfahrung und Patientenbedürfnissen. Statistik war für ihn kein Ersatz für Nachdenken, sondern ein Hilfsmittel zur Orientierung.
Fazit: Bescheidene Statistik statt großer Geste
Der p-Wert ist kein Wahrheitswert. Wer ihn so behandelt, verstellt den Blick auf das, was Medizin wirklich leisten soll: helfen, wo Hilfe notwendig ist, und unterscheiden, wo Therapie nur vortäuscht. Die Pseudomedizin nutzt den Signifikanzmythos, um sich ein wissenschaftliches Gewand zu geben. Aber auch in der konventionellen Forschung ist der Statistikfetischismus ein Problem. Es ist Zeit, das zu erkennen – und dem p-Wert seinen Platz zuzuweisen: als Werkzeug, nicht als Orakel.
Am Ende steht deshalb nicht der Ruf nach einem Ersatz für Statistik, sondern nach einer gesamtwissenschaftlichen Betrachtung medizinischer Forschungsergebnisse. Dazu gehören: die Plausibilität der zu prüfenden Hypothese, das Design der konkreten Studie, die Gründlichkeit ihrer Methodik und die Validität der Interpretation. Nur im Zusammenspiel dieser Faktoren lässt sich beurteilen, ob ein statistisch signifikantes Ergebnis auch klinisch bedeutsam und wissenschaftlich belastbar ist.
Deshalb lautet die richtige Antwort an den, der als nächster mit einer „signifikanten“ Studie zu Homöopathie, Akupunktur und Co. triumphierend um die Ecke kommt, ganz einfach: „Ja und?“.
Literatur:
Regina Nuzzo: Wenn Forscher durch den Signifikanztest fallen
https://www.spektrum.de/news/statistik-wenn-forscher-durch-den-signifikanztest-fallen/1224727
Originalveröffentlichung:
Nuzzo, R. Scientific method: Statistical errors. Nature 506, 150–152 (2014). https://doi.org/10.1038/506150a
1 Pingback