Beware of the studies! Warum man der empirischen Forschung nicht trauen darf

Notes

  • Caution

    Dieser Text ist für Leser, die Mathe abscheulich finden, nicht geeignet. Ein mehr als oberflächliches Interesse an formalen Zusammenhängen wird vorausgesetzt.

In einem Aufsatz aus dem Jahr 20051)Ioannidis, J. P. A. (2005) Why Most Published Research Findings Are False. PLoS Med 2(8): e124. doi:10.1371/journal.pmed.0020124 stellt John P. A. Ioannidis eine These auf, die auf den ersten Blick gewagt, wenn nicht irrwitzig klingt. Nämlich: Die meisten veröffentlichten Forschungsergebnisse in der Medizin sind falsch.

Wer allerdings genauer hinschaut und mit den grundlegenden methodisch-methodologischen Problemen empirischer Forschung halbwegs vertraut ist, muss einräumen: Die Argumentation des griechisch-amerikanischen Wissenschaftlers ist nicht so einfach vom Tisch zu wischen. Sie legt den Fingern in Wunden, die seit langem bekannt sind und beklagt werden. Doch niemals zuvor wurden daraus öffentlich die naheliegende Schlussfolgerung gezogen.

Ausgangspunkt der Überlegungen ist die Tatsache, dass sich sehr viele medizinische Forschungsergebnisse nicht replizieren lassen. Wird eine Untersuchung möglichst originalgetreu mit den gleichen Methoden, aber mit einer anderen Stichprobe aus derselben Grundgesamtheit und von einem anderen Forscherteam wiederholt, dann stellen sich die Ergebnisse nur zu oft als falsch heraus.

Zwar hat sich die erste Studie als „statistisch signifikant“2)„Statistisch signifikant wird das Ergebnis eines statistischen Tests genannt, wenn Stichprobendaten so stark von einer vorher festgelegten Annahme (der Nullhypothese) abweichen, dass diese Annahme nach einer vorher festgelegten Regel verworfen wird.“ – Aus Wikipedia erwiesen, meist mit einer Irrtumswahrscheinlichkeit kleiner / gleich 5 Prozent, aber die Ergebnisse der Nachfolge-Studie sind nicht mehr signifikant. Dies ist aus Sicht von Ioannidis auch nicht weiter erstaunlich, sondern dies ist die Folge der heute gängigen Forschungspraxis.

Üblicherweise hat eine empirische Studie das Ziel, eine so genannte Null-Hypothese zu verwerfen.

Beispiel: Es soll getestet werden, ob Medikament B besser ist als Medikament A. Die Nullhypothese lautet dann, beide seien gleich wirksam. Der Nullhypothese wird eine Alternativhypothese gegenübergestellt. Sie behauptet, dass Medikament B dem Medikament A überlegen sei.

Falls sich die Nullhypothese nicht verwerfen lässt, bedeutet dies aber keineswegs, dass sie zutreffen muss. Lässt sie sich jedoch mit einer vorher definierten Irrtumswahrscheinlichkeit verwerfen, gilt das Ergebnis als statistisch signifikant.

Ist die der Nullhypothese entgegengesetzte Alternativhypothese dann wahr, wenn die Nullhypothese verworfen wurde? Dies ist die Leitfrage des Aufsatzes von Ioannidis.

Beim Laien mag diese Frage Kopfschütteln hervorrufen. Wenn die Nullhypothese verworfen werden kann, dann dürfen wir doch die Alternativhypothese (beispielsweise dass Medikament B besser ist als Medikament A) als wahr betrachten, wenn wir eine gewisse maximale Irrtumswahrscheinlichkeit (meist 5 Prozent) in Kauf nehmen. Oder etwa nicht?

Die Wahrscheinlichkeit, dass ein „signifikantes“ Forschungsergebnis wahr ist, wird u. a. von folgenden Faktoren bestimmt:

  1. Von der A-priori-Wahrscheinlichkeit, dass es wahr ist, vor Verwirklichung der Studie. Wenn beispielsweise schon zehnmal ohne Erfolg versucht wurde, eine Nullhypothese zu verwerfen, dann werden wir der Alternativhypothese a priori nur eine geringe Wahrscheinlichkeit zubilligen.3)Die A-priori-Wahrscheinlichkeit hängt natürlich davon ob, ob ein Forschungsfeld aus einer Reihe von hoch wahrscheinlich zutreffenden Hypothesen besteht oder ob man unter Tausenden von getesteten Hypothesen nur eine Handvoll zutreffende erwarten darf.
  2. Von der statistischen Teststärke. Die Teststärke gibt an, mit welcher Wahrscheinlichkeit ein Signifikanztest zugunsten einer konkreten Alternativhypothese entscheidet, falls diese richtig ist.
  3. Vom gewählten Signifikanzniveau. Es besagt, welche Irrtumswahrscheinlichkeit man für vertretbar hält. Die Nullhypothese zurückzuweisen, obwohl sie wahr ist, bezeichnet man als Fehler erster Art. Die Wahrscheinlichkeit, einen solchen Fehler zu begehen, ist gleich dem oder kleiner als das Signifikanzniveau.

Beim Test einer Hypothese begeht man einen Fehler 2. Art, wenn man die Nullhypothese beibehält, obwohl in Wirklichkeit die Alternativhypothese gilt. Dieser Fehler wird auch als β-Fehler bezeichnet.

Es lässt sich zeigen, dass ein Forschungsergebnis wahrscheinlicher wahr als falsch ist, wenn gilt: (1 – β)R > α.

R ist das Verhältnis zwischen wahren und falschen (fälschlich vermuteten) Beziehungen in einem Forschungsfeld.

Die dritte Variable in obiger Formel, nämlich α, bezeichnet das Signifikanzniveau.4)Die Herleitung dieser Formel findet sich in der Arbeit von Ioannidis.

Generell gilt: Die Wahrscheinlichkeit, dass ein Studienergebnis nach Durchführung der Studie wahr ist, entspricht: PPV = (1 – β)R/(R – βR + α).

PPV bedeutet: Positive Predictive Value (positiver Vorhersagewert).  Der PPV gibt den Anteil der korrekt als wahr (zutreffend) klassifizierten Ergebnisse an der Gesamtheit der als wahr (zutreffend) klassifizierten Ergebnisse an.

Der statistisch-mathematisch nicht versierte Leser möge sich durch dieses Formelwerk nicht abschrecken lassen. Ich werde mich bemühen, den Grundgedanken dieses Aufsatzes auch ohne Mathematik nachvollziehbar zu machen.

Es ist aber wesentlich, ihn zu verstehen, wenn man einschätzen möchte, welche Bedeutung beispielsweise Pressemeldungen über neue Entdeckungen in der Medizin tatsächlich besitzen.

Nun kommt ein entscheidender Gedanke. Studienergebnisse können Verzerrungen (Bias) unterliegen, die beispielsweise durch Fehler in der Versuchsplanung, der Datenauswertung, durch Manipulationen etc. entstehen.

Ioannidis führt für den Anteil solcher Studienresultate, die veröffentlicht wurden, obwohl sie besser nicht veröffentlicht worden wären, das Kürzel „u“ ein.

Dann gilt: PPV = ([1 – β]R + uβR)/(R + α − βR + u − uα + uβR).

PPV verringert sich also mit steigendem u.5)Ausnahmen sind theoretisch möglich, sollen hier aber keine Rolle spielen.

Die Wahrscheinlichkeit, dass ein Forschungsergebnis wahr ist, sinkt dementsprechend mit steigendem Bias wesentlich.

Nun führen häufig mehrere unabhängige Teams Studien zu einer Fragestellung durch, und dies bleibt nicht ohne Einfluss auf den PPV: PPV = R(1 − βn)/(R + 1 − [1 − α]n − Rβn) (Hier wird der Bias nicht berücksichtigt).

Mit „n“ ist die Zahl der unabhängigen Studien gemeint. Wir sehen also: Mit steigender Zahl unabhängiger Studien sinkt die Wahrscheinlichkeit, dass ein Studienbefund wahr ist.

Aus diesen Grundüberlegungen ergeben sich eine Reihe logischer Folgen:6)Wer sich für die Begründungen dieser Schlussfolgerungen interessiert, möge diese in der hier referierten Artikel nachlesen.

  1. Je kleiner die Stichprobengröße der Studien in einem Forschungsfeld, desto weniger wahrscheinlich sind wahre Forschungsergebnisse.
  2. Je kleiner die Effektstärken7)Engl. „effect size“, auch als Effektgröße übersetzt in einem Forschungsfeld, desto unwahrscheinlicher sind wahre Befunde. Unter einer Effektstärke versteht man die Ausprägung der fraglichen Beziehung.8)Die Bedeutung der Effektstärke macht man sich am besten an einem Beispiel klar. Es werden zwei Krebsmittel getestet. Krebsmittel B führt dazu, dass die Patienten im Schnitt knapp einen Tag länger leben als die mit A behandelten Kranken. Ist die Stichprobe groß genug, so ist diese Beziehung zwischen Krebsmitteln und Überlebensdauer statistisch signifikant. Aber die Effektstärke ist doch recht klein.
  3. Je größer die Zahl und je weniger gezielt ausgewählt die getesteten Beziehungen in einem Forschungsfeld sind, desto weniger wahrscheinlich sind wahre Forschungsergebnisse.
  4. Je größer die Flexibilität des Designs, der Definitionen, der Ergebnisse und der Auswertungsmodalitäten in einem Forschungsgebiet sind, desto weniger wahrscheinlich sind wahre Resultate.
  5. Je stärker die finanziellen oder anderen Interessen bzw. die Vorurteile in einem Forschungsfeld sind, desto weniger wahrscheinlich ist es, dass die Forschungsergebnisse wahr sind.
  6. Je heißer umkämpft und interessant ein Forschungsfeld (mit entsprechend vielen Forschergruppen) ist, desto weniger wahrscheinlich sind wahre Resultate.

Demzufolge besitzen randomisierte kontrollierte Studien9)Randomisierung bedeutet, dass die Zuordnung zu einer Behandlungsgruppe (etwa Medikament A oder B) nach dem Zufallsprinzip erfolgt. Kontrolliert heißt die Studie, weil die Ergebnisse in der Studiengruppe mit denen der Kontrollgruppe ohne Intervention oder einer Kontrollintervention verglichen werden. Die Kontrollintervention ist entweder die bisher wirksamste Maßnahme oder eine Scheinintervention (bei Medikamenten: Placebo). Aus Wikipedia mit guter Teststärke und einer A-priori-Wahrscheinlichkeit von 50 Prozent einen PPV von 0,85, haben also, nach diesem Modell, eine 85-prozentige Wahrscheinlichkeit, wahr zu sein.

Demgegenüber liegt beispielsweise der PPV einer epidemiologischen Studie mit guter Teststärke bei 0,20.10)Eine Zusammenstellung der PPV bei unterschiedlichen Studien-Typen findet sich hier.

Wenn wir diesen Gedanken auf die Forschungssituation in der Psychotherapie und in der kognitiven Neurowissenschaft übertragen, zeichnet sich folgendes Bild ab:

  • Die Untersuchungen haben häufig kleine Stichproben
  • Sie sind oft nicht randomisiert und kontrolliert
  • die Teststärken sind eher gering
  • mangels umgreifender Theorie werden zahllose, eher willkürlich bestimmte Hypothesen getestet
  • Designs, Definitionen und Auswertungsverfahren sind vielfältig
  • finanzielle, politische Interessen und Vorurteile sind stark ausgeprägt und
  • viele Forschungsbereiche, insbesondere in der Neurowissenschaft und in der Genetik, sind attraktiv, so dass sich dort zahllose Forscherteams tummeln.

Daraus folgt zwangsläufig, dass man in der psychiatrischen Forschung nicht auf wahre Forschungsergebnisse hoffen darf.

John Staddon11)Staddon, J. (2014). The New Behaviorism. New York, N. Y.: Psychology Press hat die statistische Problematik empirischer Forschung am Beispiel von Medikamententests aus einer etwas anderen, einfacheren, allerdings auch weniger umfassenden Perspektive beleuchtet.

Er schreibt:

„Stellen Sie sich vor, hundert hypothetische Studien testen hundert verschiedene Medikamente. Setzen wir voraus, dass 20 Prozent dieser Medikamente einen realen Effekt haben… Nehmen wir an, dass 100 Prozent der realen Effekte sich auch als signifikant erweisen,12)Signifikanzniveau 5 Prozent das sind 20 von 100. Was ist mit den Versagern, den achtzig Studien, bei denen es keinen realen Effekt gibt. Nun, angesichts des 5-Prozent-Signifikanz-Niveau-Kriteriums können wir erwarten, dass 5 Prozent von ihnen positiv erscheinen, obwohl das Medikament in Wirklichkeit ineffektiv ist. Dies sind die 5 Prozent der falsch Positiven. Also werden 76 zutreffenderweise als negativ erscheinen. Doch wie viele von diesen 76 werden veröffentlicht? Nun… im Wesentlichen null. So bleiben uns insgesamt 24 Studien (20 + 4), die einen positiven Effekt zeigen, doch von diesen 24, sind 4, beinahe 17 Prozent der Gesamtheit, falsch.“

Dieses Beispiel zeigt eindrucksvoll, dass solche Studienergebnisse mit Vorsicht zu genießen sind. Wenn man nun noch die anderen Gesichtspunkte berücksichtigt, die Ioannidis vorträgt, so kann man dessen Schlussfolgerung leicht nachvollziehen, dass die meisten Studienergebnisse falsch sind.

In einer klugen Replik auf den Beitrag von Ioannidis zeigen Ramal Moonesinghe und Kollegen13)Moonesinghe, R.; Khoury, M. J.; Janssens, A. (2007) Most Published Research Findings Are False—But a Little Replication Goes a Long Way. PLoS Med 4(2): e28. doi:10.1371/journal.pmed.0040028 einen Ausweg aus dem Dilemma: Replikation.

Wenn es gelingt, eine Studie mehrfach zu replizieren, steigt auch der PPV gravierend.

Allerdings ist dies an Voraussetzungen geknüpft.

  1. Die Studien müssen eine angemessene Teststärke besitzen.
  2. Am besten lässt sich der Effekt von Replikationen durch Meta-Analysen abschätzen. Darunter versteht man die systematische Auswertung aller relevanten Studien in einem Forschungsfeld.
  3. Der Bias der Studien darf nicht allzu ausgeprägt sein.

Leider ist die Replikation nicht gerade die starke Seite der Medizin und der Psychowissenschaften.

Beispiele:

  • Matthew C. Makel, Jonathan A. Plucker und Boyd Hegarty untersuchten die 100 einflussreichsten Psychologie-Journale hinsichtlich der Anzahl veröffentlichter Replikationsstudien. Der durchschnittliche Prozentsatz betrug, sage und schreibe, nicht mehr als 1,07 Prozent. Davon allerdings war die der Mehrheit der Replikationen erfolgreich, vor allem dann, wenn die Autoren der Original- und der Replikationsstudie identisch 🤣 waren.14)Matthew C. Makel, Jonathan A Plucker & Boyd Hegarty (2012). Replications in Psychology Research: How Often Do They Really Occur? Perspectives on Psychological Science, 7(6) 537-542
  • In der Genetik sieht es nicht besser aus: Von 600 Assoziationen zwischen Gen-Varianten und häufigen Krankheiten wurden 166 dreimal oder häufiger einem Replikationsversuch unterworfen und nur 6 davon ließen sich replizieren.15)Moonesinghe, R.; Khoury, M. J.; Janssens, A. (2007) a.a.O.
  • Replikationsversuche von Studien zu Zusammenhängen zwischen „psychischen Krankheiten“ und Hirnstörungen scheitern regelmäßig.16)Borgwardt, S. et al. (2012). Why are psychiatric imaging methods clinically unreliable? Conclusions and practical guidelines for authors, editors and reviewers. Behavioral and Brain Functions, 8:46

Aus den genannten Gründen sollten man Forschungsergebnissen nur trauen, wenn sie repliziert worden sind und wenn sie einen möglichst geringen Bias aufweisen. In Medien-Berichten über die Fortschritte und Durchbrüche der Forschung finden wir derartige Angaben eher selten. Sie bringen einem Menschen, der sich über den Stand der Forschung adäquat informieren will, also keinen Nutzen.

Für sich genommen, ist die Aussagekraft einer einzelnen Studie gleich null. Um sich einen auch nur halbwegs repräsentativen Überblick über die empirische Literatur zu verschaffen, fehlen den meisten interessierten Laien die Zeit und die Kenntnisse.

Es gibt natürlich gute, populärwissenschaftliche Bücher mit Zusammenfassungen des Forschungsstandes, doch diese sind oftmals schon bei Erscheinen veraltet. Eine Alternative bietet eine Reihe von ausgezeichneten Wissenschaftsblogs, meist allerdings in englischer Sprache.

Als Fazit lässt sich festhalten, dass nach Lage der Dinge die überwiegende Mehrzahl der Forschungsergebnisse in den Psychowissenschaften als vermutlich falsch eingestuft werden muss.

Dies gilt für Befunde zu angeblichen organischen Ursachen „psychischer Erkrankungen“, zu den Wirkungen von Psychopharmaka und von Psychotherapien gleichermaßen.

Dem interessierten Laien ist unter solchen Bedingungen zu raten, alle Studien zu ignorieren, die nicht mehrfach von unterschiedlichen Forscherteams in unterschiedlichen Institutionen repliziert worden sind.

Wenn man einen Befund nicht ignorieren kann, weil er sich auf Replikationen stützt, sollten man sich fragen: Ist das Ergebnis überhaupt praktisch bedeutsam? Ein Befund, der sich wiederholt als „statistisch signifikant“ erwiesen hat, ist vielleicht wissenschaftlich interessant, weil er die Forschung in eine neue Richtung lenkt. Dies heißt aber nicht unbedingt, dass er zur Verbesserung des alltäglichen Lebens beitragen könnte.

Fußnoten   [ + ]

1.Ioannidis, J. P. A. (2005) Why Most Published Research Findings Are False. PLoS Med 2(8): e124. doi:10.1371/journal.pmed.0020124
2.„Statistisch signifikant wird das Ergebnis eines statistischen Tests genannt, wenn Stichprobendaten so stark von einer vorher festgelegten Annahme (der Nullhypothese) abweichen, dass diese Annahme nach einer vorher festgelegten Regel verworfen wird.“ – Aus Wikipedia
3.Die A-priori-Wahrscheinlichkeit hängt natürlich davon ob, ob ein Forschungsfeld aus einer Reihe von hoch wahrscheinlich zutreffenden Hypothesen besteht oder ob man unter Tausenden von getesteten Hypothesen nur eine Handvoll zutreffende erwarten darf.
4.Die Herleitung dieser Formel findet sich in der Arbeit von Ioannidis.
5.Ausnahmen sind theoretisch möglich, sollen hier aber keine Rolle spielen.
6.Wer sich für die Begründungen dieser Schlussfolgerungen interessiert, möge diese in der hier referierten Artikel nachlesen.
7.Engl. „effect size“, auch als Effektgröße übersetzt
8.Die Bedeutung der Effektstärke macht man sich am besten an einem Beispiel klar. Es werden zwei Krebsmittel getestet. Krebsmittel B führt dazu, dass die Patienten im Schnitt knapp einen Tag länger leben als die mit A behandelten Kranken. Ist die Stichprobe groß genug, so ist diese Beziehung zwischen Krebsmitteln und Überlebensdauer statistisch signifikant. Aber die Effektstärke ist doch recht klein.
9.Randomisierung bedeutet, dass die Zuordnung zu einer Behandlungsgruppe (etwa Medikament A oder B) nach dem Zufallsprinzip erfolgt. Kontrolliert heißt die Studie, weil die Ergebnisse in der Studiengruppe mit denen der Kontrollgruppe ohne Intervention oder einer Kontrollintervention verglichen werden. Die Kontrollintervention ist entweder die bisher wirksamste Maßnahme oder eine Scheinintervention (bei Medikamenten: Placebo). Aus Wikipedia
10.Eine Zusammenstellung der PPV bei unterschiedlichen Studien-Typen findet sich hier.
11.Staddon, J. (2014). The New Behaviorism. New York, N. Y.: Psychology Press
12.Signifikanzniveau 5 Prozent
13.Moonesinghe, R.; Khoury, M. J.; Janssens, A. (2007) Most Published Research Findings Are False—But a Little Replication Goes a Long Way. PLoS Med 4(2): e28. doi:10.1371/journal.pmed.0040028
14.Matthew C. Makel, Jonathan A Plucker & Boyd Hegarty (2012). Replications in Psychology Research: How Often Do They Really Occur? Perspectives on Psychological Science, 7(6) 537-542
15.Moonesinghe, R.; Khoury, M. J.; Janssens, A. (2007) a.a.O.
16.Borgwardt, S. et al. (2012). Why are psychiatric imaging methods clinically unreliable? Conclusions and practical guidelines for authors, editors and reviewers. Behavioral and Brain Functions, 8:46