Empirische Forschung: Ein Blick unter die Motorhaube

In einem Aufsatz aus dem Jahr 2005 stellt John P. A. Ioannidis (Why Most Published Research Findings Are False) eine These auf, die auf den ersten Blick gewagt, wenn nicht irrwitzig klingt, nämlich: dass die meisten veröffentlichten Forschungsergebnisse in der Medizin falsch seien. Wer allerdings genauer hinschaut und mit den grundlegenden methodisch-methodologischen Problemen empirischer Forschung halbwegs vertraut ist, muss einräumen, dass die Argumentation des griechisch-amerikanischen Wissenschaftlers nicht so einfach vom Tisch zu wischen ist.

Ausgangspunkt der Überlegungen ist die Tatsache, dass sich sehr viele medizinische Forschungsergebnisse nicht replizieren lassen. Wird eine Untersuchung mit den gleichen Methoden, aber mit einer anderen Stichprobe aus derselben Grundgesamtheit und von einem anderen Forscherteam wiederholt, dann stellen sich die Ergebnisse nur zu oft als falsch heraus. Zwar hat sich die erste Studie als „statistisch signifikant“ erwiesen, meist mit einer Irrtumswahrscheinlichkeit kleiner / gleich 5 Prozent, aber die Ergebnisse der Nachfolge-Studie sind nicht mehr signifikant. Dies ist aus Sicht von Ioannidis auch nicht weiter erstaunlich, sondern dies ist die Folge der heute gängigen Forschungspraxis. Üblicherweise hat eine empirische Studie das Ziel, eine so genannte Null-Hypothese zu verwerfen.

Beispiel: Es soll getestet werden, ob Medikament B besser ist als Medikament A. Die Nullhypothese lautet dann, beide seien gleich wirksam. Der Nullhypothese wird eine Alternativhypothese gegenübergestellt. Sie behauptet das Vorhandensein irgendwelcher Beziehungen (beispielsweise einen Unterschied zwischen Medikamenten oder Behandlungsformen, eine Korrelation zwischen Variablen etc.).

Falls sich die Nullhypothese nicht verwerfen lässt, bedeutet dies aber keineswegs, dass sie zutreffen muss. Lässt sie sich jedoch mit einer vorher definierten Irrtumswahrscheinlichkeit verwerfen, gilt das Ergebnis als statistisch signifikant. Ist die der Nullhypothese entgegengesetzte Alternativhypothese dann wahr? Dies ist die Leitfrage des Aufsatzes von Ioannidis.

Beim Laien mag diese Frage Kopfschütteln hervorrufen. Wenn die Nullhypothese verworfen werden kann, dann dürfen wir doch die Alternativhypothese (beispielsweise dass Medikament B besser ist als Medikament A) als wahr betrachten, wenn wir eine gewisse maximale Irrtumswahrscheinlichkeit (meist 5 Prozent) in Kauf nehmen. Oder etwa nicht?

Die Wahrscheinlichkeit, dass ein „signifikantes“ Forschungsergebnis wahr ist, hängt von folgenden Faktoren ab:

  1. Von der A-priori-Wahrscheinlichkeit, dass es wahr ist, vor Verwirklichung der Studie. Wenn beispielsweise schon zehnmal ohne Erfolg versucht wurde, eine Nullhypothese zu verwerfen, dann werden wir der Alternativhypothese a priori nur eine geringe Wahrscheinlichkeit zubilligen.
  2. Von der statistischen Teststärke. Die Teststärke gibt an, mit welcher Wahrscheinlichkeit ein Signifikanztest zugunsten einer konkreten Alternativhypothese entscheidet, falls diese richtig ist.
  3. Vom gewählten Signifikanzniveau. Es besagt, welche Irrtumswahrscheinlichkeit man für vertretbar hält.

Die A-priori-Wahrscheinlichkeit hängt natürlich davon ob, ob ein Forschungsfeld aus einer Reihe von hoch wahrscheinlich zutreffenden Hypothesen besteht oder ob man unter Tausenden von getesteten Hypothesen nur eine Handvoll zutreffende erwarten darf.

Beim Test einer Hypothese begeht man einen Fehler 2. Art, wenn man die Nullhypothese beibehält, obwohl in Wirklichkeit die Alternativhypothese gilt. Dieser Fehler wird auch als β-Fehler bezeichnet. Es lässt sich zeigen, dass ein Forschungsergebnis wahrscheinlicher wahr als falsch ist, wenn gilt: (1 – β)R > α.

R ist das Verhältnis zwischen wahren und falschen (fälschlich vermuteten) Beziehungen in einem Forschungsfeld.

Die dritte Variable, nämlich α, bezeichnet hier das Signifikanzniveau.1

Generell gilt: Die Wahrscheinlichkeit, dass ein Studienergebnis nach Durchführung der Studie wahr ist, entspricht: PPV = (1 – β)R/(R – βR + α).

PPV bedeutet: Positive Predictive Value (positiver Vorhersagewert).

Der statistisch-mathematisch nicht versierte Leser möge sich durch dieses Formelwerk nicht abschrecken lassen. Ich werde mich bemühen, den Grundgedanken dieses Aufsatzes auch ohne Mathematik nachvollziehbar zu machen. Es ist aber wesentlich, ihn zu verstehen, wenn man einschätzen möchte, welche Bedeutung beispielsweise Pressemeldungen über neue Entdeckungen in der Medizin tatsächlich besitzen.

Nun kommt ein entscheidender Gedanke. Studienergebnisse können Verzerrungen (Bias) unterliegen, die beispielsweise durch Fehler in der Versuchsplanung, der Datenauswertung, durch Manipulationen etc. entstehen. Ioannidis führt für den Anteil solcher Studienresultate, die veröffentlicht wurden, obwohl sie besser nicht veröffentlicht worden wären, das Kürzel „u“ ein.

Dann gilt: PPV = ([1 – β]R + uβR)/(R + α − βR + uuα + uβR).

PPV verringert sich also mit steigendem u.2

Die Wahrscheinlichkeit, dass ein Forschungsergebnis wahr ist, sinkt dementsprechend mit steigendem Bias wesentlich.

Nun führen häufig mehrere unabhängige Teams Studien zu einer Fragestellung durch, und dies bleibt nicht ohne Einfluss auf den PPV: PPV = R(1 − βn)/(R + 1 − [1 − α]nRβn) (Hier wird der Bias nicht berücksichtigt).

Mit „n“ ist die Zahl der unabhängigen Studien gemeint. Wir sehen also: Mit steigender Zahl unabhängiger Studien sinkt die Wahrscheinlichkeit, dass ein Studienbefund wahr ist. Aus diesen Grundüberlegungen ergeben sich eine Reihe logischer Folgen3:

  1. Je kleiner die Stichprobengröße der Studien in einem Forschungsfeld, desto weniger wahrscheinlich sind wahre Forschungsergebnisse.
  2. Je kleiner die Effektstärken in einem Forschungsfeld, desto unwahrscheinlicher sind wahre Befunde. Unter einer Effektstärke versteht man die Ausprägung der fraglichen Beziehung.
  3. Je größer die Zahl und je weniger gezielt ausgewählt die getesteten Beziehungen in einem Forschungsfeld sind, desto weniger wahrscheinlich sind wahre Forschungsergebnisse.
  4. Je größer die Flexibilität des Designs, der Definitionen, der Ergebnisse und der Auswertungsmodalitäten in einem Forschungsgebiet sind, desto weniger wahrscheinlich sind wahre Resultate.
  5. Je stärker die finanziellen oder anderen Interessen bzw. die Vorurteile in einem Forschungsfeld sind, desto weniger wahrscheinlich ist es, dass die Forschungsergebnisse wahr sind.
  6. Je heißer umkämpft und interessant ein Forschungsfeld (mit entsprechend vielen Forschergruppen) ist, desto weniger wahrscheinlich sind wahre Resultate.

Demzufolge besitzen randomisierte kontrollierte Studien mit guter Teststärke und einer A-priori-Wahrscheinlichkeit von 50 Prozent einen PPV von 0,85, haben also, nach diesem Modell, eine 85-prozentige Wahrscheinlichkeit, wahr zu sein.

Demgegenüber liegt beispielsweise der PPV einer epidemiologischen Studie mit guter Teststärke bei 0,20.

Wenn wir diesen Gedanken auf die Forschungssituation in der Psychotherapie und in der kognitiven Neurowissenschaft übertragen, zeichnet sich folgendes Bild ab: Die Untersuchungen haben häufig kleine Stichproben, sind oft nicht randomisiert und kontrolliert, die Effektstärken sind eher gering, mangels umgreifender Theorie werden zahllose, eher willkürlich bestimmte Hypothesen getestet, Designs, Definitionen und Auswertungsverfahren sind vielfältig, finanzielle, politische Interessen und Vorurteile sind stark ausgeprägt und viele Forschungsbereiche, insbesondere in der Neurowissenschaft und in der Genetik, sind attraktiv, so dass sich dort zahllose Forscherteams tummeln.

Daraus folgt zwangsläufig, dass man in der psychiatrischen Forschung nicht auf wahre Forschungsergebnisse hoffen darf.

John Staddon4 hat diesen Sachverhalt am Beispiel von Medikamententests aus einer etwas anderen, einfacheren, allerdings auch weniger umfassenden Perspektive beleuchtet.

Er schreibt:

Stellen Sie sich vor, hundert hypothetische Studien testen hundert verschiedene Medikamente. Setzen wir voraus, dass 20 Prozent dieser Medikamente einen realen Effekt haben… Nehmen wir an, dass 100 Prozent der realen Effekte sich auch als signifikant erweisen5, das sind 20 von 100. Was ist mit den Versagern, den achtzig Studien, bei denen es keinen realen Effekt gibt. Nun, angesichts des 5-Prozent-Signifikanz-Niveau-Kriteriums können wir erwarten, dass 5 Prozent von ihnen positiv erscheinen, obwohl das Medikament in Wirklichkeit ineffektiv ist. Dies sind die 5 Prozent der falsch Positiven. Also werden 76 zutreffenderweise als negativ erscheinen. Doch wie viele von diesen 76 werden veröffentlicht? Nun… im Wesentlichen null. So bleiben uns insgesamt 24 Studien (20 + 4), die einen positiven Effekt zeigen, doch von diesen 24, sind 4, beinahe 17 Prozent der Gesamtheit, falsch.“

Dieses Beispiel zeigt eindrucksvoll, dass solche Studienergebnisse mit Vorsicht zu genießen sind. Wenn man nun noch die anderen Gesichtspunkte berücksichtigt, die Ioannidis vorträgt, so kann man dessen Schlussfolgerung leicht nachvollziehen, dass die meisten Studienergebnisse falsch sind.

In einer klugen Replik auf den Beitrag von Ioannidis zeigen Ramal Moonesinghe und Kollegen6 einen Ausweg aus dem Dilemma: Replikation. Wenn es gelingt, eine Studie mehrfach zu replizieren, steigt auch der PPV gravierend.

Allerdings ist dies an Voraussetzungen geknüpft.

  1. Die Studien müssen eine angemessene Teststärke besitzen.
  2. Am besten lässt sich der Effekt von Replikationen durch Meta-Analysen abschätzen. Darunter versteht man die systematische Auswertung aller relevanten Studien in einem Forschungsfeld.
  3. Der Bias der Studien darf nicht allzu ausgeprägt sein.

Leider ist die Replikation nicht gerade die starke Seite der Medizin und der Psychowissenschaften. Beispiele:

  • Matthew C. Makel, Jonathan A. Plucker und Boyd Hegarty untersuchten die 100 einflussreichsten Psychologie-Journale hinsichtlich der Anzahl veröffentlichter Replikationsstudien. Der durchschnittliche Prozentsatz betrug, sage und schreibe, nicht mehr als 1,07 Prozent. Davon allerdings war die der Mehrheit der Replikationen erfolgreich, vor allem dann, wenn die Autoren der Original- und der Replikationsstudie identisch 🙂 waren.7
  • In der Genetik sieht es nicht besser aus: Von 600 Assoziationen zwischen Gen-Varianten und häufigen Krankheiten wurden 166 dreimal oder häufiger einem Replikationsversuch unterworfen und nur 6 davon ließen sich replizieren.8
  • Replikationsversuche von Studien zu Zusammenhängen zwischen „psychischen Krankheiten“ und Hirnstörungen scheitern regelmäßig.9

Aus den genannten Gründen sollten man Forschungsergebnissen nur trauen, wenn sie repliziert worden sind und wenn sie einen möglichst geringen Bias aufweisen. In Medien-Berichten über die Fortschritte und Durchbrüche der Forschung finden wir derartige Angaben eher selten. Sie bringen einem Menschen, der sich über den Stand der Forschung adäquat informieren will, also keinen Nutzen.

Für sich genommen, ist die Aussagekraft einer einzelnen Studie gleich null. Um sich einen auch nur halbwegs repräsentativen Überblick über die empirische Literatur zu verschaffen, fehlen den meisten interessierten Laien die Zeit und die Kenntnisse. Es gibt natürlich gute, populärwissenschaftliche Bücher mit Zusammenfassungen des Forschungsstandes, doch diese sind oftmals schon bei Erscheinen veraltet. Eine Alternative bietet eine Reihe von ausgezeichneten Wissenschaftsblogs, meist allerdings in englischer Sprache.

Als Fazit lässt sich festhalten, dass nach Lage der Dinge die überwiegende Mehrzahl der Forschungsergebnisse in den Psychowissenschaften als falsch betrachtet werden muss. Dies gilt für Befunde zu angeblichen organischen Ursachen „psychischer Erkrankungen“, zu den Wirkungen von Psychopharmaka und von Psychotherapien gleichermaßen.

***

Die Herleitung dieser Formel findet sich in der Arbeit von Ioannidis.

Ausnahmen sind theoretisch möglich, sollen hier aber keine Rolle spielen.

Wer sich für die Begründungen dieser Schlussfolgerungen interessiert, möge diese in der hier referierten Artikel nachlesen.

Staddon, J. (2014). The New Behaviorism. New York, N. Y.: Psychology Press

Signifikanzniveau 5 Prozent

6Moonesinghe, R.; Khoury, M. J.; Janssens, A. (2007) Most Published Research Findings Are False—But a Little Replication Goes a Long Way. PLoS Med 4(2): e28. doi:10.1371/journal.pmed.0040028

7Matthew C. Makel, Jonathan A Plucker & Boyd Hegarty (2012). Replications in Psychology Research: How Often Do They Really Occur? Perspectives on Psychological Science, 7(6) 537-542

8Moonesinghe, R.; Khoury, M. J.; Janssens, A. (2007) Most Published Research Findings Are False—But a Little Replication Goes a Long Way. PLoS Med 4(2): e28. doi:10.1371/journal.pmed.0040028

91)Borgwardt, S. et al. (2012). Why are psychiatric imaging methods clinically unreliable? Conclusions and practical guidelines for authors, editors and reviewers. Behavioral and Brain Functions, 8:46

Fußnoten   [ + ]

1. Borgwardt, S. et al. (2012). Why are psychiatric imaging methods clinically unreliable? Conclusions and practical guidelines for authors, editors and reviewers. Behavioral and Brain Functions, 8:46

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.