Zusammenschau der wichtigsten Fehlerquellen biologisch psychiatrischer Forschung

Die folgende Liste erhebt keinen Anspruch auf Vollständigkeit. Die genannten Fehlerquellen sind überdies nur teilweise typisch für biologisch psychiatrische Studien; viele finden sich auch, mehr oder weniger stark ausgeprägt, in anderen empirischen Disziplinen.

Fakten stützen keine Bewertungen

Würde beispielsweise eine biologische Ursache eines störenden Musters des Verhaltens und Erlebens gefunden, dann hieße dies keineswegs, dass es sich dabei um eine Krankheit handeln muss. Nehmen wir einmal an, es ließe sich ein „dysfunktionaler Schaltkreis“ im Gehirn als Ursache des „Querulantenwahns“ (ICD F22.8) zweifelsfrei dingfest machen. Dann wäre der dysfunktionale Schaltkreis keineswegs der Beweis für das Vorliegen einer Krankheit, denn der inkriminierte Schaltkreis im Hirn des Prozesshansels nervt ja vor allem die Gerichte, nicht aber den Betroffenen selbst.

Dieser ist vielleicht nur dann mit sich im Reinen, wenn er Prozesse führt, wie aussichtslos diese auch immer sein mögen. Er fühlt sich pudelwohl, ist putzmunter und in seinem Element, wenn er vor Gericht führt sein angeblich gerechtes Anliegen kämpft. Verliert er seine Prozesse, dann beweist dies aus seiner Sicht ohnehin nur, dass auch die Gerichte Teil der Verschwörung sind. Mag er also auch Ursache des Verhaltens sein, zur „Krankheitsursache“ wird der ominöse Schaltkreis also erst durch eine Bewertung – und Bewertungen sind keine Fakten und sie werden durch Tatsachen auch nicht erzwungen. Sie sind vielmehr subjektiv und meist Ausdruck offener oder auch getarnter Interessen.

Kaschierte Voraussetzungen

Die Gültigkeit empirischer Studien hängt immer auch von Voraussetzungen ab, die nicht selbst Gegenstand der Überprüfung sind. So ist beispielsweise das Resultat eines psychologischen Experiments nur dann aufs „reale Leben“ übertragbar, wenn man voraussetzt, dass alle wesentlichen Bestimmungsgrößen der entsprechenden Situation im realen Leben mit den Bedingungen des Experiments im psychologischen Labor übereinstimmen.

Eine angemessene Würdigung der Tragweite empirischer Untersuchungen ist nur möglich, wenn im Forschungsbericht zumindest die grundlegenden Voraussetzungen reflektiert werden. Es gibt leider jede Menge Studien im psychiatrischen Bereich, die solche Voraussetzungen verschleiern. Ein Beispiel dafür sind viele korrelationsstatistische Studien zu den genetischen Ursachen der so genannten psychischen Störungen. Den Kern dieses Forschungszweiges stellen Untersuchungen dar, die gemeinsam aufgewachsene eineiige Zwillinge mit gemeinsam aufgewachsenen zweieiigen Zwillingen hinsichtlich psychischer Störungen miteinander vergleichen. Sind sich nun die eineiigen in dieser Hinsicht ähnlicher als die zweieiigen, so schließt man daraus messerscharf, dass dies eine genetische Komponente beweise.

Dieser Schluss hängt allerdings von einer Voraussetzung ab, die nicht diskutiert wird, die man aber dennoch nicht unter den Teppich kehren darf, wenn man diese Studien vernünftig einordnen will. Diese Voraussetzung lautet: Die Umwelt wirkt sich in gleicher Weise auf eineiige wie auf zweieiige Zwillingen aus. Denn wäre dieser Einfluss beispielsweise gleichförmiger auf die eineiigen Zwillinge, dann könnte deren größere Ähnlichkeit darauf zurückzuführen sein, dass man sie ähnlicher behandelt.

Und dies ist ja nun auch erkennbar der Fall. Oft genug zieht man sie sogar gleich an; manche Leute können sie optisch nicht auseinanderhalten; man erwartet von ihnen, dass sie sich auch psychisch ähneln, was sich wie eine selbsterfüllende Prophezeiung auswirken kann. Außerdem ahmen sie einander in aller Regel viel stärker nach als zweieiige Zwillinge (Joseph 2012).

Eine Schwalbe macht noch keinen Sommer

Empirische Studien zum Verhalten und Erleben von Menschen unterliegen zahllosen Störquellen, die zu falschen Ergebnissen führen können. Deswegen ist ein einzelner Befund, so sensationell das Ergebnis auch immer klingen mag, für sich genommen im Grunde nichts wert. Erst wenn verschiedene Forschergruppen an unterschiedlichen Institutionen mit unterschiedlichen Stichproben zu vergleichbaren Resultaten gelangt sind, dann kann man den entsprechenden Studien wissenschaftliches Gewicht beimessen. Nur leider sind solche erfolgreichen Replikationen von Untersuchungen in der psychiatrischen Forschung überaus selten; sie werden vielfach auch gar nicht erst versucht. Die Befunde, die beispielsweise mit bildgebenden Verfahren gewonnen wurden, lassen sich in aller Regel nicht replizieren1; dies gilt gleichermaßen für die so genannten „Genome Wide Association Studies“ zur Identifizierung genetischer Ursachen psychischer Störungen (Joseph 2011).

Rosinenpicken (Publication Bias)

Die Resultate empirischer Forschungen unterliegen zufälligen Schwankungen, die nichts mit den Einflüssen zu tun haben, die im Fokus der Forschung stehen. Wenn man zwei Versuchsgruppen dasselbe Schlafmittel gibt, dann wird dennoch beispielsweise die durchschnittliche Zufriedenheit mit dem Medikament in den beiden Gruppen voneinander abweichen, selbst wenn die Versuchspersonen zufällig aus der Population ausgewählt und zufällig auf die Gruppen verteilt wurden. Es kommt also auf die Größe der Abweichung an.

Aus diesem Grund werden die Messwertunterschiede zufallskritisch überprüft. Man will ja wissen, ob es „überzufällige“ Unterschiede zwischen den Gruppen gibt. Dabei nimmt man eine Irrtumswahrscheinlichkeit in Kauf, und diese beträgt üblicherweise 5 %. Daraus folgt: Wenn man in hundert Experimenten die Behandlungsform A mit der Behandlungsform B vergleicht und diese de facto gleich effektiv sind, so ist zu erwarten, dass sich bei 5 Versuchen dennoch statistisch scheinbar signifikante Unterschiede zeigen, obwohl diese gar nicht existieren.

Das Problem dabei: Forscher behandeln die erfolgreichen Experimente und die nicht erfolgreichen unterschiedlich. Sie neigen dazu, die signifikanten Befunde zu veröffentlichen und die nicht-signifikanten in der Schublade verstauben zu lassen. Damit ist – vor allem, aber nicht nur – zu rechnen, wenn die Wissenschaftler im Sold der Pharmaindustrie stehen. Es ist also denkbar, dass es in der Forschungsliteratur nur so vor scheinsignifikanten Zufallsbefunden wimmelt, aber niemand dies überprüfen kann, weil man nicht weiß, wie viele einschlägige Studien insgesamt verwirklicht wurden.

Missachtung der Grundregeln

Obwohl man dies nicht glauben mag, kennen viele Wissenschaftler die Grundregeln empirischen Forschens entweder nicht oder sie werden nicht allzu gern daran erinnert, wenn die Ergebnisse methodisch fragwürdiger Experimente in ihrem Sinn ausfallen. So setzt beispielsweise die Gültigkeit statistischer Signifikanztests voraus, das die Teilnehmer einer Untersuchung zufällig aus einer Grundgesamtheit ausgewählt und dann ebenso zufällig auf die Versuchs- bzw. Kontrollbedingungen verteilt wurden.

Die Notwendigkeit eines solchen Vorgehens leuchtet unmittelbar ein, wenn man sich folgendes Beispiel vor Augen hält: Es soll geprüft werden, ob sich das Medikament X besser zur Behandlung von Depressionen eignet als das Medikament Y. Man führt ein Experiment folgender Art durch: In einer Klinik (A) befinden sich überwiegend leichte Fälle, die von sehr liebenswerten Ärzten behandelt werden. In der anderen Klinik (B) aber sind die Patienten schwer gestört und die Mediziner ausgesprochene Stinkefinger. Nun überprüft man die Effektivität des Medikaments X in Klinik A und die des Medikaments Y in Klinik B. Selbst wenn der gemessene Unterschied der Effektivität den Signifikanztest auf dem 5-Prozent-Niveau besteht, so bedeutet dies keineswegs, dass die eine Methode der anderen de facto mit einer Irrtumswahrscheinlichkeit von 5 Prozent überlegen ist.

Leider sind Missachtungen von Grundregeln dieser Art nicht etwa die Ausnahme, sondern die Regel, wenngleich sie natürlich nicht immer so offensichtlich sind wie in diesem Beispiel.

Unreliable und invalide Messungen

Die Reliablität sagt aus, wie genau eine Messverfahren misst, was es misst. Die Validität ist ein Maß dafür, wie genau ein Messverfahren das misst, was es zu messen vorgibt. Wie die Beispiele Anders Behring Breivik und Gustl Mollath zeigen, fallen psychiatrische Gutachten über ein und dieselbe Person nicht selten höchst unterschiedlich aus und dies bestätigt auch die empirische Forschung.

Psychiatrische Diagnosen sind im Allgemeinen ziemlich unreliabel. Dabei ist zu konstatieren, dass sich die Reliabilität mit der Entwicklung von psychiatrischen Diagnoseschemata nicht verbessert, sondern sogar verschlechtert hat. So ist beispielsweise die neueste Version der amerikanischen „Psychiaterbibel“ DSM-5 weniger reliabel als ihre Vorgängerversionen (Greenberg 2013).

Mit der Validität psychiatrischer Diagnosen sieht es allerdings noch viel finsterer aus.

Die Validität bestimmt man am besten, indem man die Messwerte mit einem Außenkriterium korreliert, das unabhängig vom diagnostischen Verfahren gemessen werden kann. So könnte man beispielsweise einen Intelligenztest validieren, indem man die IQ-Werte mit der Leistung in einem Computersimulationsspiel vergleicht, in dem beispielsweise die Versuchspersonen die Verspätungen von Zügen in einem Netz reduzieren sollen. Vorausgesetzt wird hier, dass die Versuchspersonen keine Erfahrung mit dieser Aufgabe haben. Unter diesen Bedingungen dürfte Einigkeit darüber bestehen, dass es sich hier um eine Aufgabe handelt, die vor allem Intelligenz erfordert.

Wie nun aber will man psychiatrische Diagnosen validieren? Bei welcher, vom diagnostischen Verfahren unabhängigen, Aufgabe ist der Wahn die überwiegend über das Ergebnis entscheidende Dimension? Welche Aufgabe meistert ein Mensch schlechter oder besser, weil er einen Wahn hat? Die Psychiatrie hat sich mit solchen nicht nur theoretischen Fragen das Leben bisher noch nicht allzu schwer gemacht. Sie betrachtet ihre Diagnosen vielmehr also valide, wenn Ehepartner, Verwandte, Freunde, Arbeitgeber etc. Informationen liefern, die zu dieser Diagnose passen. Dass hier die Unabhängigkeit des Validierungsprocederes vom diagnostischen Verfahren nicht gegeben ist, dürfte unmittelbar einleuchten.

Da bisher keine Biomarker gefunden wurden, die auch nur mit der Diagnose, geschweige denn mit unabhängigen Indikatoren korrelieren, ist eine „biologische Validierung“ zum gegenwärtigen Zeitpunkt unmöglich. Es versteht sich von selbst, dass die Aussagekraft psychiatrischer Forschung allein schon wegen der offensichtlichen Reliabiltäts- und Validitätsmängel erheblich eingeschränkt ist. Wie beispielsweise soll man eine angebliche Korrelation zwischen einer psychiatrischen Diagnose und bestimmten Prozessen im Gehirn interpretieren, wenn man weiß, dass die Diagnosen nicht hinlänglich valide und reliabel sind?

Erwartungen

Psychiatrische Studien orientieren sich am naturwissenschaftlichen Ideal. Die Naturwissenschaften beobachten im Allgemeinen jedoch Objekte ohne Selbstbewusstsein und sie experimentieren mit Gegenständen, die nicht über Sinn und Zweck des Experiments nachdenken.

Man stelle sich zum Beispiel folgende Konstellation vor: Die Elektrokrampftherapie soll mit einer Scheinbehandlung verglichen werden. Die Elektrokrampf-Therapeuten sind durchdrungen von der Überzeugung, dass die Elektrokrampftherapie eine leistungsstarke und bei sachgerechte Anwendung ungefährliche Methode ist. Dies glauben auch die Elektrokrampf-Patienten. Die Placebo-Therapeuten aber sind sich überwiegend unsicher, ob man mit leidenden Menschen überhaupt in dieser Weise experimentieren sollte und die Placebo-Patienten gehören zu einem Kreis von Leuten, die gegenüber Elektrokrampftherapie generell skeptisch eingestellt sind.

Dieses Problem könnte man auch nicht dadurch lösen, indem man Patienten und Therapeuten zufällig auf die Versuchsbedingungen verteilt. Denn hätte man zwar keine Häufung von Elektroschockfreunden unter den Patienten der Versuchsgruppe und keine Häufung von Elektroschockskeptikern in der Placebokontrollgruppe, aber man hätte immer noch Therapeuten, die wissen, ob sie tatsächlich schocken oder nur so tun. Es lässt sich nicht ausschließen, dass dieses Wissen auf mehr oder weniger subtile Weise den Patienten kommuniziert wird.

Bei Medikamenten-Studien kann man natürlich auch den Ärzten vorgaukeln, dass sie ein Verum verabreichen, obwohl sie die Placebogruppe versorgen. Aber bei solchen Studien findet schnell eine „Entblindung“ statt, weil beispielsweise viele der aktiven, echten Medikamente charakteristische, spürbare Nebenwirkungen haben, die beim Placebo natürlich nicht eintreten. Die Placebo-Patienten bemerken das Ausbleiben der Nebenwirkungen und sie beschleicht der Verdacht, zur Placebogruppe zu gehören, was den Placeboeffekt abschwächt oder gar aufhebt. Die Verum-Patienten stellen die Nebenwirkungen fest, schließen daraus, dass sie nicht zur Placebogruppe gehören und damit ist die gestiegene Erwartung der Wirksamkeit des Medikaments verbunden.

Diesem Phänomen könnte man entgegenwirken, indem man mit so genannten aktiven Placebos arbeitet, also mit Scheinmedikamenten, die aber Nebenwirkungen haben, die mit denen des überprüften Verums vergleichbar sind. Dies würde zweifellos die Gefahr einer Entblindung abschwächen. Dennoch aber wissen auch die Patienten, dass sie ein Medikament erhalten, und dieses Wissen kann eine positive Erwartung erzeugen, selbst dann, wenn ihnen bewusst ist, dass sie möglicherweise zur Placebogruppe gehören.

Um herauszufinden, welche Wirkung eine Substanz unabhängig von irgendwelchen Erwartungen hat, müsste man sie den Versuchspersonen heimlich verabreichen. Dies allerdings verbiete sich aus ethischen Gründen. Man kann sich raffinierte Versuchspläne ausdenken, um Erwartungseffekte zu kontrollieren, völlig ausschalten aber kann man sie allenfalls sehr selten. Daher muss man fast immer damit rechnen, dass die Teilnehmer sich in Experimenten anders verhalten als im realen Leben, über das die Experimente Aufschluss geben sollen.

Externe Einflüsse

Die so genannten „psychisch Kranken“ sind Kunden von Psychiatrie und Pharma-Wirtschaft; u. U. sind sie sogar Zwangskunden. Es liegt also nahe, einen Einfluss wirtschaftlicher Interessen auf die psychiatrische und psychopharmakologische Forschung zu vermuten. Dass es sich bei dieser Vermutung nicht etwa um ein verschwörungstheoretisches Hirngespinst handelt, darf als erwiesen gelten. Der Einfluss ist sogar erheblich und er wirkt sich zugunsten der wirtschaftlich Interessierten aus. Dabei handelt es sich nicht immer um offenen Betrug, wenngleich auch dieser nicht selten vorkommt, sondern oft um „motivierte Schlampereien“.

Ob die einschlägigen Skandale der letzten Zeit zu einer Richtungsänderung führen, darf bezweifelt werden, weil die Täter in der Regel straffrei ausgehen und weil eventuelle Strafen von den Leuten im Hintergrund aus der Portokasse bezahlt werden können.2 Die öffentliche Kontrolle der psychiatrischen Forschung ist mangelhaft. Die Fachpublikationen zeichnen ein geschöntes Bild des gegebenen Forschungsstandes. Dies liegt nicht nur am bereits erwähnten Rosinenpicken, sondern auch am inzwischen nachgewiesenen, verzerrenden Einfluss von Wirtschaftsinteressen auf die Publikationsorgane. Dieser erstreckt sich aber nicht nur auf die Fach-, sondern auch auf die Publikumspresse. Zeitungen, Zeitschriften und das Fernsehen verbreiten nach wie vor unermüdlich Thesen, die wissenschaftlich längst widerlegt sind, beispielsweise das Dopaminmärchen und die Serotoninfabel. Auf diese Weise falsch informiert, ist die interessierte Öffentlichkeit weder motiviert, noch in der Lage, Druck zur Korrektur der Fehlentwicklungen in der psychiatrischen (einschließlich der psychopharmakologischen) Forschung auszuüben.3

Literatur

Joseph, J. (2011). The Crumbling Pillars of Behavioral Genetics. GeneWatch, 24 (6), 4-7

Joseph, J. (2012). The „Missing Heritability“ of Psychiatric Disorders: Elusive Genes or Non-Existent Genes? Applied Developmental Science, 16, 65-83

Goldacre, B. (2012).Bad Pharma. London: Fourth Estate

Gøtzsche, P. (2013). Deadly Medicines and Organised Crime: How Big Pharma has Corrupted Healthcare. Radcliffe

Greenberg, G. (2013). The Book of Woe. The DSM and the Unmaking of Psychiatry. New York N.Y.: blue rider press, Penguin Group

Siehe hierzu den Blogeintrag: Ein toter Lachs und eine dressierte Ziege.

Es gibt inzwischen eine Vielzahl von Büchern, die sich mit diesem Thema auseinandersetzen; besonders zu empfehlen sind: Goldacre (2012); Gøtzsche (2013).

Gøtzsche (2013: Kindle-Edition Position 3055): „Die Pharmawirtschaft hat Armeen bezahlter Blogger, die als Meinung getarntes Pharmamaterial im Internet verbreiten, und die meisten Medien-Unternehmen haben Pharma-Verbindungen… Dies hilft bei der Erklärung, warum wir so oft unkritische Artikel in der Presse finden, die ‚Copy-and-Paste-Versionen‘ der Pressemeldungen von Unternehmen über ihre Wundermittel sind.“

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.