Die forensisch-psychiatrische Nachsorge

In der Website „Forensik transparent“ fand sich vor einigen Jahren unter der Rubrik „Aktuelles“  folgendes Zitat:1)Ich unterstelle, dass die Inhalte des Zitats auch heute noch von den Betreibern dieser Website aufrechterhalten werden. Unabhängig davon spiegelt sich in diesen Zeilen eine Einstellung wieder, die unter Mitarbeitern der forensischen Psychiatrie weit verbreitet zu sein scheint.

„Auch aktuelle Zahlen aus weiteren Bundesländern belegen eindrucksvoll den Erfolg forensisch-psychiatrischer Nachsorge bei der Vermeidung von Deliktrückfälligkeit. So präsentierte Roland Freese, Ärztlicher Direktor der Vitos forensisch-psychiatrischen Ambulanz in Haina in seinem Referat die Ergebnisse einer Langzeiterhebung in Hessen. Von insgesamt 1.358 Personen, die sich nach der Entlassung aus dem Maßregelvollzug in einer Nachsorgebetreuung befanden, wurden lediglich vier Prozent mit einer neuen Straftat rückfällig. Das ist erheblich weniger als die Rückfallgefahr bei Maßregelpatienten, die keine Nachsorge erhalten, und unterscheidet sich noch deutlicher von der Deliktrückfälligkeit bei Straftätern, die aus einer Justizvollzugsanstalt entlassen werden: Mehr als jeder zweite setzt hier seine kriminelle Karriere fort.“2)Forensik transparent

Das ist also ein eindrucksvoller Beleg? Für was? Für die methodisch-methodologische Inkompetenz der Verfasser dieses Textes?

Eindrucksvolle Belege könnte man allenfalls durch ein randomisiertes Design erbringen. Man hätte nach dem Zufallsprinzip Gruppen zusammenzustellen, die beispielsweise aus

  1. Maßregelpatienten mit Nachsorge,
  2. Maßregelpatienten ohne Nachsorge,
  3. Straftätern aus Justizvollzugsanstalten
    bestehen.

Bei einem nicht-randomisierten Design ergibt sich nämlich die Gefahr von Selektionseffekten. M. a. W.: Es könnten vorab systematische Unterschiede zwischen den Gruppen existieren, die sich auf die Rückfallhäufigkeit auswirken. Über die Notwendigkeit der Randomisierung, der Kontrollgruppen und der Auswirkungen des Fehlens dieser Maßnahmen informieren beispielsweise Cook & Campbell.3)Cook, T. D. & Campbell, D. T. (1979). Quasi-Experimentation. Boston: Houghton Mifflin Co.

Die oben erwähnte Untersuchung Freeses war nicht randomisiert.

Keineswegs will ich behaupten, dass nicht-randomisierte Studien wertlos seien; sie besitzen fraglos eine heuristische Funktion und dienen weiterer Hypothesengenerierung. Aber mit ihnen kann man keinesfalls „eindrucksvoll“ den Erfolg einer Maßnahme belegen. Die Wirklichkeit sieht anders aus.

Schmidt-Quernheim kommt in seiner einschlägigen Dissertation zu dem Schluss:

„Das tatsächliche empirisch gesicherte Wissen über die Nachbehandlung forensischer Patienten gemäß § 63 StGB ist derzeit unverändert gering, da nur wenige methodisch anspruchsvollere Untersuchungen existieren.“4)Schmidt-Quernheim, F. (2011). Evaluation der ambulanten Nachsorge forensischer Patienten (§ 63 StGB) in Nordrhein-Westfalen, Dissertation, Universität Duisburg-Essen

Der Autor schreibt:

„Eine randomisierte kontrollierte Studie ist im forensischen Kontext mithin nicht realisierbar, ethisch nicht vertretbar und sowohl politisch als auch juristisch nicht durchsetzbar: Bei dem hohen Rechtsgut der ‚Sicherheit der Bevölkerung’ wäre es tatsächlich schwer zu vermitteln, einer zufällig ausgewählten Gruppe entlassener Maßregelpatienten forensische Nachsorge nicht als Weisung aufzugeben.“

Wenn dies tatsächlich zuträfe, dann müsste man in der Forensik eben auf eindrucksvolle Belege für die Erfolge von Maßnahmen verzichten. Was überhaupt nicht geht, ist, Erfolge zu behaupten, obwohl man sich nur auf Impressionen stützen kann.

Die Dissertation Schmidt-Quernheims wurde 2011 vorgelegt. Es ist natürlich nicht auszuschließen, dass sich die methodische Qualität der Studien in der Folgezeit verbessert hat. Allerdings habe ich dies bei meinen Recherchen nicht feststellen können. Es sieht aus meiner Sicht nach wie vor düster aus.

Eine Studie aus dem Jahr 2016 trägt z. B. den anspruchsvollen Titel: „Untersuchung von Prozess-, Struktur- und Ergebnisqualität der forensisch-psychiatrischen Ambulanzen im Freistaat Bayern.“ Sie gibt vor, eine „wissenschaftliche Evaluation“ zu sein. Sie stammt von Prof. Dr. med. Michael Osterheider (Abteilung für Forensische Psychiatrie und Psychotherapie der Universität Regensburg am Bezirksklinikum).

In der Zusammenfassung heißt es:

„Das vorliegende Projekt verfolgte das Ziel, die Prozess-, Struktur- und Ergebnisqualität der forensisch-psychiatrischen Ambulanzen in Bayern erstmalig zu beschreiben. In die Studie eingeschlossen wurden 482 Patienten in ambulanter Nachsorge, die zuvor gemäß § 63 und § 64 StGB sowie § 126 StPO im stationären Maßregelvollzug untergebracht waren (Teilnahmerate 15%).
Zu mehreren Messzeitpunkten wurden neben den basalen soziodemografischen und tatspezifischen Daten auch Angaben zum Verlauf der Behandlung und dem psychopathologischen Zustand der Patienten erhoben.
Die Datenerhebung erfolgte ausschließlich per Fremdeinschätzung durch die zuständigen Ambulanzmitarbeiter.
Des Weiteren wurden Angaben zu der personellen und räumlichen Ausstattung sowie zu den aktuellen Patientenzahlen der jeweiligen Ambulanzen erfragt.
Informationen über die Rückfälligkeit der Patienten wurden anhand angeforderter Auszüge aus dem Bundeszentralregister gewonnen.“
Auch nach mehrmaligem Augenreiben war für mich nicht zu erkennen, wie diese Studie ihrem wissenschaftlichen Anspruch gerecht werden will. Die wichtigste Voraussetzung einer Hypothesen prüfenden wissenschaftlichen Studie wurde ja nicht erfüllt. Eine solche vorgelegt zu haben, unterstellt aber der Verfasser, wenn er schreibt:
„Es konnte gezeigt werden, dass die ambulante forensisch-psychiatrische Nachsorge zu deutlich verminderter Rückfälligkeit sowohl der zuvor gem. § 63 StGB (um 9%) als auch der gem. § 64 StGB (um 18 %) untergebrachten Patienten führt. Aus ökonomischer Sicht werden zudem durch die Institutionalisierung derartiger Nachsorgeambulanzen erhebliche Kostenersparnisse (bis zu 60%)
erzielt.“5)Osterheider, M. (2016). Untersuchung von Prozess-, Struktur-und Ergebnisqualität der forensisch-psychiatrischen Ambulanzen im Freistaat Bayern.

Derartiges kann man aber nur zeigen, wenn man in eine Studie neben der Experimentalgruppe auch eine Kontrollgruppe einbezieht. Davon ist in diesem Werk aber nicht die Rede. Bei Wikipedia heißt es in schöner und zutreffender Klarheit:

„Die Kontrollgruppe ist, neben der zufälligen Zuweisung der Probanden in Kontroll- und Experimentalgruppe, ein entscheidendes Kriterium für die Validität von Forschungsergebnissen, da sonst eine der Experimentalbedingung zugeschriebene Wirkung tatsächlich auf anderen Ursachen beruhen könnte.“6)Wikipedia: Kontrollgruppe

Ein weiterer Gesichtspunkt, der die Qualität dieser Studie in Frage stellt, ist die Datenerhebung. Sie erfolgte ausschließlich per Fremdeinschätzung. Hinzu kommt, dass eine beachtliche Reihe von Patienten aus der Studie ausgeschlossen wurde:

„Gemäß der Angaben der Ambulanzen wurden während der Dauer des Projekts insgesamt N=3226 Patienten ambulant forensisch-psychiatrisch versorgt, n = 482 Patienten haben der Teilnahme an der Studie zugestimmt, n=2299 Patienten konnten entweder aufgrund nicht vorhandener Einsichtsfähigkeit oder einer nicht gegebenen Einwilligung nicht in die Studie eingeschlossen werden. Bei n=445 Patienten blieb bis Untersuchungsende unklar, ob eine Studienteilnahme abgelehnt/unmöglich war oder keine Anfrage/Patientenaufklärung erfolgte… Zusammenfassend lag die Teilnahmequote bei 15%.“

Hier stellt sich dann wohl doch die Frage, wen die Studienteilnehmer eigentlich repräsentieren sollen und in welcher Beziehung die Fremdeinschätzungen der Mitarbeiter zum tatsächlichen Zustand der Eingeschätzten stehen.

Immerhin wurde versucht, die Interrater-Reliabilität der Fremdeinschätzungen zu überprüfen. Dies ist ein statistisches Maß, dass die Übereinstimmung des Urteils zweier Mitarbeiter hinsichtlich eines Patienten ausdrückt.

Die Reliabilität sagt jedoch nichts über die Validität aus, nämlich darüber, wie gut die „Rater“ den Zustand der Patienten einzuschätzen vermochten.7)Wenn beide Beurteiler z. B. professionelle Einstellungen oder gar Vorurteile teilen, so könnten sie deswegen dazu tendieren, Patienten unabhängig von ihrem Zustand gleichförmig zu beurteilen. Grundsätzlich gilt: Man kann sich auch zu zweit irren. Aus diesem Grund unterscheidet man in der Wissenschaft zu Recht zwischen Reliabilität und Validität.

Studien dieser Art taugen allenfalls dazu, sich einen ersten Eindruck zu verschaffen. Mehr nicht.

Aussagen wie die folgende sind damit nicht zulässig:

„Die Rückfälligkeit der Patienten konnte durch die Nachsorge massiv verringert werden. Für Patienten, vorherig gem. § 63 StGB untergebracht, wurde im Vergleich zu Stichproben von Patienten ohne forensisch – psychiatrische Nachsorge eine Verringerung der Rückfallquote um 8,8 % beobachtet.“

Wegen des Fehlens einer Kontrollgruppe werden Rückfälle der Studienteilnehmer mit Statistiken verglichen, die in anderen Zusammenhängen gewonnen wurden.

Ein solches Vorgehen erscheint auf den ersten Blick plausibel und gerechtfertigt, ist es aber nicht. Es ist ja nicht auszuschließen, dass sich Patienten in der Nachsorge systematisch von solchen ohne Nachsorge unterscheiden. Zudem ist es denkbar, dass die Vergleichsstatistiken auf Stichproben beruhen, die für ihre Grundgesamtheit nicht repräsentativ sind. Man nennt dies einen Selektionseffekt. Dadurch können die Ergebnisse des Vergleichs in unkalkulierbarer Weise verzerrt werden.

Die richtige Vorgehensweise ist, wie bereits erwähnt, eine andere: Vor Beginn der Studie zieht man aus einer Grundgesamtheit eine zufällige Stichprobe. Diese Stichprobe verteilt diese ebenso zufällig auf zwei Gruppen: Eine Gruppe erhält Nachsorge. Die andere erhält keine Nachsorge. Am Ende der Studie vergleicht man dann diese beiden Gruppen, also die Experimentalgruppe mit der Kontrollgruppe.

Man bedenke auch, dass es sich bei der vorgestellten Studie keineswegs um eine Totalerhebung handelt. Die Teilnahmequote lag bei 15 %. Und diese Teilnehmer wurden auch nicht nach dem Zufallsprinzip ausgewählt.

Es ist unter diesen Bedingungen schon recht kühn zu behaupten, dass die forensisch-psychiatrische Nachsorge eine eindeutige Verringerung der Rückfälle und eine Kostenersparnis bringe.

Generell gilt: Je geringer die Kontrolle eines Forschers über die Auswahl und Verteilung der Versuchspersonen auf die Versuchsbedingungen ist, desto problematischer wird eine Verallgemeinerung der Studienergebnisse.

Bei diesem Sachstand drängt sich mir der Verdacht auf: Entweder ist der Verfasser dieser Studie mit den gängigen Standards der empirischen Forschung nicht vertraut oder er versucht die interessierte Öffentlichkeit bewusst zu täuschen. Dem Autor möchte ich weder das eine, noch das andere unterstellen. Allein auch nach ernsthaftem Nachdenken will mir keine Alternative zu diesem Verdacht einfallen.

Natürlich ist es schwierig, in der realen Welt jenseits wissenschaftlicher Labore methodische Kriterien streng einzuhalten. Ich plädiere keineswegs dafür, unter diesen Bedingungen ganz auf Studien unter realistischen Bedingungen zu verzichten. Wohl aber bestehe ich darauf, dass die Einschränkungen der Aussagekraft solcher Forschungen offen ausgesprochen werden. Außerdem sollten Forscher Schlussfolgerungen vermeiden, die sich aufgrund der eingeschränkten methodischen Qualität ihrer Studien nicht rechtfertigen lassen.

Wer diesen Geboten wissenschaftlicher Redlichkeit nicht entspricht, liefert keine Forschung. Er produziert Ideologien zur Rechtfertigung von Dogmen. Dafür sollte man keine Steuergelder herauswerfen.

Fußnoten   [ + ]

1.Ich unterstelle, dass die Inhalte des Zitats auch heute noch von den Betreibern dieser Website aufrechterhalten werden. Unabhängig davon spiegelt sich in diesen Zeilen eine Einstellung wieder, die unter Mitarbeitern der forensischen Psychiatrie weit verbreitet zu sein scheint.
2.Forensik transparent
3.Cook, T. D. & Campbell, D. T. (1979). Quasi-Experimentation. Boston: Houghton Mifflin Co.
4.Schmidt-Quernheim, F. (2011). Evaluation der ambulanten Nachsorge forensischer Patienten (§ 63 StGB) in Nordrhein-Westfalen, Dissertation, Universität Duisburg-Essen
5.Osterheider, M. (2016). Untersuchung von Prozess-, Struktur-und Ergebnisqualität der forensisch-psychiatrischen Ambulanzen im Freistaat Bayern.
6.Wikipedia: Kontrollgruppe
7.Wenn beide Beurteiler z. B. professionelle Einstellungen oder gar Vorurteile teilen, so könnten sie deswegen dazu tendieren, Patienten unabhängig von ihrem Zustand gleichförmig zu beurteilen. Grundsätzlich gilt: Man kann sich auch zu zweit irren. Aus diesem Grund unterscheidet man in der Wissenschaft zu Recht zwischen Reliabilität und Validität.