WIE AUSSAGEKRÄFTIG SIND VORZEITIG ABGEBROCHENE STUDIEN?

Randomisierte klinische Studien, die vorzeitig abgebrochen werden, weil sie einen Vorteil der geprüften Intervention erkennen lassen, erfahren in der Regel besondere Beachtung und beeinflussen nicht selten Therapiestandards. Jüngstes Beispiel sind die Vorgänge um Trastuzumab (HERCEPTIN) in der adjuvanten Brustkrebstherapie (a-t 2005; 36: 96-8). Gegenüber den Ergebnissen solcher Studien sei Skepsis angebracht, urteilen jetzt die Autoren einer systematischen Übersicht.1 Sie bewerten Studien, die wegen angeblicher Vorteile vorzeitig beendet wurden, hinsichtlich ihrer Häufigkeit, dem Ausmaß und der Plausibilität des Behandlungseffekts sowie der Qualität der publizierten Informationen. Zwischen 1975 und 2004 haben sie 143 abgebrochene Studien ausfindig gemacht, mehr als die Hälfte in den Gebieten Kardiologie, Krebs und HIV/ AIDS. Jede zweite findet sich im New England Journal of Medicine (55) oder im Lancet (27). Im untersuchten Zeitraum hat sich der Anteil solcher Studien an allen in Medline aufgeführten randomisierten Studien von 0,01% auf 0,1% verzehnfacht. Die Qualität der Veröffentlichungen hinsichtlich der für den vorzeitigen Abbruch relevanten Informationen (z.B. geplante Fallzahl oder nach welcher Zwischenanalyse die Studie beendet wird) lässt zu wünschen übrig: Nur in acht Studien (6%) werden alle für die Beurteilung wichtigen Kriterien berichtet. Zum Zeitpunkt des Studienstopps sind durchschnittlich 63% der geplanten Teilnehmer aufgenommen, die mediane Nachbeobachtungszeit beträgt 13 Monate, und die Analyse basiert im Median auf 66 Ereignissen.1

Studien, die wegen eines angeblichen Benefits vorzeitig beendet werden, zeigen häufig einen auffällig großen Behandlungseffekt (Verhältnis der Ereignisraten in Interventions- und Kontrollgruppe). Um den Abbruch zu rechtfertigen und zufällige Effekte trotz mehrfacher Analysen (multiples Testen) möglichst sicher ausschließen zu können, werden besonders strenge Maßstäbe angelegt, indem ein sehr niedriger p- Wert gewählt wird, beispielsweise p < 0,001. Vor allem in Studien mit wenigen Ereignissen muss die Risikoreduktion dann 50% und mehr betragen, um einen solchen p-Wert zu erreichen.2 Angesichts üblicherweise erzielter Therapieeffekte von 25% bis 30% erscheint ein solches Ergebnis oft nicht plausibel. Zudem besteht immer die Gefahr, dass es sich - trotz aller Vorsichtsmaßnahmen - um einen zufällig gemessenen Höchstwert handelt. Da bei - auch rein zufälligen - Schwankungen hin zu einem großen Effekt die Wahrscheinlichkeit eines vorzeitigen Abbruchs steigt, ist umgekehrt bei Studien, die wegen Benefits vorzeitig beendet werden, das Risiko erhöht, dass es sich um Zufallseffekte handelt.3

Zwischenanalysen können also trotz hoch signifikanter Ergebnisse in die Irre führen. Dies machen Studien deutlich, die fortgesetzt werden und am Ende mit lediglich schwach positivem oder gar negativem Resultat ausgehen:

In der CHARM*-Studie, die aus drei Teilstudien besteht und den Nutzen des Angiotensin-II-Blockers Candesartan (ATACAND, BLOPRESS) bei Herzinsuffizienz prüft (a-t 2003; 34: 81- 2), wird alle sechs Monate die Gesamtsterblichkeit aller Teilnehmer bestimmt. In der vierten Zwischenanalyse, als die Rekrutierung der Patienten nahezu vollständig ist, wird der vorher festgelegte Grenzwert von p < 0,001, ab dem ein vorzeitiger Abbruch in Erwägung zu ziehen ist, unterschritten (260 vs. 339 Todesfälle, Hazard Ratio [HR] 0,76; 95% Vertrauensbereich [CI] 0,64-0,87; p = 0,0006). Dennoch wird die Studie fortgesetzt, unter anderem weil die entsprechenden Ergebnisse in zwei der drei Teilstudien nicht einmal das übliche Signifikanzniveau von p = 0,05 erreichen und das Follow-up kurz ist. Zudem ist den Mitgliedern des unabhängigen Überwachungskomitees bewusst, dass die gemessenen Behandlungseffekte vorzeitig beendeter Studien oft übertrieben hoch sind und bei fortgesetzter Beobachtung eine "regression to the truth"** möglich ist. In den folgenden Auswertungen wird der Vorteil für Candesartan immer kleiner. Bei der endgültigen Analyse zwei Jahre später lässt sich kein signifikanter Unterschied in der Gesamtsterblichkeit mehr feststellen (886 vs. 945 Todesfälle; HR 0,91; 95% CI 0,83-1,00; p = 0,055).4

*

CHARM = Candesartan in Heart Failure Assessment of Reduction in Mortality and Morbidity;

**

Rückläufige Entwicklung hin zur Wahrheit/Wirklichkeit

In der OPTIMIST***-Studie bei Patienten mit schwerer Sepsis ergibt die zweite Zwischenanalyse für Tifacogin ebenfalls einen Überlebensvorteil gegenüber Plazebo (29,1% vs. 38,9%; p = 0,006). Bei Studienende liegt die Mortalität unter Tifacogin numerisch höher (34,2% vs. 33,9%).5

***

OPTIMIST = Optimized phase 3 tifacogin in multicenter international sepsis trial

In der zwölften Studie des Medical Research Council bei akuter myeloischer Leukämie bleibt ein fünfter Chemotherapiezyklus gegenüber einem Regime mit vier Zyklen ohne Überlebensvorteil (HR 1,09; 95% CI 0,87-1,37; p = 0,4). Zwei Zwischenanalysen hatten zuvor hoch signifikante Effekte zugunsten des zusätzlichen Zyklus ergeben (HR 0,47; p = 0,003 und HR 0,53; p = 0,002). Die berichtenden Autoren, der Leiter des Überwachungskomitees und der Statistiker der Studie, warnen davor, die Entscheidung zum vorzeitigen Abbruch einer Studie ausschließlich an starren Grenzwerten festzumachen, ohne den Kontext zu berücksichtigen. Sie weisen darauf hin, dass Zufallseffekte vorkommen und zwar "häufiger, als viele Kliniker glauben".6

Neben grundsätzlichen Vorbehalten gegenüber den Ergebnissen vorzeitig gestoppter Studien spielt auch die Auswahl des für den Abbruch entscheidenden Endpunkts eine wichtige Rolle. Bei Krebs beispielsweise sollen therapeutische Interventionen Leben verlängern und/oder die Lebensqualität verbessern. In adjuvanten Therapiesituationen wie den Untersuchungen mit Trastuzumab oder Aromatasehemmern bei Brustkrebs basiert der Entschluss zum vorzeitigen Studienstopp aber üblicherweise auf einem Vorteil hinsichtlich des krankheitsfreien Überlebens.7 Ein Einfluss auf die Gesamtsterblichkeit ist dagegen nicht hinreichend belegt und lässt sich unter Umständen nie mehr klären. Entscheidende Fragen zur Sicherheit bleiben ebenfalls offen, unter anderem deshalb, weil aufgrund der kurzen Nachbeobachtung die Rate unerwünschter Effekte für hinreichend verlässliche Aussagen zu niedrig ist. Entsprechende Vorbehalte gelten für den Endpunkt "progressionsfreies Überleben"bei fortgeschrittener Krebserkrankung.1,7 Bei kombinierten Endpunkten ist darauf zu achten, dass der Vorteil nicht ausschließlich auf dem für Patienten am wenigsten wichtigen Ereignis beruht (z.B. Rückgang der Angina-pectoris-Rate beim Kombinationsendpunkt Tod, Herzinfarkt oder Angina).1

Als Begründung für einen vorzeitigen Abbruch werden meist ethische Aspekte angeführt: Da der "Nutzen" der Intervention nunmehr erwiesen sei, könne man sie der Kontrollgruppe nicht mehr vorenthalten. Den Interessen der Patienten in randomisierten Studien steht aber der Schutz der Gesellschaft (und natürlich auch der Teilnehmer) vor "übereifrigen voreiligen Behauptungen" angeblicher Behandlungserfolge gegenüber.2

Was folgt daraus für Trastuzumab in der adjuvanten Brustkrebstherapie? "Das Beste, was über die Wirksamkeit und Sicherheit von HERCEPTIN in der Behandlung des frühen Brustkrebs gesagt werden kann, ist, dass die vorliegende Evidenz für eine verlässliche Beurteilung ungenügend ist", kommentiert Lancet und erinnert daran, dass dem Hersteller Roche die Daten bislang nicht einmal ausreichen, um sie den Zulassungsbehörden vorzulegen.8

Kontrollierte klinische Studien werden zunehmend häufiger wegen hoch signifikanter positiver Zwischenergebnisse vorzeitig abgebrochen.

Es besteht die Gefahr, dass es sich bei dem festgestellten - oft auffällig großen - Behandlungseffekt um einen zufällig gemessenen Höchstwert handelt, der bei Fortsetzung der Studie kleiner wird.

Ein statistischer "Grenzwert" sollte bei Erwägung eines vorzeitigen Studienabbruchs daher nur als ein Aspekt unter anderen betrachtet werden.

Entscheidender ist das Vorhandensein hinreichender Daten für die Beurteilung patientenrelevanter Endpunkte wie Gesamtüberleben oder Sicherheit.

		(R = randomisierte Studie, M = Metaanalyse)
M	1	MONTORI, V.M. et al.: JAMA 2005; 294: 2203-9
	2	POCOCK, S.J.: JAMA 2005; 294: 2228- 30
	3	SCHULZ, K.F., GRIMES, D.A.: Lancet 2005; 365: 1657-61
	4	POCOCK, S.: Am. Heart J. 2005; 149: 939 -43
R	5	ABRAHAM, E. et al.: JAMA 2003; 290: 238-47
	6	WHEATLEY, K, CLAYTON, D.: Contr. Clin. Trials 2003; 24: 66-70
	7	CANNISTRA, S.A.: J. Clin. Oncol. 2004; 22: 1542-5
	8	The Lancet: Lancet 2005; 366: 1673

Autor: Redaktion arznei-telegramm - Wer wir sind und wie wir arbeiten

Diese Publikation ist urheberrechtlich geschützt. Vervielfältigung sowie Einspeicherung und Verarbeitung in elektronischen Systemen ist nur mit Genehmigung des arznei-telegramm^® gestattet.

a-t 2005; 36: 107-8nächster Artikel▷