Randomisierte klinische Studien, die vorzeitig abgebrochen werden, weil sie einen Vorteil der geprüften Intervention erkennen lassen, erfahren in
der Regel besondere Beachtung und beeinflussen nicht selten Therapiestandards. Jüngstes Beispiel sind die Vorgänge um Trastuzumab (HERCEPTIN) in
der adjuvanten Brustkrebstherapie (a-t 2005; 36: 96-8). Gegenüber den Ergebnissen solcher Studien sei Skepsis
angebracht, urteilen jetzt die Autoren einer systematischen Übersicht.1 Sie bewerten Studien, die wegen angeblicher Vorteile vorzeitig beendet
wurden, hinsichtlich ihrer Häufigkeit, dem Ausmaß und der Plausibilität des Behandlungseffekts sowie der Qualität der publizierten Informationen.
Zwischen 1975 und 2004 haben sie 143 abgebrochene Studien ausfindig gemacht, mehr als die Hälfte in den Gebieten Kardiologie, Krebs und HIV/ AIDS.
Jede zweite findet sich im New England Journal of Medicine (55) oder im Lancet (27). Im untersuchten Zeitraum hat sich der Anteil solcher Studien an allen in
Medline aufgeführten randomisierten Studien von 0,01% auf 0,1% verzehnfacht. Die Qualität der Veröffentlichungen hinsichtlich der für
den vorzeitigen Abbruch relevanten Informationen (z.B. geplante Fallzahl oder nach welcher Zwischenanalyse die Studie beendet wird) lässt zu wünschen
übrig: Nur in acht Studien (6%) werden alle für die Beurteilung wichtigen Kriterien berichtet. Zum Zeitpunkt des Studienstopps sind durchschnittlich 63%
der geplanten Teilnehmer aufgenommen, die mediane Nachbeobachtungszeit beträgt 13 Monate, und die Analyse basiert im Median auf 66
Ereignissen.1
Studien, die wegen eines angeblichen Benefits vorzeitig beendet werden, zeigen häufig einen auffällig großen Behandlungseffekt
(Verhältnis der Ereignisraten in Interventions- und Kontrollgruppe). Um den Abbruch zu rechtfertigen und zufällige Effekte trotz mehrfacher Analysen
(multiples Testen) möglichst sicher ausschließen zu können, werden besonders strenge Maßstäbe angelegt, indem ein sehr niedriger p-
Wert gewählt wird, beispielsweise p < 0,001. Vor allem in Studien mit wenigen Ereignissen muss die Risikoreduktion dann 50% und mehr betragen, um einen
solchen p-Wert zu erreichen.2 Angesichts üblicherweise erzielter Therapieeffekte von 25% bis 30% erscheint ein solches Ergebnis oft nicht plausibel.
Zudem besteht immer die Gefahr, dass es sich - trotz aller Vorsichtsmaßnahmen - um einen zufällig gemessenen Höchstwert handelt. Da bei - auch
rein zufälligen - Schwankungen hin zu einem großen Effekt die Wahrscheinlichkeit eines vorzeitigen Abbruchs steigt, ist umgekehrt bei Studien, die
wegen Benefits vorzeitig beendet werden, das Risiko erhöht, dass es sich um Zufallseffekte handelt.3
Zwischenanalysen können also trotz hoch signifikanter Ergebnisse in die Irre führen. Dies machen Studien deutlich, die fortgesetzt werden und am Ende
mit lediglich schwach positivem oder gar negativem Resultat ausgehen:
In der CHARM*-Studie, die aus drei Teilstudien besteht und den Nutzen des
Angiotensin-II-Blockers Candesartan (ATACAND, BLOPRESS) bei Herzinsuffizienz prüft (a-t 2003; 34: 81-
2), wird alle sechs Monate die Gesamtsterblichkeit aller Teilnehmer bestimmt. In der vierten Zwischenanalyse, als die Rekrutierung der Patienten nahezu
vollständig ist, wird der vorher festgelegte Grenzwert von p < 0,001, ab dem ein vorzeitiger Abbruch in Erwägung zu ziehen ist, unterschritten (260 vs.
339 Todesfälle, Hazard Ratio [HR] 0,76; 95% Vertrauensbereich [CI] 0,64-0,87; p = 0,0006). Dennoch wird die Studie fortgesetzt, unter anderem weil die
entsprechenden Ergebnisse in zwei der drei Teilstudien nicht einmal das übliche Signifikanzniveau von p = 0,05 erreichen und das Follow-up kurz ist. Zudem ist
den Mitgliedern des unabhängigen Überwachungskomitees bewusst, dass die gemessenen Behandlungseffekte vorzeitig beendeter Studien oft
übertrieben hoch sind und bei fortgesetzter Beobachtung eine "regression to the truth"** möglich ist. In den folgenden Auswertungen wird der
Vorteil für Candesartan immer kleiner. Bei der endgültigen Analyse zwei Jahre später lässt sich kein signifikanter Unterschied in der
Gesamtsterblichkeit mehr feststellen (886 vs. 945 Todesfälle; HR 0,91; 95% CI 0,83-1,00; p = 0,055).4
* |
CHARM = Candesartan in Heart Failure Assessment of Reduction in Mortality and Morbidity;
|
** |
Rückläufige Entwicklung hin zur Wahrheit/Wirklichkeit
|
In der OPTIMIST***-Studie bei Patienten mit schwerer Sepsis ergibt die zweite
Zwischenanalyse für Tifacogin ebenfalls einen Überlebensvorteil gegenüber Plazebo (29,1% vs. 38,9%; p = 0,006). Bei Studienende liegt die
Mortalität unter Tifacogin numerisch höher (34,2% vs. 33,9%).5
*** |
OPTIMIST = Optimized phase 3 tifacogin in multicenter international sepsis trial
|
In der zwölften Studie des Medical Research Council bei akuter
myeloischer Leukämie bleibt ein fünfter Chemotherapiezyklus gegenüber einem Regime mit vier Zyklen ohne Überlebensvorteil (HR 1,09;
95% CI 0,87-1,37; p = 0,4). Zwei Zwischenanalysen hatten zuvor hoch signifikante Effekte zugunsten des zusätzlichen Zyklus ergeben (HR 0,47; p = 0,003
und HR 0,53; p = 0,002). Die berichtenden Autoren, der Leiter des Überwachungskomitees und der Statistiker der Studie, warnen davor, die Entscheidung zum
vorzeitigen Abbruch einer Studie ausschließlich an starren Grenzwerten festzumachen, ohne den Kontext zu berücksichtigen. Sie weisen darauf hin, dass
Zufallseffekte vorkommen und zwar "häufiger, als viele Kliniker glauben".6
Neben grundsätzlichen Vorbehalten gegenüber den Ergebnissen vorzeitig gestoppter Studien spielt auch die Auswahl des für den Abbruch
entscheidenden Endpunkts eine wichtige Rolle. Bei Krebs beispielsweise sollen therapeutische Interventionen Leben verlängern und/oder die
Lebensqualität verbessern. In adjuvanten Therapiesituationen wie den Untersuchungen mit Trastuzumab oder Aromatasehemmern bei Brustkrebs basiert der
Entschluss zum vorzeitigen Studienstopp aber üblicherweise auf einem Vorteil hinsichtlich des krankheitsfreien Überlebens.7 Ein Einfluss auf die
Gesamtsterblichkeit ist dagegen nicht hinreichend belegt und lässt sich unter Umständen nie mehr klären. Entscheidende Fragen zur Sicherheit
bleiben ebenfalls offen, unter anderem deshalb, weil aufgrund der kurzen Nachbeobachtung die Rate unerwünschter Effekte für hinreichend
verlässliche Aussagen zu niedrig ist. Entsprechende Vorbehalte gelten für den Endpunkt "progressionsfreies Überleben"bei
fortgeschrittener Krebserkrankung.1,7 Bei kombinierten Endpunkten ist darauf zu achten, dass der Vorteil nicht ausschließlich auf dem für
Patienten am wenigsten wichtigen Ereignis beruht (z.B. Rückgang der Angina-pectoris-Rate beim Kombinationsendpunkt Tod, Herzinfarkt oder
Angina).1
Als Begründung für einen vorzeitigen Abbruch werden meist ethische Aspekte angeführt: Da der "Nutzen" der Intervention
nunmehr erwiesen sei, könne man sie der Kontrollgruppe nicht mehr vorenthalten. Den Interessen der Patienten in randomisierten Studien steht aber der Schutz
der Gesellschaft (und natürlich auch der Teilnehmer) vor "übereifrigen voreiligen Behauptungen" angeblicher Behandlungserfolge
gegenüber.2
Was folgt daraus für Trastuzumab in der adjuvanten Brustkrebstherapie? "Das Beste, was über die Wirksamkeit und Sicherheit von HERCEPTIN in
der Behandlung des frühen Brustkrebs gesagt werden kann, ist, dass die vorliegende Evidenz für eine verlässliche Beurteilung ungenügend
ist", kommentiert Lancet und erinnert daran, dass dem Hersteller Roche die Daten bislang nicht einmal ausreichen, um sie den Zulassungsbehörden
vorzulegen.8
Kontrollierte klinische Studien werden zunehmend häufiger wegen hoch
signifikanter positiver Zwischenergebnisse vorzeitig abgebrochen.
Es besteht die Gefahr, dass es sich bei dem festgestellten - oft auffällig
großen - Behandlungseffekt um einen zufällig gemessenen Höchstwert handelt, der bei Fortsetzung der Studie kleiner wird.
Ein statistischer "Grenzwert" sollte bei Erwägung eines vorzeitigen
Studienabbruchs daher nur als ein Aspekt unter anderen betrachtet werden.
Entscheidender ist das Vorhandensein hinreichender Daten für die Beurteilung
patientenrelevanter Endpunkte wie Gesamtüberleben oder Sicherheit.
| | (R = randomisierte Studie, M =
Metaanalyse)
|
M | 1 | MONTORI, V.M. et al.:
JAMA 2005; 294: 2203-9 |
| 2 | POCOCK, S.J.: JAMA 2005; 294: 2228-
30 |
| 3 | SCHULZ, K.F., GRIMES, D.A.: Lancet
2005; 365: 1657-61 |
| 4 | POCOCK, S.: Am. Heart J. 2005; 149: 939
-43 |
R | 5 | ABRAHAM, E. et al.:
JAMA 2003; 290: 238-47 |
| 6 | WHEATLEY, K, CLAYTON, D.: Contr. Clin.
Trials 2003; 24: 66-70 |
| 7 | CANNISTRA, S.A.: J. Clin. Oncol. 2004;
22: 1542-5
|
| 8 | The Lancet: Lancet 2005; 366:
1673 |
|