Akupunkturstudie: Wenn die Prämisse schon das Ergebnis vorgibt

*^{Zerbröselnde Evidenz (Illustration: Microsoft Copilot)}*

Mal wieder wird eine Akupunkturstudie in einem medizinischen Fachdienst als relevant und evidenzbegründend dargestellt — diesmal mit Fokus auf ältere Menschen mit chronischen Rückenschmerzen. Und mal wieder zeigt sich: Die methodische Schräglage beginnt schon in den ersten Zeilen.

Wir werden uns noch mit allerlei Details beschäftigen. Und das, obwohl gleich zu Anfang ein ganz wesentlicher Aspekt ins Auge springt, der die weitere Befassung beinahe schon überflüssig erscheinen lässt:

Der entscheidende Mangel

Die Studie ist randomisiert, aber nicht verblindet. Und zwar nicht nur formal, sondern strukturell. Es gibt keine Sham-Akupunkturgruppe (2), damit keine Placebo-Kontrolle, keine Möglichkeit, zwischen spezifischer und unspezifischer Wirkung zu unterscheiden.

Die Patienten wussten, dass sie Akupunktur erhalten. Die Therapeuten wussten es ebenfalls. Damit ist der Placeboeffekt nicht nur wahrscheinlich — er ist methodisch eingebaut. Eine solche Studie misst nicht die Wirksamkeit der Nadeln, sondern die Wirkung des Rituals. Und das ist kein Beleg für medizinische Relevanz, sondern für methodische Beliebigkeit. Ein Vergleich mit „irgendwas“ – in diesem Falle mit einer Gruppe, die mit üblichen medizinischen Standards (weiter-)behandelt wurde – ist Augenwischerei.

Wer eine solche Studie als „Evidenz“ präsentiert, hat den Begriff nicht verstanden. Unverblindet heißt: unverwertbar. Und den Fachartikel zur Studie so zu betiteln, diese liefere „robuste Daten“ zur Wirksamkeit der Akupunktur bei älteren Menschen, das lässt mich ein wenig verzweifeln. Aber schauen wir weiter.

Die fragwürdige Prämisse

Die Autoren behaupten, es gebe eine „Erkenntnislücke“ hinsichtlich der Wirksamkeit von Akupunktur bei älteren Menschen mit Rückenschmerzen. Das ist schlicht falsch. Wer in medizinischen Datenbanken sucht, findet tausende Studien, viele davon mit genau dieser Altersgruppe. Dass man diese ignoriert, um eine neue Studie zu rechtfertigen, ist bestenfalls selektive Wahrnehmung — schlimmstenfalls interessengeleitete Konstruktion.

Studiendesign unter der Lupe

Die Studie misst als primären Endpunkt die Veränderung im Roland-Morris Disability Questionnaire (RMDQ) nach sechs Monaten. Sekundäre Endpunkte sind Schmerzintensität und der Anteil klinisch bedeutsamer Verbesserungen (≥30 %). Klingt solide — ist es aber nicht:

Der RMDQ ist ein subjektives Instrument, besonders anfällig für Placeboeffekte. Der maximale Score (alle Fragen bejaht) beträgt 24 Punkte. Eine Bewertung von Veränderungen ist sehr davon abhängig, wie der Score bei einer vorherigen Erhebung ausgesehen hat (eine Verbesserung von einem Punkt bei einem vorherigen Score von 18 ist anders zu bewerten als eine solche bei einem Score von 6). Ein Durchschnittswert über eine Patientengruppe hinweg ist so gut wie nicht aussagefähig.
Schmerzintensität ist ein klassischer Kontextmarker, kein harter Outcome.
Die Schwelle von ≥30 % Verbesserung ist willkürlich und sagt wenig über klinische Relevanz aus.
Die Patienten sind hoch wahrscheinlich multimorbid, polypharmazeutisch versorgt und psychosozial hochgradig beeinflussbar — ein Confounder-Festival (1) vom Feinsten. Da braucht es schon mehr als hellseherische Fähigkeiten, um eine spezifische Wirkung von Akupunktur herauszupräparieren.

Die Studienteilnehmer wurden in drei Gruppen aufgeteilt: SA (Standardakupunktur), EA (erweiterte Akupunktur, zusätzliche Sitzungen) und UMC (Usual Medical Care, normale medizinische Versorgung). Wie letztere aussah und ob sie sich an den verschiedenen Orten, in denen die Patienten versorgt wurden, unterschied – kein Wort. Was – müssen wir es ausdrücklich erwähnen? – der Verwertbarkeit der UMC-Gruppe für Vergleichszwecke gleich noch mal einen Tritt vors Knie verpasst.

Placebo mit Nadeln

Die Ergebnisse zeigen:

SA vs. UMC: -1,0 Punkte im RMDQ
EA vs. UMC: -1,5 Punkte
Aber gleichzeitig kein signifikanter Unterschied zwischen SA und EA

-1,0 bzw. -1,5 Punkte auf dem RMDQ?
Das ist bestenfalls ein Mini-Effekt — und bei multimorbiden älteren Menschen mit komplexer Symptomatik kaum sinnvoll interpretierbar. Die Konfidenzintervalle sind eng, ja, aber das sagt nichts über die klinische Relevanz aus. Und genau da liegt der Haken: Statistische Signifikanz ist nicht gleich medizinische Bedeutung.
Was hier fehlt, ist methodische Robustheit:

Keine klare Kontrolle der Erwartungshaltung,
Keine glaubwürdige Placebo-Kontrolle.
Keine saubere Trennung zwischen spezifischer und unspezifischer Wirkung,
Und ein Studiendesign, das auf subjektive Outcomes setzt, ohne die nötige methodische Absicherung.

Das ist kein Beleg für Wirksamkeit, sondern ein Hinweis auf Unspezifität. Die „erweiterte Akupunktur“ war offenbar nicht wirksamer — nur höflicher, wenn im Vergleich SA/EA nicht einmal eine statistische Signifikanz festgestellt wurde. Der Placeboeffekt zeigt sich in aller Deutlichkeit: Je mehr Ritual, desto mehr subjektive Verbesserung. Das Setting tut den Rest.

Die „klinisch bedeutsamen“ Verbesserungen?

Nach sechs Monaten:

SA: 39,1 %
EA: 43,8 %
UMC: 29,4 %

Auch die UMC-„Kontrollgruppe“ zeigt beachtliche Verbesserungen — durch Spontanverlauf, Erwartung, Reporting Bias und mehr. Die Differenz zu SA und EA erklärt sich leicht durch den Placeboeffekt, wenn man die Gesamtumstände in Rechnung stellt. Wenn fast 30 % der UMC-Gruppe „klinisch bedeutsame Verbesserungen“ zeigen, dann ist die Differenz zu den Akupunkturgruppen marginal — und keineswegs ein Beweis für spezifische Wirksamkeit. Vielmehr zeigt sich hier, wie stark unspezifische Effekte, Erwartungshaltungen und Reporting Bias das Bild verzerren.

Und: Die Studie wurde mit „örtlich ansässigen, erfahrenen und zugelassenen Therapeuten“ durchgeführt, also multizentrisch, wie man das nennt. War das Setting überall vergleichbar oder gar einheitlich? Wir wissen es nicht, erst recht nicht angesichts des Umstandes, dass die Praxis der Methode ein gewaltiges Spektum aufweist, allein hinsichtlich der Punkte / Meridiane.

Und ob die Patienten wussten, dass es um den Erhalt der Erstattung von Akupunktur im Medicaid-System ging? Vielleicht nicht. Aber die Therapeuten und die Studienautoren wussten es ganz sicher. Und jetzt sage mir mal jemand, hier sei keine Vermutung einer Interessengeleitetheit gegeben!

Noch ein Confounder gefällig?

Ein Punkt, der in der Studienkritik viel zu selten benannt wird, ist die psychosoziale Dynamik zwischen Patient und Behandler. Gerade ältere Menschen bringen oft eine tief verankerte Höflichkeit, Dankbarkeit und das Bedürfnis mit, „nicht zur Last zu fallen“ oder „dem Arzt etwas Gutes zurückzugeben“. Die Patienten neigen dazu, ihre Beschwerden milder darzustellen, wenn sie sich gut betreut fühlen. Sie berichten Verbesserungen, die nicht unbedingt mit einer tatsächlichen Veränderung korrelieren: der Consultation bias (3). Und dies kann in einem Design wie diesem nicht unberücksichtigt bleiben.

Eine positiv überhöhte Patientenrückmeldung ist keine Störung im Datensatz, sondern eine systematische Ableitung aus dem Setting selbst. Man könnte fast sagen:

Subjektiver Outcome = Settingeffekt + Reporting Bias + soziale Erwünschtheit

Gerade bei Verfahren wie Akupunktur oder Homöopathie, die stark ritualisiert und kommunikativ aufgeladen sind, wird die Intervention zur Bühne, der Patient zum Mitspieler — und die Rückmeldung zum Applaus.

Was das epistemologisch bedeutet:

Die Messung subjektiver Outcomes ist ohne Kontextanalyse unvollständig.
Der „Erfolg“ der Behandlung ist oft eine Rückspiegelung des Behandlungsrahmens.
Studien, die diesen Effekt nicht kontrollieren, messen nicht die Intervention, sondern die Inszenierung. Und ich kann nicht erkennen, dass diesem Faktor bei unserer Studie hier irgendwie Rechnung getragen wurde.

Gehen wir über zum Grundsätzlichen.

Eine Studie ist keine Evidenz – manchmal das Gegenteil

Es handelt sich um eine einzelne Studie — mit fragwürdiger Prämisse, schwacher Methodik und interessengeleitetem Kontext. Sie steht einem „Body of Evidence“ gegenüber, der — wie ich in meinem Skeptiker-Artikel zur Homöopathie ausführlich dargestellt habe — zwar uneinheitlich ist, aber gerade deshalb skeptisch stimmen muss.

„The SkepDoc“ Harriet Hall brachte es auf den Punkt:

„Wenn eine Behandlung wirklich wirksam ist, neigen Studien dazu, mit der Zeit immer überzeugendere Ergebnisse zu liefern, und die Belege häufen sich. Wenn eine Behandlung jahrzehntelang ausgiebig untersucht wird und die Belege weiterhin widersprüchlich sind, wird es immer wahrscheinlicher, dass die Intervention nicht wirklich wirksam ist. Dies scheint bei der Akupunktur der Fall zu sein. In der Tat führen die veröffentlichten (und wissenschaftlich strengen) Belege insgesamt zu der Schlussfolgerung, dass die Akupunktur nicht wirksamer ist als ein Placebo.„

Harriet Hall formuliert hier nicht nur eine kluge Beobachtung, sondern eine regelrechte Evidenzregel: Wenn eine Intervention nach Jahrzehnten intensiver Forschung immer noch keine konsistente Wirkung zeigt, dann ist das selbst ein Befund.

Was das für Akupunktur bedeutet:

Die Forschungslage ist nicht jung oder unterentwickelt — sie ist ausgereizt.
Es gibt nicht hunderte, es gibt tausende Studien, Reviews, Metaanalysen.
Und dennoch bleibt die Evidenz widersprüchlich, schwach und kontextabhängig.
Das spricht klar gegen eine spezifische medizinische Wirksamkeit.

Das Zitat von Harriet Hall liefert nicht nur eine pointierte Schlussfolgerung, sondern auch eine methodische Mahnung: Wissenschaft ist nicht nur das Sammeln von Daten, sondern das Erkennen von Mustern. Und wenn sich kein klares Muster ergibt, ist das selbst ein Ergebnis — eines, das man nicht ignorieren darf.

Wer dieser Erkenntnislage widersprechen will, muss außergewöhnliche Belege liefern. Denn die spezifische Wirksamkeit von Akupunktur ist eine außergewöhnliche Behauptung. Die besprochene Studie liefert dafür ganz gewiss keinen Beleg.

NICE

Die Guideline NG59 des englischen National Institute for Health and Care Excellence (NICE) zur Behandlung von Rückenschmerzen und Ischialgie bei über 16-Jährigen wurde 2016 veröffentlicht und zuletzt 2020 aktualisiert. Bereits in der ursprünglichen Fassung wurde Akupunktur nicht empfohlen — und zwar ausdrücklich wegen fehlender Evidenz für eine klinisch relevante Wirksamkeit. Das war ein deutlicher Bruch mit früheren Positionen und ein klares Signal: Die Datenlage reicht nicht aus, um Akupunktur als sinnvolle Intervention bei „lower back pain“ zu rechtfertigen. Nebenbei: Die sehr sorgfältigen und stets aktuell gehaltenen NICE-Guidelines genießen weltweit einen exzellenten Ruf.

Dadurch wird unterstrichen, dass die neue Studie hier nicht nur methodisch schwach ist, sondern auch im Widerspruch zu bestehenden internationalen Leitlinien steht. Das kann man nicht einfach hinten rüberfallen lassen. Es reicht nicht, mit einer Einzelstudie gegen einen etablierten „Body of Evidence“ anzutreten — schon gar nicht mit so dünner Datenlage. Oder eben so zu tun, als gebe es diesen body of evidence nicht und die gerade betrachtete Studie sei der Gipfel der Erkenntnis. Wissenschaft ist Einordnung, nicht das Aufstecken von Glanzlichtern.

GERAC: Vom Hype zur Fehlinterpretation

Die GERAC-Studien gelten bis heute als die umfangreichsten Untersuchungen zur Akupunktur im deutschsprachigen Raum. Doch das Ergebnis war ernüchternd: Keine signifikanten Unterschiede zwischen echter und Scheinakupunktur. Der G-BA entschied 2006 dennoch, zwei Indikationen zur Kassenleistung zu machen — nicht aus wissenschaftlicher Überzeugung, sondern aus pragmatischer Rücksichtnahme. Die Akupunktur als vslide Methode wollte der G-BA gerade nicht anerkennen.
Dass Medscape Deutschland nun eine neue, methodisch schwache Studie in den Kontext von GERAC stellt, ist epistemologisch fragwürdig. Es suggeriert eine Evidenzlinie, wo in Wahrheit ein Placeboeffekt regiert. Die GERAC-Ergebnisse wurden bereits damals schöngefärbt — heute wird das Narrativ einfach weitergetragen.

Nebenwirkungsfrei? Ein gefährlicher Mythos

Ein weiteres Argument für die G-BA-Freigabe war die angebliche Nebenwirkungsfreiheit. Doch Akupunktur ist ein invasives Verfahren — mit dokumentierten Risiken: Schwindel, Kreislaufprobleme, Infektionen, Organverletzungen. Im Podcast Grams’ Sprechstunde habe ich diesen Punkt ausführlich diskutiert. Die Vorstellung, Akupunktur sei harmlos, ist nicht nur falsch, sondern gefährlich. Heute würde der G-BA dies nicht mehr als Positivum bewerten können.

Fazit

Was hier als „klinisch bedeutsam“ etikettiert wird, ist ein Placeboeffekt im Gewand der Evidenz — flankiert von einem politischen Ziel. Die Studie misst nicht die Wirksamkeit von Akupunktur, sondern die Wirkung eines gut choreografierten Settings mit PR-Ambitionen.

Das ist keine Wissenschaft, das ist Strategie. Und es zeigt einmal mehr:
Wer Akupunktur als evidenzbasierte Medizin verkaufen will, muss tief in die Trickkiste greifen.

Nachtrag: Wenn Fachmedien mitspielen

Dass diese fragwürdige Studie nun auch in der deutschen Ausgabe von Medscape aufgegriffen und weitgehend unkritisch dargestellt wird, ist leider kein Novum. Bereits in einem früheren Fall habe ich auf meinem Blog dokumentiert, wie eine ähnlich schwache Akupunkturstudie medial hochgejubelt wurde — ebenfalls ohne nennenswerte methodische Einordnung.

Solche Beiträge sind nicht harmlos. Sie tragen zur öffentlichen Wahrnehmung bei, dass Akupunktur eine „anerkannt wirksame“ medizinische Intervention sei. Dabei handelt es sich um eine außergewöhnliche Behauptung, die außergewöhnliche Belege erfordern würde. Und diese Studie liefert sie nicht.

DeBar LL, Wellman RD, Justice M, et al. Acupuncture for Chronic Low Back Pain in Older Adults: A Randomized Clinical Trial. JAMA Netw Open. 2025;8(9):e2531348. doi:10.1001/jamanetworkopen.2025.31348
https://jamanetwork.com/journals/jamanetworkopen/fullarticle/2838793

Erläuterungen

(1) Was ist ein „Confounder“?

In medizinischen Studien bezeichnet ein Confounder (Störfaktor) eine oder mehrere Drittvariablen, die sowohl mit der untersuchten Intervention (z. B. Akupunktur) als auch mit dem beobachteten Ergebnis (z. B. Schmerzreduktion) in Zusammenhang stehen. Sie können den Anschein eines kausalen Zusammenhangs erzeugen, obwohl dieser tatsächlich durch die Drittvariable vermittelt wird. Wird ein Confounder nicht erkannt oder kontrolliert, entsteht eine Scheinkorrelation, die die Aussagekraft der Studie verzerrt.
Beispiel:
Wenn Patienten in einer Akupunkturstudie gleichzeitig andere gesundheitsfördernde Maßnahmen ergreifen (z. B. Bewegung, Ernährung, Medikationsänderung oder auch -reduzierung), kann deren Schmerzreduktion fälschlich der Akupunktur zugeschrieben werden — obwohl sie durch die zusätzlichen Maßnahmen verursacht wurde.

(2) Was ist Sham-Akupunktur?

Sham-Akupunktur ist eine Placebo-Kontrolltechnik, die in Studien eingesetzt wird, um die spezifische Wirkung der Akupunktur von unspezifischen Effekten (z. B. Erwartung, Zuwendung, Ritual) zu unterscheiden. Dabei kommen raffinierte Vorrichtungen zum Einsatz, die den Eindruck einer Nadelung erzeugen, ohne die Haut tatsächlich zu durchdringen — was für die klassische Akupunktur als Voraussetzung gilt.
Ein bekanntes Beispiel ist die sogenannte Streitberger-Nadel, die beim Aufsetzen auf die Haut in den Griff zurückgleitet und dabei ein leichtes Druckgefühl erzeugt — ganz ohne Penetration. Für die Patient:innen ist der Unterschied kaum spürbar.
Und ja: In einer vielzitierten Studie wurde sogar gezeigt, dass ein Zahnstocher, der sanft auf die Haut getippt wird, vergleichbare Effekte wie eine echte Nadelung erzielen kann — sofern das Setting stimmt.
Diese Verfahren ermöglichen eine echte Verblindung — und zeigen immer wieder:
Wenn die „echte“ Akupunktur nicht besser abschneidet als die Sham-Version, dann ist der Effekt nicht spezifisch.

“Simulated acupuncture using toothpicks in guide tubes produced similar improvements in back pain and function as real acupuncture.”
— Cherkin et al., Arch Intern Med, 2009;169(9):858–866

(3) Was ist „Consultation Bias“?

Er beschreibt den Effekt, dass Patient:innen ihre Symptome oder deren Veränderung positiver darstellen, als sie in Wirklichkeit sind, wenn sie sich gut betreut, ernst genommen oder besonders individuell behandelt fühlen. Das Setting selbst — also die Art der Konsultation — beeinflusst die Rückmeldung. Besonders relevant ist das bei subjektiven Outcomes wie Schmerz, Wohlbefinden oder Lebensqualität.

Quellen und Hinweise:

In seinem Buch Bad Science (2008) beschreibt Ben Goldacre ausführlich, wie alternative Verfahren wie Homöopathie oft nicht wegen ihrer pharmakologischen Wirkung, sondern wegen des intensiven Gesprächs und der Zuwendung als wirksam erlebt werden. Das ist ein klassischer Fall von consultation bias — auch wenn er den Begriff nicht immer explizit verwendet.
In Interviews wie diesem bei pharmaphorum spricht Goldacre über die Notwendigkeit, Bias in Studien offenzulegen und zu verstehen — auch jenseits der klassischen Publikationsverzerrung.
In seinem TEDMED-Talk „Where’s the rest of the data iceberg?“ geht er auf die systematische Verzerrung durch selektive Berichterstattung ein — ein Umfeld, in dem consultation bias besonders leicht untergeht.
Edzard Ernst hat mehrfach auf den Effekt hingewiesen, insbesondere in Studien zur Homöopathie und Akupunktur.
Harriet Hall hat in ihren Beiträgen bei Science-Based Medicine ebenfalls betont, wie stark das Setting die subjektive Wahrnehmung beeinflusst — gerade bei älteren oder besonders dankbaren Patientengruppen.

Über Wissenschaft, (Pseudo-)Medizin, Aufklärung, Humanismus und den Irrsinn des Alltags

Der entscheidende Mangel

Die fragwürdige Prämisse

Studiendesign unter der Lupe

Placebo mit Nadeln

Die „klinisch bedeutsamen“ Verbesserungen?

Noch ein Confounder gefällig?

Eine Studie ist keine Evidenz – manchmal das Gegenteil

NICE

GERAC: Vom Hype zur Fehlinterpretation

Nebenwirkungsfrei? Ein gefährlicher Mythos

Fazit

Nachtrag: Wenn Fachmedien mitspielen

Erläuterungen

(1) Was ist ein „Confounder“?

(2) Was ist Sham-Akupunktur?

(3) Was ist „Consultation Bias“?

Gefällt mir:

Schreibe einen Kommentar Antwort abbrechen

Akupunkturstudie: Wenn die Prämisse schon das Ergebnis vorgibt

Der entscheidende Mangel

Die fragwürdige Prämisse

Studiendesign unter der Lupe

Placebo mit Nadeln

Die „klinisch bedeutsamen“ Verbesserungen?

Noch ein Confounder gefällig?

Eine Studie ist keine Evidenz – manchmal das Gegenteil

NICE

GERAC: Vom Hype zur Fehlinterpretation

Nebenwirkungsfrei? Ein gefährlicher Mythos

Fazit

Nachtrag: Wenn Fachmedien mitspielen

Erläuterungen

(1) Was ist ein „Confounder“?

(2) Was ist Sham-Akupunktur?

(3) Was ist „Consultation Bias“?

Teilen mit:

Gefällt mir:

Neun Jahre bloggen …

Warum Markus Söder für mich kein politischer Fixpunkt ist

Schreibe einen Kommentar Antwort abbrechen