KI in GMP & GxP

EU GMP Annex 22: Was der erste KI-Annex für Ihre GxP-Praxis bedeutet

Lesezeit ~10 Min · Daniel Herrmann · Aktualisiert am 17.07.2026

Stand 17. Juli 2026 ist EU GMP Annex 22 nicht in Kraft. Der Entwurf adressiert statische KI/ML-Modelle mit deterministischem Output in kritischen GMP-Anwendungen. Für diesen kritischen Scope sieht er generative KI und LLMs nicht vor. In nicht-kritischen Anwendungen bleiben sie möglich, wenn ausreichend qualifiziertes und geschultes Personal die Eignung der Ausgaben für den Intended Use prüft und verantwortet.

Erstmals ein eigener GMP-Annex für KI: Geltungsbereich, Anforderungen, Vorbereitung.

Primärquelle geprüft · Stand 17. Juli 2026

Annex 22 in fünf Entscheidungsfragen.

Die Übersicht trennt den Wortlaut des Konsultationsentwurfs von der praktischen Konsequenz. So wird aus dem Dokument kein pauschales KI-Verbot und auch keine vorweggenommene Endfassung.

01 · Status
Gilt Annex 22 bereits?

Was Entwurf und aktueller Status sagen
Nein. Die Konsultation lief vom 7. Juli bis 7. Oktober 2025. In der aktuellen Annex-Liste von EudraLex Volume 4 ist Annex 22 noch nicht als geltender Annex aufgeführt. Die EMA wertet die Rückmeldungen weiter aus und hat für den 30. Juni und 1. Juli 2026 einen Multistakeholder-Workshop zur Weiterentwicklung von Annex 22 einberufen; einen Termin für die finale Fassung nennt die EMA bislang nicht.

Was Sie heute vorbereiten können
Kennzeichnen Sie interne Anforderungen klar als Bezug auf den Entwurf und prüfen Sie den Status vor jeder Entscheidung neu.

EU-Konsultation ↗EudraLex Volume 4 ↗EMA-Workshop Juni/Juli 2026 ↗
02 · Scope
Welche Modelle deckt der Entwurf ab?

Was Entwurf und aktueller Status sagen
Der Entwurf adressiert kritische GMP-Anwendungen mit direktem Einfluss auf Patientensicherheit, Produktqualität oder Datenintegrität. Dort sieht er statische Modelle mit deterministischem Output vor. Dynamische Modelle und probabilistischer Output sollen in kritischen Anwendungen nicht eingesetzt werden.

Was Sie heute vorbereiten können
Beginnen Sie mit dem festgelegten Verwendungszweck (Intended Use) und der Kritikalität. Ohne diese Einordnung lässt sich der Annex-22-Bezug nicht belastbar bestimmen.

Entwurf · Abschnitt 1 Scope ↗
03 · GenAI und LLM
Darf generative KI in GMP eingesetzt werden?

Was Entwurf und aktueller Status sagen
Der Entwurf sieht generative KI und LLMs nicht für kritische GMP-Anwendungen vor. Für nicht-kritische Anwendungen schließt er sie nicht aus; qualifiziertes und geschultes Personal bleibt für die Eignung der Ausgaben verantwortlich.

Was Sie heute vorbereiten können
Trennen Sie unterstützende Arbeit von kritischen Entscheidungen und dokumentieren Sie Reviewer, Prüfschritt und Eignungsentscheidung.

Entwurf · Abschnitt 1 Scope ↗
04 · Nachweise
Welche Evidenz erwartet der Entwurf?

Was Entwurf und aktueller Status sagen
Der Entwurf nennt unter anderem einen präzisen Intended Use, vorab definierte Metriken und Akzeptanzkriterien, repräsentative und unabhängige Testdaten sowie eine aufbewahrte Testdokumentation.

Was Sie heute vorbereiten können
Legen Sie die Mess- und Testlogik fest, bevor Sie Ergebnisse sehen. Eine überzeugende Demo ersetzt diese Evidenz nicht.

Entwurf · Abschnitte 3–7 ↗
05 · Betrieb
Was muss nach dem Test weiterlaufen?

Was Entwurf und aktueller Status sagen
Der Entwurf nennt Change- und Configuration-Control, regelmäßiges Performance-Monitoring und die Überwachung des Eingaberaums. Je nach Kritikalität und Testtiefe kann das bis zum dokumentierten Review oder Test jedes einzelnen Outputs reichen.

Was Sie heute vorbereiten können
Legen Sie Monitoring, Reviewverfahren und Auslöser für erneute Tests vor dem produktiven Einsatz fest — nicht erst bei der ersten Abweichung.

Entwurf · Abschnitt 10 Operation ↗

Die Übersicht paraphrasiert den Konsultationsentwurf, die aktuelle EudraLex-Liste und den von der EMA veröffentlichten Verfahrensstand. Sie ist Orientierung, keine Rechts- oder Compliance-Beratung.

Worum es geht: Der erste GMP-Annex speziell für KI

Bis 2025 gab es im EU-GMP-Leitfaden keinen Ort, an dem der Einsatz von künstlicher Intelligenz eigenständig geregelt war. KI-gestützte Systeme liefen unter Annex 11 (Computerised Systems) mit — einem Rahmen, der lange vor Machine-Learning-Modellen geschrieben wurde. Das ändert sich: Am 7. Juli 2025 hat die Europäische Kommission den Entwurf eines neuen Annex 22 „Artificial Intelligence“ zur gezielten Konsultation veröffentlicht — zusammen mit einer Entwurfs-Revision von Annex 11. Die Konsultationsfrist endete Anfang Oktober 2025. Wie sich beide zueinander verhalten, in Annex 22 vs. Annex 11.

Damit bekommt KI im GMP-Umfeld erstmals einen eigenen, expliziten Erwartungsrahmen. Das ist eine gute Nachricht für alle, die KI kontrolliert einsetzen wollen: Statt Unsicherheit („Darf man das überhaupt?“) gibt es jetzt benannte Anforderungen, gegen die sich ein Einsatz prüfbar gestalten lässt.

Wichtig zur Einordnung: Bei Redaktionsschluss dieses Beitrags lag Annex 22 als Entwurf vor; die finale Fassung kann sich in Details ändern. Der Prozess ist aktiv: Die EMA wertet die Konsultationsrückmeldungen weiter aus und hat für den 30. Juni und 1. Juli 2026 einen Multistakeholder-Workshop zur Weiterentwicklung von Annex 22 einberufen — um Expertenbeiträge zu Kontroll- und Schutzmaßnahmen wie Guardrails für einen risikobasierten Ansatz einzuholen. Laut EMA zeigten die Rückmeldungen der Konsultation 2025 Unterstützung dafür, Technologien wie generative KI und LLMs in der Arzneimittelherstellung künftig möglicherweise zu ermöglichen; einen Termin für die finale Fassung nennt die EMA bislang nicht. Die im Entwurf benannten Kontrolldisziplinen — risikobasiert, datendiszipliniert und menschlich beaufsichtigt — sind schon heute eine sinnvolle Vorbereitung. Prüfen Sie für Entscheidungen immer den aktuellen Stand des Dokuments.

Geltungsbereich: Welche KI Annex 22 meint — und welche nicht

Der Entwurf zieht den Geltungsbereich bewusst eng. Er adressiert KI/ML-Modelle in kritischen Anwendungen der GMP-regulierten Herstellung — also dort, wo Modell-Output Produktqualität, Patientensicherheit oder Datenintegrität direkt berühren kann.

Drei Abgrenzungen sind besonders relevant:

Statische Modelle: Für kritische Anwendungen erwartet der Entwurf Modelle mit deterministischem Verhalten — gleicher Input führt zu gleichem Output. Das Modell wird trainiert, eingefroren, getestet und dann in einem definierten Zustand betrieben.
Dynamische Modelle: Systeme, die im Betrieb weiterlernen und ihr Verhalten laufend ändern, sieht der Entwurf für kritische Anwendungen nicht vor — ihr validierter Zustand wäre nicht stabil nachweisbar.
Generative KI und LLMs: Wegen ihres probabilistischen Verhaltens liegen sie außerhalb des kritischen Annex-22-Geltungsbereichs — für kritische GMP-Anwendungen sieht der Entwurf ihren Einsatz nicht vor. In nicht-kritischen, unterstützenden Anwendungen bleiben sie möglich — dann muss ausreichend qualifiziertes und geschultes Personal die Ausgaben prüfen und für ihre Eignung zum Intended Use verantwortlich bleiben.

Der Entwurf sieht generative KI nicht für kritische GMP-Anwendungen vor. In nicht-kritischen Anwendungen bleibt qualifiziertes Personal für die Eignung der Ausgaben verantwortlich.

Die Kernanforderungen im Überblick

Der Entwurf gliedert seine Anforderungen in benannte Kapitel — u. a. Scope, Principles (mit Documentation und Quality Risk Management), Intended Use (inklusive Human-in-the-loop), Acceptance Criteria, Test Data, Test Data Independency, Test Execution, Explainability, Confidence und Operation. Thematisch lassen sich diese zu sieben wiederkehrenden Disziplinen verdichten — jede kennt ein Validierungsteam dem Sinn nach bereits, neu ist die konsequente Anwendung auf Modelle:

Intended Use: Der Einsatzzweck des Modells ist präzise beschrieben — Aufgabe, Grenzen, Eingabedaten, betroffene Prozesse.
Datenqualität & -governance: Trainings-, Validierungs- und Testdaten sind kontrolliert, repräsentativ und nachvollziehbar verwaltet.
Unabhängige Testdaten: Die Leistungsbewertung läuft auf Daten, die nicht im Training verwendet wurden — Trennung nachweisbar.
Performance & Akzeptanzkriterien: Metriken und Schwellen sind vor dem Test festgelegt und am Intended Use ausgerichtet.
Erklärbarkeit & Konfidenz: Soweit möglich wird sichtbar, welche Merkmale ein Ergebnis treiben und wie sicher das Modell ist.
Human Oversight (im Entwurf als Human-in-the-loop geführt): Menschliche Aufsicht ist in den Prozess eingebaut — mit definierten Rollen und dokumentierten Entscheidungen.
Monitoring & Change Control: Die Modellleistung wird im Betrieb überwacht (Stichwort Drift); Änderungen laufen kontrolliert.

Das Muster dahinter

Alle sieben Disziplinen folgen einem Prinzip, das GxP-Teams kennen: Behaupte nichts, was du nicht belegen kannst. Annex 22 überträgt die Beweisdisziplin der Validierung auf Modelle — Daten, Verhalten und Entscheidungen müssen nachvollziehbar bleiben.

Was das für QA- und Validierungsteams konkret bedeutet

Auch wenn die finale Fassung noch aussteht: Wer heute KI in GxP-Prozessen einsetzt oder plant, kann vier Dinge sofort tun.

Erstens: Inventarisieren. Welche KI läuft heute in Ihren Prozessen — auch inoffiziell? Ein Copilot im Dokumentenentwurf ist KI-Einsatz, auch wenn er in keinem Systemverzeichnis steht. Ohne Inventar keine Risikobewertung.

Zweitens: Kritikalität einstufen. Trennt eine Anwendung kritische Entscheidungen (Freigabe, Spezifikation, Bewertung) von unterstützender Arbeit (Entwurf, Recherche, Strukturierung)? Genau entlang dieser Linie unterscheidet der Entwurf.

Drittens: Human Oversight als Prozess bauen, nicht als Behauptung. „Ein Mensch schaut drüber“ genügt nicht. Belastbar ist: definierte Prüfschritte, zurechenbare Reviewentscheidungen mit Begründung und ein Audit-Trail, der KI-Vorschlag und menschliche Entscheidung unterscheidbar macht.

Viertens: Quellenbindung herstellen. Wenn KI-Output in regulierte Dokumente fließt, muss nachvollziehbar sein, worauf sich jede Aussage stützt. Ein Entwurf ohne belegbare Quellen ist im Review teurer als gar kein Entwurf.

Niedrigschwellig starten

Der sauberste Einstieg ist ein eng abgegrenzter, nicht-kritischer Prozess mit vollständiger menschlicher Prüfung — dort sammeln Sie die Nachweise und Arbeitsmuster, die auch der Annex-22-Entwurf adressiert.

Annex 22, GAMP 5 2nd Edition, FDA CSA: ein gemeinsames Bild

Annex 22 steht nicht allein. Drei Rahmenwerke aus unterschiedlichen Richtungen sind in den letzten Jahren auf dieselben Prinzipien eingeschwenkt:

GAMP 5 2nd Edition (2022) akzeptiert KI-gestützte Arbeit im risikobasierten Lifecycle und verlangt Critical Thinking statt Schema-Dokumentation.
FDA CSA (Final Guidance 2025) verschiebt den Aufwand vom Dokumentieren zum belastbaren Begründen — Testtiefe folgt dem Risiko.
EU GMP Annex 22 (Entwurf 2025) formuliert dieselbe Logik erstmals KI-spezifisch: kontrollierte Daten, nachweisbares Modellverhalten, menschliche Aufsicht.

Für Ihre Strategie heißt das: Sie müssen nicht auf drei Regelwerke einzeln reagieren. Wer seine KI-Arbeit auf Quellenbindung, zurechenbaren menschlichen Review und lückenlosen Audit-Trail baut, schafft eine gemeinsame Kontrollbasis. Diese Basis bleibt auch dann nützlich, wenn sich einzelne Anforderungen der finalen Annex-22-Fassung ändern.

Wie Sie sich heute vorbereiten — ohne auf die finale Fassung zu warten

Ein realistischer Vorbereitungs-Pfad in vier Schritten:

01 · KI-Inventar und Kritikalitäts-Map — alle KI-Berührungspunkte erfassen und je Anwendung einstufen: kritisch / unterstützend.
02 · Review-Gate definieren — für jeden KI-gestützten Workflow festlegen, wer prüft, was geprüft wird und wie die Entscheidung dokumentiert ist.
03 · Quellen- und Datenraum kontrollieren — festlegen, aus welchen freigegebenen Quellen KI-Entwürfe entstehen dürfen, und die Trennung von Arbeits- und Trainingsdaten vertraglich wie technisch absichern.
04 · Nachweise von Anfang an mitführen — Versionen, Reviewentscheidungen und Begründungen entstehen im Arbeitsfluss, nicht in einer Nachdokumentations-Schleife vor dem Audit.

Genau auf dieses Muster ist traqx gebaut: Entwürfe entstehen aus den kontrollierten Projektquellen, jede regulatorische Aussage endet auf einer klickbaren Citation, jeder Quellenbezug wird deterministisch geprüft, und jede menschliche Reviewentscheidung bleibt mit Person, Status und Audit-Trail verbunden. Das ist kein Annex-22-Zertifikat — eine solche Zertifizierung existiert nicht. Es ist eine Arbeitsweise, die die Prinzipien des Entwurfs heute schon praktisch umsetzt.

Häufige Fragen

Was regelt EU GMP Annex 22?

Der Entwurf von Annex 22 beschreibt Anforderungen an den kontrollierten Einsatz von KI-Modellen in kritischen Anwendungen der GMP-regulierten Herstellung. Es ist der erste Annex des EU-GMP-Leitfadens, der sich ausschließlich mit künstlicher Intelligenz befasst; die Europäische Kommission hat ihn am 7. Juli 2025 als Entwurf zur Konsultation veröffentlicht, gemeinsam mit einer Entwurfs-Revision von Annex 11. Der Entwurf benennt konkrete Erwartungen an kontrollierte Daten, nachweisbares Modellverhalten und durchgängige menschliche Aufsicht, gegen die sich ein KI-Einsatz prüfbar gestalten lässt.

Was fordert Annex 22 für den Einsatz von KI-Modellen?

Der Entwurf verlangt, dass jedes Modell einen präzise beschriebenen Intended Use hat und seine Trainings-, Validierungs- und Testdaten kontrolliert und nachvollziehbar verwaltet werden. Die Leistungsbewertung läuft auf unabhängigen Testdaten gegen vorab festgelegte Akzeptanzkriterien, und soweit möglich wird erklärbar, welche Merkmale ein Ergebnis treiben und wie sicher das Modell ist. Menschliche Aufsicht ist als Prozess mit definierten Rollen eingebaut, und die Modellleistung wird im Betrieb überwacht — Stichwort Drift und kontrollierte Änderungen.

Für welche KI-Systeme gilt Annex 22?

Der Entwurf gilt für KI/ML-Modelle in kritischen GMP-Anwendungen — dort, wo der Output Produktqualität, Patientensicherheit oder Datenintegrität direkt berühren kann. Für solche kritischen Anwendungen erwartet der Entwurf statische, deterministisch betriebene Modelle: trainiert, eingefroren, getestet und in einem definierten Zustand betrieben. Systeme, die im Betrieb weiterlernen, sowie generative KI und LLMs sieht der Entwurf für kritische Anwendungen nicht vor; in nicht-kritischen, unterstützenden Anwendungen bleibt KI möglich, wenn ausreichend qualifiziertes und geschultes Personal für die Eignung der Ausgaben verantwortlich bleibt.

Ist EU GMP Annex 22 bereits in Kraft?

Annex 22 ist noch nicht in Kraft — er liegt als Entwurf vor. Die Europäische Kommission hat ihn am 7. Juli 2025 zur gezielten Konsultation veröffentlicht, deren Frist Anfang Oktober 2025 endete; die finale Fassung stand bei Redaktionsschluss dieses Beitrags noch aus. Die EMA wertet die Rückmeldungen weiter aus und hat für den 30. Juni und 1. Juli 2026 einen Multistakeholder-Workshop zur Weiterentwicklung von Annex 22 einberufen; einen Termin für die finale Fassung nennt die EMA bislang nicht. Die Richtung ist klar erkennbar, einzelne Anforderungen — etwa der künftige Umgang mit generativer KI — können sich im finalen Text aber noch ändern, weshalb Sie für Entscheidungen immer den aktuellen Stand des Dokuments prüfen sollten.

Kernbotschaften

Annex 22 (Entwurf Juli 2025) ist der erste EU-GMP-Annex speziell für KI — veröffentlicht zusammen mit der Entwurfs-Revision von Annex 11.
Kritische Anwendungen: nur statische, deterministisch betriebene Modelle — dynamisch weiterlernende Systeme sind dafür nicht vorgesehen.
Generative KI und LLMs sind laut Entwurf nicht für kritische GMP-Anwendungen vorgesehen. Bei nicht-kritischem Einsatz bleibt qualifiziertes Personal für die Eignung der Ausgaben verantwortlich.
Die Kerndisziplinen — Intended Use, Datenqualität, unabhängige Testdaten, Erklärbarkeit, Human Oversight, Monitoring — folgen derselben Logik wie GAMP 5 2nd Edition und FDA CSA.
Wer heute Quellenbindung, zurechenbare Reviewentscheidungen und Audit-Trail etabliert, schafft eine belastbare Kontrollbasis — den Dokumentstatus vor Entscheidungen trotzdem stets aktuell prüfen.

Quellen

Europäische Kommission — EudraLex Vol. 4, Entwurf Annex 22 „Artificial Intelligence“ (Konsultation ab 7. Juli 2025) — das maßgebliche Dokument: Geltungsbereich, statische Modelle, Human Oversight, Testdaten, Erklärbarkeit.
Europäische Kommission — Entwurf der Revision von EU GMP Annex 11 (Computerised Systems, 2025) — parallel konsultiert; der allgemeine Rahmen für computergestützte Systeme, in den Annex 22 eingebettet ist.
EMA — Multistakeholder-Workshop zur Weiterentwicklung von Annex 22 (30. Juni & 1. Juli 2026) — aktueller Verfahrensstand: Konsultationsauswertung läuft; Workshop einberufen, um Expertenbeiträge zu Guardrails und einem risikobasierten Ansatz einzuholen; die EMA nennt bislang keinen Termin für die finale Fassung.
ISPE — GAMP 5: A Risk-Based Approach to Compliant GxP Computerized Systems, 2nd Edition (2022) — Branchenleitfaden mit identischer Stoßrichtung: risikobasiert, Critical Thinking, KI-bewusst.
FDA — Computer Software Assurance for Production and Quality Management System Software (Final Guidance, 2025; aktualisiert Februar 2026) — die US-Perspektive derselben Bewegung: Aufwand folgt dem Risiko, Begründung schlägt Schema.
21 CFR Part 11 (Electronic Records / Signatures) — elektronische Aufzeichnungen, Signaturen und manipulationssichere Audit-Trails.

Autor

Daniel Herrmann

Daniel Herrmann ist Co-Founder und CEO von traqx und arbeitet seit über 15 Jahren in GxP-Validierung und Qualitätssicherung. Dieser Beitrag fasst öffentlich zugängliche Regulatorik (Entwurf EU GMP Annex 22, Annex-11-Revision, GAMP 5 2nd Edition, FDA CSA) in eigener Einordnung zusammen — auf Basis des Konsultations-Stands; die finale Fassung kann abweichen. Er ist Orientierung, keine Rechts- oder Compliance-Beratung und ersetzt keine Bewertung für Ihren konkreten Geltungsbereich. Wo traqx erwähnt wird, beschreibt der Text die belegbare Arbeitsweise — Quellen zuerst, KI als Vorschlag, Mensch entscheidet, Audit-Trail bleibt — und keine darüber hinausgehende Wirkungszusage.

EU GMP Annex 22: Was der erste KI-Annex für Ihre GxP-Praxis bedeutet

Annex 22 in fünf Entscheidungsfragen.

Gilt Annex 22 bereits?

Welche Modelle deckt der Entwurf ab?

Darf generative KI in GMP eingesetzt werden?

Welche Evidenz erwartet der Entwurf?

Was muss nach dem Test weiterlaufen?