KI in GMP & GxP

KI in GxP: Governance, ohne die Kontrolle abzugeben

Lesezeit ~12 Min · Daniel Herrmann · Aktualisiert am 19.07.2026

KI in GxP ist kein pauschal verbotener Einsatz, sondern eine risikobasierte Kontrollaufgabe. Entscheidend sind ein klarer Intended Use, kontrollierte Quellen und Daten, angemessene Validierung und Tests, dokumentierter Human Review, Change Control und Audit Trail. EU GMP Annex 22 liegt als Entwurf vor; GAMP 5 adressiert KI/ML bereits ausdrücklich.

KI in GxP ist keine Frage des Ob mehr — sondern eine Frage der Kontrollarchitektur: Quellen, menschlicher Review, Entscheidung und Audit-Trail.

Darf KI in GxP-Umgebungen überhaupt arbeiten?

Die Frage wird in QA-Runden noch oft gestellt — die Regulatoren haben dafür einen risikobasierten Rahmen gesetzt. Für die hier betrachteten Rahmenwerke gibt es kein pauschales Verbot von KI in regulierten Umgebungen. Stattdessen definieren, unter welchen Bedingungen KI-Arbeit akzeptabel ist. Die Bedingungen ähneln sich über alle Rahmenwerke hinweg — risikobasiert, nachvollziehbar, mit menschlicher Verantwortung.

Das verschiebt die eigentliche Aufgabe: Nicht die Grundsatzdiskussion entscheidet, ob Ihr Unternehmen KI einsetzen kann, sondern die Frage, ob Ihre Arbeitsumgebung die geforderten Kontrollen strukturell hergibt — Quellenbindung, attributierbare Review-Entscheidungen, lückenlose Dokumentation. Eine generische Chat-Oberfläche gibt das nicht her. Genau diese kontrollierte Arbeitsumgebung muss GxP-KI-Software zusätzlich zum Sprachmodell bereitstellen. Die konkrete Dokumentarbeit — bestehende Word-Dokumente verstehen, aktualisieren und nachweisbar halten — bündelt die Seite GxP-Dokumente mit KI.

Der regulatorische Rahmen 2026 — vier Anker

Vier Dokumente bestimmen derzeit, wie KI-Einsatz in GxP-Umgebungen bewertet wird:

EU GMP Annex 22 (Entwurf): Der erste GMP-Annex, der sich ausschließlich mit künstlicher Intelligenz befasst — im Juli 2025 zur Konsultation veröffentlicht, gemeinsam mit der Revision von Annex 11. Kernpunkte: Intended Use, Validierung statischer Modelle, Human Oversight, Erklärbarkeit. Generative KI liegt außerhalb des kritischen Geltungsbereichs — in nicht-kritischen, unterstützenden Anwendungen bleibt sie möglich, mit dokumentierter menschlicher Prüfung. Die Details: unsere Annex-22-Analyse; das Verhältnis zu Annex 11 in Annex 22 vs. Annex 11.
GAMP 5 Second Edition (2022): Der Branchenleitfaden erkennt KI/ML als Teil computergestützter Systeme an und stellt Critical Thinking über schematische Dokumentation — was sich dadurch ändert, steht in unserem GAMP-5-Beitrag; der praktische Validierungs-Pfad für Modelle in KI-Systeme nach GAMP 5 validieren.
FDA Computer Software Assurance: final seit September 2025, im Februar 2026 aktualisiert (QMSR-Terminologie). CSA schreibt kein Werkzeug vor, sondern verlangt risikobasierte Prüftiefe — CSA vs. CSV im Vergleich.
21 CFR Part 11 / ALCOA+: Die Konstante: elektronische Aufzeichnungen, Signaturen und manipulationssichere Audit-Trails. Jede KI-gestützte Arbeit muss am Ende diese Anforderungen erfüllen — unabhängig davon, welches Werkzeug den Entwurf geschrieben hat. Was ALCOA+ konkret fordert, in ALCOA+ und Datenintegrität.

Bemerkenswert ist die Konvergenz: Vier Rahmenwerke, eine Richtung — risikobasiert, quellengebunden, menschlich verantwortet. Wer seine KI-Arbeit an diesen drei Prinzipien ausrichtet, ist gegenüber allen vier Ankern auskunftsfähig.

ChatGPT und LLMs für GxP Compliance: Der Modellname entscheidet nicht

Wer nach „ChatGPT in GxP“ oder einem „LLM für GxP Compliance“ sucht, stellt meist zwei Fragen gleichzeitig: Darf ein allgemeines Sprachmodell an regulierten Dokumenten arbeiten — und reicht eine Enterprise-Version dafür aus?

Der Produktname beantwortet beides nicht. Für die GxP-Eignung zählen der konkrete Intended Use und der kontrollierte Prozess: Welche Daten darf das System sehen? Aus welchen freigegebenen Quellen entsteht eine Aussage? Wie wird der Output als Entwurf gekennzeichnet? Wer prüft Inhalt und Vollständigkeit? Welche Änderungen und Entscheidungen bleiben später nachvollziehbar?

Enterprise-Funktionen für Sicherheit, Identität oder Datenverarbeitung können wichtige Voraussetzungen sein. Sie erzeugen aber nicht automatisch Quellenbindung, fachlichen Review oder einen Audit Trail am GxP-Arbeitsobjekt. Umgekehrt macht auch ein spezialisiertes GxP-System einen Entwurf nicht von selbst richtig. Es muss die Prüfung strukturell ermöglichen, während die fachliche Verantwortung beim Unternehmen bleibt.

Das aktuelle Durchsetzungssignal dazu kommt aus den USA: Im FDA Warning Letter zu KI-Agenten beanstandete die Behörde nicht den Modellnamen, sondern ungeprüfte KI-generierte GMP-Dokumente und unzureichende Quality-Unit-Aufsicht.

Wo KI heute sinnvoll arbeitet — und wo nicht

Die ehrliche Landkarte, Stand 2026:

Sinnvoll heute — unterstützende, dokumentennahe Arbeit, bei der ein Mensch prüft, korrigiert und entscheidet:

Dokumentenerstellung: Entwürfe für URS, Spezifikationen, Testdokumentation und SOPs — aus kontrollierten Quellen, mit Zitaten. Wie das bei bestehenden Word-Dateien mit Änderungsmodus und Quellenkommentaren aussieht, zeigt die Produktseite zu GxP-Dokumenten mit KI. Der größte Zeitfresser in der Computer System Validation ist selten das Prüfen, sondern das Schreiben und Zusammenhalten.
Review-Vorbereitung: Inkonsistenzen, Lücken und Widersprüche über Dokumentbestände finden, bevor der menschliche Review beginnt.
Audit-Vorbereitung: Nachweise konsolidieren, Lückenlisten erstellen, Antwortentwürfe mit Quellenbindung — die Bewertung bleibt bei QA (Audit-Readiness).
Wissenszugriff: Fragen gegen den eigenen, kontrollierten Quellenraum beantworten — statt gegen das offene Internet.

Nicht heute — und auf absehbare Zeit:

Generative KI in kritischen GMP-Anwendungen — der Annex-22-Entwurf sieht ihren Einsatz dort nicht vor.
Autonome Freigaben: Eine KI darf ihre eigenen Vorschläge nicht fachlich oder formal freigeben. Review, Entscheidung und eine gegebenenfalls erforderliche Signatur bleiben beim Menschen im definierten Kundenprozess.
Dynamisch weiterlernende Modelle in validierten Prozessen: Ein Zustand, der sich laufend ändert, ist nicht stabil nachweisbar.

Diese Grenze ist keine Schwäche der Technologie, sondern die Voraussetzung dafür, dass der sinnvolle Teil inspektionsfest ist.

Fünf Kontrollprinzipien, die KI-Arbeit belegbar machen

Ob ein KI-Einsatz in einer Inspektion standhält, entscheidet sich an der Kontrollarchitektur. Fünf Prinzipien haben sich als tragend erwiesen — sie sind zugleich das Fundament der traqx Trust-Architektur:

Quellenbindung (Citation): Jede regulatorische Aussage endet auf einer klickbaren Quelle aus dem kontrollierten Quellenraum. Was keine gültige kontrollierte Quelle hat, besteht die Quellenprüfung nicht; fehlende Eingaben bleiben als offene Punkte sichtbar.
Ghost Values: Ein KI-Vorschlag bleibt sichtbar ein Vorschlag, bis ein Mensch ihn übernimmt. Vorschlag und menschlich bestätigter Stand sind nie verwechselbar.
Human-in-the-Loop: Review, Korrektur und Entscheidung bleiben einer Person und Rolle zuordenbar. Verantwortung lässt sich nicht an ein Modell delegieren.
Deterministische Prüfung: Ob Zitate existieren und Aussagen ihre Quelle treffen, prüft kein zweites Sprachmodell, sondern eine deterministische Kontrolle: bestanden oder nicht bestanden.
Lückenloser Audit-Trail: Wer hat was wann auf welcher Grundlage entschieden — über den gesamten Lebenszyklus, manipulationssicher (21 CFR Part 11, ALCOA+).

Der Test für jedes Werkzeug — auch für unseres: Lassen sich diese fünf Prinzipien strukturell nachweisen, oder hängen sie an der Disziplin einzelner Nutzer?

Einführung in der Praxis: mit einem Prozess beginnen

Die erfolgreichen KI-Einführungen in regulierten Umgebungen, die wir sehen, folgen demselben Muster — und es ist das Gegenteil eines IT-Großprojekts:

Ein Team, ein realer Prozess: Nicht die ganze Organisation, sondern ein abgegrenzter GxP-Prozess mit echtem Schmerz — eine SOP-Überarbeitung, ein Validierungspaket, eine Audit-Vorbereitung.
Quellenraum zuerst: Vor dem ersten Prompt steht die Frage, aus welchen kontrollierten Dokumenten die KI arbeiten darf. Der Quellenraum ist die Risikogrenze.
Stop/Go-Kriterien vorab: Woran erkennen Sie nach vier bis sechs Wochen, ob es trägt? Review-Aufwand, Korrekturgründe, Nachweisqualität — vorher definiert, nicht nachher interpretiert.
QA von Anfang an am Tisch: Nicht als Genehmigungsinstanz am Ende, sondern als Mitgestalter der Kontrollen. Das verändert die Akzeptanz grundlegend.

Was sich nicht bewährt: der Big-Bang-Rollout („KI für alle, ab Montag“), Schatten-Nutzung ohne Quellenraum — und der umgekehrte Fehler, zwei Jahre auf die finale Fassung jeder Guidance zu warten, während das eigene Team längst ungesteuert mit öffentlichen Chat-Tools arbeitet.

Der operative Rahmen dafür ist eine KI-Richtlinie für GxP: Sie übersetzt den Governance-Anspruch in erlaubte Nutzung, eine einfache Screening-Frage, Datenregeln, Human Review und dokumentierte Stop-Grenzen.

Die häufigsten Einwände — und was dahintersteckt

„KI halluziniert — das können wir uns nicht leisten.“ Richtig: Halluzination ist ein Modellrisiko, das eine kontrollierte Architektur einhegen muss. Mit Quellenbindung und deterministischer Prüfung besteht eine erfundene Referenz die Quellenprüfung nicht, bevor sie einen Review erreicht. Gefährlich ist nicht das Modell, sondern der unkontrollierte Umgang damit.

„Unsere Daten dürfen kein Modell trainieren.“ Berechtigte Anforderung — und vertraglich wie technisch lösbar: EU-Hosting, kein Modelltraining auf Kundendaten, klarer Quellenraum. Das gehört in jede Lieferantenbewertung eines KI-Anbieters.

„Müssen wir das KI-Tool selbst validieren?“ Das Werkzeug wird risikobasiert qualifiziert wie andere Software auch (GAMP-5-Logik); entscheidend ist, dass die Arbeitsergebnisse belegbar bleiben — Quelle, Prüfung, Entscheidung, Audit-Trail. Die Verantwortung für den Inhalt bleibt beim regulierten Unternehmen.

„Was sagt ein Auditor dazu?“ Auditoren fragen dieselben Fragen wie bei jeder Arbeit: Woher kommt die Aussage, wer hat geprüft und entschieden, wo ist der Trail? Eine kontrollierte KI-Umgebung beantwortet diese Fragen schneller als manuelle Arbeit — weil die Verbindung nie abreißt.

Was das für Ihre Roadmap bedeutet

Der regulatorische Rahmen konvergiert, die Kontrollprinzipien sind bekannt, und der Einstieg ist klein möglich. Die Reihenfolge, die wir empfehlen: einen Prozess wählen, den Quellenraum definieren, Stop/Go-Kriterien festlegen, QA einbinden — und nach einem vorab festgelegten Zeitraum ehrlich bewerten.

Genau für diesen Einstieg ist traqx gebaut: KI entwirft, Ihr Team prüft, korrigiert und entscheidet — Quellen, Versionen und Audit-Trail bleiben verbunden. Wie das an Ihrem Prozess aussieht, klären Sie am schnellsten in einer Produktdemo. Für die interne Vorbereitung helfen die 10 kontrollierten GxP-AI Prompt Patterns und die 12 Fragen zur Bewertung von GxP-KI. Wenn Sie zunächst die Systemrolle klären müssen, hilft der GxP-KI-Software-Vergleich.

Häufige Fragen

Was gehört zu GxP AI Governance?

GxP AI Governance verbindet einen klar beschriebenen Intended Use mit risikobasierten Kontrollen über den gesamten Lebenszyklus: definierte Rollen, kontrollierte Quellen und Daten, dokumentierte Lieferanten- und Modellbewertung, angemessene Validierung und Tests, Change Control, Performance Monitoring sowie menschlichen Review und nachvollziehbare Entscheidungen. Welche Kontrollen erforderlich sind, hängt vom konkreten GxP-Einsatz und seinem Risiko ab.

Darf KI in GxP-Umgebungen eingesetzt werden?

Ja, wenn der Einsatz risikobasiert begründet, nachvollziehbar dokumentiert und menschlich verantwortet wird. Für die hier behandelten Rahmenwerke gibt es kein pauschales KI-Verbot. Entscheidend ist, ob Ihre Arbeitsumgebung die geforderten Kontrollen strukturell hergibt: Quellenbindung, attributierbare Review-Entscheidungen, lückenlose Dokumentation.

Welche Rahmenwerke sind 2026 für KI in GxP relevant?

Vier Bewertungsanker, je nach Rechtsraum und Kontext anwendbar: EU GMP Annex 22 (Entwurf Juli 2025, erster reiner KI-Annex), GAMP 5 Second Edition (adressiert KI/ML ausdrücklich), die FDA Computer Software Assurance (risikobasiert) und 21 CFR Part 11. Annex 22 und die parallele Annex-11-Revision sind Entwürfe — der aktuelle Stand ist zu verfolgen.

Kann man ChatGPT oder ein LLM für GxP Compliance nutzen?

Der Produktname entscheidet nicht über die GxP-Eignung. Nach dem Annex-22-Entwurf sollten generative KI und LLMs in kritischen GMP-Anwendungen — mit direktem Einfluss auf Patientensicherheit, Produktqualität oder Datenintegrität — nicht eingesetzt werden. In nicht-kritischen, unterstützenden Anwendungen sind sie nicht grundsätzlich ausgeschlossen; qualifiziertes Personal muss die Eignung des Outputs prüfen und dokumentieren. Eine generische Chat-Oberfläche stellt die erforderlichen Kontrollen nicht von selbst her: Entscheidend sind Intended Use, kontrollierte Quellen, menschlicher Review, Change Control und Audit Trail.

Was unterscheidet ein allgemeines LLM von GxP-KI-Software?

Ein allgemeines LLM erzeugt Sprache; GxP-KI-Software muss zusätzlich den kontrollierten Arbeitsprozess tragen. Dazu gehören ein definierter Quellenraum, sichtbarer Entwurfsstatus, Quellenprüfung, nachvollziehbare Änderungen, menschliche Entscheidungen und Audit Trail. Auch spezialisierte Software ersetzt weder die fachliche Prüfung noch die Verantwortung des regulierten Unternehmens.

Was macht KI-Arbeit in GxP belegbar?

Die Kontrollarchitektur, nicht das Modell: Jede KI-Aussage braucht eine kontrollierte Grundlage, jeder Entwurf bleibt bis zum menschlichen Review ein Vorschlag, und ein lückenloser Audit-Trail dokumentiert Entscheidungen. Diese Prinzipien gelten über alle Rahmenwerke hinweg.

Kernbotschaften

Für die vier betrachteten Anker gibt es kein pauschales KI-Verbot — Annex-22-Entwurf, GAMP 5 2nd Ed, FDA CSA und Part 11 definieren das Wie: risikobasiert, quellengebunden, menschlich verantwortet.
Generative KI gehört heute in unterstützende, dokumentennahe Arbeit mit menschlichem Review — nicht in kritische GMP-Anwendungen und nicht in autonome Entscheidungen.
Belegbarkeit ist Architektur, nicht Disziplin: Quellenbindung, Ghost Values, Human-in-the-Loop, deterministische Prüfung und Audit-Trail müssen strukturell im Werkzeug stecken.
Der bewährte Einstieg: ein Team, ein realer Prozess, definierter Quellenraum, Stop/Go-Kriterien vorab — QA von Anfang an am Tisch.
Warten ist die riskanteste Option: Ohne kontrollierte Umgebung entsteht Schatten-KI-Nutzung — ungesteuert und unbelegbar.

Quellen

Europäische Kommission — EudraLex Vol. 4, Entwurf Annex 22 „Artificial Intelligence“ (Konsultation Juli–Oktober 2025) — der erste GMP-Annex zu KI: Geltungsbereich, statische Modelle, Human Oversight, Erklärbarkeit.
ISPE — GAMP 5: A Risk-Based Approach to Compliant GxP Computerized Systems, 2nd Edition (2022) — Critical Thinking, agile Lifecycles und der Umgang mit KI/ML im Systemlebenszyklus.
FDA — Computer Software Assurance for Production and Quality Management System Software (Final Guidance: 24. September 2025, aktualisiert 3. Februar 2026) — risikobasierte Prüftiefe statt Dokumentationsmenge; werkzeugneutral.
EU GMP Annex 11 — Computerised Systems (EudraLex Vol. 4) — der allgemeine Rahmen für computergestützte Systeme, in den Annex 22 eingebettet ist.
21 CFR Part 11 — Electronic Records; Electronic Signatures — elektronische Aufzeichnungen, Signaturen und manipulationssichere Audit-Trails.

Autor

Daniel Herrmann

Daniel Herrmann hat über 15 Jahre Computer System Validation in der Pharmaindustrie verantwortet, bevor er traqx mitgegründet hat. Dieser Leitfaden fasst zusammen, was er QA- und Validierungs-Teams heute zur Einführung von KI rät — inklusive der Stellen, an denen er zur Zurückhaltung rät. Er ist Orientierung, keine Rechts- oder Compliance-Beratung, nimmt keine regulatorische Einstufung eines konkreten Systems vor und ersetzt nicht die Bewertung von Intended Use, Geltungsbereich und Risiko im Einzelfall.