Pseudonymisierung und Anonymisierung: datenschutzkonform in die Welt der KI 

Unternehmen, die künstliche Intelligenz entwickeln und nutzen möchten, benötigen geeignete Trainingsdaten für die individuellen Anforderungen je nach Branche und Anwendungsfall. Oftmals haben diese jedoch einen Personenbezug und fallen damit in den Anwendungsbereich der Datenschutzgrundverordnung (DSGVO). Dennoch ist es möglich, die wertvollen Informationen für das KI-Training heranzuziehen – dank Pseudonymisierung und Anonymisierung – und CIB PoP macht das möglich!

Datenschutz und Fortschritt: ein Widerspruch?

Wer zukünftig im globalen digitalen Wettbewerb erfolgreich sein wird, hängt maßgeblich davon ab, wer sich im Bereich der künstlichen Intelligenz behauptet. Führend sind derzeit die großen US-Konzerne Alphabet (Google), Amazon, Meta (Facebook, Instagram) und Microsoft. Signifikante Fortschritte erzielt jedoch auch China. Neben militärischen Anwendungen wird hier vor allen Dingen in die KI-gestützte Überwachung der Bevölkerung investiert. Derzeit befindet sich ein sogenanntes Social-Scoring-System im Aufbau, in dessen Rahmen jeder Bürger Punkte für positives Verhalten und Punktabzug für negatives Verhalten erhält. Die Daten stammen aus unzähligen Quellen – unter anderem aus den allgegenwärtigen Videokameras, die mit Gesichtserkennungssoftware ausgestattet sind.

Möglich sind die Fortschritte in den USA und China nicht nur wegen technischer Expertise, sondern auch wegen der lockeren Datenschutzgesetze. Anders in Europa: Hier sind personenbezogene Daten durch die DSGVO in hohem Maße geschützt. Die KI-Erfolge beschränken sich daher bislang auf Bereiche ohne Personenbezug. Hierzu zählt beispielsweise die Nutzung maschinengenerierter Daten aus der Industrie. Laut einer Bitkom-Umfrage wünschen sich viele Unternehmen jedoch weiterführende Projekte: 66 Prozent der Betriebe, die sich mit künstlicher Intelligenz befassen, gaben an, dass personenbezogene Daten genutzt werden müssen, um verwertbare Analyseergebnisse zu erhalten.

Pseudonymisierung und Anonymisierung ermöglichen DSGVO-konformes Machine Learning

Ihren großen Durchbruch hat künstliche Intelligenz durch ihre Disziplin „Machine Learning“ (ML) geschafft. Nicht Regeln, sondern Daten bestimmen hierbei das Verhalten der KI. Soll beispielsweise ein Algorithmus entwickelt werden, der Katzen und Hunde auf Bilder erkennt, so ist es nicht notwendig, die Unterscheidungsmerkmale der Tiere in Form von Regeln zu definieren. Vielmehr analysiert der ML-Algorithmus große Mengen von Beispielbildern beider Tierarten. Daraus entsteht im Laufe der Zeit ein generalisiertes Modell, mit dem sich auch Bilder klassifizieren lassen, welche die KI bis dato noch nicht gesehen hat.

Das Herzstück von Machine Learning sind also umfangreiche Trainingsdaten. Diese Daten müssen sich einerseits fachlich und technisch dazu eignen, ein ML-Modell zu trainieren. Auf der anderen Seite darf ihre Nutzung aber nicht zur Verletzung der Datenschutzgrundverordnung führen. Wer dennoch personenbezogene Daten verwerten möchte, hat grundsätzlich zwei Möglichkeiten:

  • Personenbezug verschleiern (Pseudonymisierung)
  • Personenbezug entfernen (Anonymisierung)

Pseudonymisierung: Identifizierung der Person wird erschwert

Bei der Pseudonymisierung werden direkte Identifikatoren wie Namen durch Pseudonyme ersetzt. Aus „Bernhard“ wird beispielsweise „Heinrich“. Wichtig ist dabei, dass die Zuordnung eindeutig ist: Taucht „Bernhard“ mehrfach in einem Datensatz auf, muss er durchgängig durch „Heinrich“ ersetzt werden. Einige Anwendungen sind darauf angewiesen, dass die Pseudonymisierung umkehrbar ist. Dies ist dann der Fall, wenn man den ursprünglichen Wert aus dem Pseudonym ableiten kann – selbst dann, wenn dazu ein separater Schlüssel benötigt wird.

Pseudonymisierung verhindert die Re-Identifikation von Personen nicht, sondern macht es lediglich schwerer, entsprechende Rückschlüsse zu ziehen. Daher unterliegen pseudonymisierte Daten der DSGVO. So müssen sie beispielsweise – genau wie Echtdaten – gelöscht werden, wenn die Aufbewahrungspflicht ausläuft und keine anderen Aufbewahrungsgründe vorliegen.

Anonymisierung: Re-Identifikation ist ausgeschlossen

Wer sich aus dem Korsett der DSGVO befreien möchte, muss auf die Anonymisierung zurückgreifen. Denn anonymisierte Daten lassen aus technischer Sicht keine Rückschlüsse auf Personen zu. Um diese Anforderung zu erfüllen, müssen alle Informationen, die eine Re-Identifikation ermöglichen würden, gelöscht, geschwärzt oder zum Beispiel durch Ziffern ersetzt werden.

Methode richtet sich nach dem Verarbeitungszweck

Eine wichtige Komponente der DSGVO ist der Grundsatz der Datenminimierung. Er besagt sinngemäß, dass personenbezogene Daten nur in einem Maße gespeichert und verarbeitet werden dürfen, wie es der Zweck erfordert. Im Hinblick auf KI-Projekte bedeutet dies: Unternehmen müssen im Vorfeld stets prüfen, ob der Verarbeitungszweck mit anonymisierten Daten erreicht werden kann. Ist dies der Fall und die Daten werden dennoch nicht anonymisiert, liegt ein Verstoß gegen den Grundsatz vor. Nur wenn der Zweck durch Anonymisierung nicht erreichbar ist, darf die Pseudonymisierung zur Anwendung kommen.

CIB PoP erkennt und entfernt personenbezogene Daten

Natürlich ist es nicht zielführend, personenbezogene Daten in Dokumenten oder Datensätzen manuell zu entfernen oder zu ersetzen – vor allem nicht in KI-Projekten, in denen große Datenmengen verarbeitet werden. Deshalb hat CIB in Kooperation mit dem Fraunhofer IAIS, das Projekt PoP (Protect our Privacy) ins Leben gerufen. In diesem Rahmen entstand eine KI-basierte Lösung, die personenbezogene Daten in Dokumenten automatisch erkennt und sie entfernt oder pseudonymisiert.

CIB Pop

Bei bildbasierten Dokumenten erkennt CIB PoP zunächst den Text. Im Anschluss werden die Textinhalte an ein Sprachmodell (NLP-Modell) übergeben. Dieses wurde mit Trainingsdaten vorbereitet und ist in der Lage, alle DSGVO-relevanten Inhalte eigenständig zu identifizieren. Im nächsten Schritt lassen sich diese wahlweise anonymisieren oder auch schwärzen. In letzterem Fall wird tatsächlich jede Spur aus den Dokumenten entfernt. Hervorzuheben ist darüber hinaus die Funktion „realistisches Entfernen“. In diesem Fall rekonstruiert die KI den Hintergrund. So wird aus dem Scan eines ausgefüllten Formulars beispielsweise wieder eine Blanko-Version.

CIB PoP ist seit Juni 2022 als Teil des CIB Dokumentenviewers doXiview verfügbar und eröffnet zahlreiche neue Möglichkeiten für dokumentenbasierte Prozesse. Unter anderem eignet sich die Lösung dafür, Dokumente als Trainingsdaten für KI-Aufgaben wie die Dokumentklassifizierung und Texterkennung zu nutzen. So ist es mit CIB PoP beispielsweise möglich, folgende KI-Szenarien DSGVO-konform umzusetzen:

  • Identifizieren von Geschäftsprozessen anhand der Dokumenteninhalte
  • Extraktion von Prozessdaten aus Dokumenten (z. B. Rechnungen)
  • Vollständigkeitsprüfungen von eingehenden Formularen, Bewerbungsunterlagen und Scans

Im Übrigen hat das Forschungsprojekt gezeigt, dass sich Aufgaben dieser Art sehr gut mit Anonymisierung bewältigen lassen. Ein absolut realistisches Ersetzen der Texte ist meist nicht notwendig. Teils reicht es sogar aus, die Texte zu entfernen.

Fazit: CIB PoP eröffnet neue Chancen für den Mittelstand

Gerade für mittelständische Unternehmen war es aufgrund der hohen DSGVO-Hürden bislang schwierig, wenn nicht unmöglich, Dokumenteninhalte zum Training von KI-Anwendungen zu nutzen. Mit CIB PoP ändert sich dies. Denn nun ist es auf sehr einfache Weise möglich, den originalen Personenbezug aus einem Dokument zu entfernen und die übrigen Inhalte zur sicheren, DSGVO-konformen KI-Entwicklung zu verwenden.

Sie möchten mehr über die Technologie erfahren oder interessieren sich für die KI-Forschung? Fale connosco

Florian Deuring

Fachautor für Software und Digitalisierung