Trainieren Sie Modelle für maschinelles Lernen anhand sensibler Daten

· Thomas Wood
Trainieren Sie Modelle für maschinelles Lernen anhand sensibler Daten

Finden Sie Top-NLP-Talente!

Suchen Sie Experten in Natürlicher Sprachverarbeitung? Veröffentlichen Sie Ihre Stellenangebote bei uns und finden Sie heute Ihren idealen Kandidaten!

Veröffentlichen Sie einen Job

Bedeutet der Schutz sensibler Daten, dass Sie auch Abstriche bei der Leistung Ihres maschinellen Lernmodells machen müssen?

Wenn Sie maschinelles Lernen an der Universität studieren oder einen Online-Kurs belegen, arbeiten Sie normalerweise mit einer Reihe öffentlich verfügbarer Datensätze wie dem Titanic-Datensatz , dem Fisher’s Iris Flower-Datensatz oder dem Labeled Faces in the Wild- Datensatz. Beispielsweise können Sie ein Gesichtserkennungsmodell anhand einer Reihe von Prominentengesichtern trainieren, die bereits öffentlich zugänglich sind, und nicht an privaten oder sensiblen Daten wie CCTV-Bildern. Diese öffentlichen Datensätze existieren oft schon sehr lange und dienen als nützliche Benchmarks, über die sich alle einig sind.

The Titanic dataset contains sensitive data which can be used for training [machine learning](/machine-learning-consulting-businesses-benefit) models

Der Titanic-Datensatz

Der Titanic-Datensatz ist ein bekannter Datensatz zum Üben von maschinellem Lernen. Wir können sensible personenbezogene Daten der Passagiere verwenden, da die Titanic vor so langer Zeit gesunken ist.

Im kommerziellen Umfeld müssen wir jedoch häufig Modelle für maschinelles Lernen anhand privater oder sensibler Daten trainieren. Mit Ausnahme neuer Startups verfügen große Unternehmen möglicherweise über Datenbanken mit äußerst persönlichen Daten, wie z. B. Adressen von Millionen von Menschen, Sozialversicherungsnummern, Finanzinformationen, Krankengeschichten und mehr. Unternehmen zögern äußerst zurückhaltend, den Zugriff auf diese Art von Daten zu gestatten, wenn dies nicht unbedingt erforderlich ist. Dies stellt ein Problem für einen Datenwissenschaftler dar, der ein Modell anhand vertraulicher Informationen trainieren muss. Manche Machine-Learning-Projekte sind im technischen Sinne einfach, werden aber durch Datenschutzverpflichtungen immens erschwert.

Die Herausforderungen sensibler Daten in der KI

Lassen Sie mich ein Beispiel aus unserem eigenen Portfolio vorstellen. Wir haben kürzlich ein NLP- Modell für einen großen Kunden in Großbritannien entwickelt, der täglich Tausende von Kunden-E-Mails erhält. Der Kunde wünschte sich ein E-Mail- Triage -System, damit Kunden mit einigen der häufigsten Fragen (z. B. einer Änderung der Privatadresse) automatisch zu einem Webformular weitergeleitet werden können, das ihre Anfrage beantwortet. Der Plan bestand darin, die Mitarbeiter im Kundendienst zu entlasten und ihre Kapazitäten für nicht routinemäßige Anfragen freizugeben.

An email triage schematic

So funktioniert ein KI-E-Mail-Triage-System: Eingehende E-Mails werden nach Kundenabsicht klassifiziert und diejenigen Kunden, die ihr Problem mit einem einfachen Webformular lösen können, werden zum richtigen Formular weitergeleitet. Dies erfordert die Erkennung sensibler Daten und ist zwar technisch einfach zu erstellen, aber aufgrund der sensiblen Daten, die zum Trainieren des Modells erforderlich sind, schwierig.

Auf den ersten Blick ist dieses Problem technisch recht einfach: Sie müssen eine Stichprobe von E-Mails entnehmen, sie manuell mit Anmerkungen versehen und dann einen Textklassifikator trainieren und einsetzen. Aufgrund der Datenschutzgesetze mussten wir jedoch Folgendes berücksichtigen:

  • Die Nutzer haben der Speicherung ihrer E-Mails nicht zugestimmt. Wenn ich einen Trainingsdatensatz manuell mit Anmerkungen verfüge (ein zeitaufwändiger Vorgang), kann ich ihn nicht unbegrenzt speichern. Es muss gelöscht werden.

  • Im Rahmen des Rechts auf Vergessenwerden der DSGVO kann ein Benutzer verlangen, dass die Organisation alle seine personenbezogenen Daten löscht. Wenn ein Benutzer eine solche Anfrage stellen würde, wie würde ich dann alle Stellen aufspüren, an die die personenbezogenen Daten in der maschinellen Lernpipeline gelangt sind? Es muss möglich sein, alle Kopien einer E-Mail in allen Datensätzen nachzuverfolgen.

  • Der Datensatz darf die Computersysteme des Kunden nicht verlassen. Ich kann keine Datei auf meinen Computer herunterladen und mit verschiedenen Modellen des maschinellen Lernens experimentieren. Die gesamte Modellentwicklung muss auf vom Kunden kontrollierten Servern erfolgen.

  • Können sensible Daten aus dem Modell reproduziert werden? Wenn beispielsweise die E-Mail-Adresse eines Kunden in einem NLP- Modell als Wort in seinem Vokabular gespeichert wurde, dann haben einige Kundendaten das Modell verunreinigt. Wir müssen darauf achten, dass niemand aus einem trainierten Modell sensible Informationen rekonstruieren kann.

Die betroffene Person hat das Recht, von dem Verantwortlichen zu verlangen, dass die sie betreffenden personenbezogenen Daten unverzüglich gelöscht werden

Kunst. 17 DSGVO

Ein Modell für maschinelles Lernen, das sich zu viel merkt?

Ein manchmal übersehenes Risiko besteht darin, dass ein Modell für maschinelles Lernen versehentlich sensible Teile seiner Trainingsdaten speichern könnte. Im Jahr 2017 trainierte ein Team der Cornell University/Cornell Tech eine Reihe von Deep-Learning-Modellen zur Gesichtserkennung an Prominentengesichtern. Anschließend konnten sie die ursprünglichen Gesichtsbilder aus dem neuronalen Netzwerk extrahieren, allerdings mit leicht verschlechterter Qualität.

Mit ihrer Technik könnte ein Angreifer mit Zugriff auf ein trainiertes maschinelles Lernmodell, das gelernt hat, sensible Daten zu erkennen und zu klassifizieren, möglicherweise einen Teil dieser Daten rekonstruieren. Beispielsweise kann ein Modell für maschinelles Lernen, das gelernt hat, die Lebensläufe von Arbeitssuchenden zu klassifizieren, spezifische Token für den Namen einzelner Personen gespeichert haben oder ungewöhnlich auf eine bestimmte Zeichenkombination in einer Adresse reagieren, was einem böswilligen Angreifer einen Weg dorthin ermöglicht die Adresse, die in den Trainingsdaten angezeigt wurde.

Mögliche Strategien

Es gibt eine Reihe von Strategien, die ein Datenwissenschaftler angesichts äußerst anspruchsvoller Datenschutzanforderungen verfolgen kann.

1. Löschen Sie den Datensatz

Für die Dauer des Projekts können annotierte Daten genutzt werden. Es kann nur eine Kopie des Datensatzes existieren. Sobald das Machine-Learning-Modell jedoch trainiert wurde, muss der Datenwissenschaftler den gesamten Datensatz löschen.

Das Löschen aller Ihrer Anmerkungen bedeutet, dass Sie „die Form wegwerfen“: Wenn das Projekt in Zukunft fortgesetzt würde, müssten Sie einen neuen Datensatz erneut mit Anmerkungen versehen. Wenn jedoch wirklich alle Daten gelöscht werden, ist ein Datenleck ausgeschlossen und das „Recht auf Vergessenwerden“ ist kein Thema mehr.

2. Daten anonymisieren (maskieren).

Wir können versuchen, einen nicht sensiblen Datensatz zu erstellen. Beispielsweise verarbeiten wir alle E-Mails mithilfe eines Datenanonymisierungsalgorithmus , um Namen, Adressen oder andere vertrauliche Informationen zu entfernen. Das bedeutet, dass unser Datensatz zu einem bereinigten Satz von E-Mails wird, in dem keine personenbezogenen Daten mehr enthalten sind.

Sobald eine E-Mail anonymisiert und alle sensiblen Daten entfernt wurden, reicht der Rest möglicherweise nicht mehr aus, um ein genaues Modell für maschinelles Lernen zu trainieren.

Es gibt eine Reihe von Produkten von Drittanbietern, die zur Anonymisierung von Texten verwendet werden können. Zum Beispiel Anonymisierungs-App oder Microsoft Azure Text Analytics .

Das Risiko dieses Ansatzes besteht darin, dass die Textanonymisierung schwierig und zeitaufwändig ist und es möglich ist, versehentlich eine vertrauliche Information darin zu hinterlassen. Darüber hinaus ist der anonymisierte Datensatz möglicherweise zu weit von der Realität entfernt, um ein möglichst genaues Modell zu erstellen .

Der Vorteil: Wenn keine sensiblen Daten in die Nähe des Modells für maschinelles Lernen gelangen, kann es sich nichts merken, was es nicht sollte, und es ist für einen Angreifer nicht möglich, die sensiblen Informationen zu rekonstruieren, indem er das Modell durchstöbert, was die Erkennung sensibler Daten erleichtert .

3. Speichern Sie nur IDs, die zur Rekonstruktion von Daten verwendet werden können

Möglicherweise können Sie die Daten mit Anmerkungen versehen und dann löschen, wobei nur ein Hash oder eine ID der Originalinformationen gespeichert wird, sodass die Trainingsdaten leicht rekonstruiert werden können, sie jedoch nicht in Ihrem maschinellen Lernsystem gespeichert werden. Beispielsweise können Sie die ID jeder E-Mail und die Bezeichnung jeder E-Mail speichern, sodass die Trainingsdaten neu erstellt werden können, sofern die E-Mails nicht vom E-Mail-Server gelöscht wurden. Das bedeutet, dass das maschinelle Lernprojekt nicht auf zusätzliche Datenkopien angewiesen ist.

Wenn Sie Hashes von E-Mail-Adressen speichern, müssen Sie vorsichtig sein, denn wenn ein Hacker an Ihre Hash-Datenbank sowie an die Datenbank mit E-Mail-Adressen eines anderen Unternehmens gelangt, könnte er alle diese E-Mail-Adressen hashen und sie mit Ihrer Datenbank abgleichen und die ursprünglichen E-Mail-Adressen rekonstruieren .

Wie E-Mails gehasht werden können. Die E-Mail-Adresse jefod50602@yncyjs.com wird durch einen Hashing-Algorithmus in die Zeichenfolge c379bd7a05f1af4522d5ad28af10d623 umgewandelt. Dies kann nicht einfach rückgängig gemacht werden, aber ein Hacker, der an eine andere Liste von E-Mails gelangt ist (z. B. bei der Datenschutzverletzung bei Ashley Madison ), könnte dieselbe Hashing-Funktion auf diese Liste anwenden und die ursprüngliche E-Mail im Datensatz identifizieren.

4. Aktualisieren Sie die Datenschutzrichtlinie und holen Sie die vollständige Zustimmung des Kunden ein

Ein anderer Ansatz besteht darin, die Erlaubnis einzuholen, Kundendaten länger zu speichern und für das Training einer KI zu verwenden. Dies ist möglicherweise nicht immer eine Option, aber wenn genügend Kunden zustimmen, können wir möglicherweise nur aus den zustimmenden Kunden einen Trainingsdatensatz erstellen. Wir müssen jedoch vorsichtig sein, da einwilligende Kunden möglicherweise nicht repräsentativ für den gesamten Kundenstamm sind (sie geben möglicherweise mehr aus, buchstabieren besser, gehören einer anderen demografischen Gruppe usw. an) und dies könnte zu einer Verzerrung unseres trainierten Modells führen. Darüber hinaus würde diese Strategie normalerweise nur bei Neukunden funktionieren, ein Unternehmen möchte jedoch möglicherweise den gesamten bestehenden Kundenstamm für das Training seines maschinellen Lernmodells nutzen.

5. Verschlüsseln oder transformieren Sie die Daten und bearbeiten Sie sie im verschlüsselten Raum (homomorphe Verschlüsselung).

[Thomas Wood](https://www.linkedin.com/in/woodthom) left index fingerprint showing some minutiae

Mein linker Indexfingerabdruck zeigt einige Details (Merkmalspunkte wie Kreuzungen oder Sackgassen). Die Minutienkoordinaten könnten dann nach einem Einwegprozess verschlüsselt oder transformiert werden, was maschinelles Lernen auf verschleierten Daten ermöglicht.

Manchmal ist es möglich, einen sensiblen Datensatz so zu verschleiern, dass die sensiblen Daten nicht rekonstruiert werden können, maschinelles Lernen aber dennoch daraus lernen kann. Dies wird als homomorphe Verschlüsselung bezeichnet. Beispielsweise könnte ein biometrischer Fingerabdruckdatensatz in eine Reihe von Minutien (Merkmalspunkten) umgewandelt werden, die dann durch einen nicht umkehrbaren Vorgang umgewandelt werden könnten. Die Operation hätte die Eigenschaft, dass Fingerabdrücke, die im wirklichen Leben ähnlich sind, nach der Verschlüsselung ähnlich bleiben, die Verschlüsselung jedoch immer noch nicht rückgängig gemacht werden kann.

Homomorphe Verschlüsselung ist oft sehr schwierig durchzuführen. Eine einfache Möglichkeit, dasselbe Ergebnis zu erzielen, besteht darin, numerische Felder mithilfe der Hauptkomponentenanalyse zu transformieren. Ein transformierter Wert könnte beispielsweise 2 * Alter + 1,5 * Gehalt + 0,9 * Breitengrad sein, was aufgrund der Viele-zu-Eins-Natur der Transformation sehr schwer auf eine Person zurückzuführen wäre.

5. Sicherheitsmaßnahmen in der Kommunikation stärken

Neben der Sicherstellung, dass Daten nicht unnötig kopiert oder in Repositorys eingecheckt werden, müssen bei sensiblen Trainingsdaten noch weitere routinemäßige Sicherheitsmaßnahmen ergriffen werden. Beispielsweise müssen alle API-Endpunkte mit SSL und HTTPS gesichert sein und Sie sollten keine Daten über Drittanbieterdienste wie Github oder Gmail teilen.

6. Entfernen Sie sensible Daten, die für das Modell unwichtig sind

Möglicherweise stellen Sie fest, dass ein bestimmtes Feld, z. B. das Geburtsdatum, sehr empfindlich ist, aber wenig zur Modellgenauigkeit beiträgt. In diesen Fällen gibt es einen Kompromiss zwischen Sicherheit und der Leistung des Modells für maschinelles Lernen, und es kann eine geschäftliche Entscheidung getroffen werden, auf Genauigkeit zu verzichten, um eine gute Datenverwaltung aufrechtzuerhalten.

7. Sensible Daten vergröbern

Daten können verändert oder vergröbert werden, sodass sie weiterhin für maschinelles Lernen nützlich sind, das Potenzial zur Identifizierung sensibler Daten jedoch verringert wird. Beispielsweise können Breiten-/Längengrade gerundet oder gejittert werden, Postleitzahlen (W9 3JP) können auf die erste Hälfte (W9) reduziert werden und numerische Mengen können in Gruppen eingeteilt werden. Die HIPAA-Verordnung der USA legt fest, dass das Alter unter bestimmten Umständen nur als Jahreszahl und nicht als Datumsangaben gespeichert werden sollte , es sei denn, das Alter liegt über 90. In diesem Fall sollte auch das Jahr ausgeblendet werden.

No jitter No jitter

8. Bewahren Sie sensible Daten in einem Silo auf und erlauben Sie Datenwissenschaftlern keinen direkten Zugriff darauf, sondern lassen Sie sie damit experimentieren, indem Sie Aufträge an eine sichere Plattform senden

Es ist auch möglich, die sensiblen Daten in einem sicheren Repository aufzubewahren, wo Forscher keinen direkten Zugriff darauf haben, aber dort Experimente einreichen und statistische Tests durchführen können. Der National Health Service ( NHS ) in England hat ein Pilotprogramm namens OpenSAFELY eingerichtet, das es Forschern ermöglicht, die Gesundheitsakten von 58 Millionen Menschen zu nutzen, ohne sie jemals zu sehen. Benutzer können Code schreiben und ihn auf der Plattform übermitteln (herunterladbar als Github-Repository ), ohne jemals die Rohdatensätze anzeigen zu müssen. Alle Interaktionen mit den Daten werden protokolliert und genehmigte Projekte werden auf der Website von OpenSAFELY aufgeführt.

Wie funktioniert das in der Praxis? OpenSafely verwendet eine Reihe abgestufter Tabellen und Forscher haben keinen Zugriff, um einfache Datenbankabfragen auszuführen und die Rohdaten anzuzeigen. Die Architektur basiert auf einer sicheren Analyseplattform, auf der Code ausgeführt wird, der Code selbst jedoch von Forschern in öffentliche Github-Repositorys übertragen wird.

OpenSAFELY verkörpert eine innovative Art der Forschung zu sensiblen Daten, die in den frühen Tagen der Pandemie entstanden sind. Dr. Ben Goldacre, Direktor des EBM Data Lab der Universität Oxford, beschrieb dies als einen Wandel von Modellen, die auf Vertrauen basieren (den Forschern wird vertraut, dass sie die Daten sicher aufbewahren), hin zu Modellen, die auf Beweisen basieren.

Ich war neugierig, ob ich mithilfe der OpenSAFELY-Plattform auch mit dem Textinhalt von Gesundheitsakten experimentieren könnte. Keines der 151 auf der OpenSAFELY-Website aufgeführten Projekte hat einen Textbezug (die meisten scheinen Studien mit strukturierteren Daten zu sein, wie zum Beispiel „Die Auswirkungen von COVID-19 auf Schwangerschaftsbehandlungspfade und -ergebnisse“). Ich kontaktierte OpenSAFELY und fragte, ob es möglich sei, Experimente mit Textdaten durchzuführen, und sie antworteten, dass sie derzeit keine Textprojekte durchführen. Ich wäre gespannt, wie das OpenSAFELY-Modell erweitert werden könnte, um Experimente mit Textdaten zu ermöglichen.

Vertrauenswürdige Ressourcenumgebung oder ein Laptop ohne Internetverbindung

Eine ziemlich drastische Option zum Schutz sensibler Daten, von der ich gehört habe, dass sie in der Gesundheits- und Medizintechnik verwendet wird, besteht darin, einen sauberen Laptop zu nehmen, die gesamte Analysesoftware darauf zu installieren, dann die sensiblen Daten darauf zu übertragen und alle Internetverbindungen physisch zu entfernen. Jetzt können nur noch die Ergebnisse von Analysen oder Modellen des maschinellen Lernens den Laptop verlassen, und der Laptop verlässt nicht die Räumlichkeiten der Einrichtung, beispielsweise eines Krankenhauses, in dem das Modell trainiert wird. Forscher verwenden diesen Ansatz manchmal bei der Entwicklung von Modellen für elektronische Gesundheitsakten (EHRs). Wenn es beispielsweise keine sichere Möglichkeit zur Anonymisierung einer EHR gibt, wenn diese im Klartext vorliegt, können wir den Ansatz einer vertrauenswürdigen Ressourcenumgebung verwenden.

Festlegung einer Richtlinie für sensible Daten

Wenn ein Datenwissenschaftler an sensiblen Daten jeglicher Art arbeitet, wäre es ratsam, rechtlichen Rat einzuholen oder sich an den Datenschutzbeauftragten der Organisation (im Vereinigten Königreich/EU) zu wenden , um Rat zu erhalten und eine Governance-Richtlinie sowie eine Dokumentation zu Best Practices zu erstellen. Dazu gehört die Einrichtung eines sicheren Standorts, die Dokumentation aller Quellen sensibler Daten und aller erstellten Kopien sowie die Einrichtung eines Prozesses zum Scannen nach sensiblen Daten. Nach der DSGVO müssen alle Kopien einer Dateninstanz nachverfolgt werden, damit die betroffene Person die vollständige Löschung beantragen kann. Außerdem müssen Prozesse eingerichtet werden, die es Mitarbeitern ermöglichen, Zugriff auf Daten anzufordern, und um die Rollen derjenigen zu verfolgen, die zu einem bestimmten Zeitpunkt Zugriff haben.

Abschluss

Der Umgang mit äußerst wertvollen, aber sensiblen Daten kann ein Minenfeld sein. Datenwissenschaftler müssen sehr darauf achten, die Bedenken der Kunden hinsichtlich des Datenschutzes nicht abzutun, und versuchen, den geeigneten Mittelweg zwischen der Beeinträchtigung der Privatsphäre und der Beeinträchtigung der Modellleistung zu finden. Oftmals werden einige der kommerziell erfolgreichsten Modelle auf der Grundlage hochsensibler Daten trainiert.

Verweise

Google, Considerations for Sensitive Data within Machine Learning Datasets (2020)

Quintanilla et al, What is responsible machine learning?, Microsoft (2021)

GDPR, Right to be Forgotten, EU law (2016)

Song et al, Machine Learning Models that Remember Too Much, Cornell University (2017)

The OpenSAFELY Collaborative., Williamson, E.J., Tazare, J. et al. Comparison of methods for predicting COVID-19-related death in the general population using the OpenSAFELY platform. Diagn Progn Res 6, 6 (2022). https://doi.org/10.1186/s41512-022-00120-2

Jo Best, This open source project is using Python, SQL and Docker to understand coronavirus health data, Zdnet (2020), retrieved 6 Apri l2023

Erweitern Sie Ihr Team mit NLP-Spezialisten

Entfesseln Sie das Potenzial Ihrer NLP-Projekte mit dem richtigen Talent. Veröffentlichen Sie Ihre Stelle bei uns und ziehen Sie Kandidaten an, die genauso leidenschaftlich über natürliche Sprachverarbeitung sind.

NLP-Experten einstellen

Big-Data-Beratung – 4 häufigste Probleme gelöst
Data scienceBig data

Big-Data-Beratung – 4 häufigste Probleme gelöst

Mittlerweile sind es Organisationen aller Größenordnungen und fast aller Sektoren werden zunehmend datengesteuert, insbesondere als größere Datenspeicher Systeme und schnellere Computer treiben die Leistungsgrenzen immer weiter voran.

Zwei Revolutionen im Abstand von 200 Jahren: die Datenrevolution und die industrielle Revolution
Ai and societyData science

Zwei Revolutionen im Abstand von 200 Jahren: die Datenrevolution und die industrielle Revolution

Aufgrund des umfangreichen Einsatzes von Technologie und der Arbeitsteilung hat die Arbeit des durchschnittlichen Gig-Economy-Arbeiters jeden individuellen Charakter und damit auch jeden Charme für den Arbeitnehmer verloren.

KI im Personalwesen: Die Zukunft der Arbeit verändern
Ai and societyData science

KI im Personalwesen: Die Zukunft der Arbeit verändern

Die Auswirkungen von KI auf die Humanressourcen Die Arbeitswelt verändert sich rasant, sowohl aufgrund der Einführung traditioneller Data-Science-Praktiken in immer mehr Unternehmen als auch aufgrund der zunehmenden Beliebtheit generativer KI-Tools wie ChatGPT und Googles BARD bei nicht-technischen Arbeitnehmern.

What we can do for you

Transform Unstructured Data into Actionable Insights

Contact us