Neben der Erstellung einer funktionierenden Datenplattform dürfen sich die Verantwortlichen nicht nur den technischen Aufgaben widmen, sondern müssen sich nolens volens auch mit datenschutzrechtlichen Fragestellungen auseinandersetzen. Der Data Architect und der Data Engineer sind deshalb dazu angehalten, sich einen Überblick über den gesamten Datenbestand und -zyklus zu verschaffen. Woher stammen also meine Daten (Data Lineage)? Wer hat Zugriff darauf? Wo werden sie gespeichert?
Die Datenschutzgrundverordnung spart Big Data – Begrifflichkeiten völlig aus, sodass viele rechtliche Fragestellungen heikel und teilweise unbeantwortet bleiben. Insbesondere in rechtlich ungewissen Situationen werden Data Governance und compliant engineering – Vorkehrungen zu einer heiligen Kuh für Data Science-Projekte.
Welche Prinzipien gilt es zu beachten?
Aus dem datenschutzrechtlichen Prisma betrachtet, treten für Data Science Verfahren diverse Komplikationen auf, insbesondere mit Blick auf
- Personenbezug
- Zweckbindungsgrundsatz
- Datenminimierung
Personenbezug und Anonymisierung
Zur detaillierten Erläuterung, welche Daten einen Personenbezug aufweisen, verweisen wir gerne auf unseren Artikel „Haben alle Daten in der Zukunft einen Personenbezug?“.
Nur so viel dazu: Wenn Daten keinen Personenbezug haben, dann unterfallen sie auch nicht den Schutzbestimmungen der Datenschutzgrundverordnung und können nach freiem Belieben verwendet werden. Dies gilt grundsätzlich und insbesondere für anonymisierte Daten. Deshalb werden personenbezogene Daten in derartigen Projekten gerne anonymisiert.
Anonymisierung im Kontext der DSGVO ist eine Technik, mit der die identifizierenden Informationen einer Person aus einem Datensatz entfernt werden, so dass die verbleibenden Daten nicht mit dieser Person in Verbindung gebracht werden können.
Allerdings gibt es nicht für jedes Szenario das eine Anonymisierungsverfahren. Gängige Verfahren wie die alleinige Verwendung von „K-Anonymität“ genügen oft nicht den Anforderungen der DSGVO. K-Anonymitäts-Verfahren teilen Datensätze in sogenannte k-Klassen ein und streichen alle für die Analyse irrelevanten Attribute. Problematisch ist hierbei, dass bereits ein Attribut, also bspw. Quasi-Identifikatoren wie die Postleitzahl ausreichen, um den Personenbezug wiederherzustellen. Deshalb sind derartige Verfahren auch sehr anfällig für Angriffe mit reichlich Hintergrundwissen. Aber auch die von Apple hochgelobten und sicher geglaubten Verfahren, wie bspw. das „Differential privacy“, bei der die Daten bei einer Datenbankabfrage mit sog. „Rauschen“ versehen werden, können wesentliche Schwächen aufweisen. Denn diese liefern im Zweifel deutlich geringere Informationen, insbesondere wenn sie durch den Anonymisierungsprozess zu sehr von den Originaldaten abweichen. Zudem sind sie trotz ihres noch enormen Aufwands nicht vollkommen gefeit vor jeglicher Störung.
Nutzbarkeit Vs Datenschutz
Wenn ein Datensatz vollkommen anonymisiert ist, besteht zwar keine allzu große Gefahr, dass eine Person anhand dieser Daten zu identifizieren ist. Aber diese Daten könnten wiederum für den Data Scientist nur in begrenztem Maße nutzbar sein. In der Welt der IT-Sicherheit gibt es eine Redewendung die besagt, dass der sicherste Computer derjenige ist, der am Ende nicht funktionieren wird. Anonymisierungsverfahren können daher sowohl Fluch als auch Segen sein und produzieren eine Art gegenläufige Abhängigkeit zwischen dem Wunsch einer gesamtheitlichen Datenanalyse und der Sicherstellung von personenbezogenen Daten. Anonymisierungsprozesse werden damit, insbesondere für Big Data-Praktiken wie die Data Science aufwendiger und erfordern für unterschiedliche Szenarien, unterschiedliche Verfahren und damit einhergehend auch regelmäßige Audits.
Data Lake
Was für die Tätigkeit des Data Scientist hilfreich ist, werden Datenschützer eher kritisch beäugen. Ein „Data Lake“ ist ein Datenarchiv, indem diverse unbearbeitete Daten, ob strukturiert, semi-strukturiert oder unstrukturiert, an einem Ort (See/Lake) gespeichert werden und anschließend dem Data Scientist „zum Abtauchen“ zur Verfügung gestellt werden. Im Vergleich zum Data Warehouse, indem die Daten vorab strukturiert und bereinigt wurden, ist der Data Lake ein wahrhaftiges Data Science Paradies (vielleicht sollte man den Data Lake in Data Beach umbenennen).
Um den Ansprüche der Anonymisierung und des gesamten Datenschutzes im Sinne der DSGVO gerecht zu werden, dürften Compliance – Regeln (von der Klassifizierung der Daten bis zur Einschränkung der Zugriffsrechte) „lebensnotwendig“ sein.
Anonymisierung als Freifahrtschein?
Letztlich sollte aber jedem Data Scientist klar sein, dass Big Data – Praktiken nicht statisch, sondern dynamisch sind. Denn die Arbeit eines Data Scientists basiert zum einen auf der Zusammenführung unterschiedlichster Daten, und lebt zum anderen von der laufenden Erweiterung der Datenplattform. Mehr valide und unterschiedliche Daten erzeugen mehr Genauigkeit in der Prognose. Dieses Big Data – Prinzip kennen wir bereits aus der Statistik. Deshalb kann diese Vorgehensweise, insbesondere bei einer unzureichenden Data Governance, den Personenbezug eines Datums potenziell wieder herstellen lassen. Insofern könnte ab einem gewissen Zeitpunkt der technische und finanzielle Aufwand für eine Re-Identifizierung im Sinne der Datenschutzgrundverordnung auch nicht mehr als unangemessen zu qualifizieren sein.
Anonymisierung als eigene Datenverarbeitung
Ungeklärt bleibt weiterhin, ob es sinnvoll ist daran festzuhalten, dass bereits die Durchführung der Anonymisierung im Sinne des Art. 4 Nr. 2 DSGVO als eine eigenständige Datenverarbeitung zu qualifizieren ist, sodass auch hier der gesamte Rattenschwanz an Datenschutzmaßnahmen und Legitimationsprüfungen zu erfüllen wäre. Eine etwaige Anonymisierung von personenbezogenen Daten würde demzufolge ebenfalls eine Einwilligung erfordern. Statt datenschutzfreundliche Anonymisierungsverfahren zu ermöglichen, könnte die Datenschutzgrundverordnung hier tatsächlich ein Hemmnis darstellen!
Gegen eine derartige Einordnung spricht allerdings der Art. 25 DSGVO. Er normiert, dass der datenverarbeitenden Verantwortlichen dazu angehalten ist, die Grundsätze der DSGVO (Datenminimierung, Zweckbindung etc.), auch technisch zu realisieren. Ebensolche Anonymisierungsverfahren würden diesen Grundsätzen dienlich sein, sodass eine ex-ante Betrachtung und damit eine erneute Legitimation, unserer Auffassung nach widersinnig wäre (so ähnlich auch Roßnagel, A. / Scholz, P.: Datenschutz durch Anonymität und Pseudonymität, Rechtsfolgen der Verwendung anonymer und pseudonymer Daten, MMR 2000, 721 (726)).
Anders sieht es aber scheinbar das BfDI. Und die haben im Zweifel immer Recht. (https://www.bfdi.bund.de/DE/Infothek/Pressemitteilungen/2020/03_Konsultationsverfahren.html). Interessant ist auch, dass das BfDI das „Resumee“ direkt mal vorangestellt hat.
Zweckbindungsgrundsatz
„So bindet euch“
Der Zweckbindungsgrundsatz ist das Herzstück unseres europäischen Datenschutzverständnisses. Die Datenschutzgrundverordnung bestimmt die Zweckbindung in Art. 5 Absatz 1 b) als grundsätzliches Prinzip für die Verarbeitung von Daten. Demnach dürfen Daten grundsätzlich nur für den Zweck verwendet werden, für den sie zu Beginn erhoben wurden.
Damit liegt auf der Hand, dass sich die erste Daten-Anlaufstelle damit auseinandersetzen muss, wie die Daten anschließend genutzt werden. Anknüpfungspunkt ist deshalb die nachfolgende Tätigkeit des Data Scientists, denn die alles entscheidende Frage ist: Wie weit darf er mit seiner Analyse gehen und ist diese Analyse dann noch von einer entsprechenden rechtskonformen Einwilligung oder einer anderen Rechtsgrundlage gedeckt?
Der Zweckbindungsgrundsatz bindet den Data Scientist, im wahrsten Sinne des Wortes, an einem, vor der Datenverarbeitung festgelegten und eindeutigen Zweck. In der Regel ist deshalb eine möglichst weite Zweckbestimmung (sog. broad consent) bei der Einwilligung für den Data Scientist von Vorteil. Allerdings sind generalisierende und abstrakte Zweckbestimmungen (sog. blanket consent) in einer Einwilligungserklärung als rechtswidrig zu erachten.
Wortlaut: Wenn der Art. 5 Abs. 1 lit. b DSGVO von eindeutigen Zwecken spricht, dann meint er das auch so.
Dem Betroffenen müsste daher ausführlich aufgezeigt werden, wie „seine“ Daten vom Data Scientist genutzt werden. Allzu viel Auslegungsspielraum hinsichtlich der Bestimmtheit der Zwecksetzung lässt der Verordnungsgeber nicht zu, insbesondere vor dem Hintergrund des Erwägungsgrundes 33 der DSGVO. Hier wird für Forschungszwecke eine „kleine“ Ausnahme ergänzt, sodass bereits im Umkehrschluss daraus folgen könnte, dass eine extensive Handhabung für kommerzielle Zwecke unerwünscht ist. Ergänzung, deshalb, weil die Erwägungsgründe nicht rechtsverbindlich sind. Aber auch aus historisch gewachsenen Gründen ist der Zweckbindungsgrundsatz eher eng als weit auszulegen.
Wenn wir also die DSGVO freiheitsrechtsorientiert begreifen, müssten wir annehmen: Je weiter der Zweck formuliert wird, desto eher fällt man im Sinne der DSGVO in einen rechtswidrigen Bereich der Zwecksetzung.
Biobankforschung als Vorbild?
Als Vorbild für eine weitreichende Einwilligung, insbesondere unter dem Geschichtspunkt der Nachnutzung der Daten, könnte das „broad consent“-Konzept aus der Biobankforschung dienen. Das 5-Säulen Prinzip der Biobankforschung setzt vor allem auf seine ausdifferenzierten Einwilligungen und seine Kompensationsmaßnahmen. Allerdings kann sich die Forschung der Biobanken auch auf ein allgemeines Interesse (Das Wohl der Menschheit) berufen, wohingegen Data Science – Anwendungen häufig kommerzielle Individualinteressen einzelner Auftraggeber darstellen.
Wie weit darf es sein? Supervised und Unsupervised
Des Weiteren ist äußerst fraglich, ob die ursprüngliche Einwilligung, als Legitimation für die nachfolgende Datenverarbeitung, derart weit reichen darf, dass der Data Scientist die Daten auch völlig aus dem Zusammenhang reißen dürfte. Hier kommen die im ersten und zweiten Teil besprochenen Data Science Modelle ins Gespräch. Im sogenannten Supervised Modell (Überwachtes Verfahren) ist der Zweck vorgegeben und damit im Vorfeld besser zu bestimmen. Der Data Scientist beweist mit bereits vorhandenen Erfahrungssätzen, ob die Hypothese (der Zweck) zutrifft oder eben nicht. Allerdings ist auch hier zu beachten, dass die Zusammenführung und die Kombination von Daten, neue Informationen liefern könnte und dieser Vorgang im Sinne des Art. 4 Nr. 2 DSGVO wiederum eine erneute Datenerhebung darstellt. Hierfür ist dann auch eine erneute rechtliche Legitimation erforderlich.
Beim Unsupervised Modell (Unüberwachtes Vefahren) ist die Lage wesentlich komplizierter. Hier arbeitet der Data Scientist, ohne ein Ziel vor Augen zu haben. Die Zwecksetzung in einer Planungsphase eines Data Science-Projekts scheint im Sinne des Art. 5 Abs. 1 lit. b DSGVO unmöglich zu sein.
Zweckänderung
Einige betrachten den Art. 6 Abs. 4 DSGVO daher als ein Instrument, dass hier Abhilfe schaffen könnte. Art. 6 Abs. 4 DSGVO ist im Vergleich zum alten Datenschutzrecht ein Novum und normiert die Zulässigkeit von Zweckänderungen unter der Prämisse der sog. Zweckvereinbarkeit. Das bedeutet, dass im Falle einer Zweckvereinbarkeit, die bereits zuvor erhobenen Daten für andere Zwecke weiterverwendet werden können.
Die Zweckvereinbarkeit bestimmt die Kompatibilität zwischen dem ursprünglichen Zweck für die Erhebung der Daten und dem neuen Zweck der nachfolgenden Weiterverarbeitung der Daten. Dieser Kompatibilitätsnachweis ist essenziell für das Unsupervised Model, da in diesem Modell der ursprüngliche Erhebungszweck vom neuen Weiterverarbeitungszweck oftmals auseinanderdividiert.
Der Art. 6 Abs. 4 DSGVO liefert dem datenverarbeitenden Verantwortlichen zur Hilfestellung Vergleichskriterien (a)-(e), anhand dessen er die Kompatibilität zwischen dem alten und dem neuen Zweck beurteilen kann. Das hört sich schöner an als man meinen könnte. Aber Fakt ist, dass die Vergleichskriterien sehr unscharf formuliert wurden und zusätzlich hierzu die niedergelegten Grundsätze der DSGVO in die Bewertung der Zweckvereinbarkeit mit einbezogen werden müssen, sodass eine Zweckvereinbarkeit schwer zu begründen ist.
Vergleichskriterien – Zweckvereinbarkeit
Im ersten Vergleichskriterium (a) ist die Verbindung, oder Nähe, der beiden Zwecke zu beurteilen. Auch hier gilt, je weiter die Verbindung auseinander liegt, desto wahrscheinlicher ist von einer Unvereinbarkeit der Zwecke auszugehen.
Die Art. 29-Datenschutzgruppe, das unabhängige Beratungsgremium der Europäischen Kommission in Angelegenheiten des Datenschutzes, nimmt eine Verbindung bspw. dann an, wenn der alte Zweck den neuen Zweck als „logische“ Schlussfolgerung enthält. Wenn die Daten also mit dem Analysezweck zur Optimierung erhoben wurden, könnten Anwendungsprogramme für das maschinelle Lernen, eine logische Schlussfolgerung in diesem Datenverarbeitungsprozess darstellen. Sie könnten aber auch als ziellose Wertgenerierung gegen den Willen des Betroffenen betrachtet werden. Anknüpfungspunkt für die Beurteilung ist der Betroffene mit seinem Personenbezug und nicht die Bedürfnisse des Unternehmens, dass seine Geschäftsprozesse optimieren will.
Wenn also Data Science Analysen ihr Hauptaugenmerk auf die Interessen des Betroffenen richten und letztlich diese Daten zu Optimierungszwecken nutzen würden, dann könnte man von einer engen Verbindung zwischen den Zwecken ausgehen. Oftmals geht es aber um die Optimierung von Geschäftsprozessen, sodass dieses Kriterium in vielen Anwendungsszenarien nicht weiter hilft. Andere wiederum betrachten derartige Analysemethoden prinzipiell als unvereinbar mit dem alten Zweck, weil in derartigen Analyseverfahren nicht nur die erhobenen Daten genutzt werden, sondern eben auch „fremde“ Daten miteinbezogen werden. Auch das ist nicht von der Hand zu weisen, da Data Scientists nicht nur mit einem einsamen erhobenen Datum hantieren, sondern üblicherweise mit einer Variation an Daten.
Das zweite Vergleichskriterium (b) betrachtet den Zusammenhang, in dem die personenbezogenen Daten erhoben wurden, insbesondere hinsichtlich des Verhältnisses zwischen dem Betroffenen und dem datenverarbeitenden Verantwortlichen. Nach dem Erwägungsgrund 50 der DSGVO ist zum einen der Kontext der Datenverarbeitung und zum anderen die vernünftigen Erwartungen des Betroffenen, in Bezug auf die weitere Verwendung dieser Daten, zu berücksichtigen.
Daher ist im Besonderen auch darauf zu achten, dass die Daten grundsätzlich nicht an sogenannte Dritte übermittelt werden, sondern im Verhältnis zwischen dem Betroffenen und dem Verantwortlichen verbleiben. Die vernünftigen Erwartungen eines Betroffenen könnten an dieser Stelle mit den Regelungen des Verbraucherschutzes verglichen werden. Als Verantwortlicher sollte man sich also stets die Frage stellen: Konnte der Betroffene mit dem neuen Zweck rechnen? Ist der neue Zweck absehbar oder eher unerwartet für ihn? Das bedeutet im Umkehrschluss für den Verantwortlichen, dass er im alten Zweck, umfassend darlegen muss, welche Ziele er verfolgt. Aber genau das stellt sich im Unsupervised Verfahren, als zielloses Verfahren, als sehr schwierig dar, sodass nur eine abstrakte Umschreibung möglich wäre – und Blanko-Einwilligungen sind und bleiben unzulässig (Erwägungsgrund 42).
Abschließend sind die Folgen, die die beabsichtigte Weiterverarbeitung für den Betroffenen hat und die geeigneten Garantien beim ursprünglichen als auch beim beabsichtigten Weiterverarbeitungsvorgang (also bei alten sowie beim neuen Zweck), zu begutachten. Folgebegutachtungen kennen wir bereits aus der Datenschutzfolgenabschätzung nach Art. 35 DSGVO. Insbesondere Data Science-Praktiken erfordern aufgrund ihrer einflussreichen Tragweite bei Entscheidungssystemen eine sehr sensible Datenschutzfolgenabschätzung. Die geeigneten Garantien umschreiben insbesondere die technischen und organisatorischen Maßnahmen zur Sicherung des Datenschutzes. Art. 6 Abs. 4 e) spricht hier beispielhaft von Verschlüsselungen oder Pseudonymisierungen. Wie bereits oben erläutert, erfordern Data Science-Praktiken daher hohe technische und organisatorische Maßnahmen, um diese Zielvorstellung zu gewährleisten.
Scheitern der Zweckvereinbarung
Scheitert eine Zweckvereinbarung nach Art. 6 Abs. 4 DSGVO, bedeutet das natürlich nicht, dass anderweitige Legitimationsgrundlagen dem Unsupervised Modell verwehrt bleiben. Erforderlich wäre eine neue Legitimation aus Art. 6 Abs. 1 a-f, also bspw. eine erneute Einwilligung. Aber auch hier stünde man vor der gleichen Problematik, sich für jede Anwendung neue Legitimationen zu suchen.
Folgt man dieser Interpretation der DSGVO, so könnte der Data Scientist mit seinem geliebten Unsupervised Modell unter diesen Umständen nur im begrenzten Maße voranschreiten. Denn ein Unsupervised Modell erfordert, um effektiv arbeiten zu können, langfristig eine abstrakte Zwecksetzung.
Abschließend lässt sich festhalten, dass dafür Sorge zu tragen ist, dass eine zuverlässige Entfernung des Personenbezugs und die Sicherung dessen zu erfolgen hat, bevor die Data Scientists die Eule nach Athen tragen. Die Implementierung von kluger und robuster Data Governance könnte für dieses Unterfangen und weitere Maßnahmen hilfreich sein.
Allgemein lässt sich aber sehr schnell erahnen, dass die DSGVO auf die künftigen Big Data Praktiken nicht ausreichend vorbereitet war und einige offene Fragen hinterlässt. Man könnte meinen, die DSGVO versucht wie das BGB, alle Rechtsfelder durch allgemeine Rechtsbegriffe zu befriedigen.
Das wird ihr in diesen disruptiven Zeiten mit Sicherheit nicht gelingen!