Data Science und Recht (4) – Profiling, automatisierte Entscheidungen und inputcontrol

Nachdem wir uns mit der Grenzsetzung in der Datenverarbeitung beschäftigt haben, widmen wir uns nun dem sogenannten Profiling. Denn wer Daten verarbeitet, wird sie schließlich auch nutzen. Die Datenschutzgrundverordnung setzt hier zum einen Grenzen im Bereich der Erstellung von Profilen und zum anderen im Bereich der automatisierten Entscheidungsfindung. In unserem letzten Teil soll es um die Anwendung der Daten im Profiling gehen.

Was ist Profiling?

„Profiling“ ist dem Gesetze nach, jede Art der automatisierten Verarbeitung personenbezogener Daten, die darin besteht, dass diese personenbezogenen Daten verwendet werden, um bestimmte persönliche Aspekte, die sich auf eine natürliche Person beziehen zu bewerten, insbesondere um Aspekte bezüglich Arbeitsleistung, wirtschaftlicher Lage, Gesundheit, persönlicher Vorlieben, Interessen, Zuverlässigkeit, Verhalten, Aufenthaltsort oder Ortswechsel dieser natürlichen Person zu analysieren oder vorherzusagen (Art. 4 Nr. 4 DSGVO).

Kurzum: Wenn das Verhalten, die Bedürfnisse und die Interessen einer Person analysiert und bewertet werden und sich hieraus im besten Falle relevante Zusammenhänge ergeben und Schlussfolgerungen entstehen, dann sprechen wir von Profiling. Da Data Science Praktiken dieses üblicherweise zur Folge haben, unterfallen sie tendenziell auch dieser Definition (Art. 4 Nr. 4 DSGVO). Allerdings fallen ausreichend anonymisierte Daten weiterhin nicht hierunter.

Willkommen im Wunderland der Juristen –Automatisierte Entscheidungen

Auf der Definition des Art. 4 Nr. 4 DSGVO beruht die zentrale Vorschrift des Art. 22 DSGVO, welcher grundsätzlich jedem das Recht einräumt, keiner Entscheidung auf der Basis einer ausschließlich automatisierten Verarbeitung – Profiling als besondere Erscheinungsform mit eingeschlossen – unterworfen zu werden, die rechtliche Wirkung entfaltet oder ihn in anderer Weise erheblich beeinträchtigt.

Hier hatte der Verordnungsgeber vermutlich auch die großen Big Data-Tätigkeiten im Blick. Denn das Ziel dieser Norm scheint es zu sein, rein automatisierte Bewertungen und Entscheidungen, ohne dass eine individuelle Beurteilung eines Menschen dahintersteht, zu regulieren. Der Betroffene soll demnach nicht ins Zahnrad nicht nachvollziehbarer technischer Automatismen geraten. Anders als die üblichen Rechtsgrundlagen in der DSGVO ist der rechtliche Anknüpfungspunkt nicht die „Datenerfassung“ als solche, sondern der Weg zum Ergebnis (also die Analysemethode) und das Ergebnis (der Analyse) selbst.

„rechtliche Wirkung“ oder „erhebliche Beeinträchtigung“ durch das Profiling

Erforderlich ist zunächst aber einmal eine „rechtliche Wirkung“ oder eine „erhebliche Beeinträchtigung“ durch das Profiling.

Rechtliche Wirkungen können nachteilhaft wie vorteilhaft sein. Entscheidend sind nicht die wirtschaftlichen Verhältnisse oder die persönlichen Befindlichkeiten des Betroffenen, sondern die Veränderung der rechtlichen Position (bspw. bei einer Kündigung oder einer Vertragsauflösung). Ob eine personalisierte Werbung oder Prizing derart in die rechtliche Position eines Betroffenen durchschlägt, sodass sie eine rechtliche Wirkung entfaltet, gilt bisher als strittig. Einerseits sind Entscheidungen im Sinne des Art. 22 DSGVO, einseitige Handlungen und damit gerade nicht Teil einer auf Privatautonomie basierenden Vertragsverhandlung, andererseits könnte man die personalisierte Werbung/Prizing als erhebliche Beeinträchtigung „in ähnlicher Weise“ einordnen. Die Anforderung an einer sog. rechtlichen Wirkung sind daher eher restriktiv zu begreifen.

Verändert sich die rechtliche Stellung hingegen nicht, dann kommt immer noch das Auffangkriterium der „erheblichen Beeinträchtigung“ in Betracht. Diese Beeinträchtigung hat „in ähnlicher Weise“ zur rechtlichen Wirkung zu erfolgen. Der Erwägungsgrund 71 der DSGVO nennt hier beispielhaft die „automatische Ablehnung eines Online-Kreditantrags“ oder „Online-Einstellungsverfahren ohne jegliches menschliche Eingreifen“.

Erheblich ist die Beeinträchtigung demnach dann, wenn sie den Betroffenen in Entscheidungen oder im Verhalten auch nachhaltig belastet und in Bereiche dringt, die sich bspw. auf seine wirtschaftlichen Verhältnisse oder auf seine persönlichen Interessen (wie der Ausschluss durch Diskriminierung) auswirken. Die Art.-29-Gruppe geht noch einen Schritt weiter und bezieht die Zugangsmöglichkeiten im Bereich des Arbeitsmarktes, der Bildung und der Gesundheit mit ein (WP251rev.01, S. 23/24).

Zu beurteilen hat dies allerdings nicht der Betroffene selbst. Die Begutachtung einer derartigen Beeinträchtigung erfolgt anhand objektiver Kriterien aus der Sicht eines Durchschnitts-Betroffenen (Der Informatiker schüttelt den Kopf).

Sie müssen wissen, Juristen gehen gerne in die Tiefe des Gesetzes. Strukturiertes und klares Denken, das liebt er, der Jurist.

Aber bei der Begutachtung technischer Hintergründe wird er erstaunlicherweise sehr oberflächlich.

Was ist mit der Begutachtung der technischen Anwendung?

Datenqualität, Datenvalidität und Verfahrensvalidität

So könnte man bspw. die Ablehnung eines Kredits aufgrund eines Scorewertes und damit das Zustandekommen eines Vertrages als „erhebliche Beeinträchtigung“ einstufen. Allerdings macht es unserer Auffassung nach einen wesentlichen Unterschied, welche Lernmodelle/-Stile, Verfahren und Lerndatensätze letztlich genutzt wurden, um die Werte zu ermitteln.

Kurzum: Wessen Entscheidungsgrundlagen fragwürdig sind, der kann auch nur fragwürdige Entscheidungen treffen.

Sie müssen wissen, Juristen gehen gerne in die Tiefe des Gesetzes. Mit systematischen, grammatikalischen, teleologischen und historischen Auslegungsmitteln kennen sich Juristen blendend aus. Strukturiertes und klares Denken, das liebt er, der Jurist.

Aber bei der Begutachtung technischer Hintergründe wird er erstaunlicherweise sehr oberflächlich.

Bei der Beurteilung der „Beeinträchtigung“ lohnt sich daher ein Blick in den Data Science-Kosmos. Während im Supervised-Verfahren „nur“ Erfahrungsdatensätze verwendet werden, die tatsächlich passiert sind, also eine tatsächliche und reale Basis existiert um bspw. die Kreditwürdigkeit eines Betroffenen zu beurteilen, werden im Unsupervised-Verfahren die Prognosen und Werte rein statistisch ermittelt und müssen daher auch nicht unbedingt der Realität entsprechen. Bei aller Liebe zu unserer Gastautorin „Die Mathematikerin“, könnten die Resultate ihrer Arbeit auch nur reine Vermutungen sein oder gar manipuliert. Lern- und Testdatensätze sind nicht objektiv vom Himmel gefallen und werden durch machine learning und deep learning nicht objektiver. Die Präzision der Ergebnisse, ob nun durch machine learning oder deep learning erzeugt, liegen nun mal nicht immer bei 100 % und haben dementsprechend auch keinen absoluten Anspruch auf die Wahrheit.

Das will im Zweifel ein Data Scientist auch nicht erreichen. Als Data Scientist arbeitet man immer mit Wahrscheinlichkeiten und tappt oftmals im Dunklen.

Was es braucht sind Rahmenbedingungen und Qualitätsstandards, an die sich der Data Scientist letztlich richten kann.

Demgemäß bedarf es einer Begutachtung der technischen Datengrundlagen, also der Datenqualität und der Datenvalidität der verwendeten Lerndatensätze.

Hierauf rekurriert letztlich auch Art. 5 Abs. 1 lit. d) DSGVO, der im Hinblick auf unrichtige Daten, dem Betroffenen ein Recht zur Berichtigung oder Löschung gewährt. Strittig bleibt allerdings wie absolut der Begriff „Richtigkeit“ verstanden wird.

Oft verkannt wird neben der Datenvalidität, die Verfahrens- und Modellvalidität. Darüber hinaus wäre es daher begrüßenswert, dass die angewendeten Verfahren und Methoden in eine rechtliche Begutachtung miteinbezogen werden (Verfahrensvalidität). Denn allzu oft wird vergessen, dass jede Verfahrensart unterschiedliche Zusammenhänge und Korrelationen aufdecken kann.

Neben der Datenrichtigkeit und der Datenqualität der Lerndatensätze sind in einer näheren Betrachtung auch die Referenzdaten denklogisch miteinzubeziehen. Stichwort UI – User Interface. Welche Verhaltensweisen des Users eines Online-Shops könnten bzw. dürften eine Referenz für künftige User bilden?

Die Liste der technischen Begutachtungen für eine datenschutzrechtliche Beurteilung sind endlos. Unter dem Strich wäre es daher sicherlich sinnvoll für die Ermittlung einer „erheblichen Beeinträchtigung“ auch die technischen und mathematischen Methoden zu beleuchten. Die DSGVO bleibt hier „technikneutral“ und nimmt derartige Differenzierungen leider nicht oder nicht konkret genug vor. Damit bleibt das Ganze ein Thema für künftige Gesetzgebungsdebatten.

„ausschließlich“

Wenn nun eine rechtliche Wirkung oder eine erhebliche Beeinträchtigung vorliegt, dann dürfte die Entscheidung weiterhin nicht auf einer ausschließlich automatisierten Verarbeitung gestützt werden. Nach dem Erwägungsgrund 71 ist das der Fall, wenn die Entscheidung „ohne jegliches menschliche Eingreifen“ erfolgt.

Welche Tragweite dieses „menschliche Eingreifen“ oder besser gesagt, personale Verantwortung haben soll, definiert die DSGVO allerdings nicht konkret. Auch hier könnten sich die Juristengeister künftig wieder scheiden. Reicht hier ein Drag-und-Drop Sachbearbeiter? Oder erfordert die Vorschrift einen gewissenhaften Spezialisten, der vor jeder Anwendung eine erneute Prüfung vornimmt und über ein Ermessen verfügt? Vermutlich tendiert die DSGVO zu einem Hybrid. Systeme die lediglich ein „Ja und Amen“ des Mitarbeiters erfordern, sind vermutlich nicht erwünscht. Eigene Betrachtungen und Erwägungen des Personals sind am Ende entscheidend.

Wichtig: Nach dem Wortlaut des Gesetzes bleiben folglich entscheidungserleichternde – und unterstützende Systeme außen vor. Die gleiche Frage stellt sich in der Anwendung von Blockchain-Technologien.

Welche Qualitätsanforderungen?

Welche mathematischen Grundlagen?

Schutzniveau ade!

Damit hört sich der Art. 22 DSGVO größer an, als er tatsächlich ist. Aber gerade hier wäre es angebracht gewesen, sich mit den mathematischen Grundlagen zu beschäftigen und allgemeine Qualitätsanforderungen zu postulieren.

Des Weiteren müssten man die Anforderungen, je nach Tätigkeit und Lernstil/-modell, differenzieren. Denn wenn die Daten lediglich abgeglichen werden, sind die Anforderungen an die personale Mitwirkung logischerweise deutlich geringer als bei einem Unsupervised Modell und bei Machine Learning-Praktiken, in denen selbst der Data Scientist den Überblick verlieren könnte. Art. 22 DSGVO lässt sich über diese Problematik allerdings nicht aus und schmeißt alle Datenanalyse-Methoden und Verfahren in einen Topf.

Die personale Verantwortung dürfte vom Standpunkt des zukünftigen Rechts aus von mehr fachlicher Expertise geprägt sein und sicherlich auch einen Spielraum zu Korrekturen (Ermessen) erhalten. Ansonsten bleibt der Art. 22 DSGVO seiner genuinen Versprechung, Menschen vor Entscheidungen, die aus einer anonymen Aggregierung entspringen, sehr weit entfernt.

Der Data Scientist, ein wilder Stier?

Von vielen Juristen oftmals verkannt, darf an dieser Stelle nicht unerwähnt bleiben, dass sich die üblichen Data Science-Praktiken durch eine gewissenhafte Herangehensweise hervorheben (Die Mathematikerin nickt stolz). So stürzen sich die Data Scientists, wie vielleicht einige meinen, nicht wie ein Stier auf ihre diversen Datensätze und kombinieren alle wild miteinander herum. Vielmehr wird zunächst mit allen Beteiligten und Bereichsspezialisten erst eine Strategie konzipiert, um zu erodieren, welche Methode für welches Szenario sinnvoll erscheint und welche Datensätze für eine Kombination in Frage kommen könnten. Auch ein Data Scientist hat kein böswilliges Interesse an „falschen“ und unvollständigen Daten. Zudem werden die Resultate einer Analyse nicht kritiklos übernommen. Denn nicht jede mathematische Analysemethode produziert Wahrheiten und anschließend eine überragende Effizienzsteigerung im Unternehmen, sondern auch Fehler oder völlig irrationale Resultate. Demnach wird im Anschluss jedes Resultat, jeder Wert, jede Prognose auf seine Plausibilität überprüft. Eine etwaige personale Verantwortung ist dem Data Scientist daher nicht fremd, sondern für ein „gutes“ Resultat notwendig und damit seiner Arbeit inhärent.

Ausnahmen

Natürlich gibt es auch Ausnahmen. Art. 22 Abs. 2 DSGVO sieht 3 Ausnahmetatbestände vor. Die ausdrückliche Einwilligung des Betroffenen (ausdrücklich, also kein „Kopfnicken“ als Einwilligung), wenn die Entscheidung für die Erfüllung eines Vertrages (auch bei Aufnahme von Vertragsverhandlungen) mit dem Betroffenen erforderlich ist oder wenn sie durch eine nationalstaatliche Regelung ausdrücklich zugelassen ist (siehe § 31 BDSG).

Liegt eine ausdrückliche Einwilligung für eine automatisierte Entscheidung nicht vor, dann könnte sie aus vertraglichen Erfordernissen erlaubt sein. Die Erforderlichkeit lässt sich je nach Lesart auf die verschiedenste Art und Weise interpretieren. Die Datenschutzbehörden beschränken die Erforderlichkeit nur auf das „absolut Notwendige“, andere wiederum billigen dem Begriff mehr Spielraum zu, sodass man zumindest davon ausgehen kann, dass nicht jede automatisierte Entscheidung, die sich völlig vom Vertragszweck losgelöst hat, erforderlich ist. Des Weiteren dürfen keine milderen, gleich wirksamen Alternativen zur Entscheidung über einen Sachverhalt vorliegen. Bei der Prüfung der Kreditwürdigkeit als gesetzliche Pflicht (gem. § 18 a KWG) bleibt dem Profiling-Anwender allerdings gar keine andere Wahl, sodass sich die Erforderlichkeit aus dem Gesetz ergibt. Aber genauso gut können sich aus Praktikabilitätsgründen vertragliche Erforderlichkeiten ergeben, die selbstverständlich in einer Einzelfallprüfung genauer zu begutachten sind.

Letztlich entsteht ein enormes Abwägungspotenzial zwischen der Privatautonomie bzw. der Vertragsfreiheit und dem Recht des Betroffenen selbst zu entscheiden (informationelle Selbstbestimmung) und den Persönlichkeitsrechten.