D3: Bewertung der Software durch das PdV

Bewertungstool für das PdV

Nachdem das PdV im Rahmen des KIDD-Prozess-Schritts D2 in Kenntnis gesetzt wurde, ob und wie die PdV-Anforderungen in der Adaption bzw. Entwicklung der Software umgesetzt wurden bzw. wie der aktuelle Stand der Software ist, bewertet das PdV im Schritt D3 die Softwareanwendung in Bezug auf die Aspekte Transparenz, Verständlichkeit, Zieldienlichkeit und Fairness. Um sicherzustellen, dass das PdV die Software möglichst einfach, webbasiert und wenn nötig asynchron bewerten kann, wurde als Prototyp ein webbasiertes Bewertungstool mit dem Titel „Stellschrauben-Matrix“ entwickelt. Dieser Vorschlag dient als Orientierungshilfe und lässt sich auch durch individuelle Lösungen ersetzten.

Zu erreichen ist dieser Prototyp unter der Adresse: qperior.hypsi.de/dev/kidd

Ziel des Bewertungstools ist es, dass jede Stellschraube mit den Unterpunkten aus dem jeweils aktuellen Transparenzkatalog (Ziele, Daten, Regeln, Architektur) sichtbar ist und bei einem MouseOver eine kurze Erläuterung der einzelnen Unterpunkten eingeblendet wird. Die Aspekte Transparenz, Verständlichkeit, Zieldienlichkeit und Fairness, Steuerbarkeit werden dann auf die Stellschraubenkategorien abgebildet, sodass jede Stellschraube mit ihnen bewertet werden kann. Diese fünf Aspekte sind wiederum verschiedenen übergeordneten Qualitätskriterien zugeordnet. Als Bewertungsmöglichkeit gibt es einen Kreis als Steuer- und Anzeigeelement, der in 25%-Schritten ausgefüllt werden kann, um die passende Bewertung zu geben. Darüber hinaus gibt es ein Kommentarfeld pro Matrixfeld, in dem jede einzelne Bewertung der Stellschraube für ein Qualitätskriterium zusätzlich kommentiert oder Fragen hinterlassen werden können.

Zusätzlich gibt es unter der Stellschrauben-Matrix die Möglichkeit, allgemeine offene Fragen zu formulieren sowie Anregungen zu den Qualitätskriterien/Stellschrauben abzusenden. Die ganze Bewertung kann anonym oder optional auch namentlich stattfinden.

Verständlich

Qualitätskriterien: QRE 2, QRE 3

Verständlichkeit ist maßgeblich für die darauf folgenden Kriterien der Transparenz und Fairness. Das PdV muss das AES/KI-System, mögliche übergeordnete Stellschrauben und beim einzuführenden System vorhandene Stellschrauben auf eine allgemeine Weise verstanden haben. Es ist hierbei kein vollständiges technisches Wissen nötig, um im Anschluss Fairness, Zieldienlichkeit und Transparenz zu bewerten. Zusätzliche Unterstützung in technischer Hinsicht kann ein:e KIX bieten, der/die kritischen Punkte, die bis dato unter den Tisch gefallen sind, gezielt anspricht und so ein ganzheitliches Verständnis des Systems garantiert. Auch weitere Spezialist:innen wie DSGVO-Beauftragte können diesen Prozess unterstützen.

Transparent

Qualitätskriterien: QP 2

Transparenz liegt vor, wenn die Bestandteile, Vor- und Nachteile, sowie die kritischen Punkte des AES/KI-Systems offen dargelegt sind. Nachdem die Bestandteile der Software, die Stellschrauben und eventuell nicht vorhandene Stellschrauben des Systems verständlich gemacht wurden, geht es in dieser Kategorie darum, wie transparent das System ist. Fehlen in manchen Kategorien die richtigen Stellschrauben bzw. gibt es Limitationen, muss hier diskutiert werden, ob dies die Transparenz beeinflusst und wenn ja wie sehr. Wurde sich z.B. bei der Algorithmenauswahl für ein „Black-Box“-Model entschieden, muss hier bewertet werden, inwiefern die Methoden zur Interpretierbarkeit, die für solche Modelle zur Verfügung stehen, hinsichtlich deren Funktionsweise ausreichend Transparenz gewährleisten.

Zieldienlich

Qualitätskriterien: QE 3

Zieldienlichkeit erfasst, ob die jeweilige Stellschraube und deren Einstellung bzw. Einstellungsmöglichkeiten angemessen und ausreichend in Bezug auf das Ziel des einzuführenden AES/KI-Systems sind. Ausreichend beschreibt hier die Vollständigkeit, die vorliegen muss, um das gesetzte Ziel des Systems umsetzen zu können.

Beispiel: Es kann vorkommen, dass ein regelbasierter Algorithmus keine zufriedenstellenden Resultate liefert, sondern ein ML-Algorithmus verwendet werden muss. Dieser ist möglicherweise weniger transparent, bietet aber dafür die notwendige Performance. Ein Beispiel für fehlende Angemessenheit wäre hingegen der falsche Umgang mit Datenquellen. Werden unnötig viele Daten, vielleicht sogar personenbezogene Daten extrahiert, ohne dass sie signifikante Performanceverbesserungen des Systems mit sich bringen, kann die Verwendungsart der Datenquelle im Rahmen des Systems nicht mehr als zieldienlich angesehen werden.

Fair

Qualitätskriterien: QRE 1, QRE 2, QRE 3

Der Begriff (algorithmische) Fairness beschreibt die Idee, dass sich algorithmische Systeme fair verhalten oder Menschen fair behandeln sollten, d. h. ohne Diskriminierung aufgrund von sensiblen Merkmalen wie Alter, Geschlecht, Behinderung, ethnischer Herkunft, Religion, Weltanschauung oder sexueller Orientierung (Definition angelehnt an [1, S. 16]). Fairness in diesem Sinne umfasst also, inwieweit das AES/KI-System dieser Idee Rechnung trägt oder ihr entgegensteht. Gibt es Biases und wenn ja auf welchen Ebenen? Von welcher Art und von welcher Schwere sind sie? Diese Art von Fragen müssen hinsichtlich der Stellschrauben in den Kategorien Daten, Regeln und Architektur erörtert und beurteilt werden.

[1] Weerts, Hilde J. P. (2021): An Introduction to Algorithmic Fairness. (Link, 10.07.2023)

Last updated