Die menschliche Komponente bei der Entwicklung von Algorithmen

Rebekka Rupprecht

An der folgenden Interviewstudie haben fünf Personen, die entweder Informatik studieren oder im Fachbereich arbeiten, teilgenommen. Das Interview teilte sich in vier Themenbereiche auf, zu welchen jeweils mehrere Fragen gestellt wurden.

Quelle: Pixabay

Über den Umgang mit Diskriminierungsstrukturen in digitalen Entwicklungsprozessen

Bild: Pixabay

Zu Beginn wurden zwei lernbasierte Systeme vorgestellt, die die aktuellen Problematiken in Bezug auf die Übertragung von Diskriminierungsstrukturen auf technische Artefakte verdeutlichen sollten.
Das Recruitingprogramm das von Amazon entwickelt wurde, um Bewerbungsprozesse zu unterstützen, ist das erste Beispiel. Dieses System lernte in der Entwicklungsphase anhand von akzeptierten Bewerbungen durch welche Merkmale sich eine gute Bewerbung auszeichnet. Das Resultat war ein Programm, das Frauen diskriminierte und Bewerbungen von Männern bevorzugte.
Als zweites Beispiel wurde ein System vorgestellt, das in den USA für die Berechnung des Rückfallrisikos von straffälligen Personen entwickelt wurde. Das System verwendete als Datengrundlage Fragebögen, die von straffälligen Personen selbst ausgefüllt oder Fragebögen, die über sie ausgefüllt wurden. Die Hautfarbe der Menschen wurde in dem Fragebogen nicht thematisiert. Resultat war ein Programm, das systematisch People Of Color diskriminierte, indem für diese Personen viel häufiger als im Vergleich zu weißen Personen, ein zu hohes Rückfallrisiko berechnet wurde. Das berechnete Rückfallrisiko für weiße Menschen hingegen wurde häufiger zu niedrig vorhergesagt.

Wie kommen die Diskriminierungsstrukturen in die Systeme?

Nachdem die beiden Systeme vorgestellt wurden, sollten die Teilnehmenden aktuelle Problematiken und mögliche Ursachen skizzieren. Die folgende Abbildung zeigt eine schematische Darstellung der Antworten. Die Wörter wurden nach einem ersten offenen Kodieren und Querlesen (bzw. Hören des aufgezeichneten Interviews) ausgewählt, stellen aber keine abschließende Auswertung dar.

Als Ursache für die diskriminierenden Systeme wurden häufig die Datensätze genannt, die als sogenannte Ground Truth für das System dienen und während des Trainings eingesetzt werden. Die Teilnehmenden erläuterten, dass Vorurteile in den Datensätzen auf das System während des Trainings übertragen werden und das System diese dadurch erlernt. Sind beispielsweise in dem Trainingsdatensatz des Recruitingsystems mehr Bewerbungen von Männern die angenommen wurden, so lernt das System, dass das Merkmal männlich in Verbindung mit einer guten Bewerbung häufiger auftritt als weiblich. Manche Teilnehmenden stellten fest, dass die Programme soziale Ungleichheiten abbilden können. Dies muss aber nicht unbedingt sein, es kommt dabei darauf an, welche Datensätze und welche Systeme verwendet werden. Als möglichen Ansatzpunkt um eine Lösung für die Problematik zu entwickeln wurde oft genannt, dass die Vorurteile aus den Datensätzen entfernt werden müssten. Dieser Ansatz wirft allerdings einige Fragen auf. Eine Person führte beispielsweise an, dass durch das manuelle Bearbeiten von Datensätzen das Engineering-Problem, welches wir eben gerade durch die lernbasierten Systeme zu lösen vorgaben, nicht abschließend zu lösen sei. Eine weitere offene Frage ist, wie ein „perfekt“ bereinigter Datensatz aussieht. Wird von Menschen entschieden nach welchen Diskriminierungsstrukturen die Datensätze bereinigt werden sollten, besteht die Gefahr, dass verschiedene Menschen verschiedene Schwerpunkte setzen und verschiedene Vorurteile benennen, da sie selbst auch schon „gebiased“ sind, das heißt auf der Grundlage von Vorurteilen ihre Umwelt betrachten. Ein Lösungsansatz für dieses Problem könnte sein, dass das Bereinigen der Daten ebenso durch ein technisches System verwirklicht wird.

Dieses „Bereinigen“ der Datensätze und damit unter Umständen Verringern der Anzahl an Daten könnte zu einer schlechteren Performanz der Systeme führen, da diese stark von der Größe der Datensätze abhängt. Außerdem ist auch unklar wie implizite Diskriminierungen verhindert werden könnten. Beispielsweise würden Frauen oft mit Adjektiven beschrieben, die bei Männern nicht verwendet werden. Würde man also bei den Daten das Merkmal Geschlecht entfernen, bildet sich dieses jedoch in anderen Merkmalen ab und die Diskriminierung gegenüber Frauen würde implizit durch andere Merkmale gelernt werden. Die Teilnehmenden sprachen auch die Frage an, was eine faire Entscheidung eines Systems ist. Dazu wurden verschiedene Definitionen von Fairness aufgelistet, z.B. die sogenannte Group Fairness und die individuelle Fairness.

Die Antworten auf die Fragen dieses Themenbereichs waren teilweise sehr unterschiedlich. Die Teilnehmenden beschrieben aber alle eine Problematik in den vorgestellten Systemen und sahen die Ursachen hauptsächlich in den Datensätzen.

Sind Entscheidungen von technischen Systemen objektiv?

Der nächste Themenbereich handelt von der Objektivität, die technischen Artefakten zugeschrieben wird. Folgende Wörterwolke spiegelt einen ersten Eindruck der Antworten wider.

Einige Teilnehmende haben sich, oder als Gegenfrage formuliert die Frage gestellt, was objektiv in diesem Sinne bedeutet und in welchem Bezug etwas objektiv ist. Andere Teilnehmende unterschieden zwischen den finalen Modellen, die Entscheidungen treffen können und den Algorithmen die dafür genutzt werden, um diese Modelle zu erstellen. Die Lernverfahren, die zum Training von Entscheidungsmodellen eingesetzt werden, können ihrer Meinung nach als objektiv bezeichnet werden, die resultierenden Entscheidungsmodelle allerdings nicht mehr. Die Lernstrategien an sich könnten als objektiv bezeichnet werden, da sie den Inputdaten keine Bedeutung zuschreiben. Die trainierten Entscheidungsmodelle können aber die Vorteile der Datensätze enthalten und können daher nicht mehr als objektiv bezeichnet werden. Andere Teilnehmende gaben an, dass es nicht möglich ist, dass das System eine objektive Entscheidung trifft, so lange dem System nicht gesagt wird, was es heißt eine objektive Entscheidung zu treffen. Voraussetzung für diese Objektivität wären Kriterien anhand von denen Diskriminierungsstrukturen aus den Datensätzen entfernt werden könnten. Dadurch könnte sichergestellt werden, dass ein „vorturteilsfreies“ System entsteht, das hinsichtlich festgelegter Kriterien objektive Entscheidungen trifft. In einer anderen Antwort wurde darauf hingewiesen, dass gerade diese Entscheidungsfindungsalgorithmen subjektiv sind und die Subjektivität der entwickelnden Person enthält. Die Subjektivität bezieht sich auf das Wissen und den Hintergrund der Person, die den Algorithmus entwickelt.

Welche Rolle spielen wir Menschen im Entwicklungsprozess?

Anschließend an die letzte Aussage im vorherigen Abschnitt, behandelt der folgende Abschnitt den Einfluss der Personen, die im Entwicklungsprozess beteiligt sind auf die resultierenden Systeme. In der folgenden Abbildung ist die Wörterwolke abgebildet.

Die Antworten auf diese Fragen waren teilweise wieder äußerst different. Hauptsächlich wurde sich darauf fokussiert, die Frage zu beantworten, ob und wie Entwicker_innen Kriterien für einen vorurteilsfreien Datensatz festlegen sollten. Eine häufige Antwort war, dass diese Kriterien nicht auf der individuellen Ebene entwickelt werden sollten, sondern, dass sie auf einer regulativen Ebene entstehen sollten. Es sollten also allgemein gültige Qualitätskriterien festgelegt werden, die im Entwicklungsprozess von Systemen als Tools verwendet werden könnten. Eine Forderung, die gestellt wurde war, dass es eine fachinterne und eine gesellschaftliche Debatte darüber geben muss, was als gerecht empfunden wird, sodass dies in die Kriterien einfließen kann und zur Algorithmenentwicklung verwendet werden kann. Eine andere Möglichkeit, um direkten Einfluss auf bestimmte Systeme zu nehmen, wurde in der eigenen Teilnahme am Entwicklungsprozess gesehen. Entwickler_innen hätten die Möglichkeit sich zu weigern in Projekten mitzuarbeiten, wenn sie diese nicht unterstützten wollen. Ebenso könnten entdeckte Vorurteile in Systemen angesprochen und damit auf die Problematik aufmerksam gemacht werden. Als einen weiteren wichtigen Aspekt der Einflussnahme in der Umsetzung von Entscheidungsfindungsalgorithmen wurde das Definieren einer „optimalen“ Entscheidung genannt. In diesem Schritt spielen die entwickelnden Personen eine wichtige Rolle, da sie das Formalisieren von Problemen übernehmen. Sie übersetzen die sprachlich formulierten Problematiken in einen Programmcode.

Zwischen Chance und Risiko – welche Potentiale und Gefahren stecken in den Systemen?

Im letzten Abschnitt wird die Frage behandelt, wie die Bias-Übertragungen auf Systeme zwischen Chance und Risiko zu bewerten sind.

Auf die Frage zum Standpunkt zwischen Chance und Risiko waren die Antworten wieder sehr vielfältig. Einige Teilnehmenden sahen eine Chance in dem Einsatz von statistischen Lernstrategien um Voruteile in Datensätzen zu erkennen. Außerdem könnten diese Systeme eingesetzt werden, um nicht nur die Technik zu verbessern sondern auch um gesellschaftliche Veränderungen anzustoßen. Generell sollte aber darüber nachgedacht werden, wann datenbasierte Systeme sinnvoll sind und in welchen Fällen regelbasierte Systeme, die auf das Wissen von Expert_innen basieren, eingesetzt werden sollten. Eine weitere Chance wurde darin gesehen, dass die Diskussion über Vorurteile und Diskriminierungen in den Systemen dazu führt, dass überhaupt über gesellschaftliche Ungleichheiten gesprochen wird. Ein anderer Aspekt, der angebracht wurde, betraf die Technikgläubigkeit, die Menschen den technischen Systemen entgegenbringen. Systeme die Diskriminierungen reproduzieren, wurden nicht als Rückschritt betrachtet, da sie keine neuen Vorurteile produzieren würden und im Vergleich zum Menschen einige Tätigkeiten schneller und billiger ausführen können. Als problematisch wurde allerdings angesehen, dass Menschen den Entscheidungen von technischen Systemen anders gegenüberstehen wie denen, die von Menschen getroffen wurden. Durch Algorithmen getroffene Entscheidungen würden weniger hinterfragt und kritisiert werden. Ein weiterer Aspekt in Bezug auf Chancen und Risiken von aktuellen Lernverfahren wurde in dem Bedarf nach einer Skala gesehen, die es ermöglichen soll, Algorithmen hinsichtlich ihrer Reproduktion von sozialen Ungerechtigkeiten einzuordnen. Darüber hinaus wurde von einer Person die Idee vorgestellt, dass die Lernsysteme das Potential hätten objektive Entscheidungen zu treffen, wenn die Kriterien für diese Entscheidungen festgelegt und implementiert wurden. Im Gegensatz dazu hätten Menschen keine Möglichkeit objektive Entscheidungen zu treffen, da sie ja nicht einfach „umprogammiert“ werden können. Außerdem wurde erneut darauf hingewiesen, dass der Programmcode auch immer die „Handschrift“ von der Person trägt, die ihn geschrieben hat. Als eine weitere Frage, die diskutiert werden sollte, wurden die Einsatzgebiete von lernbasierten Systemen genannt.


Fazit

Sollen technische Systeme Entscheidungen treffen, die unseren menschlichen Entscheidungen so ähnlich sind wie möglich, oder sollen die Entscheidungen bestimmten Wertevorstellungen und Richtlinien entsprechen?

Wie schon in einigen Abschnitten erläutert, wiesen einige Antworten der Teilnehmenden erhebliche Differenzen auf, teilweise enthielten sie aber auch große Gemeinsamkeiten. Es hat sich gezeigt, dass die Thematik der Vorurteile in lernbasierten Systemen als aktuelle Problematik und als Bereich benannt wurde, in dem es weitere Forschung wie auch Diskussion bedarf. Welche Rolle die Personen, die die Systeme entwickeln bei dem Lösungsweg haben, wurde unterschiedlich beantwortet. Eindeutig war jedoch, dass die Verantwortung nicht allein bei ihnen liegt und die Entscheidung, ob ein System fair entscheidet oder nicht, nicht von einer Person getroffen werden sollte. Um eine gesellschaftliche Debatte anzustoßen, muss allerdings die Problematik in die Öffentlichkeit getragen werden und allgemein verständlich dargestellt werden. Auch die Reflexion unserer Annahmen gegenüber technischen Systemen und unseren Interpretationen ihrer Entscheidungen müssen ins öffentliche Bewusstsein gelangen, um diskutiert werden zu können, wie die Systeme entwickelt werden und welche konkreten Aufgaben diese übernehmen sollen. Eine Frage, die dazu verhandelt werden sollte, ist, wie wir als Menschen und als Gesellschaft mit Systemen umgehen wollen, die die gleichen „menschlichen“, fehlbaren und unter Umständen von Vorurteilen beeinflussten Entscheidungen treffen wie wir Menschen. Welche Erwartungen stellen wir also an diese Systeme. Außerdem ist es auch wichtig, klar zu formulieren, welches Ziel durch diese Systeme erreicht werden soll. Sollen die Systeme Entscheidungen treffen, die unseren menschlichen Entscheidungen so ähnlich sind wie möglich, oder sollen die Entscheidungen bestimmten Wertevorstellungen und Richtlinien entsprechen? Die Interviews haben einige spannende Fragen beleuchtet und es wurden neue Fragen formuliert, die die Grundlage bilden könnten für einige weitere Untersuchungen sowie für kontroverse Debatten.

Quellen

Martin Holland, „Amazon: KI zur Bewerbungsprüfung benachteiligte Frauen“ 10/2018, heise online https://www.heise.de/newsticker/meldung/Amazon-KI-zur-Bewerbungspruefung-benachteiligte-Frauen-4189356.html
Martin Holland, „US-Justiz: Algorithmen benachteiligen systematisch Schwarze“ 05/2016, heise online https://www.heise.de/newsticker/meldung/US-Justiz-Algorithmen-benachteiligen-systematisch-Schwarze-3216770.html


Dieser Blogeintrag entstand im Rahmen des Masterseminars On-/Offline – Gender and Body Performances und wurde im Rahmen des Symposiums Digitalisierung mitdenken – mitgestalten vorgestellt.