https://bodybydarwin.com
Slider Image

Die Sprache trainiert künstliche Intelligenz, um die Vorurteile des Menschen zu reproduzieren

2022

Sprache dreht sich alles um Wiederholung. Jedes Wort, das Sie lesen, wurde von Menschen erschaffen und dann von anderen Menschen verwendet, um den Kontext, die Bedeutung und das Wesen der Sprache zu stärken. Wenn Menschen Maschinen zum Verstehen von Sprache trainieren, lehren sie Maschinen, menschliche Vorurteile zu reproduzieren.

"Die wichtigsten wissenschaftlichen Erkenntnisse, die wir zeigen und nachweisen können, sind, dass Sprache Vorurteile widerspiegelt", sagte Aylin Caliskan vom Center for Information Technology Policy der Princeton University. "Wenn AI auf menschliche Sprache trainiert ist, wird es diese Vorurteile unbedingt aufsaugen, weil es kulturelle Fakten und Statistiken über die Welt darstellt."

Caliskans Arbeit wurde zusammen mit den Co-Autoren Joanna Bryson und Arvind Narayanan letzte Woche in Science veröffentlicht . Im Wesentlichen stellten sie fest, dass, wenn jemand eine Maschine zum Verstehen der menschlichen Sprache trainiert, diese inhärenten Vorurteile ebenfalls aufgegriffen werden.

Beim Menschen ist der implizite Assoziationstest eine der besten Methoden, um auf Voreingenommenheit zu testen. Er fordert die Menschen auf, ein Wort wie „Insekt“ mit einem Wort wie „angenehm“ oder „unangenehm“ zu assoziieren und dann die Latenz oder die Zeit zu messen braucht, um diese Verbindung herzustellen. Menschen bezeichnen Insekten schnell als unangenehm und langsamer als angenehm, daher ist dies eine gute Metrik für Assoziationen.

Das Zögern in einem Computer zu testen, funktioniert nicht wirklich. Daher haben die Forscher eine andere Methode gefunden, um herauszufinden, welche Wörter Computer eher bereit sind, mit anderen zu assoziieren. Ähnlich wie die Schüler die Bedeutung eines unbekannten Wortes erraten, das nur auf den Wörtern basiert, die in der Nähe vorkommen, trainierten die Forscher eine KI, um Wörter, die online nahe beieinander erscheinen, zuzuordnen und Wörter, die nicht zuzuordnen sind.

Stellen Sie sich jedes Wort als Vektor im dreidimensionalen Raum vor. Wörter, die üblicherweise in denselben Sätzen verwendet werden, sind näher dran, und Wörter, die selten in Sätzen verwendet werden, sind Vektoren, die weiter entfernt sind. Je näher zwei Wörter sind, desto wahrscheinlicher verbindet die Maschine sie. Wenn die Leute "Programmierer" in der Nähe von "Er" und "Computer" sagen, aber "Krankenschwester" in der Nähe von "Sie" und "Kostüm", was die implizite Voreingenommenheit in der Sprache veranschaulicht.

Computer mit solchen Sprachdaten zu versorgen, um sie zu unterrichten, ist kein neues Konzept. Tools wie Stanfords Global Vectors for Word Representation, die vor diesem Artikel existierten, zeichnen Vektoren basierend auf ihrer Verwendung zwischen verwandten Wörtern auf. Zu den GloVe-Wortsätzen gehören 27 Milliarden Wörter aus 2 Milliarden Tweets, 6 Milliarden Wörter aus Wikipedia aus dem Jahr 2014 und 840 Milliarden Wörter aus einem zufälligen Netz aus dem Internet.

„Man könnte sagen, wie oft kommt die Leine in der Nähe von Katze vor?“ Und wie oft kommt die Leine in der Nähe von Katze vor "Hund" und "Wie oft tritt" Leine "in der Nähe von" Gerechtigkeit "auf, und das wäre ein Teil der Charakterisierung von" Hund " Wort «, sagte Bryson. Und dann können Sie diese Vektoren mit Kosinus vergleichen. Wie nah ist die Katze am Hund? Wie nah ist die Katze der Gerechtigkeit?

So wie ein impliziter Assoziationstest zeigt, welche Konzepte ein Mensch unbewusst für gut oder schlecht hält, hat die Berechnung des durchschnittlichen Abstands zwischen verschiedenen Wortgruppen den Forschern gezeigt, welche Vorurteile ein Computer in seinem Sprachverständnis gezeigt hat. Es ist bemerkenswert, dass Maschinen darauf trainiert sind, die Sprache zu verstehen, die aufgrund menschlicher Vorurteile in Bezug auf Blumen (sie sind angenehm) und Insekten (sie sind unangenehm) aufgenommen wurde, und Bryson sagte, dass dies eine bedeutende Studie wäre Alles, was es zeigte. Aber es ging tiefer.

"Es gibt einen zweiten Test, bei dem die Menge zwischen unseren Ergebnissen und den veröffentlichten Statistiken gemessen wird", sagte Caliskan. „Ich habe 2015 das Bureau of Labour Statistics aufgesucht und jedes Jahr veröffentlichen sie Berufsnamen sowie den Prozentsatz der Frauen und beispielsweise den Prozentsatz der schwarzen Amerikaner in diesem Beruf. Als ich mir die Zusammensetzung von 50 Berufsnamen ansah und ihre Zuordnung zu Männern oder Frauen berechnete, erhielt ich eine 90-prozentige Korrelation mit den Daten des Bureau of Labour, was sehr überraschend war, da ich nicht erwartete, eine solche Korrelation finden zu können von solchen verrauschten Daten. "

Computer greifen also Rassismus und Sexismus auf, indem sie berufsbezogene Wörter mit einem bestimmten Geschlecht oder einer bestimmten ethnischen Gruppe in Verbindung bringen. Ein Beispiel, das in dem Artikel hervorgehoben wird, ist "Programmierer", was kein geschlechtsspezifisches Wort im Englischen ist, aber durch seine Verwendung jetzt die Konnotation hat, ein männlicher Beruf zu sein.

"Wir hatten nicht gedacht, wenn Sie sagen, Programmierer sagen Sie männlich oder sagen Sie weiblich", sagte Bryson, "aber es stellt sich heraus, dass es dort in dem Kontext ist, in dem das Wort normalerweise vorkommt."

Maschinen, die mit Sprachdatensätzen wie GloVe trainiert wurden, werden diese Assoziation aufgreifen, da dies der aktuelle Kontext ist. Dies bedeutet jedoch, dass Forscher in Zukunft vorsichtig damit sein sollten, wie sie diese Daten verwenden, da die gleiche menschliche Voreingenommenheit auftritt eingebrannt. Als Caliskan das Tool für das Wikipedia-Wordset trainierte, das einem neutralen redaktionellen Standard unterliegt, stellte sie fest, dass es die gleiche Voreingenommenheit enthielt, die sie in der größeren Sammlung von Wörtern aus dem Internet gefunden hatte.

„Um sich der Voreingenommenheit bewusst zu sein, müssen wir sie quantifizieren, um die Voreingenommenheit aufzulösen“, sagte Caliskan. „Wie kommt die Voreingenommenheit in der Sprache zustande? Beginnen die Menschen voreingenommene Assoziationen, wenn sie der Sprache ausgesetzt sind? Das zu wissen, wird uns auch helfen, Antworten auf möglicherweise weniger voreingenommene Zukunft zu finden. “

Eine Antwort könnte sich auf andere Sprachen beziehen. Die Studie konzentrierte sich auf englischsprachige Wörter im Internet, so dass die Verzerrungen, die es bei der Verwendung von Wörtern findet, im Allgemeinen die Verzerrungen von englischsprachigen Menschen mit Zugang zum Internet sind.

"Wir betrachten verschiedene Arten von Sprachen und versuchen anhand der Syntax der Sprache zu verstehen, ob sie sich auf Geschlechterstereotype oder Sexismus auswirkt, nur aufgrund der Syntax der Sprache", so Caliskan. „Einige sind geschlechtslos, andere sind weniger geschlechtsspezifisch. Im Englischen gibt es geschlechtsspezifische Pronomen, aber die Dinge werden [in Sprachen] geschlechtsspezifischer, wie zum Beispiel Deutsch, wo die Substantive geschlechtsspezifisch sind, und es kann noch weiter gehen. Slawische Sprachen haben geschlechtsspezifische Adjektive oder sogar Verben, und wir fragen uns, wie sich dies auf die geschlechtsspezifische Voreingenommenheit in der Gesellschaft auswirkt. “

Zu verstehen, wie Voreingenommenheit in eine Sprache gelangt, ist auch ein Mittel, um zu verstehen, welche anderen impliziten Bedeutungen Menschen neben ihren expliziten Definitionen zu Wörtern hinzufügen.

"In gewisser Weise hilft mir das, über das Bewusstsein nachzudenken", sagte Joanna Bryson, eine der Autoren der Studie. „Was ist der Nutzen des Bewusstseins? Sie möchten die Erinnerung an die Welt haben, Sie möchten wissen, was normalerweise passiert. Das ist dein semantisches Gedächtnis. “

Die Veränderbarkeit der Sprache und die Art und Weise, wie sich der semantische Kontext durch den Gebrauch bildet, bedeutet, dass dies nicht die einzige Art sein muss, wie wir diese Welt verstehen.

"Sie wollen in der Lage sein, eine neue Realität zu schaffen", fuhr Bryson fort. „Die Menschen haben entschieden, dass wir unsere Sachen jetzt gut genug zusammen haben, damit Frauen arbeiten und Karrieren entwickeln können, und das ist absolut plausibel. Und jetzt können wir eine neue Vereinbarung aushandeln: „Wir werden nicht‚ den Programmierer er 'sagen, wir werden ‚den Programmierer sie' sagen, auch wenn wir über Singular sprechen, weil wir das nicht tun wollen, dass sich die Leute fühlen, als könnten sie keine Programmierer sein. “

Und wenn die Leute diese bestehenden Vorurteile nicht berücksichtigen, wenn sie Maschinen auf menschliche Sprache programmieren, werden sie keine unvoreingenommene Maschine schaffen, sondern eine Maschine, die die menschliche Vorurteile reproduziert.

"Viele Leute denken, Maschinen sind neutral", sagte Caliskan. „Maschinen sind nicht neutral. Wenn Sie einen sequentiellen Algorithmus haben, der Entscheidungen sequentiell trifft, wie maschinelles Lernen, wissen Sie, dass er auf einer Reihe von menschlichen Daten trainiert wird, und als Ergebnis muss er diese Daten präsentieren und widerspiegeln, da historische Daten Verzerrungen enthalten, die trainierten Modelle Diese Verzerrungen müssen ebenfalls berücksichtigt werden, wenn es sich um einen guten Trainingsalgorithmus handelt. Wenn es genau genug ist, kann es all diese Assoziationen verstehen. Das maschinelle Lernsystem lernt, was es sieht. “

Neue Forschungen könnten erklären, warum Sie so hungrig sind, wenn Sie betrunken sind

Neue Forschungen könnten erklären, warum Sie so hungrig sind, wenn Sie betrunken sind

Erkundung der komplizierten Verbindung zwischen Vulkanen und Religion

Erkundung der komplizierten Verbindung zwischen Vulkanen und Religion

Apple hat gerade diesen nervigen Autokorrektur-Fehler in iOS 11 behoben, also lade ihn jetzt herunter

Apple hat gerade diesen nervigen Autokorrektur-Fehler in iOS 11 behoben, also lade ihn jetzt herunter