Einfluss von Diversity auf Trainingsdaten

Diverse KI-Trainingsdaten für Inklusivität und Eliminierung von Voreingenommenheit

Künstliche Intelligenz und Big Data haben das Potenzial, Lösungen für globale Probleme zu finden, lokale Probleme zu priorisieren und die Welt in vielerlei Hinsicht tiefgreifend zu verändern. KI bringt Lösungen für alle – und in allen Umgebungen, von zu Hause bis zum Arbeitsplatz. KI-Computer, mit Maschinelles lernen Training, kann intelligentes Verhalten und Gespräche automatisiert und dennoch personalisiert simulieren.

KI steht jedoch vor einem Inklusionsproblem und ist oft voreingenommen. Glücklicherweise konzentriert sich auf Ethik der künstlichen Intelligenz kann neue Möglichkeiten in Bezug auf Diversifizierung und Inklusion einleiten, indem unbewusste Vorurteile durch verschiedene Trainingsdaten beseitigt werden.

Bedeutung der Diversität in KI-Trainingsdaten

Ai Trainingsdatenvielfalt Vielfalt und Qualität der Trainingsdaten hängen zusammen, da das eine das andere beeinflusst und sich auf das Ergebnis der KI-Lösung auswirkt. Der Erfolg der KI-Lösung hängt davon ab vielfältige Daten darauf wird trainiert. Die Datenvielfalt verhindert eine Überanpassung der KI – das heißt, das Modell leistet oder lernt nur aus den Daten, die zum Trainieren verwendet werden. Bei Overfitting kann das KI-Modell keine Ergebnisse liefern, wenn es mit Daten getestet wird, die nicht im Training verwendet werden.

Der aktuelle Stand der KI-Ausbildung technische Daten

Die Ungleichheit oder mangelnde Datenvielfalt würde zu unfairen, unethischen und nicht integrativen KI-Lösungen führen, die die Diskriminierung vertiefen könnten. Aber wie und warum hängt Datenvielfalt mit KI-Lösungen zusammen?

Eine ungleiche Repräsentation aller Klassen führt zu einer falschen Identifizierung von Gesichtern – ein wichtiges Beispiel dafür ist Google Fotos, das ein schwarzes Paar als „Gorillas“ klassifizierte. Und Meta fragt einen Benutzer, der sich ein Video von schwarzen Männern ansieht, ob der Benutzer „weiter Videos von Primaten ansehen“ möchte.

Beispielsweise könnte eine ungenaue oder unsachgemäße Klassifizierung von ethnischen oder rassischen Minderheiten, insbesondere in Chatbots, zu Vorurteilen in KI-Trainingssystemen führen. Laut Bericht von 2019 Diskriminierende Systeme – Geschlecht, Rasse, Macht in der KI, mehr als 80 % der KI-Lehrer sind Männer; KI-Forscherinnen auf FB machen nur 15 % und 10 % auf Google aus.

Der Einfluss unterschiedlicher Trainingsdaten auf die KI-Leistung

Auswirkungen der Vielfalt auf Trainingsdaten Das Auslassen bestimmter Gruppen und Gemeinschaften aus der Datendarstellung kann zu verzerrten Algorithmen führen.

Datenvoreingenommenheit wird oft versehentlich in die Datensysteme eingeführt – durch Unterabtastung bestimmter Rassen oder Gruppen. Wenn Gesichtserkennungssysteme auf verschiedene Gesichter trainiert werden, hilft dies dem Modell, bestimmte Merkmale zu identifizieren, wie z. B. die Position von Gesichtsorganen und Farbvariationen.

Ein weiteres Ergebnis einer unausgeglichenen Häufigkeit von Etiketten ist, dass das System eine Minderheit als Anomalie betrachten könnte, wenn es unter Druck gesetzt wird, innerhalb kurzer Zeit eine Ausgabe zu produzieren.

Lassen Sie uns noch heute Ihre Anforderungen an KI-Trainingsdaten besprechen.

Diversität bei KI-Trainingsdaten erreichen

Auf der anderen Seite ist die Generierung eines vielfältigen Datensatzes auch eine Herausforderung. Der schiere Mangel an Daten zu bestimmten Klassen könnte zu einer Unterrepräsentation führen. Dies kann abgemildert werden, indem die KI-Entwicklerteams in Bezug auf Fähigkeiten, ethnische Zugehörigkeit, Rasse, Geschlecht, Disziplin und mehr vielfältiger gestaltet werden. Darüber hinaus besteht der ideale Weg, um Probleme mit der Datenvielfalt in der KI anzugehen, darin, sie von Anfang an zu konfrontieren, anstatt zu versuchen, das zu beheben, was getan wurde – indem die Vielfalt in der Phase der Datenerfassung und -kuration eingebracht wird.

Ungeachtet des Hypes um KI kommt es immer noch auf die von Menschen gesammelten, ausgewählten und trainierten Daten an. Die angeborene Voreingenommenheit des Menschen wird sich in den von ihm gesammelten Daten widerspiegeln, und diese unbewusste Voreingenommenheit schleicht sich auch in die ML-Modelle ein. 

Schritte zum Sammeln und Kuratieren verschiedener Trainingsdaten

Inklusion von Schulungsdatenvielfalt

Datenvielfalt kann erreicht werden durch:

  • Fügen Sie nachdenklich mehr Daten aus unterrepräsentierten Klassen hinzu und setzen Sie Ihre Modelle verschiedenen Datenpunkten aus. 
  • Durch das Sammeln von Daten aus verschiedenen Datenquellen. 
  • Durch Datenerweiterung oder künstliche Manipulation von Datensätzen, um neue Datenpunkte zu erhöhen/einzuschließen, die sich deutlich von den ursprünglichen Datenpunkten unterscheiden. 
  • Entfernen Sie bei der Einstellung von Bewerbern für den KI-Entwicklungsprozess alle für die Stelle irrelevanten Informationen aus der Bewerbung. 
  • Verbesserung der Transparenz und Rechenschaftspflicht durch verbesserte Dokumentation der Entwicklung und Bewertung von Modellen. 
  • Einführung von Vorschriften zum Aufbau von Vielfalt und Inklusivität in der KI Systeme von der Basisebene. Verschiedene Regierungen haben Richtlinien entwickelt, um Vielfalt zu gewährleisten und KI-Vorurteile zu mindern, die zu unfairen Ergebnissen führen können. 

[Lesen Sie auch: Erfahren Sie mehr über den Prozess der KI-Trainingsdatenerfassung ]

Zusammenfassung

Derzeit beschäftigen sich nur wenige große Technologieunternehmen und Lernzentren ausschließlich mit der Entwicklung von KI-Lösungen. Diese Eliteräume sind von Ausgrenzung, Diskriminierung und Voreingenommenheit durchdrungen. Dies sind jedoch die Bereiche, in denen KI entwickelt wird, und die Logik hinter diesen fortschrittlichen KI-Systemen ist voll von der gleichen Voreingenommenheit, Diskriminierung und Ausgrenzung, die von den unterrepräsentierten Gruppen getragen wird. 

Bei der Erörterung von Vielfalt und Nichtdiskriminierung ist es wichtig, die Menschen zu hinterfragen, die davon profitieren, und diejenigen, die ihr schaden. Wir sollten uns auch ansehen, wen sie benachteiligt – indem sie die Vorstellung einer „normalen“ Person erzwingt, könnte KI potenziell „andere“ gefährden. 

Die Diskussion über Vielfalt in KI-Daten ohne Anerkennung von Machtverhältnissen, Gleichheit und Gerechtigkeit wird nicht das Gesamtbild zeigen. Um das Ausmaß der Vielfalt der KI-Trainingsdaten vollständig zu verstehen und wie Menschen und KI diese Krise gemeinsam mildern können, Wenden Sie sich an die Ingenieure von Shaip. Wir haben verschiedene KI-Ingenieure, die dynamische und vielfältige Daten für Ihre KI-Lösungen bereitstellen können. 

Social Share