Datenerhebung für dialogorientierte KI

Vorgehensweise bei der Datenerhebung für konversationelle KI

Heute haben wir einige sprechende Roboter als Chatbots, virtuelle Assistenten und mehr in unseren Häusern, Fahrzeugsystemen, tragbaren Geräten, Hausautomationslösungen usw. Diese Geräte hören genau zu, was wir sagen und wie wir sagen, und rufen Ergebnisse ab oder führen bestimmte Aufgaben aus .

Und wenn Sie einen Assistenten wie z. B. verwendet haben Siri oder Alexa, Sie würden auch feststellen, dass sie von Tag zu Tag skurriler werden. Ihre Antworten sind witzig, sie sprechen zurück, sie brüskieren, geben Komplimente zurück und verhalten sich menschlicher als einige der Kollegen, die Sie vielleicht kennen. Wir machen keine Witze. Laut PwC, 27% der Benutzer, die mit ihrem letzten Kundendienstmitarbeiter interagierten, wussten nicht, ob sie mit einem Menschen oder einem Chatbot sprachen.

Die Entwicklung solcher komplizierter Konversationssysteme und -geräte ist hochkomplex und entmutigend. Es ist ein ganz anderes Ballspiel mit unterschiedlichen Entwicklungsansätzen. Aus diesem Grund dachten wir, wir sollten es für Sie zum besseren Verständnis aufschlüsseln. Wenn Sie also eine dialogorientierte KI-Engine oder einen virtuellen Assistenten entwickeln möchten, hilft Ihnen dieser Leitfaden, Klarheit zu gewinnen.

Bedeutung der Konversations-KI

Da Technologie in Form neuerer Geräte und Systeme zu einem integraleren Aspekt unseres Lebens wird, besteht die Notwendigkeit, Barrieren zu überwinden, Konventionen zu durchbrechen und neue Wege der Interaktion mit ihnen zu finden. Von der einfachen Verwendung angeschlossener Peripheriegeräte wie Maus und Tastatur sind wir auf Mauspads umgestiegen, die mehr Komfort bieten. Anschließend wechselten wir zu Touchscreens, die beim Eingeben von Eingaben und Ausführen von Aufgaben noch mehr Komfort boten.

Da Geräte zu Erweiterungen unserer selbst werden, erschließen wir jetzt ein neues Medium der Sprachsteuerung. Wir müssen nicht einmal in der Nähe eines Geräts sein, um es zu bedienen. Alles, was wir tun müssen, ist unsere Stimme zu verwenden, um es zu entsperren und unsere Eingaben zu befehlen. Aus einem nahe gelegenen Raum, während der Fahrt, während gleichzeitig ein anderes Gerät verwendet wird, führt die Konversations-KI unsere beabsichtigten Aufgaben nahtlos aus. Wo fangen wir also an – alles beginnt mit hochwertigen Sprachdaten zum Trainieren von ML-Modellen.

Die Grundlagen der Erfassung von Sprachtrainingsdaten

Das Sammeln und Kommentieren von KI-Trainingsdaten für dialogorientierte KI ist sehr unterschiedlich. Menschliche Befehle sind mit unzähligen Feinheiten verbunden, und es müssen verschiedene Maßnahmen ergriffen werden, um sicherzustellen, dass jeder Aspekt für wirkungsvolle Ergebnisse berücksichtigt wird. Sehen wir uns an, was einige der Grundlagen von Sprachdaten sind.

Natürliches Sprachverständnis (NLU)

Damit Chatbots und virtuelle Assistenten verstehen und darauf reagieren, was wir schreiben oder befehlen, wird ein Prozess namens NLU ist implementiert. Es steht für Natürliches Verständnis der Sprache und umfasst drei technische Konzepte zur Interpretation und Verarbeitung unterschiedlicher Eingabetypen.

  • Absicht

    Alles beginnt mit Absicht. Was versucht ein bestimmter Benutzer zu vermitteln, zu kommunizieren oder durch einen Befehl zu erreichen? Sucht der Benutzer nach Informationen? Warten sie auf Updates für eine Aktion? Befehlen sie dem System eine Anweisung auszuführen? Wie befehlen sie es? Ist es eine Frage oder eine Bitte? All diese Aspekte helfen Maschinen, Absichten und Zwecke zu verstehen und zu klassifizieren, um jeweils luftdichte Antworten zu finden.

  • Äußerungssammlung

    Es gibt einen Unterschied zwischen dem Befehl „Wo ist der nächste Geldautomat?“ und der Befehl „Such mir einen Geldautomaten in der Nähe.“ Nun würde der Mensch anerkennen, dass beides dasselbe bedeutet, aber Maschinen müssen mit diesem Unterschied erklärt werden. Sie sind in Bezug auf die Absicht gleich, aber wie die Absicht geformt wurde, ist völlig unterschiedlich.

    Beim Sammeln von Äußerungen geht es darum, verschiedene Äußerungen und Sätze zu definieren und zu bestimmten Zielen für die präzise Ausführung von Aufgaben und Antworten abzubilden. Technisch arbeiten Datenannotationsspezialisten an Sprachdaten oder Textdaten, um Maschinen dabei zu helfen, dies zu unterscheiden.

  • Entitätsextraktion

    Jeder Satz hat bestimmte Wörter oder Phrasen, die eine besondere Gewichtung tragen, und diese Betonung führt zu einer Interpretation von Kontext und Zweck. Maschinen müssen wie die starren Systeme, die sie sind, mit solchen Einheiten gefüttert werden. Zum Beispiel: „Wo finde ich Saiten von meiner Gitarre in der Nähe der 6th Avenue?“

    Wenn Sie den Satz verfeinern, ist find die Entität eins, Strings sind zwei, die Gitarre ist drei und die 6th Avenue ist 4. Diese Entitäten werden von Maschinen zusammengefügt, um geeignete Ergebnisse zu erhalten, und dafür arbeiten Experten im Backend.

Infografik: Der Stand der Conversational AI.

Gestaltung von Dialogen für konversationelle KI

Das Ziel der KI besteht hauptsächlich darin, menschliches Verhalten durch Gesten, Aktionen und Reaktionen zu replizieren. Der bewusste menschliche Geist hat die angeborene Fähigkeit, Kontext, Absicht, Ton, Emotionen und andere Faktoren zu verstehen und entsprechend zu reagieren. Aber wie können Maschinen diese Aspekte unterscheiden? 

Dialoge gestalten für Konversations-KI ist sehr komplex und vor allem unmöglich, ein universelles Modell auf den Markt zu bringen. Jeder Mensch hat eine andere Art zu denken, zu sprechen und zu reagieren. Selbst in Antworten artikulieren wir alle unsere Gedanken auf einzigartige Weise. Maschinen müssen also zuhören und entsprechend reagieren. 

Dies ist jedoch auch nicht glatt. Wenn Menschen sprechen, kommen Faktoren wie Akzente, Aussprache, ethnische Zugehörigkeit, Sprache und mehr hinzu und es ist für Maschinen nicht einfach, Wörter falsch zu verstehen und falsch zu interpretieren und darauf zu antworten. Ein bestimmtes Wort kann von Maschinen auf vielfältige Weise verstanden werden, wenn es von einem Inder, einem Briten, einem Amerikaner und einem Mexikaner diktiert wird. Es gibt unzählige Sprachbarrieren, die ins Spiel kommen, und der praktischste Weg, ein Antwortsystem zu entwickeln, ist die visuelle Programmierung, die auf Flussdiagrammen basiert. 

Durch dedizierte Blöcke für Gesten, Reaktionen und Auslöser können Autoren und Experten Maschinen helfen, einen Charakter zu entwickeln. Dies ist eher so, wie eine Algorithmusmaschine verwenden kann, um die richtigen Antworten zu finden. Wenn ein Input zugeführt wird, fließen die Informationen durch entsprechende Faktoren, was zu der richtigen Reaktion der Maschinen führt. 

Wählen Sie D für Vielfalt

Wie bereits erwähnt, sind menschliche Interaktionen sehr einzigartig. Menschen auf der ganzen Welt kommen aus verschiedenen Lebensbereichen, Hintergründen, Nationalitäten, Demografien, Ethnien, Akzenten, Diktion, Aussprache und mehr. 

Damit ein Conversational Bot oder ein System universell einsetzbar ist, muss es mit möglichst unterschiedlichen Trainingsdaten trainiert werden. Wurde beispielsweise ein Modell nur mit den Sprachdaten einer bestimmten Sprache oder Ethnie trainiert, würde ein neuer Akzent das System verwirren und zu falschen Ergebnissen zwingen. Das ist nicht nur peinlich für Unternehmer, sondern auch beleidigend für die Nutzer. 

Aus diesem Grund sollte die Entwicklungsphase KI-Trainingsdaten aus einem reichhaltigen Pool unterschiedlicher Datensätze umfassen, der sich aus Personen mit allen möglichen Hintergründen zusammensetzt. Je mehr Akzente und Ethnien Ihr System versteht, desto universeller wäre es. Was die Benutzer außerdem noch mehr ärgern würde, ist nicht das falsche Abrufen von Informationen, sondern das Nichtverstehen ihrer Eingaben. 

Die Beseitigung von Verzerrungen sollte eine der wichtigsten Prioritäten sein. Unternehmen könnten dies tun, indem sie sich für Crowdsourcing-Daten entscheiden. Wenn Sie Ihre Sprach- oder Textdaten durch Crowdsourcing ermöglichen, ermöglichen Sie es Menschen aus der ganzen Welt, zu Ihren Anforderungen beizutragen, wodurch Ihr Datenpool nur heilsam wird (Lesen Sie unsere Blog um die Vorteile und Fallstricke der Auslagerung von Daten an Crowdsourcing-Mitarbeiter zu verstehen). Jetzt wird Ihr Modell verschiedene Akzente und Aussprachen verstehen und entsprechend reagieren. 

Der Weg nach vorn

Die Entwicklung einer dialogorientierten KI ist so schwierig wie die Erziehung eines Säuglings. Der einzige Unterschied besteht darin, dass das Kind schließlich lernt, Dinge zu verstehen und selbstständiger zu kommunizieren. Es sind die Maschinen, die konsequent vorangetrieben werden müssen. Es gibt derzeit mehrere Herausforderungen in diesem Bereich, und wir sollten die Tatsache anerkennen, dass wir trotz dieser Herausforderungen einige der revolutionärsten Konversations-KI-Systeme haben. Warten wir ab, was die Zukunft für unsere freundlichen Chatbots und virtuellen Assistenten aus der Nachbarschaft bereithält. Wenn Sie in der Zwischenzeit eine dialogorientierte KI wie Google Home für Ihr Unternehmen entwickeln möchten, Kontaktieren Sie uns für Ihre KI-Trainingsdaten und Anmerkungen.

Social Share

Share on Facebook
Teilen auf Twitter
Bei LinkedIn teilen
Teilen Sie per E-Mail
Teilen Sie auf WhatsApp