Fallstudie: Konversations-KI

Über 3 Stunden Daten wurden gesammelt, segmentiert und transkribiert, um ASR in 8 indischen Sprachen aufzubauen

Sammlung von Äußerungen
Ziel der Regierung ist es, ihren Bürgern durch das Bhashini-Projekt einen einfachen Zugang zum Internet und zu digitalen Diensten in ihrer eigenen Muttersprache zu ermöglichen.

BHASHINI, Indiens KI-gesteuerte Sprachübersetzungsplattform, ist ein wichtiger Teil der Digital India-Initiative.

Die Bhashini-Plattform wurde entwickelt, um KKMU, Start-ups und unabhängigen Innovatoren Tools für künstliche Intelligenz (KI) und Verarbeitung natürlicher Sprache (NLP) bereitzustellen und dient als öffentliche Ressource. Sein Ziel ist es, die digitale Inklusion zu fördern, indem es indischen Bürgern ermöglicht, in ihrer Muttersprache mit den digitalen Initiativen des Landes zu interagieren.

Darüber hinaus soll die Verfügbarkeit von Internetinhalten in indischen Sprachen deutlich erweitert werden. Dies ist insbesondere auf Bereiche von öffentlichem Interesse wie Regierungsführung und Politik, Wissenschaft und Technologie usw. ausgerichtet. Folglich wird dies den Bürgern einen Anreiz geben, das Internet in ihrer eigenen Sprache zu nutzen, und ihre aktive Teilnahme fördern.

Nutzen Sie NLP, um ein vielfältiges Ökosystem aus Mitwirkenden, Partnerunternehmen und Bürgern zu ermöglichen, um Sprachbarrieren zu überwinden und so digitale Inklusion und Stärkung sicherzustellen

Real-World-Lösung

Die Macht der Lokalisierung mit Daten freisetzen

Indien brauchte eine Plattform, die sich auf die Erstellung mehrsprachiger Datensätze und KI-basierter Sprachtechnologielösungen konzentriert, um digitale Dienste in indischen Sprachen bereitzustellen. Um diese Initiative zu starten, arbeitete das Indian Institute of Technology, Madras (IIT Madras) mit Shaip zusammen, um indische Sprachdatensätze zu sammeln, zu segmentieren und zu transkribieren, um mehrsprachige Sprachmodelle zu erstellen.

Probleme

Um den Kunden bei seiner Speech Technology-Sprach-Roadmap für indische Sprachen zu unterstützen, musste das Team große Mengen an Trainingsdaten erfassen, segmentieren und transkribieren, um ein KI-Modell zu erstellen. Die entscheidenden Anforderungen des Kunden waren:

Datensammlung

  • Erfassen Sie 3000 Stunden Trainingsdaten in 8 indischen Sprachen mit 4 Dialekten pro Sprache.
  • Für jede Sprache sammelt der Anbieter Extempore Speech und
    Konversationsrede für Altersgruppen von 18 bis 60 Jahren
  • Sorgen Sie für einen vielfältigen Sprechermix nach Alter, Geschlecht, Bildung und Dialekten
  • Stellen Sie eine vielfältige Mischung von Aufnahmeumgebungen gemäß den Spezifikationen sicher.
  • Jede Audioaufnahme muss mindestens 16 kHz, aber vorzugsweise 44 kHz haben

Datensegmentierung

  • Erstellen Sie Sprachsegmente von 15 Sekunden und versehen Sie den Ton mit einem Zeitstempel auf Millisekunden für jeden bestimmten Sprecher, jede Art von Ton (Sprache, Geplapper, Musik, Lärm), Wendungen, Äußerungen und Phrasen in einem Gespräch
  • Erstellen Sie jedes Segment für sein Zieltonsignal mit einer Auffüllung von 200–400 Millisekunden am Anfang und Ende.
  • Für alle Segmente müssen die folgenden Objekte ausgefüllt werden, d. h. Startzeit, Endzeit, Segment-ID, Lautstärkepegel, Tontyp, Sprachcode, Sprecher-ID usw.

Datentranskription

  • Befolgen Sie die detaillierten Transkriptionsrichtlinien zu Zeichen und Sonderzeichen, Rechtschreibung und Grammatik, Großschreibung, Abkürzungen, Kontraktionen, einzelnen gesprochenen Buchstaben, Zahlen, Satzzeichen, Akronymen, Disfluent, Sprache, unverständlicher Sprache, Nicht-Zielsprachen, Nicht-Sprache usw.

Qualitätsprüfung und Feedback

  • Alle Aufnahmen müssen einer Qualitätsbewertung und Validierung unterzogen werden, es werden nur validierte Reden geliefert

Die Lösung

Mit unserem umfassenden Verständnis der Konversations-KI haben wir dem Kunden geholfen, die Daten mit einem Team aus erfahrenen Sammlern, Linguisten und Annotatoren zu sammeln, zu segmentieren und zu transkribieren, um einen großen Korpus an Audiodatensätzen in 8 indischen Sprachen aufzubauen

Der Arbeitsumfang für Shaip umfasste unter anderem die Erfassung großer Mengen an Audio-Trainingsdaten, die Segmentierung der Audioaufzeichnungen in mehrere, die Transkription der Daten und die Bereitstellung entsprechender JSON-Dateien mit den Metadaten [Sprecher-ID, Alter, Geschlecht, Sprache, Dialekt,
Muttersprache, Qualifikation, Beruf, Domäne, Dateiformat, Frequenz, Kanal, Audiotyp, Anzahl der Lautsprecher, Anzahl der Fremdsprachen, verwendetes Setup, Schmalband- oder Breitband-Audio usw.]. 

Shaip sammelte 3000 Stunden Audiodaten in großem Maßstab und behielt dabei die gewünschte Qualität bei, die zum Trainieren der Sprachtechnologie für komplexe Projekte erforderlich ist. Von jedem Teilnehmer wurde eine ausdrückliche Einwilligungserklärung eingeholt.

1. Datensammlung