Fallstudie: Konversations-KI

Über 3 Stunden Daten wurden gesammelt, segmentiert und transkribiert, um ASR in 8 indischen Sprachen aufzubauen

Sammlung von Äußerungen
Ziel der Regierung ist es, ihren Bürgern durch das Bhashini-Projekt einen einfachen Zugang zum Internet und zu digitalen Diensten in ihrer eigenen Muttersprache zu ermöglichen.

BHASHINI, Indiens KI-gesteuerte Sprachübersetzungsplattform, ist ein wichtiger Teil der Digital India-Initiative.

Die Bhashini-Plattform wurde entwickelt, um KKMU, Start-ups und unabhängigen Innovatoren Tools für künstliche Intelligenz (KI) und Verarbeitung natürlicher Sprache (NLP) bereitzustellen und dient als öffentliche Ressource. Sein Ziel ist es, die digitale Inklusion zu fördern, indem es indischen Bürgern ermöglicht, in ihrer Muttersprache mit den digitalen Initiativen des Landes zu interagieren.

Darüber hinaus soll die Verfügbarkeit von Internetinhalten in indischen Sprachen deutlich erweitert werden. Dies ist insbesondere auf Bereiche von öffentlichem Interesse wie Regierungsführung und Politik, Wissenschaft und Technologie usw. ausgerichtet. Folglich wird dies den Bürgern einen Anreiz geben, das Internet in ihrer eigenen Sprache zu nutzen, und ihre aktive Teilnahme fördern.

Nutzen Sie NLP, um ein vielfältiges Ökosystem aus Mitwirkenden, Partnerunternehmen und Bürgern zu ermöglichen, um Sprachbarrieren zu überwinden und so digitale Inklusion und Stärkung sicherzustellen

Real-World-Lösung

Die Macht der Lokalisierung mit Daten freisetzen

Indien brauchte eine Plattform, die sich auf die Erstellung mehrsprachiger Datensätze und KI-basierter Sprachtechnologielösungen konzentriert, um digitale Dienste in indischen Sprachen bereitzustellen. Um diese Initiative zu starten, arbeitete das Indian Institute of Technology, Madras (IIT Madras) mit Shaip zusammen, um indische Sprachdatensätze zu sammeln, zu segmentieren und zu transkribieren, um mehrsprachige Sprachmodelle zu erstellen.

Herausforderungen

Um den Kunden bei seiner Speech Technology-Sprach-Roadmap für indische Sprachen zu unterstützen, musste das Team große Mengen an Trainingsdaten erfassen, segmentieren und transkribieren, um ein KI-Modell zu erstellen. Die entscheidenden Anforderungen des Kunden waren:

Datensammlung

  • Erfassen Sie 3000 Stunden Trainingsdaten in 8 indischen Sprachen mit 4 Dialekten pro Sprache.
  • Für jede Sprache sammelt der Anbieter Extempore Speech und
    Konversationsrede für Altersgruppen von 18 bis 60 Jahren
  • Sorgen Sie für einen vielfältigen Sprechermix nach Alter, Geschlecht, Bildung und Dialekten
  • Stellen Sie eine vielfältige Mischung von Aufnahmeumgebungen gemäß den Spezifikationen sicher.
  • Jede Audioaufnahme muss mindestens 16 kHz, aber vorzugsweise 44 kHz haben

Datensegmentierung

  • Erstellen Sie Sprachsegmente von 15 Sekunden und versehen Sie den Ton mit einem Zeitstempel auf Millisekunden für jeden bestimmten Sprecher, jede Art von Ton (Sprache, Geplapper, Musik, Lärm), Wendungen, Äußerungen und Phrasen in einem Gespräch
  • Erstellen Sie jedes Segment für sein Zieltonsignal mit einer Auffüllung von 200–400 Millisekunden am Anfang und Ende.
  • Für alle Segmente müssen die folgenden Objekte ausgefüllt werden, d. h. Startzeit, Endzeit, Segment-ID, Lautstärkepegel, Tontyp, Sprachcode, Sprecher-ID usw.

Datentranskription

  • Befolgen Sie die detaillierten Transkriptionsrichtlinien zu Zeichen und Sonderzeichen, Rechtschreibung und Grammatik, Großschreibung, Abkürzungen, Kontraktionen, einzelnen gesprochenen Buchstaben, Zahlen, Satzzeichen, Akronymen, Disfluent, Sprache, unverständlicher Sprache, Nicht-Zielsprachen, Nicht-Sprache usw.

Qualitätsprüfung und Feedback

  • Alle Aufnahmen müssen einer Qualitätsbewertung und Validierung unterzogen werden, es werden nur validierte Reden geliefert

Lösung

Mit unserem umfassenden Verständnis der Konversations-KI haben wir dem Kunden geholfen, die Daten mit einem Team aus erfahrenen Sammlern, Linguisten und Annotatoren zu sammeln, zu segmentieren und zu transkribieren, um einen großen Korpus an Audiodatensätzen in 8 indischen Sprachen aufzubauen

Der Arbeitsumfang für Shaip umfasste unter anderem die Erfassung großer Mengen an Audio-Trainingsdaten, die Segmentierung der Audioaufzeichnungen in mehrere, die Transkription der Daten und die Bereitstellung entsprechender JSON-Dateien mit den Metadaten [Sprecher-ID, Alter, Geschlecht, Sprache, Dialekt,
Muttersprache, Qualifikation, Beruf, Domäne, Dateiformat, Frequenz, Kanal, Audiotyp, Anzahl der Lautsprecher, Anzahl der Fremdsprachen, verwendetes Setup, Schmalband- oder Breitband-Audio usw.]. 

Shaip sammelte 3000 Stunden Audiodaten in großem Maßstab und behielt dabei die gewünschte Qualität bei, die zum Trainieren der Sprachtechnologie für komplexe Projekte erforderlich ist. Von jedem Teilnehmer wurde eine ausdrückliche Einwilligungserklärung eingeholt.

1. Datensammlung

2. Datensegmentierung

  • Die gesammelten Audiodaten wurden weiter in Sprachsegmente von jeweils 15 Sekunden aufgeteilt und mit einem Zeitstempel auf Millisekunden für jeden gegebenen Sprecher, jede Art von Ton, jede Wendung, jede Äußerung und jeden Satz in einem Gespräch versehen
  • Jedes Segment wurde für sein Zieltonsignal mit einer Auffüllung von 200–400 Millisekunden am Anfang und Ende eines Tonsignals erstellt.
  • Für alle Segmente waren die folgenden Objekte vorhanden und ausgefüllt, d. h. Startzeit, Endzeit, Segment-ID, Lautstärkepegel (Laut, Normal, Leise), Primärer Tontyp (Sprache, Geplapper, Musik, Lärm, Überlappung), Sprachcode-Sprecher-ID, Transkription usw.

3. Qualitätsprüfung und Feedback

  • Alle Aufnahmen wurden auf ihre Qualität hin bewertet und es wurden nur validierte Sprachaufnahmen mit einer WER von 90 % und einer TER von 90 % geliefert
  • Befolgte Qualitätscheckliste:
       » Maximal 15 Sekunden Segmentlänge
       » Transkription aus bestimmten Bereichen, nämlich: Wetter, verschiedene Arten von Nachrichten, Gesundheit, Landwirtschaft, Bildung, Arbeit oder Finanzen
       » Geringe Hintergrundgeräusche
       » Kein Audio-Clip aus – Keine Verzerrung
       » Korrekte Audiosegmentierung für die Transkription

4. Datentranskription
Alle gesprochenen Wörter, einschließlich Zögern, Füllwörter, Fehlstarts und andere verbale Ticks, wurden in der Transkription genau erfasst. Wir haben auch die detaillierten Transkriptionsrichtlinien zu Groß- und Kleinbuchstaben, Rechtschreibung, Groß- und Kleinschreibung, Abkürzungen, Kontraktionen, Zahlen usw. befolgt.
Interpunktion, Akronyme, disfluente Sprache, Nicht-Sprachgeräusche usw. Darüber hinaus ist der Arbeitsablauf für die Sammlung und Transkription wie folgt:

Ergebnis

Die hochwertigen Audiodaten von erfahrenen Linguisten werden es dem Indian Institute of Technology – Madras ermöglichen, in der vorgegebenen Zeit mehrsprachige Spracherkennungsmodelle in 8 indischen Sprachen mit unterschiedlichen Dialekten präzise zu trainieren und zu erstellen. Die Spracherkennungsmodelle können verwendet werden, um:

  • Überwinden Sie Sprachbarrieren für die digitale Integration, indem Sie die Bürger mit den Initiativen in ihrer eigenen Muttersprache verbinden.
  • Fördert digitale Governance
  • Katalysator zur Bildung eines Ökosystems für Dienstleistungen und Produkte in indischen Sprachen
  • Lokalisiertere digitale Inhalte in Bereichen von öffentlichem Interesse, insbesondere Governance und Politik
Golden-5-Sterne

Wir waren beeindruckt von Shaips Fachwissen im Bereich der Konversations-KI. Ihre gesamte Projektabwicklungskompetenz von der Beschaffung, Segmentierung, Transkription und Bereitstellung der erforderlichen Schulungsdaten durch erfahrene Linguisten in 8 Sprachen innerhalb strenger Zeitpläne und Richtlinien; unter Beibehaltung des akzeptablen Qualitätsstandards.“

Beschleunigen Sie Ihre Gesprächs-KI
Anwendungsentwicklung zu 100 %

Ausgewählte Kunden

Teams befähigen, weltweit führende KI-Produkte zu entwickeln.