Konversations-KI: Automatische Spracherkennung
Über 8 Audiostunden gesammelt, 800 Stunden transkribiert für mehrsprachige Sprachtechnologie
Einleitung
Indien benötigte eine Plattform, die sich auf die Erstellung mehrsprachiger Datensätze und KI-basierter Sprachtechnologielösungen konzentriert, um digitale Dienste in indischen Sprachen bereitzustellen. Um diese Initiative zu starten, arbeitete der Kunde mit Shaip zusammen, um indische Sprache zu sammeln und zu transkribieren, um mehrsprachige Sprachmodelle zu erstellen.
Volume
Herausforderungen
Um den Kunden bei seiner Speech Technology-Sprach-Roadmap für indische Sprachen zu unterstützen, musste das Team große Mengen an Trainingsdaten erfassen, segmentieren und transkribieren, um ein KI-Modell zu erstellen. Die entscheidenden Anforderungen des Kunden waren:
Datensammlung
- Erfassen Sie 8000 Stunden Trainingsdaten von entlegenen Standorten in Indien
- Der Anbieter sammelt spontane Äußerungen von Altersgruppen von 20 bis 70 Jahren
- Sorgen Sie für einen vielfältigen Sprechermix nach Alter, Geschlecht, Bildung und Dialekten
- Jede Audioaufnahme muss mindestens 16 kHz mit 16 Bit/Sample haben.
Datentranskription
Befolgen Sie die detaillierten Transkriptionsrichtlinien zu Zeichen und Sonderzeichen, Rechtschreibung und Grammatik, Großschreibung, Abkürzungen, Kontraktionen, einzelnen gesprochenen Buchstaben, Zahlen, Satzzeichen, Akronymen und Initialismen, disfluenter Sprache, unverständlicher Sprache, Nicht-Zielsprachen und Nicht-Sprache
Qualitätsprüfung und Feedback
Alle Aufnahmen müssen einer Qualitätsbewertung und Validierung unterzogen werden, es werden nur validierte Sprachaufzeichnungen geliefert
Lösung
Mit unserem umfassenden Verständnis der Konversations-KI haben wir dem Kunden geholfen, die Audiodaten mit einem Team aus erfahrenen Sammlern, Linguisten und Annotatoren zu sammeln und zu transkribieren, um einen großen Korpus an Audiodaten aus entlegenen Teilen Indiens aufzubauen.
Der Arbeitsumfang für Shaip umfasste unter anderem die Erfassung großer Mengen an Audio-Trainingsdaten, die Transkription der Daten und die Bereitstellung entsprechender JSON-Dateien mit den Metadaten [sowohl für Sprecher als auch für Transkriptoren]. Zu den Metadaten jedes Sprechers gehören eine anonymisierte Sprecher-ID, Gerätedetails, demografische Informationen wie Geschlecht, Alter und Bildung sowie sein PIN-Code, sein sozioökonomischer Status, die gesprochenen Sprachen und eine Aufzeichnung seiner Aufenthaltsdauer im Leben. Zu den Daten jedes Transkriptors gehören eine anonymisierte Transkribierer-ID, demografische Details ähnlich denen der Sprecher, die Dauer ihrer Transkriptionserfahrung und eine detaillierte Aufschlüsselung der Sprachen, die sie lesen, schreiben und sprechen können.
Shaip gesammelt 8000 Stunden Audiodaten / Spontansprache im großen Maßstab und 800 Stunden transkribiert unter Beibehaltung der gewünschten Qualitätsniveaus, die zum Trainieren der Sprachtechnologie für komplexe Projekte erforderlich sind. Von jedem Teilnehmer wurde eine ausdrückliche Einwilligungserklärung eingeholt. Die gesammelte / spontane Rede basierte auf von der Universität bereitgestellten Bildern. Von 3500 Bilder, 1000 sind generisch und 2500 beziehen sich auf die bezirksspezifische Kultur, Feste usw. Die Bilder zeigen verschiedene Bereiche wie Bahnhöfe, Märkte, Wetter und mehr.
Datensammlung
Bundesstaat | Bezirke | Audio-Stunden | Transkription (Std.) |
Bihar | Saran, East Champaran, Gopalganj, Sitamarhi, Samastipur, Darbhanga, Madhepura, Bhagalpur, Gaya, Kishanganj, Vaishali, Lakhisarai, Saharsa, Supaul, Araria, Begusarai, Jahanabad, Purnia, Muzaffarpur, Jamui | 2000 | 200 |
Uttar Pradesh | Deoria, Varanasi, Gorakhpur, Ghazipur, Muzzaffarnagar, Etah, Hamirpur, Jyotiba Phule Nagar, Budaun, Jalaun | 1000 | 100 |
Rajasthan | Nagaur, Churu | 200 | 20 |
Uttarakhand | Tehri Garhwal, Uttarkashi | 200 | 20 |
Chhattisgarh | Bilaspur, Raigarh, Kabirdham, Sarguja, Korba, Jashpur, Rajnandgaon, Balrampur, Bastar, Sukma | 1000 | 100 |
West Bengal | Paschim Medinipur, Malda, Jalpaiguri, Purulia, Kolkatta, Jhargram, North 24 Parganas, Dakshin Dinajpur | 800 | 80 |
Jharkhand | Sahebganj, Jamtara | 200 | 20 |
AP | Guntur, Chittoor, Visakhapatnam, Krishna, Anantapur, Srikakulam | 600 | 60 |
Telangana | Karimnagar, Nalgonda | 200 | 20 |
Goa | Nord+Süd Goa | 100 | 10 |
Karnataka | Dakshin Kannada, Gulbarga, Dharwad, Bellary, Mysore, Shimoga, Bijapur, Belgaum, Raichur, Chamrajnagar | 1000 | 100 |
Maharashtra | Sindhudurg, Dhule, Nagpur, Pune, Aurangabad, Chandrpur, Solapur | 700 | 70 |
Gesamt | 8000 | 800 |
Generelle Richtlinien
Format
- Audio mit 16 kHz, 16 Bit/Sample.
- Ein-Kanal.
- Rohes Audio ohne Transkodierung.
Design
- Spontane Rede.
- Sätze basierend auf von der Universität zur Verfügung gestellten Bildern. Von den 3500 Bildern sind 1000 generisch und 2500 beziehen sich auf bezirksspezifische Kultur, Feste usw. Die Bilder zeigen verschiedene Bereiche wie Bahnhöfe, Märkte, Wetter und mehr.
Aufnahmehintergrund
- Aufgenommen in einer ruhigen, echofreien Umgebung.
- Keine Smartphone-Störungen (Vibrationen oder Benachrichtigungen) während der Aufnahme.
- Keine Verzerrungen wie Clipping oder Fernfeldeffekte.
- Vibrationen vom Telefon nicht akzeptabel; Externe Vibrationen sind tolerierbar, wenn der Ton klar ist.
Lautsprecherspezifikation
- Die Altersspanne liegt zwischen 20 und 70 Jahren mit ausgewogener Geschlechterverteilung pro Bezirk.
- Mindestens 400 Muttersprachler in jedem Bezirk.
- Die Redner sollten ihre Muttersprache/ihren Dialekt verwenden.
- Einverständniserklärungen sind für alle Teilnehmer obligatorisch.
Qualitätsprüfung und kritische Qualitätssicherung
Der QA-Prozess priorisiert die Qualitätssicherung für Audioaufnahmen und Transkriptionen. Audiostandards konzentrieren sich auf präzise Stillezeiten, Segmentdauer, Klarheit einzelner Sprecher und detaillierte Metadaten, einschließlich Alter und sozioökonomischem Status. Bei den Transkriptionskriterien stehen Tag-Genauigkeit, Wortwahrheit und korrekte Segmentdetails im Vordergrund. Der Akzeptanz-Benchmark schreibt vor, dass ein Audio-Batch abgelehnt wird, wenn mehr als 20 % diese Standards nicht erfüllen. Bei Abweichungen von weniger als 20 % sind Ersatzaufnahmen mit ähnlichen Profilen erforderlich.
Datentranskription
Transkriptionsrichtlinien legen Wert auf Genauigkeit und wörtliche Transkription nur dann, wenn die Wörter klar und verständlich sind; Unklare Wörter werden je nach Problem als [unverständlich] oder [unverständlich] markiert. Satzgrenzen in langen Audiodateien sind mit gekennzeichnet , und das Paraphrasieren oder Korrigieren grammatikalischer Fehler ist nicht gestattet. Die wörtliche Transkription deckt Fehler, Umgangssprache und Wiederholungen ab, lässt jedoch Fehlstarts, Füllgeräusche und Stottern aus. Hintergrund- und Vordergrundgeräusche werden mit beschreibenden Tags transkribiert, während Eigennamen, Titel und Nummern bestimmten Transkriptionsregeln folgen. Für jeden Satz werden Sprecherbezeichnungen verwendet und unvollständige Sätze sind mit gekennzeichnet.
Projektworkflow
Der Workflow beschreibt den Audio-Transkriptionsprozess. Es beginnt mit dem Onboarding und der Schulung der Teilnehmer. Sie zeichnen Audio mit einer App auf, die auf eine QA-Plattform hochgeladen wird. Dieses Audio wird Qualitätsprüfungen und automatischer Segmentierung unterzogen. Das Technikteam bereitet dann Segmente für die Transkription vor. Nach der manuellen Transkription folgt ein Schritt zur Qualitätssicherung. Transkriptionen werden dem Kunden zugestellt und bei Annahme gilt die Lieferung als abgeschlossen. Wenn nicht, werden Überarbeitungen auf der Grundlage des Kundenfeedbacks vorgenommen.
Ergebnis
Die hochwertigen Audiodaten von erfahrenen Linguisten werden es unserem Kunden ermöglichen, mehrsprachige Spracherkennungsmodelle in verschiedenen indischen Sprachen mit unterschiedlichen Dialekten in der vorgegebenen Zeit genau zu trainieren und zu erstellen. Die Spracherkennungsmodelle können verwendet werden, um:
- Überwinden Sie Sprachbarrieren für die digitale Integration, indem Sie die Bürger mit den Initiativen in ihrer eigenen Muttersprache verbinden.
- Fördert digitale Governance
- Katalysator zur Bildung eines Ökosystems für Dienstleistungen und Produkte in indischen Sprachen
- Lokalisiertere digitale Inhalte in Bereichen von öffentlichem Interesse, insbesondere Governance und Politik
Wir sind beeindruckt von Shaips Fachwissen im Bereich der Konversations-KI. Die Aufgabe, 8000 Stunden Audiodaten zusammen mit 800 Stunden Transkription in 80 verschiedenen Bezirken zu verarbeiten, war gelinde gesagt monumental. Es war Shaips tiefes Verständnis für die komplizierten Details und Nuancen dieses Bereichs, das die erfolgreiche Durchführung eines so anspruchsvollen Projekts ermöglichte. Ihre Fähigkeit, die Komplexität dieser riesigen Datenmengen nahtlos zu verwalten und zu navigieren und gleichzeitig eine erstklassige Qualität zu gewährleisten, ist wirklich lobenswert.