Konversations-KI: Automatische Spracherkennung

Über 8 Audiostunden gesammelt, 800 Stunden transkribiert für mehrsprachige Sprachtechnologie

Einleitung

Indien benötigte eine Plattform, die sich auf die Erstellung mehrsprachiger Datensätze und KI-basierter Sprachtechnologielösungen konzentriert, um digitale Dienste in indischen Sprachen bereitzustellen. Um diese Initiative zu starten, arbeitete der Kunde mit Shaip zusammen, um indische Sprache zu sammeln und zu transkribieren, um mehrsprachige Sprachmodelle zu erstellen.

Volume

Stundenlange Datenerhebung

Anzahl der kommentierten Seiten

10 +

Projektdauer

< 1 Monat

Herausforderungen

Um den Kunden bei seiner Speech Technology-Sprach-Roadmap für indische Sprachen zu unterstützen, musste das Team große Mengen an Trainingsdaten erfassen, segmentieren und transkribieren, um ein KI-Modell zu erstellen. Die entscheidenden Anforderungen des Kunden waren:

Datensammlung

Erfassen Sie 8000 Stunden Trainingsdaten von entlegenen Standorten in Indien
Der Anbieter sammelt spontane Äußerungen von Altersgruppen von 20 bis 70 Jahren
Sorgen Sie für einen vielfältigen Sprechermix nach Alter, Geschlecht, Bildung und Dialekten
Jede Audioaufnahme muss mindestens 16 kHz mit 16 Bit/Sample haben.

Datentranskription

Befolgen Sie die detaillierten Transkriptionsrichtlinien zu Zeichen und Sonderzeichen, Rechtschreibung und Grammatik, Großschreibung, Abkürzungen, Kontraktionen, einzelnen gesprochenen Buchstaben, Zahlen, Satzzeichen, Akronymen und Initialismen, disfluenter Sprache, unverständlicher Sprache, Nicht-Zielsprachen und Nicht-Sprache

Qualitätsprüfung und Feedback

Alle Aufnahmen müssen einer Qualitätsbewertung und Validierung unterzogen werden, es werden nur validierte Sprachaufzeichnungen geliefert

Lösung

Mit unserem umfassenden Verständnis der Konversations-KI haben wir dem Kunden geholfen, die Audiodaten mit einem Team aus erfahrenen Sammlern, Linguisten und Annotatoren zu sammeln und zu transkribieren, um einen großen Korpus an Audiodaten aus entlegenen Teilen Indiens aufzubauen.

Der Arbeitsumfang für Shaip umfasste unter anderem die Erfassung großer Mengen an Audio-Trainingsdaten, die Transkription der Daten und die Bereitstellung entsprechender JSON-Dateien mit den Metadaten [sowohl für Sprecher als auch für Transkriptoren]. Zu den Metadaten jedes Sprechers gehören eine anonymisierte Sprecher-ID, Gerätedetails, demografische Informationen wie Geschlecht, Alter und Bildung sowie sein PIN-Code, sein sozioökonomischer Status, die gesprochenen Sprachen und eine Aufzeichnung seiner Aufenthaltsdauer im Leben. Zu den Daten jedes Transkriptors gehören eine anonymisierte Transkribierer-ID, demografische Details ähnlich denen der Sprecher, die Dauer ihrer Transkriptionserfahrung und eine detaillierte Aufschlüsselung der Sprachen, die sie lesen, schreiben und sprechen können.

Shaip gesammelt 8000 Stunden Audiodaten / Spontansprache im großen Maßstab und 800 Stunden transkribiert unter Beibehaltung der gewünschten Qualitätsniveaus, die zum Trainieren der Sprachtechnologie für komplexe Projekte erforderlich sind. Von jedem Teilnehmer wurde eine ausdrückliche Einwilligungserklärung eingeholt. Die gesammelte / spontane Rede basierte auf von der Universität bereitgestellten Bildern. Von 3500 Bilder, 1000 sind generisch und 2500 beziehen sich auf die bezirksspezifische Kultur, Feste usw. Die Bilder zeigen verschiedene Bereiche wie Bahnhöfe, Märkte, Wetter und mehr.

Datensammlung

Bundesstaat	Bezirke	Audio-Stunden	Transkription (Std.)
Bihar	Saran, East Champaran, Gopalganj, Sitamarhi, Samastipur, Darbhanga, Madhepura, Bhagalpur, Gaya, Kishanganj, Vaishali, Lakhisarai, Saharsa, Supaul, Araria, Begusarai, Jahanabad, Purnia, Muzaﬀarpur, Jamui	2000	200
Uttar Pradesh	Deoria, Varanasi, Gorakhpur, Ghazipur, Muzzaﬀarnagar, Etah, Hamirpur, Jyotiba Phule Nagar, Budaun, Jalaun	1000	100
Rajasthan	Nagaur, Churu	200	20
Uttarakhand	Tehri Garhwal, Uttarkashi	200	20
Chhattisgarh	Bilaspur, Raigarh, Kabirdham, Sarguja, Korba, Jashpur, Rajnandgaon, Balrampur, Bastar, Sukma	1000	100
West Bengal	Paschim Medinipur, Malda, Jalpaiguri, Purulia, Kolkatta, Jhargram, North 24 Parganas, Dakshin Dinajpur	800	80
Jharkhand	Sahebganj, Jamtara	200	20
AP	Guntur, Chittoor, Visakhapatnam, Krishna, Anantapur, Srikakulam	600	60
Telangana	Karimnagar, Nalgonda	200	20
Goa	Nord+Süd Goa	100	10
Karnataka	Dakshin Kannada, Gulbarga, Dharwad, Bellary, Mysore, Shimoga, Bijapur, Belgaum, Raichur, Chamrajnagar	1000	100
Maharashtra	Sindhudurg, Dhule, Nagpur, Pune, Aurangabad, Chandrpur, Solapur	700	70
Gesamt		8000	800

Generelle Richtlinien

Format

- Audio mit 16 kHz, 16 Bit/Sample.
- Ein-Kanal.
- Rohes Audio ohne Transkodierung.

Design

- Spontane Rede.
- Sätze basierend auf von der Universität zur Verfügung gestellten Bildern. Von den 3500 Bildern sind 1000 generisch und 2500 beziehen sich auf bezirksspezifische Kultur, Feste usw. Die Bilder zeigen verschiedene Bereiche wie Bahnhöfe, Märkte, Wetter und mehr.

Aufnahmehintergrund

- Aufgenommen in einer ruhigen, echofreien Umgebung.
- Keine Smartphone-Störungen (Vibrationen oder Benachrichtigungen) während der Aufnahme.
- Keine Verzerrungen wie Clipping oder Fernfeldeffekte.
- Vibrationen vom Telefon nicht akzeptabel; Externe Vibrationen sind tolerierbar, wenn der Ton klar ist.

Lautsprecherspezifikation

- Die Altersspanne liegt zwischen 20 und 70 Jahren mit ausgewogener Geschlechterverteilung pro Bezirk.
- Mindestens 400 Muttersprachler in jedem Bezirk.
- Die Redner sollten ihre Muttersprache/ihren Dialekt verwenden.
- Einverständniserklärungen sind für alle Teilnehmer obligatorisch.

Qualitätsprüfung und kritische Qualitätssicherung

Der QA-Prozess priorisiert die Qualitätssicherung für Audioaufnahmen und Transkriptionen. Audiostandards konzentrieren sich auf präzise Stillezeiten, Segmentdauer, Klarheit einzelner Sprecher und detaillierte Metadaten, einschließlich Alter und sozioökonomischem Status. Bei den Transkriptionskriterien stehen Tag-Genauigkeit, Wortwahrheit und korrekte Segmentdetails im Vordergrund. Der Akzeptanz-Benchmark schreibt vor, dass ein Audio-Batch abgelehnt wird, wenn mehr als 20 % diese Standards nicht erfüllen. Bei Abweichungen von weniger als 20 % sind Ersatzaufnahmen mit ähnlichen Profilen erforderlich.

Datentranskription

Transkriptionsrichtlinien legen Wert auf Genauigkeit und wörtliche Transkription nur dann, wenn die Wörter klar und verständlich sind; Unklare Wörter werden je nach Problem als [unverständlich] oder [unverständlich] markiert. Satzgrenzen in langen Audiodateien sind mit gekennzeichnet , und das Paraphrasieren oder Korrigieren grammatikalischer Fehler ist nicht gestattet. Die wörtliche Transkription deckt Fehler, Umgangssprache und Wiederholungen ab, lässt jedoch Fehlstarts, Füllgeräusche und Stottern aus. Hintergrund- und Vordergrundgeräusche werden mit beschreibenden Tags transkribiert, während Eigennamen, Titel und Nummern bestimmten Transkriptionsregeln folgen. Für jeden Satz werden Sprecherbezeichnungen verwendet und unvollständige Sätze sind mit gekennzeichnet.

Projektworkflow

Der Workflow beschreibt den Audio-Transkriptionsprozess. Es beginnt mit dem Onboarding und der Schulung der Teilnehmer. Sie zeichnen Audio mit einer App auf, die auf eine QA-Plattform hochgeladen wird. Dieses Audio wird Qualitätsprüfungen und automatischer Segmentierung unterzogen. Das Technikteam bereitet dann Segmente für die Transkription vor. Nach der manuellen Transkription folgt ein Schritt zur Qualitätssicherung. Transkriptionen werden dem Kunden zugestellt und bei Annahme gilt die Lieferung als abgeschlossen. Wenn nicht, werden Überarbeitungen auf der Grundlage des Kundenfeedbacks vorgenommen.

Ergebnis

Die hochwertigen Audiodaten von erfahrenen Linguisten werden es unserem Kunden ermöglichen, mehrsprachige Spracherkennungsmodelle in verschiedenen indischen Sprachen mit unterschiedlichen Dialekten in der vorgegebenen Zeit genau zu trainieren und zu erstellen. Die Spracherkennungsmodelle können verwendet werden, um:

Überwinden Sie Sprachbarrieren für die digitale Integration, indem Sie die Bürger mit den Initiativen in ihrer eigenen Muttersprache verbinden.
Fördert digitale Governance
Katalysator zur Bildung eines Ökosystems für Dienstleistungen und Produkte in indischen Sprachen
Lokalisiertere digitale Inhalte in Bereichen von öffentlichem Interesse, insbesondere Governance und Politik

Wir sind beeindruckt von Shaips Fachwissen im Bereich der Konversations-KI. Die Aufgabe, 8000 Stunden Audiodaten zusammen mit 800 Stunden Transkription in 80 verschiedenen Bezirken zu verarbeiten, war gelinde gesagt monumental. Es war Shaips tiefes Verständnis für die komplizierten Details und Nuancen dieses Bereichs, das die erfolgreiche Durchführung eines so anspruchsvollen Projekts ermöglichte. Ihre Fähigkeit, die Komplexität dieser riesigen Datenmengen nahtlos zu verwalten und zu navigieren und gleichzeitig eine erstklassige Qualität zu gewährleisten, ist wirklich lobenswert.

Beschleunigen Sie Ihre Gesprächs-KI
Anwendungsentwicklung zu 100 %

Konversations-KI: Automatische Spracherkennung

Über 8 Audiostunden gesammelt, 800 Stunden transkribiert für mehrsprachige Sprachtechnologie

Einleitung

Volume

Herausforderungen

Datensammlung

Datentranskription

Qualitätsprüfung und Feedback

Lösung

Generelle Richtlinien

Qualitätsprüfung und kritische Qualitätssicherung

Datentranskription

Projektworkflow

Ergebnis

KI-Datendienste

Spezialitäten

Branche

Produkte

Firma

Downloads

Kontakt

Lassen Sie uns mehr über Sie wissen!