Sprachgefühls- und Stimmungsanalyse
Intelligentere Callcenter mit KI-gestützten Erkenntnissen
Nutzung der Fachkompetenz von Shaip im Bereich der Erfassung und Annotation von Audiodaten zur Verbesserung der Emotions- und Stimmungserkennung in Echtzeit und damit eines verbesserten Kundendienstes.
Automatisierte Sprachemotion und
Stimmungsanalyse
Der Kunde arbeitete mit Shaip zusammen, um ein automatisiertes Sprachanalysemodell für Emotionen und Stimmungen für Callcenter zu entwickeln. Das Projekt umfasste das Sammeln und Kommentieren von 250 Stunden Callcenter-Audiodaten in vier englischen Dialekten – US, UK, Australien und Indien. Dies ermöglichte es dem Kunden, seine KI-Modelle zu verbessern, um Emotionen wie Glücklich, Neutral und Wütend sowie Stimmungen wie Unzufrieden und Zufrieden in Echtzeit-Kundeninteraktionen zu erkennen.
Das Projekt überwand Herausforderungen wie Sarkasmuserkennung, unterschiedliche Audiolängen und subtile verbale Signale der Unzufriedenheit und lieferte präzise und skalierbare Ergebnisse.
Schlüsselstats
Callcenter-Audiodaten in 4 englischen Dialekten erfasst und kommentiert
250 Hrs
Anzahl der Sprachen
US-Englisch, UK-Englisch, Australisches Englisch und Indisches Englisch
Anwendungsfälle
Automatisierte Sprachemotions- und Stimmungsanalyse
Projektumfang
Sammeln und kommentieren Sie 250 Stunden Callcenter-Audiodaten in vier englischen Dialekten:
- US-Englisch (30 %)
- Britisches Englisch (30 %)
- Australisches Englisch (20 %)
- Indisches Englisch (20 %)
Im Visier
Das Projekt besteht aus drei Teilen:
- Audiodaten mit bestimmten Entitäten, einschließlich Metadaten.
- Entsprechende transkribierte Dateien mit Segmentierungs- und Zeitstempeldetails.
- Anmerkungen zu Emotionen und Stimmungen:
- Audio-Emotion: Glücklich, Neutral, Wütend
- Transkriptionsstimmung: Äußerst unzufrieden, Unzufrieden, Neutral, Zufrieden, Äußerst zufrieden
Probleme
Es kann eine Herausforderung sein, sicherzustellen, dass die Audiodaten die angegebenen Dialekte (USA, Großbritannien, Australien und Indien) genau wiedergeben. In den verschiedenen Regionen dieser Kategorien können unterschiedliche Vokabeln, Akzente und Aussprachen verwendet werden.
Das Annotieren von Audiodaten und Transkriptionen hinsichtlich Emotionen und Stimmungen erfordert geschulte Annotatoren, die mit den kulturellen Nuancen und sprachlichen Feinheiten jedes Dialekts vertraut sind.
Emotionen und Transkriptionsstimmung stimmen nicht immer überein. Beispielsweise kann eine Person wütend klingen, aber tatsächlich Zufriedenheit ausdrücken. Beispielsweise müssen bei Gesprächen mit Sarkasmus in sarkastischen Sätzen wie „Oh, wunderbar, noch eine Person, die mein Problem nicht lösen kann“ Emotionen und Stimmungen korrekt annotiert werden.
Die Qualität der Audioaufnahmen kann variieren, was sich auf die Transkriptionsgenauigkeit und Emotionserkennung auswirkt. Hintergrundgeräusche, sich überschneidende Gespräche und unterschiedliche Aufnahmegeräte können erhebliche Herausforderungen darstellen.
Unzufriedenheit durch verbale Signale wie schweres Ausatmen oder andere Anzeichen von Frustration.
Die Lösung
Unter Einsatz fortschrittlicher Techniken zur Verarbeitung natürlicher Sprache (NLP) wurden die folgenden Lösungen implementiert:
Datensammlung
- 250 Stunden Audiodaten aufgeteilt in dialektspezifische Kontingente.
- US-Englisch (30 % oder 75 Stunden)
- Britisches Englisch (30 % oder 75 Stunden)
- Australisches Englisch (20 % oder 50 Stunden)
- Indisches Englisch (20 % oder 50 Stunden)
- Benutzer mit muttersprachlichem Akzent aus den USA, Großbritannien, Australien und Indien.
- Sprachbeispiele mit unterschiedlichen Tonlagen, mit besonderem Augenmerk auf Fällen, in denen die Stimme „Wütend“ und die Textstimmung „Unzufrieden“ oder „Äußerst unzufrieden“ lautet.
Textklassifizierung/Annotation

- Annotation von Emotionen und Gefühlen anhand bestimmter Kategorien:
- Audio-Emotion: Glücklich, neutral, wütend.
- Transkriptionsstimmung: Äußerst unzufrieden, Unzufrieden, Neutral, Zufrieden, Äußerst zufrieden.
- Jedes Audiosegment enthielt nur eine primäre Emotion.
- Innerhalb von Gesprächen werden unterschiedliche Verzögerungssegmente (von 2 bis 30 Sekunden) angewendet.
- Das Transkriptionsformat folgte der JSON-Ausgabe, einschließlich Informationen zum linken und rechten Sprecher, Sentiment-Tags und der Stimmung des letzten Segments.
Qualitätssicherung

Transkriptionsgenauigkeit:
- Sicherstellung der Bereitstellung von 250 Stunden Audiomaterial mit mindestens Folgendem:
- 90 % Genauigkeit der Transkriptionsfehlerrate (TER).
- 95 % Genauigkeit der Worterkennungsrate (WER).
QA-Prozess:
- Es wurden regelmäßige Prüfungen zufällig ausgewählter Stichproben aus dem Datensatz durchgeführt.
- Verwendete automatisierte Tools, um TER und WER im gesamten Datensatz zu messen.
- Durch die manuelle Überprüfung der markierten Abschnitte wurde sichergestellt, dass die Genauigkeitsschwellenwerte eingehalten wurden.
Das Ergebnis
Die Trainingsdaten unterstützen die Entwicklung eines automatisierten Modells zur Emotions- und Stimmungserkennung und liefern folgende Ergebnisse:
- Echtzeit-Erkennung von Emotionen bei Callcenter-Interaktionen.
- Effektiverer Umgang mit komplexen Fällen wie Sarkasmus oder Unzufriedenheit.
- Skalierbarkeit für zukünftige Projekte, einfache Anpassung an erhöhte Datenmengen und mehr Sprachen.
Leistungen
- 250 Stunden Audiodateien (im 8 kHz PCM WAV-Format, Mono)
- Transkriptionsdateien (mit Segmentierung, Sentiment-Tags und Sprecherkennungen)
- Metadaten (Audiodauer, Sprecherdetails usw.)
Die Zusammenarbeit mit Shaip für unser Callcenter-Datenprojekt war ein entscheidender Moment für die Weiterentwicklung unserer KI-Lösungen. Ihr Team hat 250 Stunden Audiodaten in vier wichtigen englischen Dialekten – US, UK, Australien und Indien – fachmännisch gesammelt und annotiert und so höchste Qualität und Präzision sichergestellt. Die Berücksichtigung sprachlicher Nuancen in diesen Regionen hat die Genauigkeit unserer Spracherkennungsmodelle erheblich verbessert. Darüber hinaus hat uns Shaips Fachwissen im Umgang mit komplexen Datenannotationsprojekten maßgeblich dabei geholfen, zuverlässige, konforme Modelle in großem Maßstab zu erstellen.