Audio-Sammlung von Schlüsselphrasen/Eingabeaufforderungen

Fallstudie: Sammlung von Schlüsselphrasen für sprachaktivierte Systeme im Auto

Sammlung von Schlüsselphrasen

In der Automobilindustrie besteht eine steigende Nachfrage nach sprachaktivierten Systemen im Auto, die die Art und Weise, wie wir mit unseren Mobilitätsfahrzeugen umgehen, neu definieren.

Die Automobilindustrie hat schnell sprachaktivierte Systeme eingeführt, wobei große Unternehmen wie Ford, Tesla und BMW fortschrittliche Spracherkennung in ihre Fahrzeuge integrieren. Schätzungen zufolge verfügten bis 2022 über 50 % der Neuwagen über Spracherkennungsfunktionen. Diese Integrationen zielen darauf ab, die Sicherheit zu erhöhen und es dem Fahrer zu ermöglichen, Navigations-, Unterhaltungs- und Kommunikationsfunktionen ohne Ablenkungen zu bedienen.

Der Marktwert für Spracherkennung in Autos soll bis 1 eine Milliarde US-Dollar übersteigen, was auf eine wachsende Nachfrage nach freihändigen, intelligenten Interaktionen im Auto hindeutet.

Automotive

Untersuchungen deuten darauf hin, dass bis 2022 73 % der Autofahrer einen Sprachassistenten im Auto nutzen werden.

Der Markt für Spracherkennungssysteme für Kraftfahrzeuge wurde im Jahr 2.01 auf 2021 Mrd. USD geschätzt und wird bis 3.51 voraussichtlich 2027 Mrd. USD erreichen, was einer durchschnittlichen jährlichen Wachstumsrate von rund 8.07 % entspricht.

Real-World-Lösung

Daten, die sprachaktivierte Systeme antreiben

Sprachgesteuerte Systeme im Auto erhöhen Sicherheit und Komfort. Sie ermöglichen es dem Fahrer, auf die Navigation zuzugreifen, Anrufe zu tätigen, Texte zu senden und Musik zu steuern, ohne die Hände vom Lenkrad oder den Blick von der Straße zu nehmen. Durch die Reaktion auf verbale Befehle reduzieren diese Systeme die Ablenkung, fördern Multitasking und sorgen dafür, dass man sich kontinuierlich auf das Fahren konzentrieren kann. 

Der Kunde ist ein weltweit führender Anbieter von Konversationsintelligenz, der Sprach-KI-Lösungen anbietet, mit denen Unternehmen ihren Kunden unglaubliche Konversationserlebnisse bieten können. Sie arbeiteten mit führenden Automobilunternehmen zusammen, um deren sprachaktivierte Systeme mit Markenschlüsselsätzen zu trainieren, und benötigten Shaips Fachwissen in der Audiodatenerfassung.

Lösung für die reale Welt
Herausforderungen

Herausforderungen

  • Crowdsourcing: Rekrutieren Sie weltweit mehr als 2800 Muttersprachler pro Sprache.
  • Datensammlung: Sichern Sie sich über 200 Eingabeaufforderungen in 12 Sprachen innerhalb eines festgelegten Zeitrahmens.
  • Kontext- und Absichtserkennung: Um Benutzeranfragen richtig zu verstehen, mussten Systeme auf verschiedene Variationen derselben Schlüsselphrase trainiert werden.
  • Umgang mit Hintergrundgeräuschen: Behandeln Sie reale Hintergrundgeräusche für die Genauigkeit des ML-Modells.
  • Voreingenommenheit reduzieren: Erfassen Sie Sprachproben aus unterschiedlichen Bevölkerungsgruppen, um Inklusivität zu gewährleisten.
  • Audio-Spezifikationen: 16 kHz 16 Bit PCM, Mono, Einzelkanal, WAV; keine Bearbeitung.
  • Aufnahmeumgebung: Die Aufnahmen sollten einen sauberen Ton ohne Hintergrundgeräusche oder Störungen haben. Schlüsselphrasen, die mit normaler Sprache aufgezeichnet werden sollen.
  • Qualitätsprüfung:  Alle Sprachaufzeichnungen werden einer Qualitätsbewertung und Validierung unterzogen. Es werden nur validierte Sprachaufzeichnungen geliefert. Wenn Shaip die vereinbarten Qualitätsstandards nicht erfüllt, liefert Shaip die Daten ohne zusätzliche Kosten erneut

Lösung

Mit seiner Expertise im Bereich der Konversations-KI ermöglichte Shaip dem Kunden Folgendes:

  • Datensammlung: 208 Schlüsselphrasen/Markenaufforderungen, die in 12 globalen Sprachen von 2800 Sprechern im festgelegten Zeitrahmen gesammelt wurden
  • Verschiedene Akzente und Dialekte: Rekrutierte Spezialisten aus der ganzen Welt, die die gewünschten Akzente und Dialekte beherrschen.
  • Kontext- und Absichtserkennung: Jeder Redner wurde damit beauftragt, die Schlüsselphrasen in 20 verschiedenen Variationen aufzuzeichnen, damit die ML-Modelle Benutzeranfragen hinsichtlich Kontext und Absicht genau erfassen konnten.
  • Umgang mit Hintergrundgeräuschen: Um eine makellose Audioqualität zu gewährleisten, haben wir dafür gesorgt, dass die Schlüsselphrasen in einer ruhigen Umgebung mit einem Geräuschpegel unter 40 dB und ohne Hintergrundstörungen wie Fernsehen, Radio, Musik, Sprache oder Straßengeräusche aufgenommen wurden.
  • Voreingenommenheit reduzieren: Um Voreingenommenheit zu minimieren, haben wir Einzelpersonen aus verschiedenen Regionen einbezogen und eine ausgewogene demografische Vertretung mit 50 % Männern und 50 % Frauen in Altersgruppen von 18 bis 60 Jahren beibehalten.
  • Aufnahmerichtlinien: Die Schlüsselphrasen wurden in einem konsistenten, normalen Sprachmuster erfasst, ohne Variationen wie schnelles oder langsames Tempo. 2 Sekunden Stille am Anfang und am Ende, um sicherzustellen, dass kein Teil der Rede versehentlich abgeschnitten wird.
  • Aufnahmeformat: Der Ton wurde mit 16 kHz, 16-Bit-PCM in Mono unter Verwendung eines einzelnen Kanals aufgenommen und im WAV-Dateiformat gespeichert. Das Audio bleibt unbearbeitet, d. h. es wurde keine Komprimierung, kein Hall oder EQ angewendet.
  • Qualität: Jede Sprachaufzeichnung wurde strengen Qualitätsprüfungen und Validierungen unterzogen. Es wurden nur Aufnahmen geliefert, die diese Prüfung bestanden haben. Alle Dateien, die nicht den vereinbarten Qualitätsstandards entsprachen, wurden neu aufgenommen und ohne zusätzliche Kosten bereitgestellt
Lösung
Ergebnis

Ergebnis

Die hochwertigen Markenschlüsselphrasen-Audiodaten oder Sprachansagen ermöglichen den Automobilunternehmen und ihren Kunden Folgendes:

  1. Branding und Identität: Sprachansagen mit spezifischen Markenphrasen helfen Unternehmen dabei, eine direkte und einprägsame Verbindung zwischen dem Benutzer und der Marke herzustellen, die die Markenerinnerung steigert.
  2. Einfache Bedienung: Sprachbefehle erleichtern es dem Fahrer, mit Fahrzeugen zu interagieren, ohne die Hände vom Lenkrad oder den Blick von der Straße zu nehmen, wodurch die Verkehrssicherheit erhöht wird.
  3. Funktionalität: Sprachbefehle machen den Zugriff auf und die Steuerung von Fahrzeugfunktionen intuitiver. Ob Navigation, Medienwiedergabe oder Klimatisierung.
  4. Integration mit anderen Systemen: Viele sprachaktivierte Systeme sind in Smartphones, Smart-Home-Geräte und andere IoT-Geräte integriert. Beispielsweise könnte ein Benutzer sein Auto bitten, zu Hause das Licht einzuschalten, wenn er sich seinem Zuhause nähert.
  5. Competitive Advantage: Das Angebot fortschrittlicher sprachaktivierter Systeme kann ein Verkaufsargument und ein Unterscheidungsmerkmal sein. Käufer achten beim Kauf eines Neuwagens auf die neueste Technologie.
  6. Zukunftssicher: Da sich die Technologie weiterentwickelt und das Internet der Dinge immer stärker in den Alltag integriert wird, versetzt ein robustes sprachaktiviertes System Automobilunternehmen in die Lage, anpassungsfähiger an zukünftige Technologien zu sein.
  7. Einnahmemöglichkeiten: Zusätzliche Monetarisierungsmöglichkeiten: Sprachsysteme bieten Empfehlungen oder integrierte E-Commerce-Erlebnisse (z. B. Essen bestellen oder Dienstleistungen in der Nähe finden), die Affiliate-Einnahmen generieren könnten.
Golden-5-Sterne

Als wir mit der Beschaffung von Sprachansagen für die Automobilbranche begannen, waren die Herausforderungen zahlreich. Die Erfassung der Vielfalt an Sprache, Akzenten und Tönen war von entscheidender Bedeutung, um die globale Kundschaft unseres Kunden zu repräsentieren. Shaip zeichnete sich nicht nur als Lieferant aus, sondern auch als echter Partner. Ihr Engagement, ein vielfältiges Spektrum an Stimmen aus verschiedenen Regionen zu sichern, war lobenswert. Sie gingen über das bloße Sammeln von Stimmen hinaus; Sie haben die Nuancen unserer Projektanforderungen erfasst und erstklassige Aufnahmen garantiert. Ihre tadellose Einhaltung der Audio-Sammlungsstandards zeigte ihre Professionalität und ihr Engagement für das Projekt.

Beschleunigen Sie Ihre Gesprächs-KI
Anwendungsentwicklung zu 100 %