Erhebung von Äußerungsdaten

Was ist eine „Äußerung“ in der KI?: Beispiele, Datensätze und Best Practices

Haben Sie sich jemals gefragt, wie Chatbots und virtuelle Assistenten aufwachen, wenn Sie „Hey Siri“ oder „Alexa“ sagen? Es liegt an der Sammlung von Textäußerungen oder Triggerwörtern, die in die Software eingebettet sind, die das System aktiviert, sobald es das programmierte Aktivierungswort hört.

Der Gesamtprozess zum Erstellen von Sounds und Äußerungsdaten ist jedoch nicht so einfach. Es ist ein Prozess, der mit der richtigen Technik durchgeführt werden muss, um die gewünschten Ergebnisse zu erzielen. Daher wird dieser Blog den Weg zur Erstellung guter Äußerungen/Triggerwörter aufzeigen, die nahtlos mit Ihrer Konversations-KI zusammenarbeiten.

Was ist eine „Äußerung“ in der KI?

In der Konversations-KI (Chatbots, Sprachassistenten) ist eine Äußerung eine kurze Benutzereingabe – die genauen Wörter, die eine Person sagt oder eingibt. Modelle verwenden Äußerungen, um die Absicht (das Ziel) des Benutzers und alle Entitäten (Details wie Daten, Produktnamen, Beträge) herauszufinden.

Einfache Beispiele

E-Commerce-Bot

Äußerung: „Meine Bestellung verfolgen 123-456"

  • Absicht: TrackOrder
  • Entität: order_id = 123-456

Telekommunikationsbot

Äußerung: „Meinen Datentarif upgraden"

  • Absicht: ChangePlan
  • Entität: plan_type = Daten

Sprachassistent für Banken

Äußerung (gesprochen): „WWie hoch ist mein Kontostand heute?"

  • Absicht: CheckBalance
  • Entitäten: Kontotyp = Girokonto, Datum = heute

Warum Ihre Konversations-KI gute Äußerungsdaten benötigt

Wenn Ihr Chatbot oder Sprachassistent hilfreich und nicht fehleranfällig sein soll, beginnen Sie mit besseren Äußerungsdaten. Äußerungen sind die einfachen Sätze, die Menschen sagen oder eingeben, um Dinge zu erledigen („Buchen Sie mir ein Zimmer für morgen“, „Ändern Sie meinen Plan“, „Wie ist der Status?“). Sie ermöglichen die Klassifizierung von Absichten, die Entitätsextraktion und letztendlich das Kundenerlebnis. Wenn Äußerungen vielfältig, repräsentativ und gut beschriftet sind, lernen Ihre Modelle die richtigen Grenzen zwischen Absichten und können mit unübersichtlichen, realen Eingaben souverän umgehen.

Erstellen Ihres Äußerungsrepositorys: ein einfacher Workflow

Erstellen eines Äußerungsrepositorys

1. Beginnen Sie mit der echten Benutzersprache

Mine Chat-Protokolle, Suchanfragen, IVR-Transkripte, Agentennotizenund Kunden-E-Mails. Gruppieren Sie sie nach Benutzerzielen, um Absichten zu erkennen. (Sie erfassen umgangssprachliche Ausdrücke und mentale Modelle, an die Sie in einem Raum nicht denken würden.)

2. Schaffen Sie gezielt Abwechslung

Verfassen Sie für jede Absicht verschiedene Beispiele:

  • Formulieren Sie Verben und Substantive um („abbrechen“, „stoppen“, „beenden“, „planen“, „Abonnement“).
  • Mischen Sie Satzlängen und -strukturen (Frage, Anweisung, Fragment).
  • Fügen Sie Tippfehler, Abkürzungen, Emojis (für den Chat) und Code-Switching ein, wo relevant.
  • Fügen Sie negative Fälle hinzu, die ähnlich aussehen, aber kein Frontalunterricht. Karte zu dieser Absicht.

3. Gleichen Sie Ihren Unterricht aus

Extrem unausgewogenes Training (z. B. 500 Beispiele für eine Absicht und 10 für andere) beeinträchtigt die Vorhersagequalität. Absichtsgrößen relativ gleichmäßig und lassen Sie sie gemeinsam wachsen, wie es der Verkehr Ihnen beibringt.

4. Qualität vor dem Training validieren

Blockieren Sie Daten mit schwachem Signal mit Validatoren während der Erstellung/Sammlung:

  • Spracherkennung: Stellen Sie sicher, dass die Beispiele in der Zielsprache sind.
  • Kauderwelsch-Detektor: fangen Sie unsinnige Zeichenfolgen ab.
  • Duplikat-/Fast-Duplikat-Prüfungen: Sorgen Sie für eine hohe Vielfalt.
  • Reguläre Ausdrücke/Rechtschreibung und Grammatik: Setzen Sie Stilregeln durch, wo nötig.
    Intelligente Validatoren (wie sie von Appen verwendet werden) können große Teile dieses Gatekeeping automatisieren.

5. Beschriften Sie Entitäten einheitlich

Definieren Sie Slot-Typen (Daten, Produkte, Adressen) und zeigen Sie Annotatoren an wie man Grenzen markiertMuster wie Muster beliebig in LUIS können lange, variable Bereiche (z. B. Dokumentnamen) eindeutig gemacht werden, die Modelle verwirren.

6. Testen Sie wie in der Produktion

Push ungesehen echte Äußerungen an einen Vorhersage-Endpunkt oder Staging-Bot, überprüfen Fehlklassifizierungen und fördern mehrdeutige Beispiele in das Training ein. Machen Sie daraus eine Schleife: Sammeln → Trainieren → Überprüfen → Erweitern.

Was „chaotische Realität“ wirklich bedeutet (und wie man damit umgeht)

Echte Benutzer sprechen selten in perfekten Sätzen. Erwarten Sie:

  • Fragmente: „Rückerstattung der Versandkosten“
  • Zusammengesetzte Ziele: „Bestellung stornieren und neu bestellen in Blau“
  • Implizite Entitäten: „An mein Büro liefern“ (Sie müssen wissen, welches Büro)
  • Mehrdeutigkeit: „Meinen Plan ändern“ (welcher Plan? Ab wann gültig?)

Praktische Lösungen

  • Bieten klärende Aufforderungen nur wenn nötig; vermeiden Sie zu viele Fragen.
  • Erfassung Kontextübertrag (Pronomen wie „diese Bestellung“, „die letzte“).
  • Nutzen Sie Fallback-Intents mit gezielter Rückgewinnung: „Ich kann Ihnen helfen, Pläne abzusagen oder zu ändern – was möchten Sie?“
  • Überwachen Absicht Gesundheit (Verwirrung, Kollision) und fügen Sie Daten hinzu, wo sie schwach sind

Sprachassistenten und Aktivierungswörter: Unterschiedliche Daten, ähnliche Regeln

Sprachassistenten und Aktivierungswörter Aktivierungswörter („Hey Siri“, „Alexa“, benutzerdefinierte Aktivierungsphrasen) sind eine spezialisierte Äußerungsuntergruppe mit starken akustischen Einschränkungen, aber die Berichterstattungsmentalität gilt weiterhin: verschiedene Lautsprecher, Geräte und Umgebungen. Nach dem Aufwachen Sprachäußerungen die eigentliche Aufgabe übernehmen („Licht an“, „Jazz spielen“). Halten Sie Ihre aufwachen kombiniert mit einem nachhaltigen Materialprofil. Projektauftrag Datensätze unterscheiden und separat auswerten.

Wann (und wie) Standarddaten oder benutzerdefinierte Daten verwendet werden sollten

Standarddaten vs. benutzerdefinierte Daten

  • Ab Lager: Die Abdeckung in neuen Regionen ankurbeln und dann messen, wo weiterhin Verwirrung besteht.
  • Maßgeschneidert: Erfassen Sie Ihre Domänensprache (Versicherungsbedingungen, Produktnamen) und „Markenstimme“.
  • Hybrid - Blended: Beginnen Sie allgemein und fügen Sie dann hochpräzise Daten für die Absichten mit der größten Ablenkung oder Umsatzauswirkung hinzu.

Wenn Sie eine schnelle Auffahrt benötigen, bietet Shaip Äußerungssammlung und handelsübliche Sprach-/Chat-Datensätze in vielen Sprachen; siehe Fallstudie zur Einführung eines mehrsprachigen Assistenten.

Checkliste für die Umsetzung

Checkliste für die Umsetzung

  • Definieren Sie Absichten und Entitäten mit Beispielen und Negativ Fälle
  • Autorin abwechslungsreich, ausgewogen Äußerungen für jede Absicht (klein anfangen, wöchentlich wachsen)
  • Fügen Sie vor dem Training Validatoren (Sprache, Kauderwelsch, Duplikate, reguläre Ausdrücke) hinzu
  • Einrichten Überprüfungsschleifen aus dem realen Verkehr; mehrdeutige Elemente in die Schulung einbeziehen 
  • Bestellung ansehen Absicht Gesundheit und Kollisionen; mit neuen Äußerungen beheben
  • Neubewertung nach Kanal/Gebietsschema, um Abweichungen frühzeitig zu erkennen

Wie Shaip helfen kann

  • Benutzerdefinierte Äußerungssammlung und -beschriftung (Chat + Sprache) mit Validatoren, um die Qualität hoch zu halten.
  • Gebrauchsfertige Datensätze über 150 Sprachen/Varianten für schnelles Bootstrapping.
  • Laufende Überprüfungsprogramme die Live-Verkehr sicher in signalstarke Trainingsdaten umwandeln (PII-Kontrollen).

Entdecken Sie unsere mehrsprachigen Fallstudie zur Sammlung von Äußerungen kombiniert mit einem nachhaltigen Materialprofil. Beispieldatensätze.

Social Share