Verbessern des Verständnisses von Suchanfragen durch menschliche Anmerkungen
Nutzung menschlicher Urteilskraft und strukturierter Taxonomie zur konsistenten Behandlung mehrdeutiger Randfälle und Verbesserung der Suchrelevanz für einen führenden polnischen E-Commerce-Konzern.
Projektübersicht
Der Kunde, ein führender E-Commerce-Anbieter mit Sitz in Polen, erhält täglich Millionen von Suchanfragen. Viele dieser Anfragen sind mehrdeutigumfassen Rechtschreibfehleroder siehe mehrere Produktkategorien, was automatisierte Suchmaschinen vor Herausforderungen stellt.
Um s zu verbessernSuchgenauigkeit und KundenerfahrungShaip entwickelte ein strukturiertes Annotations-Framework, inspiriert von Baymards Studie. Abfragen wurden systematisch klassifiziert in 11 Kategorien (z. B. Produktkategorie, Thema, Spezifisches Attribut, Genau, Händler, Symptom, Nicht-Produkt usw.) mit Vorrangregeln um eine konsistente Kategorisierung zu gewährleisten.
Schlüsselstats
Über 50,000 Abfragen
Kommentiert
über mehrere
Kategorien
11 Anmerkung
Klassen
mit klaren Definitionen &
Vorrangregeln
3-Step
Arbeitsablauf
Anmerkung ➔ QA ➔
KMU-Schiedsgerichtsbarkeit
Projektumfang
Das Projekt konzentrierte sich auf den Bau eines umfassende Taxonomie das gesamte Spektrum des Suchverhaltens von Nutzern auf einer großen Marktplatzplattform zu erfassen. Der Umfang umfasste:
- Entwicklung einer Taxonomie mit 11 Kategorien mit klaren Definitionen und einer Rangfolgehierarchie, um Fälle zu behandeln, in denen Abfragen in mehr als eine Klasse passen könnten.
- Kommentieren von Tausenden von echten Abfragen sowohl in Produkt- als auch in Nicht-Produktdomänen, um das Klassifizierungssystem zu trainieren und zu kalibrieren.
- Auflösen mehrdeutiger Abfragen durch Eskalation an Fachexperten (SMEs), um eine einheitliche Behandlung von Randfällen sicherzustellen.
- Bereitstellung kommentierter Beispiele und Begründungen für die QA-Kalibrierung, wodurch ein Trainingssatz erstellt wird, auf den sich zukünftige Kommentatoren als Referenz verlassen können.
Beispielanmerkungen enthalten:
- De dietrich ELENSIO ➔ Exact
- E 91 ➔ Schwer zu sagen
- tezfiles ➔ Händler
- subaru brz toyota gt86 ➔ Nicht-Produkt
- okulary BHP ➔ Produktkategorie
- stawu skokowego ➔ Symptom
Probleme
Das Projekt musste mehrere Probleme mit der Datenkomplexität die in E-Commerce-Suchumgebungen typisch sind:
Suchanfragen wie „E 91“ könnten sich auf ganz unterschiedliche Produkte beziehen (ein Automodell, einen Sicherungshalter, einen Kapselaufdruck), was die Interpretation höchst unsicher macht.
Rechtschreibfehler oder Abkürzungen wie „lampa uf zestaw“ erforderten eine kontextbezogene menschliche Interpretation, um sie als „lampa UV zestaw“ zu verstehen.
Abfragen stimmten häufig mit mehreren Klassen überein (z. B. „Exaktes“ vs. „Kompatibles“ vs. „Spezifisches Attribut“), sodass zur Gewährleistung der Konsistenz Vorrangregeln erforderlich waren.
Seriencodes oder Kennungen ohne Produktübereinstimmung mussten als „Ungültige Phrase“ gekennzeichnet werden, anstatt falsch klassifiziert zu werden.
Konsequente Anwendung differenzierter Klassifizierungsregeln in Zehntausende von Anfragen erforderte eine starke Qualitätssicherung und Annotationsverwaltung.
Die Lösung
Um diese Herausforderungen zu bewältigen, strukturiertes Annotationsframework wurde eingeführt, um Automatisierung und menschliche Aufsicht in Einklang zu bringen:
Es wurden detaillierte Definitionen, Beispiele und Anweisungen erstellt, um den Kommentatoren dabei zu helfen, auch in komplexen Szenarien eine konsistente Klassifizierung durchzuführen.
Es wurde eine Hierarchie erstellt (z. B. Kompatibel > Genau > Spezifisches Attribut), sodass sich überschneidende Fälle systematisch gelöst wurden.
- Erste Annotationen durch geschulte Annotatoren.
- Zweitprüfung durch QA-Spezialisten.
- Eskalation an KMU zur Schlichtung von Randfällen oder Meinungsverschiedenheiten
- 4008146044786 ➔ Ungültige Phrase
- Miraculum Królika ➔ Thematisches Attribut
- zcd galactic grey ➔ Kompatibel
- Belgischer Schäferhund ➔ Thema
Dies gewährleistete Ausrichtung, Qualität und Zuverlässigkeit über die Annotation-Pipeline.
Ergebnis
Die Initiative führte zu messbaren Verbesserungen im Such-Ökosystem des Kunden:
- Über 50,000 klassifizierte Abfragen mit hoher Präzision und bildet so einen robusten Trainingsdatensatz für Suchverbesserungen.
- Verbesserte Relevanz der Suchergebnisse, wodurch die Benutzerzufriedenheit direkt gesteigert und die Frustration aufgrund irrelevanter Übereinstimmungen verringert wird.
- Reduzierte Mehrdeutigkeit durch die systematische Lösung von Randfällen durch KMU-gesteuerte Schieds- und Vorrangregeln.
- Verbesserte Produktauffindbarkeit, wodurch sichergestellt wird, dass Benutzer Artikel über Kategorien, Attribute und Themen hinweg genauer finden können.
Insgesamt legte das Projekt den Grundstein für eine intelligenteres, benutzerorientiertes Sucherlebnisund hilft dem Kunden, seinen Wettbewerbsvorteil auf dem E-Commerce-Markt zu wahren.
Der menschliche Annotations-Workflow brachte Klarheit in komplexe Suchanfragen. Die strukturierte Taxonomie und die Prioritätsregeln verbesserten die Genauigkeit unserer Suchmaschine erheblich und sorgten für ein nahtloseres Benutzererlebnis.
– Leiter für Suche und Entdeckung, polnischer E-Commerce-Konzern