Erstellung eines Gesichtsbilddatensatzes außerhalb der EU/des Vereinigten Königreichs mit altersbedingter Diversität

Ein Korpus von zeitlich getrennten Gesichtsbildern von 1,205 Teilnehmern zur Stärkung der Fairness und Robustheit von Computer-Vision-Modellen.

Gesichtsbilddatensatz mit Altersverlaufsdiversität

Projektübersicht

Ein globales Technologieunternehmen, das gesichtszentrierte KI für Sicherheits-, Personalisierungs- und Identitätserlebnisse entwickelt, suchte einen Datensatz von Nicht-EU/UK mit zeitlich getrennten Fotos, um Verzerrungen zu reduzieren und die Robustheit des Modells in Bezug auf Alter, Umgebung und Accessoires zu verbessern.

Der Kunde ging eine Partnerschaft mit Shaip ein, um sammeln, kuratieren und validieren Es wurde ein umfangreicher Korpus von Gesichtsbildern erstellt, zu dem jeder Teilnehmer aktuelle und ältere Fotos beigesteuert hat. Ziel war es, den natürlichen Alterungsprozess abzubilden und gleichzeitig eine strikte Herkunftsbeschränkung außerhalb der EU/des Vereinigten Königreichs sowie ein ausgewogenes Verhältnis von Geschlecht und Alter zu gewährleisten.

Gesichtsbilddatensatz mit Altersverlaufsdiversität

Schlüsselstats

Teilnehmer

 1,205 (nur Nicht-EU/UK, 50/50 Geschlechterverhältnis ±10–15 %)

 Altersmix

 40 % (10–29), 40 % (30–49), 20 % (50+) ±10–15 % Toleranz

Abdeckung

Süd-/Südostasien, Nord- und Nordostafrika, Singapur, Südamerika

Geschichte

19 Wochen

Challenges

Geografische Beschränkung

Die Quellen stammen ausschließlich aus Bevölkerungsgruppen außerhalb der EU/des Vereinigten Königreichs, wobei Bilder aus der EU/dem Vereinigten Königreich, die auf Reisen entstanden sind, vermieden werden.

Ausgewogene Quoten im großen Maßstab

Mit engen Toleranzgrenzen hinsichtlich Geschlecht und Alter konnten 1,205 Teilnehmer erreicht werden.

Zeitlich getrennte Beweise

Sicherstellen, dass jeder Ausweis sowohl aktuelle als auch historische Fotos enthält, die den Altersgruppen zugeordnet sind.

Betriebsqualität

Durchsetzung von Mindestgrenzen für Bild-/Gesichtsgröße, Vielfalt und Duplizierung, ohne den Durchsatz zu verlangsamen.

Lösung

1. Länderfelder und Herkunftskontrollen

Wir haben uns etabliert Beschaffungsgruppen auf Länderebene in den Zielregionen und geschulten Partnern Provenienzregeln (Nur für Nicht-EU/Nicht-GB). Die Fotos wurden hinsichtlich Risiken im Zusammenhang mit dem Reiseursprung überprüft. Metadatenhinweise (Jahr, Ortsmarkierungen) Hinzu kommen die Bestätigungen der Einreicher, wodurch Datenlecks aus der EU/dem Vereinigten Königreich vor der Qualitätskontrolle reduziert werden. Dies entspricht Shaips bewährter Praxis, Risikoprüfungen vorzuziehen, um den nachgelagerten Durchsatz zu schützen.

2. Design zur Erfassung des Altersverlaufs

Anstatt „20 Bilder anzufordern“, haben wir Folgendes entworfen: zweigleisiger Einreichungsprozess die die Teilnehmer dazu anleitete:

  • Titel A (Aktuell): Fotos aus den letzten zwei Jahren;
  • Gleis B (Historisch): Ältere Fotos, die dem Altersbereich des Teilnehmers zum Zeitpunkt der Einreichung zugeordnet sind (z. B. 2–10/15/20-Jahres-Fenster).

Das Portal regte die Nutzer mit Beispielen (für drinnen und draußen, Winkel, Zubehör) dazu an, Vielfalt zu fördern, ohne dabei zu viele Details vorzugeben.

3. Diversitätsmanagement und Quotenregelung

A Echtzeit-Quoten-Dashboard überwachte Einschreibungen Geschlecht, Altersgruppe und GeografieDie Datenerfassung wurde unterbrochen, sobald eine Schicht die geplanten Grenzwerte erreicht hatte. Dies verhinderte Nacharbeiten im späten Zyklus und entspricht Shaips Standardvorgehensweise. gestaffelte Einschreibung + Sperrungen wurde in früheren biometrischen Datensätzen verwendet, um eine ausgewogene Repräsentation zu gewährleisten.

4. Qualitätspipeline (Menschliche Beteiligung + automatisierte Vorabprüfungen)

  • Automatische Tore: Gesichtserkennung + Mindestgrößenschwellenwerte, grundlegende Unschärfe-/Rauschprüfungen und Clustering am selben Tag, um potenzielle Duplikate frühzeitig zu erkennen.
  • Menschliche Qualitätssicherungsstufen: Bildprüfer bestätigten Exklusivität des Themas (nur für Hauptteilnehmer), Szenen-/Winkelvielfaltund keine VerschönerungsfilterDie CQA-Prüfer führten Stichprobenkontrollen der Chargen vor der Abnahme durch. mehrschichtige Qualitätssicherung Spiegelt Shaips veröffentlichte biometrische Datenprogramme wider.

5. Einhaltung der Vorschriften und Zustimmung

Anmeldung zur Pilotenausbildung ≥20 Jahre Mit unterzeichneter Einwilligung; Fälle unter 20 Jahren werden nur mit Einwilligung des Erziehungsberechtigten akzeptiert. Wir haben das Vorhandensein der Einwilligung in den Metadaten erfasst und die Checklisten der Gutachter entsprechend angepasst. Teilnahmeberechtigung + Einwilligung Felder, um die Prüfbarkeit zu gewährleisten.

6. Metadaten und Rückverfolgbarkeit

Wir haben geliefert Metadaten auf Teilnehmer- und Bildebene (Verknüpfungen mit Identifikationsdaten, demografische Daten, Nationalität/Wohnsitz, Aufnahmejahr des Fotos, Einreichungsdatum usw.) und standardisierte Feldnamen zur Vereinfachung nachgelagerte Kennzeichnung und BewertungDies entspricht Shaips bewährter Vorgehensweise. umfangreiche Metadaten-Kennzeichnung für biometrische Datensätze.

7. Stufenweise Umsetzung zur Risikominimierung

An 8-Batch-Plan begann mit einem Kalibrierung mit 10 Teilnehmern Zunächst wurde die Produktion eingestellt, anschließend erfolgte eine kontrollierte Skalierung. Kundenfeedback nach der ersten Charge führte zu Anpassungen der Bewertungskriterien, woraufhin die Produktionsmengen in vorhersehbaren Tranchen bis zum Erreichen des Ziels gesteigert wurden. 1,205 Teilnehmer in etwa 19 Wochen.

Projektumfang

Abmessungen Was wir geliefert haben
Einwohnerzahl 1,205 Teilnehmer aus Nicht-EU/Nicht-GB-Ländern mit ausgewogener Geschlechter- und Altersgruppenverteilung.
Inhalt ≥20 Bilder pro Teilnehmer: aktuelle + historische Aufnahmen zur Erfassung des Altersverlaufs; abwechslungsreiche Szenen, Blickwinkel und Accessoires.
Qualitätsbetrieb Automatisierte Vorabprüfungen + mehrstufige Qualitätssicherung durch Menschen (Duplikationskontrollen; Exklusivität der Probanden; Filterablehnung).
Compliance Herkunftsnachweis (außerhalb der EU/des Vereinigten Königreichs); Zustimmungsmanagement und Prüfung der Anspruchsberechtigung.
Metadaten Teilnehmer- und Bildattribute zur Rückverfolgbarkeit und nachgelagerten ML-Auswertung.
Lieferung 8-phasige Chargen, beginnend mit der Kalibrierung, gefolgt von der Lieferung im stationären Zustand bis zum endgültigen Zielwert.

Das Ergebnis

  • Ausgewogener, revisionssicherer Bestand: Demografische Quoten wurden innerhalb der Toleranzgrenzen eingehalten; Herkunftsnachweis außerhalb der EU/des Vereinigten Königreichs wurde für alle Bilder zur Einhaltung der Schulungsrichtlinien durchgesetzt.
  • Modellbereite Variabilität: Zeitlich getrennte Bilder, unterschiedliche Umgebungen/Winkel und die Abdeckung mit Zubehör unterstützen Robustheitstests und die Analyse von Verzerrungen.
  • Operative Vorhersagbarkeit: Die erste Kalibrierungsphase und die Einhaltung von Quotenvorgaben reduzierten Nacharbeiten und sicherten den Zeitplan für das Erreichen des vollen Ziels von 1,205 Teilnehmern.
  • Downstream-Effizienz: Umfangreiche Metadaten und eine konsequente Dateihygiene verkürzten den Weg zur Annotation und Benchmark-Erstellung gemäß Shaips Vorgehensweise bei biometrischen Datensätzen.

Shaip hat aus einem komplexen Datensatz mit Gesichtsdaten von Personen außerhalb der EU und Großbritanniens ein ausgewogenes, auditfähiges Korpus erstellt. Dank ihres Designs zur Altersprogression und der mehrstufigen Qualitätssicherung konnte unser CV-Team saubere, vielfältige und verlässliche Daten gewinnen – ohne Terminrisiken.

Goldener 5-Sterne-Status