Erstellung eines Gesichtsbilddatensatzes außerhalb der EU/des Vereinigten Königreichs mit altersbedingter Diversität
Ein Korpus von zeitlich getrennten Gesichtsbildern von 1,205 Teilnehmern zur Stärkung der Fairness und Robustheit von Computer-Vision-Modellen.
Projektübersicht
Ein globales Technologieunternehmen, das gesichtszentrierte KI für Sicherheits-, Personalisierungs- und Identitätserlebnisse entwickelt, suchte einen Datensatz von Nicht-EU/UK mit zeitlich getrennten Fotos, um Verzerrungen zu reduzieren und die Robustheit des Modells in Bezug auf Alter, Umgebung und Accessoires zu verbessern.
Der Kunde ging eine Partnerschaft mit Shaip ein, um sammeln, kuratieren und validieren Es wurde ein umfangreicher Korpus von Gesichtsbildern erstellt, zu dem jeder Teilnehmer aktuelle und ältere Fotos beigesteuert hat. Ziel war es, den natürlichen Alterungsprozess abzubilden und gleichzeitig eine strikte Herkunftsbeschränkung außerhalb der EU/des Vereinigten Königreichs sowie ein ausgewogenes Verhältnis von Geschlecht und Alter zu gewährleisten.
Schlüsselstats
Teilnehmer
1,205 (nur Nicht-EU/UK, 50/50 Geschlechterverhältnis ±10–15 %)
Altersmix
40 % (10–29), 40 % (30–49), 20 % (50+) ±10–15 % Toleranz
Abdeckung
Süd-/Südostasien, Nord- und Nordostafrika, Singapur, Südamerika
Geschichte
19 Wochen
Challenges
Geografische Beschränkung
Die Quellen stammen ausschließlich aus Bevölkerungsgruppen außerhalb der EU/des Vereinigten Königreichs, wobei Bilder aus der EU/dem Vereinigten Königreich, die auf Reisen entstanden sind, vermieden werden.
Ausgewogene Quoten im großen Maßstab
Mit engen Toleranzgrenzen hinsichtlich Geschlecht und Alter konnten 1,205 Teilnehmer erreicht werden.
Zeitlich getrennte Beweise
Sicherstellen, dass jeder Ausweis sowohl aktuelle als auch historische Fotos enthält, die den Altersgruppen zugeordnet sind.
Betriebsqualität
Durchsetzung von Mindestgrenzen für Bild-/Gesichtsgröße, Vielfalt und Duplizierung, ohne den Durchsatz zu verlangsamen.
Lösung
1. Länderfelder und Herkunftskontrollen
Wir haben uns etabliert Beschaffungsgruppen auf Länderebene in den Zielregionen und geschulten Partnern Provenienzregeln (Nur für Nicht-EU/Nicht-GB). Die Fotos wurden hinsichtlich Risiken im Zusammenhang mit dem Reiseursprung überprüft. Metadatenhinweise (Jahr, Ortsmarkierungen) Hinzu kommen die Bestätigungen der Einreicher, wodurch Datenlecks aus der EU/dem Vereinigten Königreich vor der Qualitätskontrolle reduziert werden. Dies entspricht Shaips bewährter Praxis, Risikoprüfungen vorzuziehen, um den nachgelagerten Durchsatz zu schützen.
2. Design zur Erfassung des Altersverlaufs
Anstatt „20 Bilder anzufordern“, haben wir Folgendes entworfen: zweigleisiger Einreichungsprozess die die Teilnehmer dazu anleitete:
- Titel A (Aktuell): Fotos aus den letzten zwei Jahren;
- Gleis B (Historisch): Ältere Fotos, die dem Altersbereich des Teilnehmers zum Zeitpunkt der Einreichung zugeordnet sind (z. B. 2–10/15/20-Jahres-Fenster).
Das Portal regte die Nutzer mit Beispielen (für drinnen und draußen, Winkel, Zubehör) dazu an, Vielfalt zu fördern, ohne dabei zu viele Details vorzugeben.
3. Diversitätsmanagement und Quotenregelung
A Echtzeit-Quoten-Dashboard überwachte Einschreibungen Geschlecht, Altersgruppe und GeografieDie Datenerfassung wurde unterbrochen, sobald eine Schicht die geplanten Grenzwerte erreicht hatte. Dies verhinderte Nacharbeiten im späten Zyklus und entspricht Shaips Standardvorgehensweise. gestaffelte Einschreibung + Sperrungen wurde in früheren biometrischen Datensätzen verwendet, um eine ausgewogene Repräsentation zu gewährleisten.
4. Qualitätspipeline (Menschliche Beteiligung + automatisierte Vorabprüfungen)
- Automatische Tore: Gesichtserkennung + Mindestgrößenschwellenwerte, grundlegende Unschärfe-/Rauschprüfungen und Clustering am selben Tag, um potenzielle Duplikate frühzeitig zu erkennen.
- Menschliche Qualitätssicherungsstufen: Bildprüfer bestätigten Exklusivität des Themas (nur für Hauptteilnehmer), Szenen-/Winkelvielfaltund keine VerschönerungsfilterDie CQA-Prüfer führten Stichprobenkontrollen der Chargen vor der Abnahme durch. mehrschichtige Qualitätssicherung Spiegelt Shaips veröffentlichte biometrische Datenprogramme wider.
5. Einhaltung der Vorschriften und Zustimmung
Anmeldung zur Pilotenausbildung ≥20 Jahre Mit unterzeichneter Einwilligung; Fälle unter 20 Jahren werden nur mit Einwilligung des Erziehungsberechtigten akzeptiert. Wir haben das Vorhandensein der Einwilligung in den Metadaten erfasst und die Checklisten der Gutachter entsprechend angepasst. Teilnahmeberechtigung + Einwilligung Felder, um die Prüfbarkeit zu gewährleisten.
6. Metadaten und Rückverfolgbarkeit
Wir haben geliefert Metadaten auf Teilnehmer- und Bildebene (Verknüpfungen mit Identifikationsdaten, demografische Daten, Nationalität/Wohnsitz, Aufnahmejahr des Fotos, Einreichungsdatum usw.) und standardisierte Feldnamen zur Vereinfachung nachgelagerte Kennzeichnung und BewertungDies entspricht Shaips bewährter Vorgehensweise. umfangreiche Metadaten-Kennzeichnung für biometrische Datensätze.
7. Stufenweise Umsetzung zur Risikominimierung
An 8-Batch-Plan begann mit einem Kalibrierung mit 10 Teilnehmern Zunächst wurde die Produktion eingestellt, anschließend erfolgte eine kontrollierte Skalierung. Kundenfeedback nach der ersten Charge führte zu Anpassungen der Bewertungskriterien, woraufhin die Produktionsmengen in vorhersehbaren Tranchen bis zum Erreichen des Ziels gesteigert wurden. 1,205 Teilnehmer in etwa 19 Wochen.
Projektumfang
| Abmessungen | Was wir geliefert haben |
|---|---|
| Einwohnerzahl | 1,205 Teilnehmer aus Nicht-EU/Nicht-GB-Ländern mit ausgewogener Geschlechter- und Altersgruppenverteilung. |
| Inhalt | ≥20 Bilder pro Teilnehmer: aktuelle + historische Aufnahmen zur Erfassung des Altersverlaufs; abwechslungsreiche Szenen, Blickwinkel und Accessoires. |
| Qualitätsbetrieb | Automatisierte Vorabprüfungen + mehrstufige Qualitätssicherung durch Menschen (Duplikationskontrollen; Exklusivität der Probanden; Filterablehnung). |
| Compliance | Herkunftsnachweis (außerhalb der EU/des Vereinigten Königreichs); Zustimmungsmanagement und Prüfung der Anspruchsberechtigung. |
| Metadaten | Teilnehmer- und Bildattribute zur Rückverfolgbarkeit und nachgelagerten ML-Auswertung. |
| Lieferung | 8-phasige Chargen, beginnend mit der Kalibrierung, gefolgt von der Lieferung im stationären Zustand bis zum endgültigen Zielwert. |
Das Ergebnis
- Ausgewogener, revisionssicherer Bestand: Demografische Quoten wurden innerhalb der Toleranzgrenzen eingehalten; Herkunftsnachweis außerhalb der EU/des Vereinigten Königreichs wurde für alle Bilder zur Einhaltung der Schulungsrichtlinien durchgesetzt.
- Modellbereite Variabilität: Zeitlich getrennte Bilder, unterschiedliche Umgebungen/Winkel und die Abdeckung mit Zubehör unterstützen Robustheitstests und die Analyse von Verzerrungen.
- Operative Vorhersagbarkeit: Die erste Kalibrierungsphase und die Einhaltung von Quotenvorgaben reduzierten Nacharbeiten und sicherten den Zeitplan für das Erreichen des vollen Ziels von 1,205 Teilnehmern.
- Downstream-Effizienz: Umfangreiche Metadaten und eine konsequente Dateihygiene verkürzten den Weg zur Annotation und Benchmark-Erstellung gemäß Shaips Vorgehensweise bei biometrischen Datensätzen.
Shaip hat aus einem komplexen Datensatz mit Gesichtsdaten von Personen außerhalb der EU und Großbritanniens ein ausgewogenes, auditfähiges Korpus erstellt. Dank ihres Designs zur Altersprogression und der mehrstufigen Qualitätssicherung konnte unser CV-Team saubere, vielfältige und verlässliche Daten gewinnen – ohne Terminrisiken.