Opbygning af et datasæt med ansigtsbilleder fra lande uden for EU/UK med aldersprogressionsdiversitet
Et tidssepareret ansigtsbilledkorpus med 1,205 deltagere for at styrke retfærdighed og robusthed for computervisionsmodeller.
Projektoversigt
En global teknologivirksomhed, der udvikler ansigtscentreret AI til sikkerhed, personalisering og identitetsoplevelser, søgte et datasæt fra lande uden for EU/UK med tidsseparerede fotos for at reducere bias og forbedre modelrobusthed på tværs af alder, miljø og tilbehør.
Klienten indgik et partnerskab med Shaip for at indsamle, kuratere og validerer et stort ansigtsbilledkorpus, hvor hver deltager bidrager med nyere og ældre fotos. Målet var at kode naturlig aldersprogression, samtidig med at man håndhæver streng oprindelse uden for EU/UK og opnår afbalancerede køns-/alderskvoter.
Nøglestatistikker
Deltagere
1,205 (kun uden for EU/Storbritannien, 50/50 kønsfordeling ±10–15%)
Aldersblanding
40% (10–29), 40% (30–49), 20% (50+) ±10–15% tolerance
Dækning
Syd-/Sydøstasien, Nord- og Nord-/Østafrika, Singapore, Sydamerika
Tidslinje
19 uger
Udfordringer
Geografisk begrænsning
Udelukkende indkøb fra befolkningsgrupper uden for EU/UK, samtidig med at billeder med rejsende oprindelse i EU/UK undgås.
Balancerede kvoter i stor skala
Ramte 1,205 deltagere med snævre køns- og alderstolerancer.
Tidsadskilt bevismateriale
Sikring af, at alle ID-kort indeholder både nyere og historiske fotos, tilpasset aldersgrupper.
Operationel kvalitet
Håndhævelse af minimumsgrænser for billed-/ansigtsstørrelse, variation og duplikering uden at bremse gennemløbshastigheden.
Løsning
1. Landepaneler og provenienskontroller
Vi etablerede sourcing pods på landeniveau på tværs af målregioner og uddannede partnere oprindelsesregler (Kun uden for EU/Storbritannien). Billederne blev screenet for risici for rejseoprindelse ved hjælp af metadata-signaler (år, placeringsmarkører) plus indsenderattestationer, hvilket reducerer lækage i EU/UK før kvalitetskontrol. Dette afspejler Shaips dokumenterede praksis med at forudindlæse risikokontroller for at beskytte downstream-gennemstrømningen.
2. Design til registrering af aldersprogression
I stedet for at "bede om 20 billeder" designede vi en tosporet indsendelsesflow der guidede deltagerne til:
- Spor A (nyligt): billeder fra de sidste to år;
- Spor B (Historisk): ældre fotos, der er justeret i forhold til deltagerens aldersgruppe ved indsendelse (f.eks. vinduer på 2-10/15/20 år).
Portalen gav brugerne eksempler (indendørs/udendørs, vinkler, tilbehør) for at skabe variation uden at overspecificere.
3. Diversitetsorkestrering og kvotebeskyttelse
A kvoteoversigt i realtid overvågede tilmeldinger af køn, aldersgruppe og geografi, og satte indtaget på pause, når et stratum nåede de planlagte grænser. Dette forhindrede omarbejde sent i cyklussen og afspejler Shaips standardtilgang med stratificeret tilmelding + lockouts brugt i tidligere biometriske datasæt for at opretholde en afbalanceret repræsentation.
4. Kvalitetspipeline (menneskelig involvering + automatiserede forhåndskontroller)
- Automatiserede porte: ansigtsgenkendelse + minimumsstørrelsesgrænser, grundlæggende slørings-/støjkontrol og klyngedannelse samme dag for at markere potentielle dubletter tidligt.
- Menneskelige QA-niveauer: billedniveau-anmeldere valideret emneeksklusivitet (kun primær deltager) scene/vinkelvariationog ingen forskønnelsesfiltreCQA-revisorer stikprøvekontrollerede batcher inden godkendelse. flerlags QA afspejler Shaips offentliggjorte biometriske dataprogrammer.
5. Overholdelse og samtykke
Tilmelding ≥20 år med underskrevet samtykke; under 20 sager accepteres kun med værges samtykke. Vi registrerede tilstedeværelsen af samtykke i metadata og tilpassede anmeldertjeklister til berettigelse + samtykke felter, hvilket sikrer revisionsbarhed.
6. Metadata og sporbarhed
Vi leverede Metadata på deltager- og billedniveau (ID-forbindelser, demografi, nationalitet/bopæl, fotoår, indsendelsesdato osv.) og standardiserede feltnavne for at forenkle downstream-mærkning og -evalueringDette følger Shaips bedste praksis for rig metadata-tagging for biometriske datasæt.
7. Fasevis levering til De Risk-skalaen
An 8-batchplan begyndte med en Kalibrering af 10 deltagere sæt, efterfulgt af kontrolleret opskalering. Klientfeedback efter batch 1 informerede om justeringer af rubrikken, hvorefter mængderne øgedes i forudsigelige trancher for at nå 1,205 deltagere om ~19 uger.
Projektets omfang
| Dimension | Hvad vi leverede |
|---|---|
| Befolkning | 1,205 deltagere fra lande uden for EU/UK med balancerede køns- og aldersgrupper. |
| Indhold | ≥20 billeder pr. deltager: nyere + historiske for at kode aldersprogression; varierede scener, vinkler og tilbehør. |
| Kvalitetsoperationer | Automatiserede forhåndskontroller + menneskelig flerlags QA (duplikeringskontroller; emneeksklusivitet; filterafvisning). |
| Overholdelse | Verifikation af oprindelse uden for EU/UK; samtykkestyring og validering af berettigelse. |
| Metadata | Deltager + billedattributter til sporbarhed og downstream ML-evaluering. |
| Levering | 8 fasede batcher, startende med kalibrering og derefter steady state-levering til det endelige mål. |
Resultatet
- Balanceret, revisionsklart korpus: Demografiske kvoter overholdt inden for tolerancen; Ikke-EU/UK-oprindelse håndhæves på tværs af alle billeder for at sikre kompatibel træning.
- Modelklar variation: Tidsseparerede billeder, forskellige miljøer/vinkler og dækning af tilbehør understøtter robusthedstest og biasanalyse.
- Operationel forudsigelighed: Første udrulning af kalibrering + kvotebeskyttelse reducerede omarbejde og sikrede tidslinjen til det fulde mål på 1,205 deltagere.
- Effektivitet nedstrøms: Rige metadata og ensartet filhygiejne forkortede vejen til annotering og benchmarkkonstruktion efter Shaips biometriske datasæt-playbooks.
Shaip forvandlede et komplekst datasæt med ansigtsudtryk fra lande uden for EU/UK til et afbalanceret, revisionsklart korpus. Deres design med aldersprogression og niveauopdelte kvalitetssikring gav vores CV-team rene, forskelligartede data, vi kunne stole på – uden risiko for tidsplanen.