Opbygning af et datasæt med ansigtsbilleder fra lande uden for EU/UK med aldersprogressionsdiversitet

Et tidssepareret ansigtsbilledkorpus med 1,205 deltagere for at styrke retfærdighed og robusthed for computervisionsmodeller.

Ansigtsbilleddatasæt med aldersprogressionsdiversitet

Projektoversigt

En global teknologivirksomhed, der udvikler ansigtscentreret AI til sikkerhed, personalisering og identitetsoplevelser, søgte et datasæt fra lande uden for EU/UK med tidsseparerede fotos for at reducere bias og forbedre modelrobusthed på tværs af alder, miljø og tilbehør.

Klienten indgik et partnerskab med Shaip for at indsamle, kuratere og validerer et stort ansigtsbilledkorpus, hvor hver deltager bidrager med nyere og ældre fotos. Målet var at kode naturlig aldersprogression, samtidig med at man håndhæver streng oprindelse uden for EU/UK og opnår afbalancerede køns-/alderskvoter.

Ansigtsbilleddatasæt med aldersprogressionsdiversitet

Nøglestatistikker

Deltagere

 1,205 (kun uden for EU/Storbritannien, 50/50 kønsfordeling ±10–15%)

 Aldersblanding

 40% (10–29), 40% (30–49), 20% (50+) ±10–15% tolerance

Dækning

Syd-/Sydøstasien, Nord- og Nord-/Østafrika, Singapore, Sydamerika

Tidslinje

19 uger

Udfordringer

Geografisk begrænsning

Udelukkende indkøb fra befolkningsgrupper uden for EU/UK, samtidig med at billeder med rejsende oprindelse i EU/UK undgås.

Balancerede kvoter i stor skala

Ramte 1,205 deltagere med snævre køns- og alderstolerancer.

Tidsadskilt bevismateriale

Sikring af, at alle ID-kort indeholder både nyere og historiske fotos, tilpasset aldersgrupper.

Operationel kvalitet

Håndhævelse af minimumsgrænser for billed-/ansigtsstørrelse, variation og duplikering uden at bremse gennemløbshastigheden.

Løsning

1. Landepaneler og provenienskontroller

Vi etablerede sourcing pods på landeniveau på tværs af målregioner og uddannede partnere oprindelsesregler (Kun uden for EU/Storbritannien). Billederne blev screenet for risici for rejseoprindelse ved hjælp af metadata-signaler (år, placeringsmarkører) plus indsenderattestationer, hvilket reducerer lækage i EU/UK før kvalitetskontrol. Dette afspejler Shaips dokumenterede praksis med at forudindlæse risikokontroller for at beskytte downstream-gennemstrømningen.

2. Design til registrering af aldersprogression

I stedet for at "bede om 20 billeder" designede vi en tosporet indsendelsesflow der guidede deltagerne til:

  • Spor A (nyligt): billeder fra de sidste to år;
  • Spor B (Historisk): ældre fotos, der er justeret i forhold til deltagerens aldersgruppe ved indsendelse (f.eks. vinduer på 2-10/15/20 år).

Portalen gav brugerne eksempler (indendørs/udendørs, vinkler, tilbehør) for at skabe variation uden at overspecificere.

3. Diversitetsorkestrering og kvotebeskyttelse

A kvoteoversigt i realtid overvågede tilmeldinger af køn, aldersgruppe og geografi, og satte indtaget på pause, når et stratum nåede de planlagte grænser. Dette forhindrede omarbejde sent i cyklussen og afspejler Shaips standardtilgang med stratificeret tilmelding + lockouts brugt i tidligere biometriske datasæt for at opretholde en afbalanceret repræsentation.

4. Kvalitetspipeline (menneskelig involvering + automatiserede forhåndskontroller)

  • Automatiserede porte: ansigtsgenkendelse + minimumsstørrelsesgrænser, grundlæggende slørings-/støjkontrol og klyngedannelse samme dag for at markere potentielle dubletter tidligt.
  • Menneskelige QA-niveauer: billedniveau-anmeldere valideret emneeksklusivitet (kun primær deltager) scene/vinkelvariationog ingen forskønnelsesfiltreCQA-revisorer stikprøvekontrollerede batcher inden godkendelse. flerlags QA afspejler Shaips offentliggjorte biometriske dataprogrammer.

5. Overholdelse og samtykke

Tilmelding ≥20 år med underskrevet samtykke; under 20 sager accepteres kun med værges samtykke. Vi registrerede tilstedeværelsen af ​​samtykke i metadata og tilpassede anmeldertjeklister til berettigelse + samtykke felter, hvilket sikrer revisionsbarhed.

6. Metadata og sporbarhed

Vi leverede Metadata på deltager- og billedniveau (ID-forbindelser, demografi, nationalitet/bopæl, fotoår, indsendelsesdato osv.) og standardiserede feltnavne for at forenkle downstream-mærkning og -evalueringDette følger Shaips bedste praksis for rig metadata-tagging for biometriske datasæt.

7. Fasevis levering til De Risk-skalaen

An 8-batchplan begyndte med en Kalibrering af 10 deltagere sæt, efterfulgt af kontrolleret opskalering. Klientfeedback efter batch 1 informerede om justeringer af rubrikken, hvorefter mængderne øgedes i forudsigelige trancher for at nå 1,205 deltagere om ~19 uger.

Projektets omfang

Dimension Hvad vi leverede
Befolkning 1,205 deltagere fra lande uden for EU/UK med balancerede køns- og aldersgrupper.
Indhold ≥20 billeder pr. deltager: nyere + historiske for at kode aldersprogression; varierede scener, vinkler og tilbehør.
Kvalitetsoperationer Automatiserede forhåndskontroller + menneskelig flerlags QA (duplikeringskontroller; emneeksklusivitet; filterafvisning).
Overholdelse Verifikation af oprindelse uden for EU/UK; samtykkestyring og validering af berettigelse.
Metadata Deltager + billedattributter til sporbarhed og downstream ML-evaluering.
Levering 8 fasede batcher, startende med kalibrering og derefter steady state-levering til det endelige mål.

Resultatet

  • Balanceret, revisionsklart korpus: Demografiske kvoter overholdt inden for tolerancen; Ikke-EU/UK-oprindelse håndhæves på tværs af alle billeder for at sikre kompatibel træning.
  • Modelklar variation: Tidsseparerede billeder, forskellige miljøer/vinkler og dækning af tilbehør understøtter robusthedstest og biasanalyse.
  • Operationel forudsigelighed: Første udrulning af kalibrering + kvotebeskyttelse reducerede omarbejde og sikrede tidslinjen til det fulde mål på 1,205 deltagere.
  • Effektivitet nedstrøms: Rige metadata og ensartet filhygiejne forkortede vejen til annotering og benchmarkkonstruktion efter Shaips biometriske datasæt-playbooks.

Shaip forvandlede et komplekst datasæt med ansigtsudtryk fra lande uden for EU/UK til et afbalanceret, revisionsklart korpus. Deres design med aldersprogression og niveauopdelte kvalitetssikring gav vores CV-team rene, forskelligartede data, vi kunne stole på – uden risiko for tidsplanen.

Gylden-5-stjernet