Standardlicensering af ansigtsbilleder og -videodata
Standard ansigtsgenkendelsesdatasæt til AI-modeltræning
Udnyttelse af etisk fremskaffede, demografisk forskelligartede datasæt til at accelerere AI-modeltræning og reducere bias for et førende globalt teknologikonglomerat.
Projektoversigt
Klienten ønskede at accelerere Udvikling af ansigtsgenkendelse med AI uden at gennemgå lange, dyre dataindsamlingscyklusser. For at opnå dette havde de brug for brugsklare datasæt der ikke kun var stor og forskelligartet, Men også etisk fremskaffet og i overensstemmelse med globale databeskyttelsesregler.
Shaip leverede omfattende datasæt med kontrollerede variationer i belysning, hovedstillinger, okklusioner og følelser, hvilket gjorde det muligt for klientens modeller at opnå både nøjagtighed og retfærdighed, samtidig med at de opfyldte de nødvendige etniske og demografiske kriterier. Hvert datasæt indeholdt detaljerede metadata, stillingsannotationer og afgrænsningsbokse til følelsesgenkendelse, hvilket gjorde det muligt at træne og teste modeller i meget forskellige, virkelige scenarier.
Nøglestatistikker
7,000+ forsøgspersoner
i historisk datasæt med over 300,000 billeder og 2,000 videoer.
10,000+ forsøgspersoner
i datasættet for følelser med flere vinkler.
74,880 Billeder
i belysning
Variationsdatasæt.
18,600 Billeder
dækker seks
kernefølelser.
Projektets omfang
Klienten krævede store, etisk fremskaffede og demografisk forskelligartede ansigtsbilled- og videodatasæt at understøtte udvikling og træning af ansigtsgenkendelsesmodeller. Disse datasæt var afgørende for at understøtte brugsscenarier i systemer til anti-spoofing, identitetsverifikation, billedmatchning og udtryksanalyse, hvilket sikrer robust og upartisk AI-ydeevne i virkelige applikationer.
Omfanget af engagementet omfattede:
- levere kuraterede datasæt designet til at imødekomme brugsscenarier for ansigtsgenkendelse som anti-spoofing, identitetsverifikation og ansigtsgenkendelse.
- Forudsat billeder og videoer med detaljerede annotationer for demografi, hovedpositur, okklusioner, belysningstype og følelser.
- Sikring afbalanceret demografisk dækning at reducere systemisk bias i træning.
- Garanti overholdelse og samtykke med globale standarder for databeskyttelse og privatliv.
Eksempel på datasætbidrag:
- Historisk datasæt (~7,000 forsøgspersoner): 300,000+ billeder og 2,000 videoer med variationer i positur og okklusion.
- Datasæt om følelser fra flere vinkler (~10,000 forsøgspersoner): 15-20 billeder pr. forsøgsperson på tværs af vinkler og følelsesmæssige tilstande.
- Datasæt med seks følelser (~3,100 forsøgspersoner): 18,600 kommenterede billeder, der dækker centrale menneskelige udtryk.
- Datasæt for belysningsvariationer (~468 motiver): 74,880 billeder på tværs af ni lysforhold.
Udfordringer
Projektet adresserede centrale udfordringer, der er almindelige ved opbygning af robuste AI-modeller:
Bias i AI-modeller
Forebyggelse af overrepræsentation af bestemte etniciteter eller køn for at sikre retfærdighed.
Variabilitet i den virkelige verden
Indfangning af lysforhold, ansigtsvinkler, okklusioner og naturlige udtryk.
Skala og kvalitet
Leverer hundredtusindvis af billeder i høj opløsning uden at gå på kompromis med diversiteten.
Regulatory Compliance
Opfylder strenge globale krav til privatliv og databeskyttelse med fuldt samtykke fra deltagerne.
Løsning
Shaip implementerede en struktureret tilgang for at sikre datasættets kvalitet og relevans:
- Kuraterede balancerede datasæt med bred etnisk, køns- og aldersrepræsentation.
- Captured flere vinkler og lysvariationer at genskabe virkelige forhold.
- Lagt detaljerede annotationer (f.eks. hovedpositur, okklusioner, følelser) for at berige datasættets brugervenlighed.
- Etableret strengt kvalitetskontrol og compliance-arbejdsgange for at garantere etisk indkøb og overholdelse af privatlivets fred.
Datasætportefølje
| datasæt | Bind | Demografi / Mangfoldighed | Standarder / Specifikationer |
|---|---|---|---|
| Historisk datasæt med ansigtsbilleder og -videoer (~7,000 forsøgspersoner) | 7,000 billeder fra tilmeldingen; mere end 300,000 historiske billeder; 2,000 videoer (1 indendørs + 1 udendørs pr. 1,000 forsøgspersoner) | Etnicitet: Sort (35%), østasiatisk (42%), sydasiatisk (13%), hvid (10%); Køn: 50% mænd / 50% kvinder; Alder: Voksne 18+ (de seneste 10 år) | Videoens varighed: 1-2 min; Variation af hovedstilling (P1-P7); 5 okklusionstyper (O0-O4) |
| Datasæt med ansigtsbilleder (~5,000 forsøgspersoner) | 35 billeder pr. motiv; 2,500 indere; 1,000 asiater; 1,500 sorte | Alder: 18-60 år; Ligevægtig kønsfordeling | Ingen forskønnelse; Varieret baggrund og tøj; Min. opløsning: 960×1280 |
| Datasæt om følelser fra flere vinkler (~10,000 forsøgspersoner – kinesisk) | 15-20 billeder pr. motiv; Positioner: Forfra, Venstre, Højre (30°-60°); Udtryk: Smil, åben mund, trist, alvorlig, neutral | Etnicitet: Kinesisk; Alder: 18-26; Køn: 50/50 fordeling | Opløsning: 2160 × 3840 pixels eller højere |
| Seks datasæt om menneskelige følelser (~3,100 forsøgspersoner) | 6 billeder pr. motiv (forskellige ansigtsudtryk); 18,600 billeder i alt | Etniciteter: Japansk (9,000), Koreansk (2,400), Kinesisk (2,400), Sydøstasiatisk (2,400), Sydasiatisk (2,400); Alder: 20-65 år | Afgrænsningsboksannotationer til følelser; Ensfarvede baggrunde; Ingen hatte, briller eller forhindringer |
| Datasæt for lysvariationer (~468 indiske forsøgspersoner) | 160 billeder pr. motiv; I alt: 74,880 billeder | Alder: 20–70; 70% mænd | 9 lysforhold (indendørs, udendørs, sidelys, baggrundsbelysning, neon osv.) |
| Multietnisk ansigtsbilleddatasæt (~600 forsøgspersoner) | 3,752 billeder i alt | Etniciteter: Afrikansk, mellemøstlig, indfødt amerikaner, sydasiatisk, sydøstasiatisk; Alder: 20-70 år | — |
Resultat
Samarbejdet havde betydelig forretningsmæssig og teknisk effekt:
- Forbedret modelnøjagtighedForbedret præcision og genkendelse af ansigtsgenkendelsesmodeller på tværs af flere anvendelsesscenarier.
- Bias ReduktionBalanceret demografisk repræsentation reducerede systemisk bias i AI-output.
- Accelererede udviklingstidslinjerStandarddatasæt muliggjorde hurtig prototyping og modeltræning uden langvarig dataindsamling.
- Regulatory ComplianceAlle datasæt overholdt globale privatlivsstandarder og indeholdt deltagernes samtykke.
Shaips forskelligartede, etisk fremskaffede datasæt gav os den hastighed, kvalitet og overholdelse af regler, vi havde brug for. Med brugsklare data accelererede vi træningen af AI-modeller og reducerede systemisk bias betydeligt.