Et casestudie om ansigtsgenkendelsesmodel
Anti-spoofing-videodatasæt til AI-modeller til svindeldetektion
Opdag, hvordan Shaip leverede 25,000 højkvalitets anti-spoofing-videodatasæt med ægte angrebsscenarier og replay-angrebsscenarier for at træne AI-modeller til at opdage svindel.
Projektoversigt
Shaip samarbejdede med en førende AI-sikkerhedsvirksomhed for at levere et højkvalitets, off-the-shelf anti-spoofing videodatasæt designet til at forbedre AI-modeltræning til afsløring af svindel. Datasættet inkluderede 25,000 videoer, der fangede både virkelige angrebsscenarier og genafspilningsscenarier, hvilket sikrede robuste træningsdata til anti-spoofing-modeller.
Hver af de 12,500 deltagere bidrog med to videoer - et rigtigt og et replay-angreb - optaget kl 720p eller højere opløsning med en billedhastighed på 26 FPS og derover.
Projektets mål var at levere autentiske og mangfoldige datasæt som ville gøre det muligt for AI-modeller effektivt at skelne mellem ægte og forfalskede biometriske videoer og derved reducere risikoen for svindel i biometriske autentificeringssystemer.
Nøglestatistikker
25,000 samlede videoer (12,500 rigtige videoer, 12,500 genafspil angrebsvideoer)
12,500 enestående
deltagere
5 etniske grupper
repræsenteret i datasættet
Fasevis levering: 4 partier af 6,250 videoer hver
Metadataattributter: 12 nøgleparametre for forbedret datasætbrugbarhed
Anti-spoofing biometrisk datasæt omfang
Datasætkurering: Projektet fokuserede på at levere højkvalitets anti-spoofing videodatasæt bestående af ægte og afspil angrebsvideoer. Nøgleaspekter omfattede:
- 12,500 deltagere bidrager to videoer hver (1 ægte, 1 forfalsket).
- Mangfoldighed i optageenheder for at forbedre modellens tilpasningsevne.
- Balanceret etnisk repræsentation for at sikre datasæt-inklusivitet.
Metadataindsamling: Hver video var ledsaget af 12 metadata attributter for at forbedre datasættets anvendelighed.
Udfordringer til videodataindsamling
Lige repræsentation
Opretholdelse af afbalanceret etnicitetsmæssig datadistribution, mens du køber videoer i høj kvalitet.
Kvalitetskontrol
Sikring af, at hver deltager bidrager med én ægte og én replay-angrebsvideo for at bevare datasættets integritet.
Teknisk konsistens
Overholdelse af strenge retningslinjer for FPS (≥ 26), opløsning (≥ 720p) og tidsstemplingsnøjagtighed (+/- 0.5 ms).
Hvordan vi løste det
Shaip leverede et struktureret datasæt af høj kvalitet til at opfylde projektets krav. Løsningen indeholdt:
Datasætkurering og kvalitetskontrol
- 25,000 videoer samlet på tværs 4 faser at sikre et stabilt og struktureret dataflow og undgå flaskehalse.
- Strenge valideringsproces at sikre overholdelse af FPS, opløsning og metadata nøjagtighed. Hver video gennemgik flere kvalitetstjek før den endelige accept.
- Omfattende metadata-tagging med 12 egenskaber:
- Fil-id/navn
- Angrebstype (Real/Replay)
- Person ID
- Videoopløsning
- Video Varighed
- Emnets etnicitet
- Emnets køn
- Uanset om videoen er original eller forfalsket
- Enhedens navn/model
- Person der taler eller ej
- Tidsstempel Starttid
- Tidsstempel sluttid
- Balanceret etnisk gruppefordeling: Datasættet blev omhyggeligt sammensat for at opretholde en afbalanceret etnisk repræsentation. Fordelingen omfatter latinamerikanske (33%), sydasiatiske (21%), kaukasiske (20%), afrikanske (15%) og østasiatiske og mellemøstlige befolkninger (hver omfatter op til 6%).
- Ingen duplikerede poster at bevare datasættets unikke karakter og forhindre skævheder i AI-træning.
- Etnisk forskelligartet deltagerudvalg at skabe et datasæt, der afspejler brugervariationer i den virkelige verden, hvilket forbedrer AI-modellens tilpasningsevne og retfærdighed.
- Variation af optageenhed inkluderet flere smartphone-modeller, kameraer og lysforhold for at forbedre modellens robusthed over for forskellige miljømæssige indstillinger.
Resultat
Det højkvalitets, mangfoldige anti-spoofing-videodatasæt leveret af Shaip gjorde det muligt for klienten at træne AI-modeller til nøjagtigt at skelne mellem ægte og spoofede videoer i forskellige biometriske autentificeringsscenarier. Datasættet bidrog til:
Bedrageri
Forbedret AI-ydeevne til at opdage svigagtige biometriske angreb.
Diverse træningsdata
Styrkede modellens evne til at genkende replay-angreb på tværs af forskellige etniciteter, enheder og miljøforhold.
Skalerbarhed
Datasættet tjener som grundlag for fremtidige forbedringer og udvidelser af anti-spoofing-modeller.
Shaips datasæt har været medvirkende til at forbedre vores AI-drevne anti-spoofing-modeller. Mangfoldigheden, kvaliteten og de strukturerede metadata gav et stærkt grundlag for at forbedre opdagelse af svindel i biometriske autentificeringssystemer.