Et casestudie om ansigtsgenkendelsesmodel

Anti-spoofing-videodatasæt til AI-modeller til svindeldetektion

Opdag, hvordan Shaip leverede 25,000 højkvalitets anti-spoofing-videodatasæt med ægte angrebsscenarier og replay-angrebsscenarier for at træne AI-modeller til at opdage svindel.

Indsamling af videodata mod spoofing

Projektoversigt

Shaip samarbejdede med en førende AI-sikkerhedsvirksomhed for at levere et højkvalitets, off-the-shelf anti-spoofing videodatasæt designet til at forbedre AI-modeltræning til afsløring af svindel. Datasættet inkluderede 25,000 videoer, der fangede både virkelige angrebsscenarier og genafspilningsscenarier, hvilket sikrede robuste træningsdata til anti-spoofing-modeller.

Hver af de 12,500 deltagere bidrog med to videoer - et rigtigt og et replay-angreb - optaget kl 720p eller højere opløsning med en billedhastighed på 26 FPS og derover.

Projektets mål var at levere autentiske og mangfoldige datasæt som ville gøre det muligt for AI-modeller effektivt at skelne mellem ægte og forfalskede biometriske videoer og derved reducere risikoen for svindel i biometriske autentificeringssystemer.

Indsamling af videodata mod spoofing

Nøglestatistikker

25,000 samlede videoer (12,500 rigtige videoer, 12,500 genafspil angrebsvideoer)

12,500 enestående
deltagere

5 etniske grupper
repræsenteret i datasættet

Fasevis levering: 4 partier af 6,250 videoer hver

Metadataattributter: 12 nøgleparametre for forbedret datasætbrugbarhed

Anti-spoofing biometrisk datasæt omfang

Datasætkurering: Projektet fokuserede på at levere højkvalitets anti-spoofing videodatasæt bestående af ægte og afspil angrebsvideoer. Nøgleaspekter omfattede:

  • 12,500 deltagere bidrager to videoer hver (1 ægte, 1 forfalsket).
  • Mangfoldighed i optageenheder for at forbedre modellens tilpasningsevne.
  • Balanceret etnisk repræsentation for at sikre datasæt-inklusivitet.

Metadataindsamling: Hver video var ledsaget af 12 metadata attributter for at forbedre datasættets anvendelighed.

Udfordringer til videodataindsamling

Lige repræsentation

Opretholdelse af afbalanceret etnicitetsmæssig datadistribution, mens du køber videoer i høj kvalitet.

Kvalitetskontrol

Sikring af, at hver deltager bidrager med én ægte og én replay-angrebsvideo for at bevare datasættets integritet.

Teknisk konsistens

Overholdelse af strenge retningslinjer for FPS (≥ 26), opløsning (≥ 720p) og tidsstemplingsnøjagtighed (+/- 0.5 ms).

Hvordan vi løste det

Shaip leverede et struktureret datasæt af høj kvalitet til at opfylde projektets krav. Løsningen indeholdt:

Datasætkurering og kvalitetskontrol

  • 25,000 videoer samlet på tværs 4 faser at sikre et stabilt og struktureret dataflow og undgå flaskehalse.
  • Strenge valideringsproces at sikre overholdelse af FPS, opløsning og metadata nøjagtighed. Hver video gennemgik flere kvalitetstjek før den endelige accept.
  • Omfattende metadata-tagging med 12 egenskaber:
  • Fil-id/navn
  • Angrebstype (Real/Replay)
  • Person ID
  • Videoopløsning
  • Video Varighed
  • Emnets etnicitet
  • Emnets køn
  • Uanset om videoen er original eller forfalsket
  • Enhedens navn/model
  • Person der taler eller ej
  • Tidsstempel Starttid
  • Tidsstempel sluttid
  • Balanceret etnisk gruppefordeling: Datasættet blev omhyggeligt sammensat for at opretholde en afbalanceret etnisk repræsentation. Fordelingen omfatter latinamerikanske (33%), sydasiatiske (21%), kaukasiske (20%), afrikanske (15%) og østasiatiske og mellemøstlige befolkninger (hver omfatter op til 6%).
  • Ingen duplikerede poster at bevare datasættets unikke karakter og forhindre skævheder i AI-træning.
  • Etnisk forskelligartet deltagerudvalg at skabe et datasæt, der afspejler brugervariationer i den virkelige verden, hvilket forbedrer AI-modellens tilpasningsevne og retfærdighed.
  • Variation af optageenhed inkluderet flere smartphone-modeller, kameraer og lysforhold for at forbedre modellens robusthed over for forskellige miljømæssige indstillinger.

Resultat

Det højkvalitets, mangfoldige anti-spoofing-videodatasæt leveret af Shaip gjorde det muligt for klienten at træne AI-modeller til nøjagtigt at skelne mellem ægte og spoofede videoer i forskellige biometriske autentificeringsscenarier. Datasættet bidrog til:

Bedrageri

Forbedret AI-ydeevne til at opdage svigagtige biometriske angreb.

Diverse træningsdata

Styrkede modellens evne til at genkende replay-angreb på tværs af forskellige etniciteter, enheder og miljøforhold.

Skalerbarhed

Datasættet tjener som grundlag for fremtidige forbedringer og udvidelser af anti-spoofing-modeller.

Shaips datasæt har været medvirkende til at forbedre vores AI-drevne anti-spoofing-modeller. Mangfoldigheden, kvaliteten og de strukturerede metadata gav et stærkt grundlag for at forbedre opdagelse af svindel i biometriske autentificeringssystemer.

Gylden-5-stjernet