Verden har ikke været den samme, lige siden computere begyndte at se på objekter og fortolke dem. Fra underholdende elementer, der kunne være så enkle som et Snapchat-filter, der producerer et sjovt skæg på dit ansigt, til komplekse systemer, der autonomt registrerer tilstedeværelsen af små tumorer fra scanningsrapporter, spiller computersyn en stor rolle i menneskehedens udvikling.
Men for et utrænet AI-system betyder en visuel prøve eller et datasæt, der er indført i det, ingenting. Du kunne fodre et billede af en travl Wall Street eller et billede af is, systemet ville ikke vide, hvad begge dele er. Det er fordi de endnu ikke har lært at klassificere og segmentere billeder og visuelle elementer.
Nu er dette en meget kompleks og tidskrævende proces, der kræver omhyggelig opmærksomhed på detaljer og arbejde. Det er her, dataannoteringseksperter kommer ind og manuelt tilskriver eller tagger hver enkelt byte af information på billeder for at sikre, at AI-modeller nemt lærer de forskellige elementer i et visuelt datasæt. Når en computer træner på annoterede data, adskiller den let et landskab fra et bybillede, et dyr fra en fugl, drikkevarer og mad og andre komplekse klassifikationer.
Nu hvor vi ved dette, hvordan klassificerer og tagger dataannotatorer billedelementer? Er der nogle specifikke teknikker, de bruger? Hvis ja, hvad er de?
Nå, det er præcis, hvad dette indlæg kommer til at handle om – billedkommentar typer, deres fordele, udfordringer og use cases.
Billedanmærkningstyper
Billedannoteringsteknikker til computersyn kan klassificeres i fem hovedkategorier:
- Objektdetektion
- Linjedetektering
- Landmark detektion
- Segmentering
- Billedklassificering
Objektdetektion
Som navnet antyder, er målet med objektdetektion at hjælpe computere og AI-modeller med at identificere forskellige objekter i billeder. For at specificere, hvad forskellige objekter er, anvender dataannoteringseksperter tre fremtrædende teknikker:
- 2D afgrænsningsbokse: hvor rektangulære kasser over forskellige objekter i billeder er tegnet og mærket.
- 3D afgrænsningsbokse: hvor 3-dimensionelle bokse er tegnet over objekter for også at få dybden af objekter frem.
- polygoner: hvor uregelmæssige og unikke genstande mærkes ved at markere kanterne på en genstand og i sidste ende forbinde dem for at dække objektets form.
Fordele
- 2D- og 3D-afgrænsningsboksteknikker er meget enkle, og objekter kan nemt mærkes.
- 3D-afgrænsningskasser giver flere detaljer, såsom orienteringen af et objekt, som er fraværende i 2D-bundne felter-teknikken.
Ulemper ved objektdetektion
- 2D- og 3D-afgrænsningsfelter inkluderer også baggrundspixel, der faktisk ikke er en del af et objekt. Dette skævvrider træningen på flere måder.
- I 3D-afgrænsningsboksteknikken antager annotatorer for det meste dybden af et objekt. Dette påvirker også træningen væsentligt.
- Polygonteknikken kan være tidskrævende, hvis et objekt er meget komplekst.
Linjeregistrering
Denne teknik bruges til at segmentere, kommentere eller identificere linjer og grænser i billeder. For eksempel baner på en byvej.
Fordele
Den største fordel ved denne teknik er, at pixels, der ikke deler en fælles grænse, også kan detekteres og kommenteres. Dette er ideelt til at annotere linjer, der er korte eller dem, der er okkluderede.
Ulemper
- Hvis der er flere linjer, bliver processen mere tidskrævende.
- Overlappende linjer eller objekter kan give vildledende information og resultater.
Landmark Detection
Landemærker i dataannotering betyder ikke steder af særlig interesse eller betydning. De er specielle eller væsentlige punkter i et billede, der skal kommenteres. Dette kan være ansigtstræk, biometri eller mere. Dette er ellers også kendt som poseringsestimering.
Fordele
Den er ideel til at træne neurale netværk, der kræver præcise koordinater af skelsættende punkter.
Ulemper
Dette er meget tidskrævende, da hvert minut væsentlige punkt skal være præcist kommenteret.
Segmentering
En kompleks proces, hvor et enkelt billede er klassificeret i flere segmenter for at identificere forskellige aspekter i dem. Dette inkluderer registrering af grænser, lokalisering af objekter og mere. For at give dig en bedre idé er her en liste over fremtrædende segmenteringsteknikker:
- Semantisk segmentering: hvor hver enkelt pixel i et billede er kommenteret med detaljerede oplysninger. Afgørende for modeller, der kræver miljømæssig sammenhæng.
- Forekomstsegmentering: hvor hver eneste forekomst af et element i et billede er kommenteret for detaljeret information.
- Panoptisk segmentering: hvor detaljer fra semantisk og instanssegmentering er inkluderet og kommenteret i billeder.
Fordele
- Disse teknikker bringer de fineste stykker information frem fra objekter.
- De tilføjer mere kontekst og værdi til træningsformål og optimerer i sidste ende resultaterne.
Ulemper
Disse teknikker er arbejdskrævende og kedelige.
Billedklassificering
Billedklassificering involverer identifikation af elementer i et objekt og klassificering af dem i specifikke objektklasser. Denne teknik er meget forskellig fra objektdetektionsteknikken. I sidstnævnte er objekter blot identificeret. For eksempel kan et billede af en kat blot være kommenteret som et dyr.
I billedklassificering er billedet dog klassificeret som en kat. For billeder med flere dyr bliver hvert dyr opdaget og klassificeret i overensstemmelse hermed.
Fordele
- Giver maskiner flere detaljer om, hvad objekter i datasæt er.
- Hjælper modeller med at skelne nøjagtigt mellem dyr (for eksempel) eller et hvilket som helst modelspecifikt element.
Ulemper
Kræver mere tid for dataannoteringseksperter til omhyggeligt at identificere og klassificere alle billedelementer.
Brug eksempler på billedannoteringsteknikker i computervision
Billedannoteringsteknik | Brug cases |
---|---|
2D og 3D afgrænsningsbokse | Ideel til at kommentere billeder af produkter og varer til maskinlæringssystemer for at estimere omkostninger, lagerbeholdning og mere. |
polygoner | På grund af deres evne til at annotere uregelmæssige objekter og former, er de ideelle til at mærke menneskelige organer i digitale billedregistreringer såsom røntgenbilleder, CT-scanninger og mere. De kan bruges til at træne systemer til at opdage anomalier og deformiteter fra sådanne rapporter. |
Semantisk segmentering | Anvendes i den selvkørende bils rum, hvor hver pixel forbundet med køretøjets bevægelse kan mærkes præcist. Billedklassificering er anvendelig i selvkørende biler, hvor data fra sensorer kan bruges til at detektere og skelne mellem dyr, fodgængere, vejobjekter, baner og mere. |
Landmark Detection | Bruges til at opdage og studere menneskelige følelser og til udvikling af ansigtsgenkendelsessystemer. |
Linjer Og Splines | Nyttigt i varehuse og produktionsenheder, hvor der kunne etableres grænser for robotter til at udføre automatiserede opgaver. |
Indpakning op
Som du ser, computersyn er ekstremt kompleks. Der er tonsvis af forviklinger, der skal tages hånd om. Selvom disse ser skræmmende ud og lyder, omfatter yderligere udfordringer rettidig tilgængelighed af kvalitetsdata uden fejl dataarnnotering processer og arbejdsgange, annotatorers emneekspertise og meget mere.
Når det så er sagt, dataanmærkningsvirksomheder som f.eks Saip gør et enormt stykke arbejde med at levere kvalitetsdatasæt til virksomheder, der har brug for dem. I de kommende måneder kunne vi også se udvikling i dette rum, hvor maskinlæringssystemer nøjagtigt kunne annotere datasæt af sig selv med nul fejl.