Definition
Syntetiske data er kunstigt genereret information, der efterligner data fra den virkelige verden. De kan skabes ved hjælp af simuleringer, GAN'er eller andre generative metoder.
Formål
Formålet er at supplere eller erstatte reelle data, når de er knappe, følsomme eller dyre at indsamle.
Vigtighed
- Beskytter privatlivets fred ved at reducere afhængigheden af personoplysninger.
- Muliggør træning for sjældne eller ekstreme tilfælde.
- Mangler muligvis den fulde kompleksitet af data fra den virkelige verden.
- Anvendes i stigende grad i sikkerhedskritisk AI.
Hvordan det virker
- Definer de dataegenskaber, der skal replikeres.
- Brug simulering eller generative modeller til at generere data.
- Valider syntetiske data mod reelle fordelinger.
- Brug syntetiske data i træningspipelines.
- Overvåg for huller i realismen.
Eksempler (den virkelige verden)
- Waymo: bruger syntetiske kørescener til autonom træning.
- NVIDIA Omniverse: genererer syntetiske 3D-data til robotteknologi.
- Sundhedsvæsen: syntetiske patientdata til forskning.
Referencer / Yderligere læsning
- NIST-særpublikation om syntetiske data.
- Goncalves et al. “Generering og evaluering af syntetiske data.” ACM Computing Surveys.
- Syntetisk datavalv (MIT).
- Hvad er syntetiske data i AI