Off-the-shelf datasæt

Off-the-shelf datasæt

Definition

Standarddatasæt er forudindsamlede og offentligt eller kommercielt tilgængelige datasæt, der kan bruges direkte til træning eller evaluering af AI-modeller.

Formål

Formålet er at fremskynde forskning og udvikling ved at stille let tilgængelige data til rådighed uden omkostningsfuld indsamling.

Vigtighed

  • Sparer tid og ressourcer for AI-teams.
  • Muliggør reproducerbarhed og benchmarking.
  • Kan mangle domænespecificitet for visse opgaver.
  • Kræver kontrol for bias og licensbegrænsninger.

Hvordan det virker

  1. Identificer datasættet, der er relevant for AI-opgaven.
  2. Gennemgå licens- og brugsbegrænsninger.
  3. Download eller køb datasættet.
  4. Forbehandling efter behov for kompatibilitet.
  5. Træn eller evaluer modeller ved hjælp af datasættet.

Eksempler (den virkelige verden)

  • MNIST: håndskrevet cifferdatasæt til benchmarking.
  • ImageNet: storskala datasæt til computer vision.
  • Common Crawl: åbent webtekstdatasæt til NLP.

Referencer / Yderligere læsning

Du vil måske også kunne lide

Fortæl os, hvordan vi kan hjælpe med dit næste AI-initiativ.

Saip
Beskyttelse af personlige oplysninger

Denne hjemmeside bruger cookies, så vi kan give dig den bedst mulige brugeroplevelse. Cookieoplysninger gemmes i din browser og udfører funktioner som at genkende dig, når du vender tilbage til vores hjemmeside og hjælper vores team til at forstå, hvilke dele af hjemmesiden du finder mest interessante og nyttige.