Åbn datasæt
Opdag datasæt med open source, der får dig til at træne ML -modeller
Open Source -datasæt for at komme i gang med AI/ML -modeller
Resultatet af dine AI & ML-modeller er kun lige så godt som de data, du bruger til at træne det - så den nøjagtighed, som du anvender til dataaggregering, og mærkning og identifikation af disse data er vigtig!
Så hvis du vil starte et nyt AI / ML-initiativ, og nu er du hurtigt klar over, at det at finde træningsdata af høj kvalitet vil være et af de mere udfordrende aspekter af dit projekt, da datasæt af høj kvalitet er det brændstof, der holder AI / ML-motor kører. Vi har samlet en liste over åbne datasæt, der er gratis at bruge og træne dine fremtidige AI / ML-modeller.
specialisering | Datatype | Datasætnavn | Industri / Afd. | Kommentar / brugssag | Beskrivelse | Link |
---|---|---|---|---|---|---|
NLP | tekst | anmeldelser Amazon | E-handel | Følelsesanalyse | Et sæt på 35 Mn anmeldelser og vurderinger fra de sidste 18 år i almindelig tekst med bruger- og produktdetaljer. | Link |
NLP | tekst | Wikipedia links data | Generelt | Mere end 4 mio. artikler indeholdende 1.9 mia. ord, der består af ord og sætninger samt afsnit. | Link | |
NLP | tekst | Standford Sentiment Treebank | Underholdning | Følelsesanalyse | Sentiment-annotationsdatasæt til over 10,000 stykker anmeldelser fra Rotten Tomatoes i HTML-filformat | Link |
NLP | tekst | Twitter US Airline Sentiment | Flyselskab | Følelsesanalyse | 2015 Tweets på US Airlines delte sig ind i positive, negative og neutrale toner | Link |
CV | Billede | Mærkede ansigter i naturen | Generelt | ansigtsgenkendelse | Datasæt, der indeholder over 13,000 beskårne ansigter med to forskellige billeder til ansigtsgenkendelsestræning. | Link |
CV | Video, billede | UMDFaces-datasæt | Generelt | ansigtsgenkendelse | Annoteret datasæt, der indeholder over 367,000 ansigter fra over 8,000 motiver, der inkluderer still- og videobilleder. | Link |
CV | Billede | Imagenet | Generelt | Datasæt med over 14 mio. billeder i forskellige filformater, organiseret efter WordNet-hierarkiet. | Link | |
CV | Billede | Googles åbne billeder | Generelt | 9 Mn. URL'er til at kategorisere offentlige billeder fra over 6,000 kategorier. | Link | |
NLP | tekst | MIMIC Critical Care Database | Medicinal | Computational Physiology Datasets med de-identificerede data fra 40,000 patienter med kritisk pleje. Datasættet indeholder information såsom demografi, vitale tegn, medicin osv. | Link | |
CV | Billede | US National Travel and Tourism Office | Turisme | Tilbyder brede fotografier fra turistindustrien med pålidelige databaser, der dækker emner som indgående og udgående rejser og international turistinformation. | Link | |
NLP | tekst | Afdeling for transport | Turisme | Turismedatasæt, der inkluderer nationalparker, driverregistre, broer og jernbaneinfo osv. | Link | |
NLP | Audio | Flickr Audio Caption Corpus | Generelt | Over 40 talte billedtekster fra 8,000 fotografier designet til ikke-overvågede talemønstre | Link | |
NLP | Audio | Talekommandodatasæt | Generelt | Talegenkendelse, lydkommentar | 1 sekund lange udtalelser fra tusinder af enkeltpersoner, for at opbygge grundlæggende stemmegrænseflade. | Link |
NLP | Audio | Miljømæssige lyddatasæt | Generelt | Miljølyddatasæt, der indeholder lyd fra begivenhedstabeller og akustiske scenetabeller. | Link | |
NLP | tekst | COVID-19 Åben forskningsdatasæt | Medicinal | Medicinsk AI | Et forskningsdatasæt bestående af 45,000 videnskabelige artikler om COVID-19 og coronavirusfamilien. | Link |
CV | Billede | Waymo Åbn datasæt | Automotive | De mest forskellige autonome køredatasæt frigivet af Waymo | Link | |
CV | Billede | Labelme | Offentlig regering | Stort sæt kommenterede billeder tilgængelige via Labelme Matlab | Link | |
CV | Billede | COIL100 | Generelt | Over 100 forskellige objekter fotograferet fra flere vinkler (dvs. 360 grader) | Link | |
CV | Billede | Stanford Dogs datasæt | Generelt | Over 20,500+ billeder kategoriseret i billedsæt med 120 forskellige hunderacer | Link | |
CV | Billede | Indendørs scenegenkendelse | Generelt | Scenegenkendelse | Et specifikt datasæt bestående af 15620 billeder fra 67 indendørskategorier til opbygning af scenegenkendelsesmodeller | Link |
CV | Billede | VisualQA | Generelt | Et datasæt, der indeholder åbne spørgsmål vedrørende 265,016 fotos, der kræver forståelse af vision og sprogforståelse for at svare. | Link | |
NLP | tekst | Datasæt med multidomain sentimentanalyse | E-handel | Følelsesanalyse | Datasæt, der indeholder produktanmeldelser fra Amazon | Link |
NLP | tekst | IMDB Anmeldelser | Underholdning | Følelsesanalyse | Datasæt, der indeholder 25000 filmanmeldelse til sentimentanalyse | Link |
NLP | tekst | Følelse140 | Generelt | Følelsesanalyse | Datasæt indeholdende 160,000 tweets med forud fjernede humørikoner for højere nøjagtighed | Link |
NLP | tekst | Blogger Corpus | Generelt | Nøgleord Ananlysis | Datasæt, der indeholder 681,288 blogindlæg fra blogger.com, der består af mindst 200 forekomster af almindeligt anvendte engelske ord. | Link |
NLP | tekst | Jeopardy | Generelt | Chatbot-træning | Datasæt med mere end 200,000 spørgsmål, der kan bruges til at træne maskinlæringsmodeller til intelligent autosvar | Link |
NLP | tekst | SMS Spam Collection på engelsk | Telecom | Spamgenkendelse | Et datasæt til spam-beskeder bestående af 5,574 engelske SMS'er | Link |
NLP | tekst | Yelp-anmeldelser | Generelt | Følelsesanalyse | Et datasæt med en anmeldelse på over 5 minutter udgivet af Yelp | Link |
NLP | tekst | UCI's Spambase | Enterprise | Spamgenkendelse | Et stort datasæt med spam-e-mails, der er nyttigt til spamfiltrering. | Link |
CV | Video, billede | Berkeley DeepDrive BDD100k | Automotive | Autonome køretøjer | Et af de største datasæt til selvkørende AI, der indeholder 1,100 timers køreoplevelser i over 100,000 videoer fra forskellige tidspunkter af dagen fra New York og San Francisco-området. | Link |
CV | Video | Comma.ai | Automotive | Autonome køretøjer | Et 7 timers køresæt til motorvej, der indeholder oplysninger om bilens hastighed, acceleration, styringsvinkel og GPS-koordinater | Link |
CV | Video, billede | Cityscape-datasæt | Automotive | Semantisk etiket for autonome køretøjer | Et datasæt med 5,000 pixelniveau-annoteringer plus et større sæt med 20,000 svagt kommenterede rammer i stereovideosekvenser, optaget fra 50 forskellige byer | Link |
CV | Billede | KUL Belgien trafikskilt datasæt | Automotive | Autonome køretøjer | Over 10000+ trafikskiltekommentarer fra Flandern-regionen baseret på fysisk adskilte trafikskilte fra hele Belgien. | Link |
CV | Billede | LISA: Laboratorium for intelligente og sikre biler, UC San Diego datasæt | Automotive | Autonome køretøjer | Et rigt datasæt, der indeholder trafikskilte, køretøjsdetektering, trafiklys og banemønstre. | Link |
CV | Billede | CIFAR-10 | Generelt | Objektgenkendelse | Et datasæt består af 50,000 billeder og 10,000 testbilleder (dvs. 60,000 32 × 32 farvebilleder i 10 klasser) til genkendelse af objekter. | Link |
CV | Billede | Mode MNIST | Mode | Et billedsæt, der består af 60,000 eksempler og et testsæt på 10,000 eksempler i 28 × 28 gråtonebilleder, der er knyttet til en etiket fra 10 klasser. | Link | |
CV | Billede | IMDB-Wiki datasæt | Underholdning | ansigtsgenkendelse | Et stort datasæt af ansigtsbilleder med etiketter som køn og alder. Ud af de samlede 523,051 ansigtsbilleder opnås 460,723 billeder fra 20,284 berømtheder fra IMDB og 62,328 fra Wikipedia. | Link |
CV | Video | Kinetik-700 | Generelt | For hver handlingsklasse består datasættet af høj kvalitet af 650,000 videoklip og omfatter 700 menneskelige handlingsklasser med mindst 600 videoklip. Her varer hvert klip 10 sekunder eller deromkring. | Link | |
CV | Billede | MS Coco | Generelt | Objektdetektion, segmentering | Datasættet indeholder 328 billeder og har i alt 2.5 Mn-forekomster og 91 objektbilleder til at træne relaterede ML-modeller i stor målestok, segmentering og datatekst. | Link |
CV | Billede | MPII-datasæt for menneskelig stilling | Generelt | Cirka 25K fotografier indeholdende over 40K individer med annoterede kropsled er inkluderet i datasættet, som bruges til at artikulere estimering af menneskelig stilling. Samlet set dækker datasættet 410 menneskelige aktiviteter, og hvert billede er forsynet med en aktivitetsetiket. | Link | |
CV | Billede | Åbn billeder | Generelt | Kommentarer om objektplacering | Billedsæt med omkring 9 Mn-billeder, der er kommenteret med billedniveauetiketter, objektafgrænsningsfelter, objektsegmentering osv. Datasættet består også af 16 Mn. afgrænsningsbokse til 600 objektklasser på 1.9 Mn-billeder. | Link |
CV | Video, billede | Argo, af Argo, USA | Automotive | Afgrænsningsboks, optisk flow, adfærdsmærke, semantisk etiket, vognbanemarkering | Et selvkørende datasæt, der består af HD-kort med geometriske og semantiske metadata, dvs. bane midtlinjer, bane retning og kørbart område. Datasættet bruges til at træne ML-modeller til at skabe mere nøjagtige opfattelsesalgoritmer, der hjælper selvkørende køretøjer med at navigere sikkert. | Link |
CV | Video | Bosch Small Traffic Lights, af Bosch North America Research | Automotive | Afgrænsningsboks | Et datasæt, der består af 13427 kamerabilleder med en opløsning på 1280 * 720 til at opbygge et visionbaseret trafiklysregistreringssystem. Datasættet har mere end 24000 kommenterede trafiklys. | Link |
CV | Video | Brain4Cars, af Cornell Univ., USA | Automotive | Adfærdsmærkat | Et datasæt bestående af en række kabinesensorer (kameraer, følbare sensorer, smarte enheder osv.) For at udtrække nyttige statistikker om førerens opmærksomhed. Vores algoritmer registrerer muligvis drivere, der er døsige eller distraherede, og øger de nødvendige alarmer for at forbedre beskyttelsen. | Link |
CV | Billede | CULane, af kinesiske Univ. af Hong Kong, Beijing, Kina | Automotive | Baneopmærkning | Et Computer Vision-datasæt om detektering af trafikbaner, der består af 55 timers videoer, hvoraf 133,235 (88880 træningssæt, 9675 valideringssæt og 34680 testsæt) blev udpakket. Det indsamles af kameraer monteret på seks forskellige køretøjer drevet af forskellige chauffører i Beijing. | Link |
CV | Video | DAVIS, af Univ. af Zürich, ETH ¨ Zürich, Tyskland, Schweiz | Automotive | Et kørselstræningsdatasæt til ende til ende, der bruger et DAVIS event + frame-kamera. Bildata som styring, gashåndtag, GPS osv. Bruges til at evaluere sammensmeltningen af ramme- og hændelsesdata til bilapps. | Link | |
CV | Video | DBNet, af Shanghai Jiao Tong Univ., Xiamen Univ., Kina | Automotive | Point Cloud, LiDAR | En 1000 km kørselsdata fra den virkelige verden, der inkluderer justeret video, punktsky, GPS og driveradfærd til dybdegående forskning i køreadfærd. | Link |
CV | Video | Dr (eye) ve, af Univ. af Modena og Reggio Emilia, Modena, Italien | Automotive | Adfærdsmærkat | Datasæt indeholdende 74 videosekvenser på 5 minutter hver, der blev kommenteret i mere end 500,000 billeder. Datasættet består af geografisk refererede placeringer, kørehastighed, kursus og mærker også driverens blikfikseringer og deres tidsmæssige integration, der giver opgavespecifikke kort. | Link |
CV | Video | ETH Pedestrian (2009), af ETH Zürich, Zürich, Schweiz | Generelt | Afgrænsningsboks | Et datasæt med 74 videosekvenser på 5 minutter hver, kommenteret i mere end 500,000 billeder. Datasættet giver geo-refererede positioner, kørehastighed, retning og markerer også blikfikseringer for chauffører og deres tidsmæssige integration, herunder opgave-specifikke kort. | Link |
CV | Video | Ford (2009), af Univ. af Michigan, Michigan, USA | Automotive | Bounding Box, LiDAR | Et datasæt udarbejdet af et automatiseret landkøretøj bevæbnet med en Velodyne 3D-lidar scanner, to push-kost fremadrettede Rieg lidars, en teknisk og forbrugerinertial måleenhed (IMU) og et Point Grey Ladybug3 rundstrålende kamerasystem. | Link |
CV | Video | HCI Challenging Stereo, Bosch Corporation Research, Hildesheim, Tyskland | Generelt | Et datasæt med flere millioner billeder fra optagede videoscener, der inkluderer en bred vifte af forskellige vejrforhold, flere lag af bevægelse og dybde; situationer i byen og landskabet osv. | Link | |
CV | Video | JAAD, ved York University, Ukraine, Canada | Automotive | Afgrænsningsboks, adfærdsmærkat | "JAAD er et datasæt til undersøgelse af fælles opmærksomhed i forbindelse med autonom kørsel. Fokus er på fodgænger- og føreradfærd ved krydsningspunktet og faktorer, der påvirker dem. Til dette formål giver JAAD-datasættet en rigt kommenteret samling af 346 korte video klip (5-10 sek lange) ekstraheret fra over 240 timers kørselsoptagelser fra flere steder i Nordamerika og Østeuropa. Afgrænsningsfelter med okklusionsmærker bruges til alle fodgængere, hvilket gør dette datasæt velegnet til detektering af fodgængere. Adfærdskommentarer angiver adfærd for fodgængere der interagerer med eller kræver driverens opmærksomhed. For hver video er der flere tags (vejr, placeringer osv.) og tidsstemplede adfærdsmærkater (f.eks. stoppet, gå, kigger osv.). Derudover er en liste over demografiske attributter til rådighed for hver fodgænger (f.eks. alder, køn, bevægelsesretning osv.) samt en liste over synlige trafiksceneelementer (f.eks. stopskilt, trafiksignal osv.) i hver ramme. " | Link |
CV | Billede | LISA Traffic Sign, af Univ. i Californien, San Diego, USA | Automotive | Afgrænsningsboks | Sættet med datasæt, der indeholder videoer og kommenterede rammer, der indeholder amerikanske trafikskilte. Den frigives i to faser, en med kun billederne og en med både billeder og videoer. | Link |
CV | Billede | Mapillary Vistas, af Mapillary AB, Global | Automotive | Semantisk etiket | Et fotograferingsdatasæt på gadeniveau til fortolkning af gadescener rundt om i verden med pixel-nøjagtige og instansspecifikke menneskelige kommentarer. | Link |
CV | Video, billede | Semantisk KITTI, ved University of Bonn, Karlsruhe, Tyskland | Automotive | Afgrænsningsboks, semantisk etiket, baneopmærkning | Et datasæt, der inkluderer en semantisk kommentar til alle Odometry Benchmark-sekvenser. Datasættet kommenterer forskellige typer bevægende og ikke-bevægende trafik: inklusive biler, cykler, cykler, fodgængere og cyklister, så objekter i scenen kan studeres. | Link |
CV | Video | Stanford Track, af Stanford Univ., USA | Automotive | Objektregistrering / klassificering LiDAR, GPS, koder | Et datasæt, der inkluderer 14,000 mærkede objektspor, som observeret af en Velodyne HDL-64E S2 LIDAR i naturlige gadescener, som kan bruges til at træne maskinindlæringsmodeller til 3D objektgenkendelse. | Link |
CV | Video, billede | Boxy-datasættet fra Bosch, USA | Automotive | Afgrænsningskasse / køretøjsregistrering | Et datasættesæt til køretøjsdata, der indeholder 2 millioner kommenterede køretøjer til træning og analyse af genkendelsesstrategier for selvkørende biler på motorveje. | Link |
CV | Video | TME Motorway, af Tjekkiske tekniske universitet, Norditalien | Automotive | Afgrænsningsboks | Et datasæt med 28 klip i alt 27 minutter fordelt i 30,000+ bilmærkerammer. Annotering blev produceret halvautomatisk ved hjælp af dataene fra laserscanneren. Denne dataindsamling involverer variable trafikscenarier, antal baner, vejkrumning og belysning, der dækker meget af betingelserne for den fulde erhvervelse. | Link |
CV | Video | Unsupervised Llamas, af Bosch, USA | Automotive | Baneopmærkning, LiDAR | Datasættet Unsupervised Llamas blev kommenteret ved at generere automatiske kørekort i høj opløsning, herunder Lidar-baserede banemarkører. Det autonome køretøj kan justeres mod disse kort, og banemarkeringerne projiceres i kamerarammen. 3D-projektion optimeres ved at minimere uoverensstemmelsen mellem allerede observerede og forudsagte billedmarkører. | Link |
NLP | Audio | Facebook AI Flersproget LibriSpeech (MLS) | Generelt | Lydkommentar / talegenkendelse | Facebook AI Multilingual LibriSpeech (MLS) er et stort open source-datasæt designet til at hjælpe forskningen inden for automatisk talegenkendelse (ASR). MLS leverer mere end 50,000 timers lyd på 8 sprog: engelsk, tysk, hollandsk, fransk, spansk, italiensk, portugisisk og polsk. | Link |