Åbn datasæt

Opdag datasæt med open source, der får dig til at træne ML -modeller

Åbn datasæt

Open Source -datasæt for at komme i gang med AI/ML -modeller

Resultatet af dine AI & ML-modeller er kun lige så godt som de data, du bruger til at træne det - så den nøjagtighed, som du anvender til dataaggregering, og mærkning og identifikation af disse data er vigtig!

Så hvis du vil starte et nyt AI / ML-initiativ, og nu er du hurtigt klar over, at det at finde træningsdata af høj kvalitet vil være et af de mere udfordrende aspekter af dit projekt, da datasæt af høj kvalitet er det brændstof, der holder AI / ML-motor kører. Vi har samlet en liste over åbne datasæt, der er gratis at bruge og træne dine fremtidige AI / ML-modeller.

specialiseringDatatypeDatasætnavnIndustri / Afd.Kommentar / brugssagBeskrivelseLink
NLPtekstanmeldelser AmazonE-handelFølelsesanalyseEt sæt på 35 Mn anmeldelser og vurderinger fra de sidste 18 år i almindelig tekst med bruger- og produktdetaljer.Link
NLPtekstWikipedia links dataGenereltMere end 4 mio. artikler indeholdende 1.9 mia. ord, der består af ord og sætninger samt afsnit.Link
NLPtekstStandford Sentiment TreebankUnderholdningFølelsesanalyseSentiment-annotationsdatasæt til over 10,000 stykker anmeldelser fra Rotten Tomatoes i HTML-filformatLink
NLPtekstTwitter US Airline SentimentFlyselskabFølelsesanalyse2015 Tweets på US Airlines delte sig ind i positive, negative og neutrale tonerLink
CVBillede Mærkede ansigter i naturenGenereltansigtsgenkendelseDatasæt, der indeholder over 13,000 beskårne ansigter med to forskellige billeder til ansigtsgenkendelsestræning.Link
CVVideo, billedeUMDFaces-datasætGenereltansigtsgenkendelseAnnoteret datasæt, der indeholder over 367,000 ansigter fra over 8,000 motiver, der inkluderer still- og videobilleder.Link
CVBillede ImagenetGenereltDatasæt med over 14 mio. billeder i forskellige filformater, organiseret efter WordNet-hierarkiet.Link
CVBillede Googles åbne billederGenerelt9 Mn. URL'er til at kategorisere offentlige billeder fra over 6,000 kategorier.Link
NLPtekstMIMIC Critical Care DatabaseMedicinalComputational Physiology Datasets med de-identificerede data fra 40,000 patienter med kritisk pleje. Datasættet indeholder information såsom demografi, vitale tegn, medicin osv.Link
CVBilledeUS National Travel and Tourism OfficeTurismeTilbyder brede fotografier fra turistindustrien med pålidelige databaser, der dækker emner som indgående og udgående rejser og international turistinformation.Link
NLPtekstAfdeling for transportTurismeTurismedatasæt, der inkluderer nationalparker, driverregistre, broer og jernbaneinfo osv.Link
NLPAudioFlickr Audio Caption CorpusGenereltOver 40 talte billedtekster fra 8,000 fotografier designet til ikke-overvågede talemønstreLink
NLPAudioTalekommandodatasætGenereltTalegenkendelse, lydkommentar1 sekund lange udtalelser fra tusinder af enkeltpersoner, for at opbygge grundlæggende stemmegrænseflade.Link
NLPAudioMiljømæssige lyddatasætGenereltMiljølyddatasæt, der indeholder lyd fra begivenhedstabeller og akustiske scenetabeller.Link
NLPtekstCOVID-19 Åben forskningsdatasæt MedicinalMedicinsk AIEt forskningsdatasæt bestående af 45,000 videnskabelige artikler om COVID-19 og coronavirusfamilien.Link
CVBilledeWaymo Åbn datasæt AutomotiveDe mest forskellige autonome køredatasæt frigivet af WaymoLink
CVBilledeVisuelt genom GenereltBilledtekstEn visuel videnbase med detaljeret billedtekst på over 100 billederLink
CVBilledeLabelme Offentlig regeringStort sæt kommenterede billeder tilgængelige via Labelme MatlabLink
CVBilledeCOIL100GenereltOver 100 forskellige objekter fotograferet fra flere vinkler (dvs. 360 grader)Link
CVBilledeStanford Dogs datasætGenereltOver 20,500+ billeder kategoriseret i billedsæt med 120 forskellige hunderacerLink
CVBilledeIndendørs scenegenkendelseGenereltScenegenkendelseEt specifikt datasæt bestående af 15620 billeder fra 67 indendørskategorier til opbygning af scenegenkendelsesmodellerLink
CVBilledeVisualQAGenereltEt datasæt, der indeholder åbne spørgsmål vedrørende 265,016 fotos, der kræver forståelse af vision og sprogforståelse for at svare.Link
NLPtekstDatasæt med multidomain sentimentanalyseE-handelFølelsesanalyseDatasæt, der indeholder produktanmeldelser fra AmazonLink
NLPtekstIMDB AnmeldelserUnderholdningFølelsesanalyseDatasæt, der indeholder 25000 filmanmeldelse til sentimentanalyseLink
NLPtekstFølelse140GenereltFølelsesanalyseDatasæt indeholdende 160,000 tweets med forud fjernede humørikoner for højere nøjagtighedLink
NLPtekstBlogger CorpusGenereltNøgleord AnanlysisDatasæt, der indeholder 681,288 blogindlæg fra blogger.com, der består af mindst 200 forekomster af almindeligt anvendte engelske ord.Link
NLPtekstJeopardyGenereltChatbot-træningDatasæt med mere end 200,000 spørgsmål, der kan bruges til at træne maskinlæringsmodeller til intelligent autosvarLink
NLPtekstSMS Spam Collection på engelskTelecomSpamgenkendelseEt datasæt til spam-beskeder bestående af 5,574 engelske SMS'erLink
NLPtekstYelp-anmeldelserGenereltFølelsesanalyseEt datasæt med en anmeldelse på over 5 minutter udgivet af YelpLink
NLPtekstUCI's SpambaseEnterpriseSpamgenkendelseEt stort datasæt med spam-e-mails, der er nyttigt til spamfiltrering.Link
CVVideo, billedeBerkeley DeepDrive BDD100kAutomotiveAutonome køretøjerEt af de største datasæt til selvkørende AI, der indeholder 1,100 timers køreoplevelser i over 100,000 videoer fra forskellige tidspunkter af dagen fra New York og San Francisco-området.Link
CVvideoComma.aiAutomotiveAutonome køretøjer Et 7 timers køresæt til motorvej, der indeholder oplysninger om bilens hastighed, acceleration, styringsvinkel og GPS-koordinaterLink
CVVideo, billedeCityscape-datasætAutomotiveSemantisk etiket for autonome køretøjerEt datasæt med 5,000 pixelniveau-annoteringer plus et større sæt med 20,000 svagt kommenterede rammer i stereovideosekvenser, optaget fra 50 forskellige byerLink
CVBilledeKUL Belgien trafikskilt datasætAutomotiveAutonome køretøjerOver 10000+ trafikskiltekommentarer fra Flandern-regionen baseret på fysisk adskilte trafikskilte fra hele Belgien.Link
CVBilledeLISA: Laboratorium for intelligente og sikre biler, UC San Diego datasætAutomotiveAutonome køretøjerEt rigt datasæt, der indeholder trafikskilte, køretøjsdetektering, trafiklys og banemønstre.Link
CVBilledeCIFAR-10GenereltObjektgenkendelseEt datasæt består af 50,000 billeder og 10,000 testbilleder (dvs. 60,000 32 × 32 farvebilleder i 10 klasser) til genkendelse af objekter.Link
CVBilledeMode MNISTModeEt billedsæt, der består af 60,000 eksempler og et testsæt på 10,000 eksempler i 28 × 28 gråtonebilleder, der er knyttet til en etiket fra 10 klasser.Link
CVBilledeIMDB-Wiki datasætUnderholdningansigtsgenkendelseEt stort datasæt af ansigtsbilleder med etiketter som køn og alder. Ud af de samlede 523,051 ansigtsbilleder opnås 460,723 billeder fra 20,284 berømtheder fra IMDB og 62,328 fra Wikipedia.Link
CVvideoKinetik-700GenereltFor hver handlingsklasse består datasættet af høj kvalitet af 650,000 videoklip og omfatter 700 menneskelige handlingsklasser med mindst 600 videoklip. Her varer hvert klip 10 sekunder eller deromkring.Link
CVBilledeMS CocoGenereltObjektdetektion, segmenteringDatasættet indeholder 328 billeder og har i alt 2.5 Mn-forekomster og 91 objektbilleder til at træne relaterede ML-modeller i stor målestok, segmentering og datatekst.Link
CVBilledeMPII-datasæt for menneskelig stillingGenereltCirka 25K fotografier indeholdende over 40K individer med annoterede kropsled er inkluderet i datasættet, som bruges til at artikulere estimering af menneskelig stilling. Samlet set dækker datasættet 410 menneskelige aktiviteter, og hvert billede er forsynet med en aktivitetsetiket.Link
CVBilledeÅbn billederGenereltKommentarer om objektplaceringBilledsæt med omkring 9 Mn-billeder, der er kommenteret med billedniveauetiketter, objektafgrænsningsfelter, objektsegmentering osv. Datasættet består også af 16 Mn. afgrænsningsbokse til 600 objektklasser på 1.9 Mn-billeder.Link
CVvideoApollo Open Platform, af Baidu Inc, KinaAutomotiveAfgrænsningsboks, LiDAREt rigt autonomt køredatasæt, der giver udviklere de nødvendige data i autonom kørsel for at fremskynde effektiviteten af ​​den innovative iteration.Link
CVVideo, billedeArgo, af Argo, USAAutomotiveAfgrænsningsboks, optisk flow, adfærdsmærke, semantisk etiket, vognbanemarkeringEt selvkørende datasæt, der består af HD-kort med geometriske og semantiske metadata, dvs. bane midtlinjer, bane retning og kørbart område. Datasættet bruges til at træne ML-modeller til at skabe mere nøjagtige opfattelsesalgoritmer, der hjælper selvkørende køretøjer med at navigere sikkert.Link
CVvideoBosch Small Traffic Lights, af Bosch North America ResearchAutomotiveAfgrænsningsboksEt datasæt, der består af 13427 kamerabilleder med en opløsning på 1280 * 720 til at opbygge et visionbaseret trafiklysregistreringssystem. Datasættet har mere end 24000 kommenterede trafiklys.Link
CVvideoBrain4Cars, af Cornell Univ., USAAutomotiveAdfærdsmærkatEt datasæt bestående af en række kabinesensorer (kameraer, følbare sensorer, smarte enheder osv.) For at udtrække nyttige statistikker om førerens opmærksomhed. Vores algoritmer registrerer muligvis drivere, der er døsige eller distraherede, og øger de nødvendige alarmer for at forbedre beskyttelsen.Link
CVBilledeCULane, af kinesiske Univ. af Hong Kong, Beijing, KinaAutomotiveBaneopmærkningEt Computer Vision-datasæt om detektering af trafikbaner, der består af 55 timers videoer, hvoraf 133,235 (88880 træningssæt, 9675 valideringssæt og 34680 testsæt) blev udpakket. Det indsamles af kameraer monteret på seks forskellige køretøjer drevet af forskellige chauffører i Beijing.Link
CVvideoDAVIS, af Univ. af Zürich, ETH ¨ Zürich, Tyskland, SchweizAutomotiveEt kørselstræningsdatasæt til ende til ende, der bruger et DAVIS event + frame-kamera. Bildata som styring, gashåndtag, GPS osv. Bruges til at evaluere sammensmeltningen af ​​ramme- og hændelsesdata til bilapps.Link
CVvideoDBNet, af Shanghai Jiao Tong Univ., Xiamen Univ., KinaAutomotivePoint Cloud, LiDAREn 1000 km kørselsdata fra den virkelige verden, der inkluderer justeret video, punktsky, GPS og driveradfærd til dybdegående forskning i køreadfærd.Link
CVvideoDr (eye) ve, af Univ. af Modena og Reggio Emilia, Modena, ItalienAutomotiveAdfærdsmærkatDatasæt indeholdende 74 videosekvenser på 5 minutter hver, der blev kommenteret i mere end 500,000 billeder. Datasættet består af geografisk refererede placeringer, kørehastighed, kursus og mærker også driverens blikfikseringer og deres tidsmæssige integration, der giver opgavespecifikke kort.Link
CVvideoETH Pedestrian (2009), af ETH Zürich, Zürich, SchweizGenereltAfgrænsningsboksEt datasæt med 74 videosekvenser på 5 minutter hver, kommenteret i mere end 500,000 billeder. Datasættet giver geo-refererede positioner, kørehastighed, retning og markerer også blikfikseringer for chauffører og deres tidsmæssige integration, herunder opgave-specifikke kort.Link
CVvideoFord (2009), af Univ. af Michigan, Michigan, USAAutomotiveBounding Box, LiDAREt datasæt udarbejdet af et automatiseret landkøretøj bevæbnet med en Velodyne 3D-lidar scanner, to push-kost fremadrettede Rieg lidars, en teknisk og forbrugerinertial måleenhed (IMU) og et Point Grey Ladybug3 rundstrålende kamerasystem.Link
CVvideoHCI Challenging Stereo, Bosch Corporation Research, Hildesheim, TysklandGenereltEt datasæt med flere millioner billeder fra optagede videoscener, der inkluderer en bred vifte af forskellige vejrforhold, flere lag af bevægelse og dybde; situationer i byen og landskabet osv.Link
CVvideoJAAD, ved York University, Ukraine, CanadaAutomotiveAfgrænsningsboks, adfærdsmærkat"JAAD er et datasæt til undersøgelse af fælles opmærksomhed i forbindelse med autonom kørsel. Fokus er på fodgænger- og føreradfærd ved krydsningspunktet og faktorer, der påvirker dem. Til dette formål giver JAAD-datasættet en rigt kommenteret samling af 346 korte video klip (5-10 sek lange) ekstraheret fra over 240 timers kørselsoptagelser fra flere steder i Nordamerika og Østeuropa. Afgrænsningsfelter med okklusionsmærker bruges til alle fodgængere, hvilket gør dette datasæt velegnet til detektering af fodgængere. Adfærdskommentarer angiver adfærd for fodgængere der interagerer med eller kræver driverens opmærksomhed. For hver video er der flere tags (vejr, placeringer osv.) og tidsstemplede adfærdsmærkater (f.eks. stoppet, gå, kigger osv.). Derudover er en liste over demografiske attributter til rådighed for hver fodgænger (f.eks. alder, køn, bevægelsesretning osv.) samt en liste over synlige trafiksceneelementer (f.eks. stopskilt, trafiksignal osv.) i hver ramme. "Link
CVvideoKAIST Urban, af KAIST, SydkoreaGenereltLIDARDataindsamlingen inkluderer adskillige placeringssensorer til LiDAR-data og stereobilleder, der er målrettet mod et meget komplekst byområde (f.eks. Storbyområder, komplekse bygninger og boligområder).Link
CVBilledeLISA Traffic Sign, af Univ. i Californien, San Diego, USAAutomotiveAfgrænsningsboksSættet med datasæt, der indeholder videoer og kommenterede rammer, der indeholder amerikanske trafikskilte. Den frigives i to faser, en med kun billederne og en med både billeder og videoer.Link
CVBilledeMapillary Vistas, af Mapillary AB, GlobalAutomotiveSemantisk etiketEt fotograferingsdatasæt på gadeniveau til fortolkning af gadescener rundt om i verden med pixel-nøjagtige og instansspecifikke menneskelige kommentarer.Link
CVVideo, billedeSemantisk KITTI, ved University of Bonn, Karlsruhe, TysklandAutomotiveAfgrænsningsboks, semantisk etiket, baneopmærkningEt datasæt, der inkluderer en semantisk kommentar til alle Odometry Benchmark-sekvenser. Datasættet kommenterer forskellige typer bevægende og ikke-bevægende trafik: inklusive biler, cykler, cykler, fodgængere og cyklister, så objekter i scenen kan studeres.Link
CVvideoStanford Track, af Stanford Univ., USAAutomotiveObjektregistrering / klassificering LiDAR, GPS, koderEt datasæt, der inkluderer 14,000 mærkede objektspor, som observeret af en Velodyne HDL-64E S2 LIDAR i naturlige gadescener, som kan bruges til at træne maskinindlæringsmodeller til 3D objektgenkendelse.Link
CVVideo, billedeBoxy-datasættet fra Bosch, USAAutomotiveAfgrænsningskasse / køretøjsregistreringEt datasættesæt til køretøjsdata, der indeholder 2 millioner kommenterede køretøjer til træning og analyse af genkendelsesstrategier for selvkørende biler på motorveje.Link
CVvideoTME Motorway, af Tjekkiske tekniske universitet, NorditalienAutomotiveAfgrænsningsboksEt datasæt med 28 klip i alt 27 minutter fordelt i 30,000+ bilmærkerammer. Annotering blev produceret halvautomatisk ved hjælp af dataene fra laserscanneren. Denne dataindsamling involverer variable trafikscenarier, antal baner, vejkrumning og belysning, der dækker meget af betingelserne for den fulde erhvervelse.Link
CVvideoUnsupervised Llamas, af Bosch, USAAutomotiveBaneopmærkning, LiDARDatasættet Unsupervised Llamas blev kommenteret ved at generere automatiske kørekort i høj opløsning, herunder Lidar-baserede banemarkører. Det autonome køretøj kan justeres mod disse kort, og banemarkeringerne projiceres i kamerarammen. 3D-projektion optimeres ved at minimere uoverensstemmelsen mellem allerede observerede og forudsagte billedmarkører.Link
NLPAudioFacebook AI Flersproget LibriSpeech (MLS)GenereltLydkommentar / talegenkendelseFacebook AI Multilingual LibriSpeech (MLS) er et stort open source-datasæt designet til at hjælpe forskningen inden for automatisk talegenkendelse (ASR). MLS leverer mere end 50,000 timers lyd på 8 sprog: engelsk, tysk, hollandsk, fransk, spansk, italiensk, portugisisk og polsk. Link