Åbn datasæt

Opdag datasæt med open source, der får dig til at træne ML -modeller

Åbn datasæt

Open Source -datasæt for at komme i gang med AI/ML -modeller

Resultatet af dine AI & ML-modeller er kun lige så godt som de data, du bruger til at træne det - så den nøjagtighed, som du anvender til dataaggregering, og mærkning og identifikation af disse data er vigtig!

Så hvis du vil starte et nyt AI / ML-initiativ, og nu er du hurtigt klar over, at det at finde træningsdata af høj kvalitet vil være et af de mere udfordrende aspekter af dit projekt, da datasæt af høj kvalitet er det brændstof, der holder AI / ML-motor kører. Vi har samlet en liste over åbne datasæt, der er gratis at bruge og træne dine fremtidige AI / ML-modeller.

specialiseringDatatypeDatasætnavnIndustri / Afd.Kommentar / brugssagBeskrivelseForbindelse
NLPtekstanmeldelser AmazonE-handelFølelsesanalyseEt sæt på 35 Mn anmeldelser og vurderinger fra de sidste 18 år i almindelig tekst med bruger- og produktdetaljer.Forbindelse
NLPtekstWikipedia links dataGenereltMere end 4 mio. artikler indeholdende 1.9 mia. ord, der består af ord og sætninger samt afsnit.Forbindelse
NLPtekstStandford Sentiment TreebankUnderholdningFølelsesanalyseSentiment-annotationsdatasæt til over 10,000 stykker anmeldelser fra Rotten Tomatoes i HTML-filformatForbindelse
NLPtekstTwitter US Airline SentimentFlyselskabFølelsesanalyse2015 Tweets på US Airlines delte sig ind i positive, negative og neutrale tonerForbindelse
CVBillede Mærkede ansigter i naturenGenereltansigtsgenkendelseDatasæt, der indeholder over 13,000 beskårne ansigter med to forskellige billeder til ansigtsgenkendelsestræning.Forbindelse
CVVideo, billedeUMDFaces-datasætGenereltansigtsgenkendelseAnnoteret datasæt, der indeholder over 367,000 ansigter fra over 8,000 motiver, der inkluderer still- og videobilleder.Forbindelse
CVBillede ImagenetGenereltDatasæt med over 14 mio. billeder i forskellige filformater, organiseret efter WordNet-hierarkiet.Forbindelse
CVBillede Googles åbne billederGenerelt9 Mn. URL'er til at kategorisere offentlige billeder fra over 6,000 kategorier.Forbindelse
NLPtekstMIMIC Critical Care DatabaseHealthcareComputational Physiology Datasets med de-identificerede data fra 40,000 patienter med kritisk pleje. Datasættet indeholder information såsom demografi, vitale tegn, medicin osv.Forbindelse
CVBilledeUS National Travel and Tourism OfficeTurismeTilbyder brede fotografier fra turistindustrien med pålidelige databaser, der dækker emner som indgående og udgående rejser og international turistinformation.Forbindelse
NLPtekstAfdeling for transportTurismeTurismedatasæt, der inkluderer nationalparker, driverregistre, broer og jernbaneinfo osv.Forbindelse
NLPLydFlickr Audio Caption CorpusGenereltOver 40 talte billedtekster fra 8,000 fotografier designet til ikke-overvågede talemønstreForbindelse
NLPLydTalekommandodatasætGenereltTalegenkendelse, lydkommentar1 sekund lange udtalelser fra tusinder af enkeltpersoner, for at opbygge grundlæggende stemmegrænseflade.Forbindelse
NLPLydFSD (freesound)GenereltEn samling af hverdagslyde indsamlet under en open source-licens.Forbindelse
NLPLydMiljømæssige lyddatasætGenereltMiljølyddatasæt, der indeholder lyd fra begivenhedstabeller og akustiske scenetabeller.Forbindelse
NLPtekstCOVID-19 Åben forskningsdatasæt HealthcareMedicinsk AIEt forskningsdatasæt bestående af 45,000 videnskabelige artikler om COVID-19 og coronavirusfamilien.Forbindelse
CVBilledeWaymo Åbn datasæt AutomotiveDe mest forskellige autonome køredatasæt frigivet af WaymoForbindelse
CVBilledeVisuelt genom GenereltBilledtekstEn visuel videnbase med detaljeret billedtekst på over 100 billederForbindelse
CVBilledeLabelme Offentlig regeringStort sæt kommenterede billeder tilgængelige via Labelme MatlabForbindelse
CVBilledeCOIL100GenereltOver 100 forskellige objekter fotograferet fra flere vinkler (dvs. 360 grader)Forbindelse
CVBilledeStanford Dogs datasætGenereltOver 20,500+ billeder kategoriseret i billedsæt med 120 forskellige hunderacerForbindelse
CVBilledeIndendørs scenegenkendelseGenereltScenegenkendelseEt specifikt datasæt bestående af 15620 billeder fra 67 indendørskategorier til opbygning af scenegenkendelsesmodellerForbindelse
CVBilledeVisualQAGenereltEt datasæt, der indeholder åbne spørgsmål vedrørende 265,016 fotos, der kræver forståelse af vision og sprogforståelse for at svare.Forbindelse
NLPtekstDatasæt med multidomain sentimentanalyseE-handelFølelsesanalyseDatasæt, der indeholder produktanmeldelser fra AmazonForbindelse
NLPtekstIMDB AnmeldelserUnderholdningFølelsesanalyseDatasæt, der indeholder 25000 filmanmeldelse til sentimentanalyseForbindelse
NLPtekstFølelse140GenereltFølelsesanalyseDatasæt indeholdende 160,000 tweets med forud fjernede humørikoner for højere nøjagtighedForbindelse
NLPtekstBlogger CorpusGenereltNøgleord AnanlysisDatasæt, der indeholder 681,288 blogindlæg fra blogger.com, der består af mindst 200 forekomster af almindeligt anvendte engelske ord.Forbindelse
NLPtekstJeopardyGenereltChatbot-træningDatasæt med mere end 200,000 spørgsmål, der kan bruges til at træne maskinlæringsmodeller til intelligent autosvarForbindelse
NLPtekstSMS Spam Collection på engelskTelecomSpamgenkendelseEt datasæt til spam-beskeder bestående af 5,574 engelske SMS'erForbindelse
NLPtekstYelp-anmeldelserGenereltFølelsesanalyseEt datasæt med en anmeldelse på over 5 minutter udgivet af YelpForbindelse
NLPtekstUCI's SpambaseEnterpriseSpamgenkendelseEt stort datasæt med spam-e-mails, der er nyttigt til spamfiltrering.Forbindelse
CVVideo, billedeBerkeley DeepDrive BDD100kAutomotiveAutonome køretøjerEt af de største datasæt til selvkørende AI, der indeholder 1,100 timers køreoplevelser i over 100,000 videoer fra forskellige tidspunkter af dagen fra New York og San Francisco-området.Forbindelse
CVvideoBaidu ApolloscapesAutomotiveAutonome køretøjer, Semantisk etiket, VognbanemarkeringEt bredt billedsæt, der beskriver 26 separate semantiske objekter, såsom køretøjer, cyklister, mennesker, huse, gadebelysning osv.Forbindelse
CVvideoComma.aiAutomotiveAutonome køretøjer Et 7 timers køresæt til motorvej, der indeholder oplysninger om bilens hastighed, acceleration, styringsvinkel og GPS-koordinaterForbindelse
CVVideo, billedeCityscape-datasætAutomotiveSemantisk etiket for autonome køretøjerEt datasæt med 5,000 pixelniveau-annoteringer plus et større sæt med 20,000 svagt kommenterede rammer i stereovideosekvenser, optaget fra 50 forskellige byerForbindelse
CVBilledeKUL Belgien trafikskilt datasætAutomotiveAutonome køretøjerOver 10000+ trafikskiltekommentarer fra Flandern-regionen baseret på fysisk adskilte trafikskilte fra hele Belgien.Forbindelse
CVBilledeLISA: Laboratorium for intelligente og sikre biler, UC San Diego datasætAutomotiveAutonome køretøjerEt rigt datasæt, der indeholder trafikskilte, køretøjsdetektering, trafiklys og banemønstre.Forbindelse
CVBilledeCIFAR-10GenereltObjektgenkendelseEt datasæt består af 50,000 billeder og 10,000 testbilleder (dvs. 60,000 32 × 32 farvebilleder i 10 klasser) til genkendelse af objekter.Forbindelse
CVBilledeMode MNISTModeEt billedsæt, der består af 60,000 eksempler og et testsæt på 10,000 eksempler i 28 × 28 gråtonebilleder, der er knyttet til en etiket fra 10 klasser.Forbindelse
CVBilledeIMDB-Wiki datasætUnderholdningansigtsgenkendelseEt stort datasæt af ansigtsbilleder med etiketter som køn og alder. Ud af de samlede 523,051 ansigtsbilleder opnås 460,723 billeder fra 20,284 berømtheder fra IMDB og 62,328 fra Wikipedia.Forbindelse
CVvideoKinetik-700GenereltFor hver handlingsklasse består datasættet af høj kvalitet af 650,000 videoklip og omfatter 700 menneskelige handlingsklasser med mindst 600 videoklip. Her varer hvert klip 10 sekunder eller deromkring.Forbindelse
CVBilledeMS CocoGenereltObjektdetektion, segmenteringDatasættet indeholder 328 billeder og har i alt 2.5 Mn-forekomster og 91 objektbilleder til at træne relaterede ML-modeller i stor målestok, segmentering og datatekst.Forbindelse
CVBilledeMPII-datasæt for menneskelig stillingGenereltCirka 25K fotografier indeholdende over 40K individer med annoterede kropsled er inkluderet i datasættet, som bruges til at artikulere estimering af menneskelig stilling. Samlet set dækker datasættet 410 menneskelige aktiviteter, og hvert billede er forsynet med en aktivitetsetiket.Forbindelse
CVBilledeÅbn billederGenereltKommentarer om objektplaceringBilledsæt med omkring 9 Mn-billeder, der er kommenteret med billedniveauetiketter, objektafgrænsningsfelter, objektsegmentering osv. Datasættet består også af 16 Mn. afgrænsningsbokse til 600 objektklasser på 1.9 Mn-billeder.Forbindelse
CVvideoApollo Open Platform, af Baidu Inc, KinaAutomotiveAfgrænsningsboks, LiDAREt rigt autonomt køredatasæt, der giver udviklere de nødvendige data i autonom kørsel for at fremskynde effektiviteten af ​​den innovative iteration.Forbindelse
CVVideo, billedeArgo, af Argo, USAAutomotiveAfgrænsningsboks, optisk flow, adfærdsmærke, semantisk etiket, vognbanemarkeringEt selvkørende datasæt, der består af HD-kort med geometriske og semantiske metadata, dvs. bane midtlinjer, bane retning og kørbart område. Datasættet bruges til at træne ML-modeller til at skabe mere nøjagtige opfattelsesalgoritmer, der hjælper selvkørende køretøjer med at navigere sikkert.Forbindelse
CVvideoBosch Small Traffic Lights, af Bosch North America ResearchAutomotiveAfgrænsningsboksEt datasæt, der består af 13427 kamerabilleder med en opløsning på 1280 * 720 til at opbygge et visionbaseret trafiklysregistreringssystem. Datasættet har mere end 24000 kommenterede trafiklys.Forbindelse
CVvideoBrain4Cars, af Cornell Univ., USAAutomotiveAdfærdsmærkatEt datasæt bestående af en række kabinesensorer (kameraer, følbare sensorer, smarte enheder osv.) For at udtrække nyttige statistikker om førerens opmærksomhed. Vores algoritmer registrerer muligvis drivere, der er døsige eller distraherede, og øger de nødvendige alarmer for at forbedre beskyttelsen.Forbindelse
CVBilledeCULane, af kinesiske Univ. af Hong Kong, Beijing, KinaAutomotiveBaneopmærkningEt Computer Vision-datasæt om detektering af trafikbaner, der består af 55 timers videoer, hvoraf 133,235 (88880 træningssæt, 9675 valideringssæt og 34680 testsæt) blev udpakket. Det indsamles af kameraer monteret på seks forskellige køretøjer drevet af forskellige chauffører i Beijing.Forbindelse
CVvideoDAVIS, af Univ. af Zürich, ETH ¨ Zürich, Tyskland, SchweizAutomotiveEt kørselstræningsdatasæt til ende til ende, der bruger et DAVIS event + frame-kamera. Bildata som styring, gashåndtag, GPS osv. Bruges til at evaluere sammensmeltningen af ​​ramme- og hændelsesdata til bilapps.Forbindelse
CVvideoDBNet, af Shanghai Jiao Tong Univ., Xiamen Univ., KinaAutomotivePoint Cloud, LiDAREn 1000 km kørselsdata fra den virkelige verden, der inkluderer justeret video, punktsky, GPS og driveradfærd til dybdegående forskning i køreadfærd.Forbindelse
CVvideoDr (eye) ve, af Univ. af Modena og Reggio Emilia, Modena, ItalienAutomotiveAdfærdsmærkatDatasæt indeholdende 74 videosekvenser på 5 minutter hver, der blev kommenteret i mere end 500,000 billeder. Datasættet består af geografisk refererede placeringer, kørehastighed, kursus og mærker også driverens blikfikseringer og deres tidsmæssige integration, der giver opgavespecifikke kort.Forbindelse
CVvideoETH Pedestrian (2009), af ETH Zürich, Zürich, SchweizGenereltAfgrænsningsboksEt datasæt med 74 videosekvenser på 5 minutter hver, kommenteret i mere end 500,000 billeder. Datasættet giver geo-refererede positioner, kørehastighed, retning og markerer også blikfikseringer for chauffører og deres tidsmæssige integration, herunder opgave-specifikke kort.Forbindelse
CVvideoFord (2009), af Univ. af Michigan, Michigan, USAAutomotiveBounding Box, LiDAREt datasæt udarbejdet af et automatiseret landkøretøj bevæbnet med en Velodyne 3D-lidar scanner, to push-kost fremadrettede Rieg lidars, en teknisk og forbrugerinertial måleenhed (IMU) og et Point Grey Ladybug3 rundstrålende kamerasystem.Forbindelse
CVvideoHCI Challenging Stereo, Bosch Corporation Research, Hildesheim, TysklandGenereltEt datasæt med flere millioner billeder fra optagede videoscener, der inkluderer en bred vifte af forskellige vejrforhold, flere lag af bevægelse og dybde; situationer i byen og landskabet osv.Forbindelse
CVvideoJAAD, ved York University, Ukraine, CanadaAutomotiveAfgrænsningsboks, adfærdsmærkat"JAAD er et datasæt til undersøgelse af fælles opmærksomhed i forbindelse med autonom kørsel. Fokus er på fodgænger- og føreradfærd ved krydsningspunktet og faktorer, der påvirker dem. Til dette formål giver JAAD-datasættet en rigt kommenteret samling af 346 korte video klip (5-10 sek lange) ekstraheret fra over 240 timers kørselsoptagelser fra flere steder i Nordamerika og Østeuropa. Afgrænsningsfelter med okklusionsmærker bruges til alle fodgængere, hvilket gør dette datasæt velegnet til detektering af fodgængere. Adfærdskommentarer angiver adfærd for fodgængere der interagerer med eller kræver driverens opmærksomhed. For hver video er der flere tags (vejr, placeringer osv.) og tidsstemplede adfærdsmærkater (f.eks. stoppet, gå, kigger osv.). Derudover er en liste over demografiske attributter til rådighed for hver fodgænger (f.eks. alder, køn, bevægelsesretning osv.) samt en liste over synlige trafiksceneelementer (f.eks. stopskilt, trafiksignal osv.) i hver ramme. "Forbindelse
CVvideoKAIST Urban, af KAIST, SydkoreaGenereltLIDARDataindsamlingen inkluderer adskillige placeringssensorer til LiDAR-data og stereobilleder, der er målrettet mod et meget komplekst byområde (f.eks. Storbyområder, komplekse bygninger og boligområder).Forbindelse
CVBilledeLISA Traffic Sign, af Univ. i Californien, San Diego, USAAutomotiveAfgrænsningsboksSættet med datasæt, der indeholder videoer og kommenterede rammer, der indeholder amerikanske trafikskilte. Den frigives i to faser, en med kun billederne og en med både billeder og videoer.Forbindelse
CVBilledeMapillary Vistas, af Mapillary AB, GlobalAutomotiveSemantisk etiketEt fotograferingsdatasæt på gadeniveau til fortolkning af gadescener rundt om i verden med pixel-nøjagtige og instansspecifikke menneskelige kommentarer.Forbindelse
CVVideo, billedeSemantisk KITTI, ved University of Bonn, Karlsruhe, TysklandAutomotiveAfgrænsningsboks, semantisk etiket, baneopmærkningEt datasæt, der inkluderer en semantisk kommentar til alle Odometry Benchmark-sekvenser. Datasættet kommenterer forskellige typer bevægende og ikke-bevægende trafik: inklusive biler, cykler, cykler, fodgængere og cyklister, så objekter i scenen kan studeres.Forbindelse
CVvideoStanford Track, af Stanford Univ., USAAutomotiveObjektregistrering / klassificering LiDAR, GPS, koderEt datasæt, der inkluderer 14,000 mærkede objektspor, som observeret af en Velodyne HDL-64E S2 LIDAR i naturlige gadescener, som kan bruges til at træne maskinindlæringsmodeller til 3D objektgenkendelse.Forbindelse
CVvideoStixel, af Daimler AG, TysklandAutomotiveStixelEt datasæt bestående af 12 stereosekvenser, der er kommenteret med sandhedsdata om fri plads (stixels) og køretøjsdata (hastighed, vinkel og tidsstempel) og kameraets geometriForbindelse
CVVideo, billedeBoxy-datasættet fra Bosch, USAAutomotiveAfgrænsningskasse / køretøjsregistreringEt datasættesæt til køretøjsdata, der indeholder 2 millioner kommenterede køretøjer til træning og analyse af genkendelsesstrategier for selvkørende biler på motorveje.Forbindelse
CVvideoTME Motorway, af Tjekkiske tekniske universitet, NorditalienAutomotiveAfgrænsningsboksEt datasæt med 28 klip i alt 27 minutter fordelt i 30,000+ bilmærkerammer. Annotering blev produceret halvautomatisk ved hjælp af dataene fra laserscanneren. Denne dataindsamling involverer variable trafikscenarier, antal baner, vejkrumning og belysning, der dækker meget af betingelserne for den fulde erhvervelse.Forbindelse
CVvideoUnsupervised Llamas, af Bosch, USAAutomotiveBaneopmærkning, LiDARDatasættet Unsupervised Llamas blev kommenteret ved at generere automatiske kørekort i høj opløsning, herunder Lidar-baserede banemarkører. Det autonome køretøj kan justeres mod disse kort, og banemarkeringerne projiceres i kamerarammen. 3D-projektion optimeres ved at minimere uoverensstemmelsen mellem allerede observerede og forudsagte billedmarkører.Forbindelse
NLPLydFacebook AI Flersproget LibriSpeech (MLS)GenereltLydkommentar / talegenkendelseFacebook AI Multilingual LibriSpeech (MLS) er et stort open source-datasæt designet til at hjælpe forskningen inden for automatisk talegenkendelse (ASR). MLS leverer mere end 50,000 timers lyd på 8 sprog: engelsk, tysk, hollandsk, fransk, spansk, italiensk, portugisisk og polsk. Forbindelse