Open Source -datasæt for at komme i gang med AI/ML -modeller
Resultatet af dine AI & ML-modeller er kun lige så godt som de data, du bruger til at træne det - så den nøjagtighed, som du anvender til dataaggregering, og mærkning og identifikation af disse data er vigtig!
Så hvis du vil starte et nyt AI / ML-initiativ, og nu er du hurtigt klar over, at det at finde træningsdata af høj kvalitet vil være et af de mere udfordrende aspekter af dit projekt, da datasæt af høj kvalitet er det brændstof, der holder AI / ML-motor kører. Vi har samlet en liste over åbne datasæt, der er gratis at bruge og træne dine fremtidige AI / ML-modeller.
| specialisering | Datatype | Datasætnavn | Industri / Afd. | Kommentar / brugssag | Link |
|---|---|---|---|---|---|
| +NLP | tekst | anmeldelser Amazon | E-handel | Følelsesanalyse | Link |
| Beskrivelse | Et sæt på 35 Mn anmeldelser og vurderinger fra de sidste 18 år i almindelig tekst med bruger- og produktdetaljer. | ||||
| +NLP | tekst | Wikipedia links data | Generelt | Link | |
| Beskrivelse | Mere end 4 millioner artikler indeholdende 1.9 milliarder ord fra Wikipedia. Hver artikel indeholder hyperlinks til den tilknyttede enhed. | ||||
| +NLP | tekst | Standford Sentiment Treebank | Underholdning | Følelsesanalyse | Link |
| Beskrivelse | Datasæt med sentimentannotationer for over 10,000 sætninger fra Rotten Tomatoes-filmanmeldelser. Tilgængelig på sætningsniveau - hver sætning parses i underfraser ved at binarisere parsetræerne i Penn Treebank-formatet. | ||||
| +NLP | tekst | Twitter US Airline Sentiment | Flyselskab | Følelsesanalyse | Link |
| Beskrivelse | Tweets om US Airlines i 2015 delte sig i positive, neutrale og negative følelser. | ||||
| +CV | Billede | Imagenet | Generelt | Link | |
| Beskrivelse | Datasæt med over 14 millioner billeder i forskellige filformater kortlagt til omkring 21,000 synsets. Synsets er synonymer med tilhørende enheder, der præsenteres som et billede. 1 millioner billeder har afgrænsningsbokse, og mere end 1 millioner billeder har SIFT-funktioner. | ||||
| +CV | Billede | Googles åbne billeder | Generelt | Link | |
| Beskrivelse | Et datasæt svarende til ImageNet med 600 kategorier. Tilgængelig i udviklings-, validerings- og træningsopdelinger. Nogle billeder indeholder også afgrænsningsbokse og visuelle relationer. | ||||
| +NLP | tekst | Cornell-filmdialoger | Underholdning | Dialoger | Link |
| Beskrivelse | En samling af fiktive samtaler med metadata om karakterer og film. Hver række er en dialog mellem to personer i et spørgsmål-svar-format. | ||||
| Beskrivelse | Et spørgsmål-svar-datasæt med spørgsmål og svar fra Yahoo Answers-portalen mellem april 2007 og oktober 2007. | ||||
| +NLP | tekst | MS MARCO | Generelt | Besvarelse af spørgsmål | Link |
| Beskrivelse | Et spørgsmål-svar-datasæt med annoteringer fra Bings websøgelogfiler. Hvert spørgsmål indeholder et svar fra en bruger, samt webpassager, der indeholder svaret. | ||||
| +NLP | tekst | Naturlige spørgsmålsdatasæt | Generelt | Besvarelse af spørgsmål | Link |
| Beskrivelse | Dette datasæt, der er udgivet af Google, indeholder rigtige brugerforespørgsler og svar fra Wikipedia-artikler. | ||||
| +NLP | tekst | DBPedia | Generelt | Viden Graph | Link |
| Beskrivelse | En struktureret gengivelse af Wikipedia, med enheder og relationer udtrukket som en vidensgraf. | ||||
| +NLP | tekst | YAGO | Generelt | Viden Graph | Link |
| Beskrivelse | En vidensgraf, der indeholder enheder og relationer fra Wikipedia, WordNet og GeoNames. | ||||
| +NLP | tekst | FreeBase | Generelt | Viden Graph | Link |
| Beskrivelse | En crowdsourcing-vidensbase bestående af enheder og relationer, nu integreret i Googles vidensgraf. | ||||
| +NLP | tekst | Ontonotes | Generelt | Semantisk rollemærkning | Link |
| Beskrivelse | Et korpus med syntaktiske, semantiske og diskursniveauannotationer brugt i de delte CoNLL-opgaver. | ||||
| Beskrivelse | Et engelsk datasæt annoteret for navngivne enheder såsom person, organisation og placering. | ||||
| +CV | Billede | COCO | Generelt | Objektdetektion | Link |
| Beskrivelse | Almindelige objekter i kontekst: et rigt annoteret datasæt til objektdetektion, segmentering og billedtekster. | ||||
| +CV | Billede | PASCAL VOC | Generelt | Objektdetektion | Link |
| Beskrivelse | Et benchmark-datasæt til udfordringer med objektdetektion og segmentering. | ||||
| +CV | Billede | Bybilleder | Autonom kørsel | Semantisk segmentering | Link |
| Beskrivelse | Datasæt til forståelse af byscener med annoteringer på pixelniveau for 30 klasser. | ||||
| +CV | Billede | MNIST | Generelt | Cifferklassificering | Link |
| Beskrivelse | Datasæt med håndskrevne cifre med 60,000 trænings- og 10,000 testbilleder på 28x28 pixels. | ||||
| +CV | Billede | Mode-MNIST | Retail | Billedklassificering | Link |
| Beskrivelse | Datasæt med Zalandos artikelbilleder i samme format som MNIST, brugt som en drop-in-erstatning for benchmarking. | ||||
| +NLP | Audio | LibriSpeech | Generelt | ASR | Link |
| Beskrivelse | Et korpus af læst engelsk tale afledt af lydbøger, med 1000 timers tale og tilhørende tekster. | ||||
| +NLP | Audio | TED-LIUM | Generelt | ASR | Link |
| Beskrivelse | Transskriberede TED-foredrag med lyd og justerede transskriptioner til forskning i talegenkendelse. | ||||
| +NLP | Audio | TIMIT | Generelt | Fonemgenkendelse | Link |
| Beskrivelse | Fonetisk transskriberet tale fra amerikansk-engelsktalende, i vid udstrækning brugt til fonemgenkendelsesopgaver. | ||||
| +NLP | Audio | Fælles stemme | Generelt | ASR | Link |
| Beskrivelse | Et flersproget korpus af læst tale bidraget af frivillige over hele verden. | ||||
| +NLP | Audio | VoxCeleb | Generelt | Højttalergenkendelse | Link |
| Beskrivelse | Et storstilet datasæt til identifikation af talere indsamlet fra YouTube-videoer. | ||||
| +NLP | tekst | Wikipedia-dump | Generelt | Sprogmodellering | Link |
| Beskrivelse | Fuldtekstdumps af Wikipedia-artikler, opdateres regelmæssigt, brugt til foruddannelse af sprogmodeller. | ||||
| +NLP | tekst | Gigaword | Nyheder | Sprogmodellering | Link |
| Beskrivelse | Et omfattende arkiv med nyhedstekstdata fra flere nyhedsbureauer. | ||||
| +NLP | tekst | IMDB Anmeldelser | Underholdning | Følelsesanalyse | Link |
| Beskrivelse | Stort datasæt for filmanmeldelser til klassificering af binær sentiment. | ||||
| +CV | Video | Kinetik-700 | Generelt | Handlingsgenkendelse | Link |
| Beskrivelse | Et stort datasæt af YouTube-videoklip i høj kvalitet, der dækker 700 menneskelige handlingsklasser. | ||||
| +CV | Video | UCF101 | Generelt | Handlingsgenkendelse | Link |
| Beskrivelse | Et datasæt af realistiske actionvideoer med 101 actionkategorier. | ||||
| +CV | Video | HMDB51 | Generelt | Handlingsgenkendelse | Link |
| Beskrivelse | En stor database med videoer om menneskelig bevægelse med 51 handlingskategorier. | ||||
| Beskrivelse | En database med ansigtsfotografier designet til at studere ubegrænset ansigtsgenkendelse. | ||||
| +CV | Billede | CASIA-WebFace | Generelt | Face Recognition | Link |
| Beskrivelse | Et datasæt med millioner af ansigtsbilleder til træning af modeller til dybdegående ansigtsgenkendelse. | ||||
| +NLP | tekst | SQUAD | Generelt | Læseforståelse | Link |
| Beskrivelse | Stanford Question Beswering Dataset: spørgsmål stillet af crowdworkers om et sæt Wikipedia-artikler. | ||||
| Beskrivelse | Et datasæt om maskinforståelse med spørgsmål og svar baseret på CNN-nyhedsartikler. | ||||
| +NLP | tekst | MultiNLI | Generelt | Naturlig sprogslutning | Link |
| Beskrivelse | Et datasæt til slutning af naturligt sprog for sætningspar på tværs af flere genrer. | ||||
| +NLP | tekst | SNLI | Generelt | Naturlig sprogslutning | Link |
| Beskrivelse | Stanford Natural Language Inference Corpus med sætningspar mærket som entailment, contraindiction eller neutral. | ||||
| Beskrivelse | En samling af over 100 millioner tokens udtrukket fra sættet af verificerede gode og fremhævede artikler på Wikipedia. | ||||
| Beskrivelse | Et datasæt med 16,185 billeder af 196 bilklasser. | ||||
| +CV | Billede | Oxford Blomster 102 | Botany | Finkornet klassificering | Link |
| Beskrivelse | 102 blomsterkategorier, der er almindeligt forekommende i Storbritannien. | ||||
| +CV | Billede | CIFAR-10 | Generelt | Billedklassificering | Link |
| Beskrivelse | Billeder af 10 klasser: fly, bil, fugl, kat, hjort, hund, frø, hest, skib og lastbil. | ||||
| +CV | Billede | CIFAR-100 | Generelt | Billedklassificering | Link |
| Beskrivelse | Et datasæt svarende til CIFAR-10, men med 100 finkornede klasser. | ||||
| +CV | Billede | VOC Personlayout | Generelt | Posevurdering | Link |
| Beskrivelse | En del af PASCAL VOC med fokus på annotationer til personlayout såsom hoved, hænder og fødder. | ||||
| +CV | Billede | MPII Menneskelig Pose | Generelt | Posevurdering | Link |
| Beskrivelse | Omkring 25,000 billeder indeholdende over 40,000 personer med kommenterede kropsled. | ||||
| Beskrivelse | Samling af Reuters-nyhedsartikler til forskning i tekstkategorisering. | ||||
| +NLP | tekst | 20 nyhedsgrupper | Generelt | Tekstklassificering | Link |
| Beskrivelse | En samling af 20,000 nyhedsgruppedokumenter opdelt i 20 forskellige nyhedsgrupper. | ||||