Naturlig sprogbehandling er en vigtig del af maskinlæringsrustningen. Det kræver dog enorme mængder data og træning for at modellen kan fungere godt. Et af de væsentlige problemer med NLP er manglen på træningsdatasæt, der kan dække store interessefelter inden for domænet.
Hvis du starter på dette enorme felt, vil du måske finde det udfordrende og praktisk talt overflødigt at oprette dine datasæt. Især når der er tilgængelige NLP-datasæt af høj kvalitet til at træne dine maskinlæringsmodeller baseret på deres formål.
NLP-markedet forventes at vokse med en CAGR på 11.7% i løbet af 2018 og 2026 for at nå 28.6 milliarder dollars inden 2026. Takket være den voksende efterspørgsel efter NLP og maskinlæring er det nu muligt at få fingrene i kvalitetsdatasæt, der henvender sig til sentimentanalyse, anmeldelser, spørgsmål og svar-analyse og taleanalysedatasæt.
NLP-datasættene til maskinlæring, du kan stole på
Da utallige datasæt – med fokus på forskellige behov – udgives næsten hver dag, kan det være udfordrende at få adgang til kvalitets, pålidelige og bedste datasæt. Her har vi gjort arbejdet lettere for dig, da vi har præsenteret dig for kuraterede datasæt adskilt baseret på de kategorier, de betjener.
Generelt
UCI's Spambase (Link)
Spambase, der er oprettet på Hewlett-Packard Labs, har en samling spam-e-mails fra brugerne med det formål at udvikle et personligt spamfilter. Den har mere end 4600 observationer fra e-mails, hvoraf tæt på 1820 er spam.
Enron datasæt (Link)
Enron-datasættet har en stor samling af anonymiserede 'rigtige' e-mails, der er tilgængelige for offentligheden for at træne deres maskinlæringsmodeller. Det kan prale af mere end en halv million e-mails fra over 150 brugere, overvejende Enrons øverste ledelse. Dette datasæt er tilgængeligt til brug i både strukturerede og ustrukturerede formater. For at pifte de ustrukturerede data op, skal du anvende databehandlingsteknikker.
Recommender Systems datasæt (Link)
Recommender System-datasættet er en enorm samling af forskellige datasæt, der indeholder forskellige funktioner såsom,
- Produkt anmeldelser
- Stjernebedømmelser
- Fitness tracking
- Sangdata
- Sociale netværk
- tidsstempler
- Bruger/vare interaktioner
- GPS-data
Penn Treebank (Link)
Dette korpus fra Wall Street Journal er populært til at teste sekvensmærkningsmodeller.
NLTK (Link)
Dette Python-bibliotek giver adgang til over 100 korpus og leksikalske ressourcer til NLP. Det inkluderer også NLTK-bogen, et kursus i brug af biblioteket.
Universelle afhængigheder (Link)
UD giver en ensartet måde at annotere grammatik på, med ressourcer på over 100 sprog, 200 træbanker og støtte fra over 300 fællesskabsmedlemmer.
Følelsesanalyse
Ordbøger for film og finans (Link)
Ordbøger for film og finans-datasættet giver domænespecifikke ordbøger til positiv eller negativ polaritet i finansudfyldninger og filmanmeldelser. Disse ordbøger er hentet fra IMDb og US Form-8 fyldninger.Følelse 140 (Link)
Sentiment 140 har mere end 160,000 tweets med forskellige humørikoner kategoriseret i 6 forskellige felter: tweetdato, polaritet, tekst, brugernavn, ID og forespørgsel. Dette datasæt gør det muligt for dig at opdage følelsen af et brand, et produkt eller endda et emne baseret på Twitter-aktivitet. Da dette datasæt oprettes automatisk, i modsætning til andre menneske-annoterede tweets, klassificerer det tweets med positive følelser og negative følelser som ugunstige.
Multi-Domain Sentiment-datasæt (Link)
Dette multi-domæne sentiment-datasæt er et lager af Amazon-anmeldelser for forskellige produkter. Nogle produktkategorier, såsom bøger, har anmeldelser, der løber op i tusindvis, mens andre kun har nogle få hundrede anmeldelser. Desuden kan anmeldelser med stjernevurderinger konverteres til binære etiketter.
Standford Sentiment TreeBank (Link)
Dette NLP-datasæt fra Rotten Tomatoes indeholder længere sætninger og mere detaljerede teksteksempler.
The Blog Authorship Corpus (Link)
Denne samling har blogindlæg med næsten 1.4 millioner ord, hver blog er et separat datasæt.
OpinRank-datasæt (Link)
300,000 anmeldelser fra Edmunds og TripAdvisor, organiseret efter bilmodel eller rejsedestination og hotel.
tekst
-
Wiki QA Corpus (Link)
WiKi QA Corpus er et af de mest omfattende offentligt tilgængelige datasæt. Kompileret fra Bing-søgemaskineforespørgselslogfilerne kommer den med spørgsmål-og-svar-par. Den har mere end 3000 spørgsmål og 1500 mærkede svarsætninger.
-
Datasæt for juridiske sagsrapporter (Link)
Datasættet med juridiske sagsrapporter har en samling på 4000 retssager og kan bruges til at træne til automatisk tekstresumé og citationsanalyse. Hvert dokument, catchphrases, citation classes, citation catchphrases og mere bruges.
-
Jeopardy (Link)
Jeopardy-datasæt er en samling af mere end 200,000 spørgsmål i det populære quiz-tv-show samlet af en Reddit-bruger. Hvert datapunkt er klassificeret efter dets udsendelsesdato, episodenummer, værdi, runde og spørgsmål/svar.
-
20 nyhedsgrupper (Link)
En samling på 20,000 dokumenter omfatter 20 nyhedsgrupper og emner, der beskriver emner fra religion til populær sport.
-
Reuters nyhedsdatasæt (Link)
Dette datasæt, der først dukkede op i 1987, er blevet mærket, indekseret og kompileret til maskinlæringsformål.
-
arXiv (Link)
Dette omfattende datasæt på 270 GB inkluderer den komplette tekst af alle arXiv-forskningsartikler.
-
Europa-Parlamentets forhandlinger Parallel Corpus (Link)
Sætningspar fra parlamentets sager inkluderer indlæg fra 21 europæiske sprog, med nogle mindre almindelige sprog til maskinlæringskorpus.
-
Benchmark for milliarder af ord (Link)
Dette sprogmodelleringsdatasæt stammer fra WMT 2011 News Crawl og omfatter næsten en milliard ord til afprøvning af innovative sprogmodelleringsteknikker.
Lyd tale
-
Talte Wikipedia Corpora (Link)
Dette datasæt er perfekt til alle, der ønsker at gå ud over det engelske sprog. Dette datasæt har en samling af artikler talt på hollandsk og tysk og engelsk. Den har en bred vifte af emner og højttalersæt, der løber i hundredvis af timer.
-
2000 HUB5 engelsk (Link)
2000 HUB5 engelske datasæt har 40 telefonsamtaleudskrifter på engelsk. Dataene er leveret af National Institute of Standards and Technology, og dets hovedfokus er på at genkende samtaletale og konvertere tale til tekst.
-
LibriSpeech (Link)
LibriSpeech-datasættet er en samling af næsten 1000 timers engelsk tale taget og korrekt segmenteret efter emner i kapitler fra lydbøger, hvilket gør det til et perfekt værktøj til naturlig sprogbehandling.
-
Gratis talte cifre datasæt (Link)
Dette NLP-datasæt indeholder mere end 1,500 optagelser af talte cifre på engelsk.
-
M-AI Labs taledatasæt (Link)
Datasættet tilbyder næsten 1,000 timers lyd med transskriptioner, der omfatter flere sprog og kategoriseret efter mandlige, kvindelige og blandede stemmer.
-
Støjende taledatabase (link)
Dette datasæt indeholder parallelle støjende og rene taleoptagelser, beregnet til udvikling af taleforbedrende software, men også gavnligt til træning i tale under udfordrende forhold.
Anmeldelser
-
Yelp-anmeldelser (Link)
Yelp-datasættet har en stor samling af omkring 8.5 millioner anmeldelser af mere end 160,000 virksomheder, deres anmeldelser og brugerdata. Anmeldelserne kan bruges til at træne dine modeller i sentimentanalyse. Derudover har dette datasæt også mere end 200,000 billeder, der dækker otte storbyområder.
-
IMDB Anmeldelser (Link)
IMDB-anmeldelser er blandt de mest populære datasæt, der indeholder rollebesætningsinformation, vurderinger, beskrivelse og genre for mere end 50 tusinde film. Dette datasæt kan bruges til at teste og træne dine maskinlæringsmodeller.
-
Amazon anmeldelser og bedømmelsesdatasæt (Link)
Amazon anmeldelse og vurderingsdatasæt indeholder en værdifuld samling af metadata og anmeldelser af forskellige produkter fra Amazon indsamlet fra 1996 til 2014 – omkring 142.8 millioner poster. Metadataene omfatter pris, produktbeskrivelse, mærke, kategori med mere, mens anmeldelserne har tekstkvalitet, tekstens anvendelighed, vurderinger med mere.
Spørgsmål og svar
-
Stanford Question and Answer Dataset (SQuAD) (Link)
Dette læseforståelsesdatasæt har 100,000 spørgsmål, der kan besvares, og 50,000 ubesvarelige spørgsmål, alle skabt af Wikipedia-publikumsarbejdere.
-
Naturlige spørgsmål (Link)
Dette træningssæt har over 300,000 træningseksempler, 7,800 udviklingseksempler og 7,800 testeksempler, hver med en Google-forespørgsel og en matchende Wikipedia-side.
-
TriviaQA (Link)
Dette udfordrende spørgsmålssæt har 950,000 QA-par, inklusive både menneskeverificerede og maskingenererede undersæt.
-
CLEVR (Compositional Language and Elementary Visual Reasoning) (Link)
Dette visuelle datasæt til besvarelse af spørgsmål indeholder 3D-gengivne objekter og tusindvis af spørgsmål med detaljer om den visuelle scene.
Så hvilket datasæt har du valgt at træne din maskinlæringsmodel på?
Mens vi går, vil vi efterlade dig med en pro-tip.
Sørg for at gennemgå README-filen grundigt, før du vælger et NLP-datasæt til dine behov. Datasættet vil indeholde alle de nødvendige oplysninger, du måtte have brug for, såsom datasættets indhold, de forskellige parametre, som dataene er blevet kategoriseret på, og de sandsynlige anvendelsestilfælde af datasættet.
Uanset hvilke modeller du bygger, er der en spændende udsigt til at integrere vores maskiner tættere og mere iboende med vores liv. Med NLP øges mulighederne for forretning, film, talegenkendelse, økonomi og mere mangfoldigt.