NLP-datasæt til ML

15 bedste NLP-datasæt til at træne dine naturlige sprogbehandlingsmodeller

Naturlig sprogbehandling er en vigtig del af maskinlæringsrustningen. Det kræver dog enorme mængder data og træning for at modellen kan fungere godt. Et af de væsentlige problemer med NLP er manglen på træningsdatasæt, der kan dække store interessefelter inden for domænet.

Hvis du starter på dette enorme felt, vil du måske finde det udfordrende og praktisk talt overflødigt at oprette dine datasæt. Især når der er kvalitet NLP tilgængelige datasæt til at træne dine maskinlæringsmodeller baseret på deres formål.

NLP-markedet forventes at vokse med en CAGR på 11.7% i løbet af 2018 og 2026 for at nå 28.6 milliarder dollars inden 2026. Takket være den voksende efterspørgsel efter NLP og maskinlæring er det nu muligt at få fingrene i kvalitetsdatasæt, der henvender sig til sentimentanalyse, anmeldelser, spørgsmål og svar-analyse og taleanalysedatasæt.

NLP-datasættene til maskinlæring, du kan stole på

Da utallige datasæt – med fokus på forskellige behov – udgives næsten hver dag, kan det være udfordrende at få adgang til kvalitets, pålidelige og bedste datasæt. Her har vi gjort arbejdet lettere for dig, da vi har præsenteret dig for kuraterede datasæt adskilt baseret på de kategorier, de betjener.

Generelt

Spambase, der er oprettet på Hewlett-Packard Labs, har en samling spam-e-mails fra brugerne med det formål at udvikle et personligt spamfilter. Den har mere end 4600 observationer fra e-mails, hvoraf tæt på 1820 er spam.

Enron-datasættet har en stor samling af anonymiserede 'rigtige' e-mails, der er tilgængelige for offentligheden for at træne deres maskinlæringsmodeller. Det kan prale af mere end en halv million e-mails fra over 150 brugere, overvejende Enrons øverste ledelse. Dette datasæt er tilgængeligt til brug i både strukturerede og ustrukturerede formater. For at pifte de ustrukturerede data op, skal du anvende databehandlingsteknikker.

  • Recommender Systems datasæt (Link)

Recommender System-datasættet er en enorm samling af forskellige datasæt, der indeholder forskellige funktioner såsom,

  • Produkt anmeldelser
  • Stjernebedømmelser
  • Fitness tracking
  • Sangdata
  • Sociale netværk
  • tidsstempler
  • Bruger/vare interaktioner
  • GPS-data

Følelsesanalyse

  • Ordbøger for film og finans (Link)

Følelsesanalyse
Ordbøger for film og finans-datasættet giver domænespecifikke ordbøger til positiv eller negativ polaritet i finansudfyldninger og filmanmeldelser. Disse ordbøger er hentet fra IMDb og US Form-8 fyldninger.

Sentiment 140 har mere end 160,000 tweets med forskellige humørikoner kategoriseret i 6 forskellige felter: tweetdato, polaritet, tekst, brugernavn, ID og forespørgsel. Dette datasæt gør det muligt for dig at opdage følelsen af ​​et brand, et produkt eller endda et emne baseret på Twitter-aktivitet. Da dette datasæt oprettes automatisk, i modsætning til andre menneske-annoterede tweets, klassificerer det tweets med positive følelser og negative følelser som ugunstige.

  • Multi-Domain Sentiment-datasæt (Link)

Dette multi-domæne sentiment-datasæt er et lager af Amazon-anmeldelser for forskellige produkter. Nogle produktkategorier, såsom bøger, har anmeldelser, der løber op i tusindvis, mens andre kun har nogle få hundrede anmeldelser. Desuden kan anmeldelser med stjernevurderinger konverteres til binære etiketter.

Lad os diskutere dit krav til AI -træningsdata i dag.

tekst

WiKi QA Corpus er et af de mest omfattende offentligt tilgængelige datasæt. Kompileret fra Bing-søgemaskineforespørgselslogfilerne kommer den med spørgsmål-og-svar-par. Den har mere end 3000 spørgsmål og 1500 mærkede svarsætninger.

  • Datasæt for juridiske sagsrapporter (Link)

Datasættet med juridiske sagsrapporter har en samling på 4000 retssager og kan bruges til at træne til automatisk tekstresumé og citationsanalyse. Hvert dokument, catchphrases, citation classes, citation catchphrases og mere bruges.

Jeopardy-datasæt er en samling af mere end 200,000 spørgsmål i det populære quiz-tv-show samlet af en Reddit-bruger. Hvert datapunkt er klassificeret efter dets udsendelsesdato, episodenummer, værdi, runde og spørgsmål/svar.

Lyd tale

  • Talte Wikipedia Corpora (Link)

Lyd tale Dette datasæt er perfekt til alle, der ønsker at gå ud over det engelske sprog. Dette datasæt har en samling af artikler talt på hollandsk og tysk og engelsk. Den har en bred vifte af emner og højttalersæt, der løber i hundredvis af timer.

2000 HUB5 engelske datasæt har 40 telefonsamtaleudskrifter på engelsk. Dataene er leveret af National Institute of Standards and Technology, og dets hovedfokus er på at genkende samtaletale og konvertere tale til tekst.

LibriSpeech-datasættet er en samling af næsten 1000 timers engelsk tale taget og korrekt segmenteret efter emner i kapitler fra lydbøger, hvilket gør det til et perfekt værktøj til naturlig sprogbehandling.

Anmeldelser

Yelp-datasættet har en stor samling af omkring 8.5 millioner anmeldelser af mere end 160,000 virksomheder, deres anmeldelser og brugerdata. Anmeldelserne kan bruges til at træne dine modeller i sentimentanalyse. Derudover har dette datasæt også mere end 200,000 billeder, der dækker otte storbyområder.

IMDB-anmeldelser er blandt de mest populære datasæt, der indeholder rollebesætningsinformation, vurderinger, beskrivelse og genre for mere end 50 tusinde film. Dette datasæt kan bruges til at teste og træne dine maskinlæringsmodeller.

  • Amazon anmeldelser og bedømmelsesdatasæt (Link)

Amazon anmeldelse og vurderingsdatasæt indeholder en værdifuld samling af metadata og anmeldelser af forskellige produkter fra Amazon indsamlet fra 1996 til 2014 – omkring 142.8 millioner poster. Metadataene omfatter pris, produktbeskrivelse, mærke, kategori med mere, mens anmeldelserne har tekstkvalitet, tekstens anvendelighed, vurderinger med mere.

Så hvilket datasæt har du valgt at træne din maskinlæringsmodel på?

Mens vi går, vil vi efterlade dig med en pro-tip. 

Sørg for at gennemgå README-filen grundigt, før du vælger et NLP-datasæt til dine behov. Datasættet vil indeholde alle de nødvendige oplysninger, du måtte have brug for, såsom datasættets indhold, de forskellige parametre, som dataene er blevet kategoriseret på, og de sandsynlige anvendelsestilfælde af datasættet.

Uanset hvilke modeller du bygger, er der en spændende udsigt til at integrere vores maskiner tættere og mere iboende med vores liv. Med NLP øges mulighederne for forretning, film, talegenkendelse, økonomi og mere mangfoldigt. Hvis du leder efter flere sådanne datasæt Klik her.

Social Share

Du vil måske også kunne lide