NLP-datasæt til ML

Top NLP-datasæt til at booste dine maskinlæringsmodeller

NLP-datasæt er rygraden i mange projekter inden for behandling af naturligt sprog og tilbyder fleksibilitet til en bred vifte af opgaver såsom tekstklassificering, sentimentanalyse og besvarelse af spørgsmål. Blog Authorship Corpus indeholder for eksempel over 681,000 blogindlæg fra næsten 20,000 bloggere, hvilket gør det til en rig ressource til at studere skrivestile, forfatteridentifikation og mere.

For dem, der er interesserede i akademisk forskning, giver arXiv-datasættet med forskningsartikler adgang til en omfattende samling af videnskabelige artikler på tværs af flere discipliner, der understøtter avancerede NLP-opgaver som citationsanalyse og dokumentklassificering. Federal Procurement Data Center-datasættet er en anden værdifuld ressource, der tilbyder detaljerede oplysninger om føderale kontrakter – ideelt til projekter, der involverer offentlige data og enhedsgenkendelse.

Disse NLP-datasæt bruges i vid udstrækning til at træne og evaluere maskinlæringsmodeller, hvilket hjælper forskere og udviklere med at forbedre deres systemers ydeevne på tværs af forskellige NLP-opgaver. Uanset om du arbejder med blogindlæg, forskningsartikler eller offentlige data, danner disse datasæt grundlaget for robuste og alsidige NLP-applikationer.

Hvad er NLP?

NLP (Natural Language Processing) hjælper computere med at forstå menneskeligt sprog. Det er som at lære computere at læse, forstå og reagere på tekst og tale, som mennesker gør.

Hvad kan NLP?

  • Gør rodet tekst om til organiseret data
  • Forstå, om kommentarer er positive eller negative
  • Oversæt mellem sprog
  • Lav sammendrag af lange tekster
  • Og meget mere!
  • Kom godt i gang med NLP:

For at bygge gode NLP-systemer har du brug for masser af eksempler for at træne dem – ligesom hvordan mennesker lærer bedre med mere øvelse. Den gode nyhed er, at der er mange gratis ressourcer, hvor du kan finde disse eksempler: Knusende ansigt, Kaggle og GitHub. Datasæt fra disse platforme er nemme at tilgå, hvilket fremskynder NLP-projektudviklingen.

NLP-markedsstørrelse og vækst:

Fra 2023 var markedet for Natural Language Processing (NLP) vurderet til omkring 26 milliarder dollars. Det forventes at vokse betydeligt med en sammensat årlig vækstrate (CAGR) på omkring 30 % fra 2023 til 2030. Denne vækst er drevet af stigende efterspørgsel efter NLP-applikationer i brancher som sundhedspleje, finans og kundeservice.

Sådan vælger du et godt NLP-datasæt, skal du overveje følgende faktorer:

  • Relevans: Sørg for, at datasættet stemmer overens med din specifikke opgave eller dit domæne.
  • Størrelse: Større datasæt forbedrer generelt modellens ydeevne, men balancerer størrelse med kvalitet.
  • Mangfoldighed: Se efter datasæt med forskellige sprogstile og kontekster for at forbedre modellens robusthed.
  • Kvalitet: Tjek for velmærkede og nøjagtige data for at undgå at introducere fejl.
  • Tilgængelighed: Sørg for, at datasættet er tilgængeligt til brug, og overvej eventuelle licensbegrænsninger.
  • forbehandling: Bestem, om datasættet kræver væsentlig rensning eller forbehandling.
  • Community Support: Populære datasæt har ofte flere ressourcer og fællesskabsstøtte, hvilket kan være nyttigt.

Ved at evaluere disse faktorer kan du vælge et datasæt, der bedst passer til dit projekts behov. Det er vigtigt at vælge de rigtige datasæt for at opnå optimale resultater i NLP-projekter, da de direkte påvirker modellens ydeevne og træningseffektivitet.

Top 33 must-see åbne datasæt til NLP

Generelt

  • UCI's Spambase (Link)

    Spambase, der er oprettet på Hewlett-Packard Labs, har en samling spam-e-mails fra brugerne med det formål at udvikle et personligt spamfilter. Den har mere end 4600 observationer fra e-mails, hvoraf tæt på 1820 er spam.

  • Enron datasæt (Link)

    Enrons datasæt indeholder en omfattende samling af anonymiserede 'rigtige' e-mails, der er tilgængelige for offentligheden til træning af maskinlæringsmodeller. Det kan prale af mere end en halv million e-mails fra over 150 brugere, primært Enrons øverste ledelse. Dette datasæt er tilgængeligt til brug i både strukturerede og ustrukturerede formater. For at forbedre de ustrukturerede data skal man anvende databehandlingsteknikker.

  • Recommender Systems datasæt (Link)

    Recommender System-datasættet er en enorm samling af forskellige datasæt, der indeholder forskellige funktioner såsom,

    • Produkt anmeldelser
    • Stjernebedømmelser
    • Fitness tracking
    • Sangdata
    • Sociale netværk
    • tidsstempler
    • Bruger/vare interaktioner
    • GPS-data
  • Penn Treebank (Link)

    Dette korpus fra Wall Street Journal er populært til at teste sekvensmærkningsmodeller.

  • NLTK (Link)

    Dette Python-bibliotek giver adgang til over 100 korpus- og leksikalske ressourcer til NLP. Det inkluderer også NLTK-bogen, et træningskursus i brugen af ​​biblioteket. NLTK inkluderer adgang til WordNet, en stor leksikalsk database over engelsk, hvor ord som substantiver, verber, adjektiver og adverbier er grupperet i synsæt baseret på fælles betydninger. NLTK tilbyder også en kommenteret liste over korpus- og leksikalske ressourcer til NLP-forskning.

  • Universelle afhængigheder (Link)

    UD giver en ensartet måde at annotere grammatik på, med ressourcer på over 100 sprog, 200 træbanker og støtte fra over 300 fællesskabsmedlemmer.

Sentimentanalysedatasæt

  • Ordbøger for film og finans (Link)

    Følelsesanalyse
    Ordbøger for film og finans-datasættet giver domænespecifikke ordbøger til positiv eller negativ polaritet i finansudfyldninger og filmanmeldelser. Disse ordbøger er hentet fra IMDb og US Form-8 fyldninger.

  • Følelse 140 (Link)

    Sentiment 140 har mere end 160,000 tweets med forskellige humørikoner kategoriseret i 6 forskellige felter: tweetdato, polaritet, tekst, brugernavn, ID og forespørgsel. Dette datasæt gør det muligt for dig at opdage følelsen af ​​et brand, et produkt eller endda et emne baseret på Twitter-aktivitet. Da dette datasæt oprettes automatisk, i modsætning til andre menneske-annoterede tweets, klassificerer det tweets med positive følelser og negative følelser som ugunstige.

  • Multi-Domain Sentiment-datasæt (Link)

    Dette multi-domæne sentiment-datasæt er et lager af Amazon-anmeldelser for forskellige produkter. Nogle produktkategorier, såsom bøger, har anmeldelser, der løber op i tusindvis, mens andre kun har nogle få hundrede anmeldelser. Desuden kan anmeldelser med stjernevurderinger konverteres til binære etiketter.

  • Standford Sentiment TreeBank (Link)

    Dette NLP-datasæt fra Rotten Tomatoes indeholder længere sætninger og mere detaljerede teksteksempler.

  • The Blog Authorship Corpus (Link)

    Denne samling har blogindlæg med næsten 1.4 millioner ord, hver blog er et separat datasæt.

  • OpinRank-datasæt (Link)

    300,000 anmeldelser fra Edmunds og TripAdvisor, organiseret efter bilmodel eller rejsedestination og hotel.

Tekstdatasæt

  • Wiki QA Corpus (Link)

    WiKi QA Corpus er et af de mest omfattende offentligt tilgængelige datasæt. Kompileret fra Bing-søgemaskineforespørgselslogfilerne kommer den med spørgsmål-og-svar-par. Den har mere end 3000 spørgsmål og 1500 mærkede svarsætninger.

  • Datasæt for juridiske sagsrapporter (Link)

    Datasættet med juridiske sagsrapporter har en samling på 4000 retssager og kan bruges til at træne til automatisk tekstresumé og citationsanalyse. Hvert dokument, catchphrases, citation classes, citation catchphrases og mere bruges.

  • Jeopardy (Link)

    Jeopardy-datasæt er en samling af mere end 200,000 spørgsmål i det populære quiz-tv-show samlet af en Reddit-bruger. Hvert datapunkt er klassificeret efter dets udsendelsesdato, episodenummer, værdi, runde og spørgsmål/svar.

  • 20 nyhedsgrupper (Link)

    En samling på 20,000 dokumenter omfatter 20 nyhedsgrupper og emner, der beskriver emner fra religion til populær sport.

  • Reuters nyhedsdatasæt (Link)

    Dette datasæt, der først dukkede op i 1987, er blevet mærket, indekseret og kompileret til maskinlæringsformål.

  • arXiv (Link)

    Dette omfattende datasæt på 270 GB inkluderer den komplette tekst af alle arXiv-forskningsartikler.

  • Europa-Parlamentets forhandlinger Parallel Corpus (Link)

    Sætningspar fra parlamentets sager inkluderer indlæg fra 21 europæiske sprog, med nogle mindre almindelige sprog til maskinlæringskorpus.

  • Benchmark for milliarder af ord (Link)

    Dette sprogmodelleringsdatasæt stammer fra WMT 2011 News Crawl og omfatter næsten en milliard ord til afprøvning af innovative sprogmodelleringsteknikker.

Lyd-tale datasæt

  • Talte Wikipedia Corpora (Link)

    Lyd tale Dette datasæt er perfekt til alle, der ønsker at gå ud over det engelske sprog. Dette datasæt har en samling af artikler talt på hollandsk og tysk og engelsk. Den har en bred vifte af emner og højttalersæt, der løber i hundredvis af timer.

  • 2000 HUB5 engelsk (Link)

    2000 HUB5 engelske datasæt har 40 telefonsamtaleudskrifter på engelsk. Dataene er leveret af National Institute of Standards and Technology, og dets hovedfokus er på at genkende samtaletale og konvertere tale til tekst.

  • LibriSpeech (Link)

    LibriSpeech-datasættet er en samling af næsten 1000 timers engelsk tale taget og korrekt segmenteret efter emner i kapitler fra lydbøger, hvilket gør det til et perfekt værktøj til naturlig sprogbehandling.

  • Gratis talte cifre datasæt (Link)

    Dette NLP-datasæt indeholder mere end 1,500 optagelser af talte cifre på engelsk.

  • M-AI Labs taledatasæt (Link)

    Datasættet tilbyder næsten 1,000 timers lyd med transskriptioner, der omfatter flere sprog og kategoriseret efter mandlige, kvindelige og blandede stemmer.

  • Støjende taledatabase (link)

    Dette datasæt indeholder parallelle støjende og rene taleoptagelser, beregnet til udvikling af taleforbedrende software, men også gavnligt til træning i tale under udfordrende forhold.

Anmeldelser af datasæt

  • Yelp-anmeldelser (Link)

    Yelp-datasættet har en stor samling af omkring 8.5 millioner anmeldelser af mere end 160,000 virksomheder, deres anmeldelser og brugerdata. Anmeldelserne kan bruges til at træne dine modeller i sentimentanalyse. Derudover har dette datasæt også mere end 200,000 billeder, der dækker otte storbyområder.

  • IMDB Anmeldelser (Link)

    IMDB-anmeldelser er blandt de mest populære datasæt, der indeholder rollebesætningsinformation, vurderinger, beskrivelse og genre for mere end 50 tusinde film. Dette datasæt kan bruges til at teste og træne dine maskinlæringsmodeller.

  • Amazon anmeldelser og bedømmelsesdatasæt (Link)

    Amazon anmeldelse og vurderingsdatasæt indeholder en værdifuld samling af metadata og anmeldelser af forskellige produkter fra Amazon indsamlet fra 1996 til 2014 – omkring 142.8 millioner poster. Metadataene omfatter pris, produktbeskrivelse, mærke, kategori med mere, mens anmeldelserne har tekstkvalitet, tekstens anvendelighed, vurderinger med mere.

Spørgsmål og svar-datasæt

  • Stanford Question and Answer Dataset (SQuAD) (Link)

    Dette læseforståelsesdatasæt har 100,000 spørgsmål, der kan besvares, og 50,000 ubesvarelige spørgsmål, alle skabt af Wikipedia-publikumsarbejdere.

  • Naturlige spørgsmål (Link)

    Dette træningssæt har over 300,000 træningseksempler, 7,800 udviklingseksempler og 7,800 testeksempler, hver med en Google-forespørgsel og en matchende Wikipedia-side.

  • TriviaQA (Link)

    Dette udfordrende spørgsmålssæt har 950,000 QA-par, inklusive både menneskeverificerede og maskingenererede undersæt.

  • CLEVR (Compositional Language and Elementary Visual Reasoning) (Link)

    Dette visuelle datasæt til besvarelse af spørgsmål indeholder 3D-gengivne objekter og tusindvis af spørgsmål med detaljer om den visuelle scene.

Så hvilket datasæt har du valgt at træne din maskinlæringsmodel på?

Mens vi går, vil vi efterlade dig med en pro-tip.

Sørg for at gennemgå README-filen grundigt, før du vælger et NLP-datasæt til dine behov. Datasættet vil indeholde alle de nødvendige oplysninger, du måtte have brug for, såsom datasættets indhold, de forskellige parametre, som dataene er blevet kategoriseret på, og de sandsynlige anvendelsestilfælde af datasættet.

Uanset hvilke modeller du bygger, er der en spændende udsigt til at integrere vores maskiner tættere og mere iboende med vores liv. Med NLP øges mulighederne for forretning, film, talegenkendelse, økonomi og mere mangfoldigt.

Social Share