Håndskriftsdatasæt

De 15 bedste open source-håndskriftsdatasæt til at træne dine ML-modeller

Forretningsverdenen transformerer sig i et fænomenalt tempo, men alligevel er denne digitale transformation ikke nær så omfattende, som vi gerne ville have den. Folk håndterer stadig fysiske dokumenter i deres daglige drift, fra store virksomheder til små virksomheder. Selvom brugshyppigheden er reduceret betydeligt, er den ikke helt afskaffet. I stedet for den tidskrævende proces med at scanne dokumenter til digital brug ved at bruge det nyeste OCR er tidseffektivt og effektivt.

Stigningen i brugen af ​​optisk tegngenkendelse kan primært tilskrives stigningen i produktionen af ​​automatiske genkendelsessystemer. Som et resultat er den globale markedsværdi af OCR-teknologi, knyttet til $ 8.93 milliarder i 2021, forventes at vokse med en CAGR på 15.4% mellem 2022 og 2030.

Men hvad er OCR-teknologi egentlig? Og hvorfor er det en game changer for virksomheder, der udvikler effektive AI-modeller? Lad os finde ud af det.

Hvad er OCR?

Alternativt benævnt tekstgenkendelse, OCR eller optisk tegngenkendelse er et program, der udtrækker trykte eller skrevne data fra scannede dokumenter, kun billede-pdf'er og håndskrevne noter til et maskinlæsbart format. Softwaren tager hvert bogstav fra billedet og kombinerer dem til ord og sætninger, hvilket gør det nemt at få adgang til og redigere dokumenterne digitalt.

Hvad er open source-datasæt?

Der er flere steder, hvor OCR-teknologien har et stort potentiale for at blive udnyttet. Nogle steder omfatter lufthavnen, e-bogsudgivelse, annoncer, banker og forsyningskædesystemer. Men for at applikationerne skal tjene deres formål, skal de trænes i projektspecifikke Optisk tegngenkendelse datasæt.

Effektiviteten af ​​applikationen afhænger i høj grad af datasættets kvalitet og den involverede træningsmetodologi. Dog at finde kvalitet digital og håndskriftsdatasæt er vanskelig for applikationen. Så mange virksomheder bruger open source eller gratis-til-brug datasæt i stedet for proprietære.

Fordele og udfordringer ved Open-Source-datasæt

Virksomheder er nødt til at sætte fordelene og udfordringerne op mod hinanden for at forstå, om de skal vælge gratis data til deres ML-applikationer.

Fordele

  • Dataene er let tilgængelige. På grund af datatilgængelighed reduceres omkostningerne ved at udvikle applikationen betydeligt.
  • Den tid og indsats, der bruges på at indsamle data til applikationen, reduceres betydeligt, da datasættet er let tilgængeligt.
  • Der er en overflod af fællesskabsfora eller hjælpegrupper, der hjælper med at lære, tilpasse og optimere datasættet.
  • En af de største fordele ved open source-datasættet er, at det ikke lægger nogen begrænsninger på tilpasning.
  •   Open Source-data er tilgængelige for en stor del af befolkningen, hvilket gør analyse og innovation mulig uden monetære barrierer.

Udfordringer

  • De data, der er specifikke for projektet, er svære at tilegne sig. Derudover er der mulighed for manglende information og forkert brug af de tilgængelige data.
  • At erhverve proprietære data tager tid og kræfter og er dyrt
  • Selvom det kan være lettere at erhverve data, kan viden og analyseomkostninger opveje den indledende fordel.
  • Andre udviklere gør også brug af de samme data til at udvikle applikationer.
  • Disse datasæt er meget sårbare over for sikkerhedsbrud, privatliv og samtykke.

15 bedste håndskrifts- og OCR-datasæt til maskinlæring

Open Source Ocr-datasæt

Mange open source-datasæt er tilgængelige til udvikling af tekstgenkendelsesapplikationer. Nogle af de bedste 15 er

  1. ICDAR-datasættet

    International Conference for Document Analysis and Recognition har et lager af 229 trænings- og 233 testbilleder sammen med annoteringer. Det fungerer som et benchmark for tekstgenkendelsesevaluering.

  2. IIIT 5K-Word-datasæt

    Taget fra Google billedsøgning er IIIT 5K-word en samling af ord fra skilte, billboards, nummerplader og plakater. Det indeholder 5K beskårne ordbilleder, hvilket gør det til en af ​​de mest omfattende samlinger af tekstgenkendelsesdatasæt, der er tilgængelige.

  3. NIST-database

    NIST eller National Institute of Science tilbyder en gratis samling af over 3600 håndskriftsprøver med mere end 810,000 tegnbilleder

  4. MNIST-database

    MNIST-databasen er afledt af NSIT's Special Database 1 og 3 og er en samlet samling af 60,000 håndskrevne numre til træningssættet og 10,000 eksempler til testsættet. Denne open source-database hjælper med at træne modeller til at genkende mønstre, mens de bruger mindre tid på forbehandling.

  5. Tekstgenkendelse

    En open source-database, tekstgenkendelsesdatasættet indeholder omkring 500 indendørs og udendørs billeder af skilte, dørplader, advarselsplader og mere.

  6. Stanford OCR

    Udgivet af Stanford, dette gratis-til-brug datasæt er en håndskrevet ordsamling af MIT Spoken Language Systems Group.

  7. DDI-100

    Ellers kaldet datasættet for forvrængede dokumentbilleder, DDI-100 er en samling af over 6658 sider med dokumenter med flere geometriske mønstre og forvrængninger anvendt. Derudover har DDI-100 mere end 99870 billeder, stempelmasker, tekstmasker og afgrænsningsfelter.

  8. Vejtekst-1K

    Et af de største datasæt, der hjælper med at træne modeller til at detektere tekst i videoer, RoadText-1K indeholder 1000 videoklip komplet med afgrænsningsfelttekstannotering og transskription af teksten i hver videoramme.

  9. MSRA-TD500

    Indeholder 300 trænings- og 200 tekstbilleder; MSRA-TD500 indeholder tegn fra kinesiske og engelske sprog og er kommenteret på sætningsniveau.

  10. MJSynth datasæt

    Leveret af University of Oxford har dette orddatasæt næsten 9 millioner syntetisk genererede billeder, der dækker mere end 90 tusind engelsksprogede ord.

  11. Street View-tekst

    Samlet fra Google Street View-billeder har dette datasæt tekstgenkendelsesbilleder hovedsageligt af tavler og skilte på gadeniveau.

  12. Dokumentdatabase

    Dokumentdatabasen er en samling af 941 håndskrevne dokumenter, inklusive tabeller, formler, tegninger, diagrammer, lister og mere fra 189 forfattere.

  13. Matematiske udtryk

    Matematiske udtryk er en database, der indeholder 101 matematiske symboler og 10,000 udtryk.

  14. Street View-husnumre

    Denne Street View House Numbers er høstet fra Google Street View og er en database, der indeholder 73257 gadehusnummercifre.

  15. Naturligt miljø OCR

    The Natural Environment OCR, er et datasæt med næsten 660 billeder på verdensplan og 5238 tekstanmærkninger.

Disse var nogle af de bedste open source-datasæt til træning af ML-modeller til tekstgenkendelsesapplikationer. Det kan tage tid og kræfter at vælge den, der passer til din virksomheds og applikationsbehov. Du skal dog eksperimentere med disse datasæt, før du beslutter dig for det passende.

For at hjælpe dig med at komme videre mod en pålidelig og effektiv tekstgenkendelsesapplikation er Shaip – ​​den højtplacerede udbyder af teknologiløsninger. Vi udnytter vores tekniske erfaring til at skabe tilpassede, optimerede og effektive OCR-træningsdatasæt til forskellige kundeprojekter. For fuldt ud at forstå vores muligheder, kontakt os i dag.

Social Share