Håndskriftsdatasæt

22 bedste open source OCR- og håndskriftsdatasæt til at træne dine ML-modeller

Stigningen i brugen af ​​optisk tegngenkendelse kan primært tilskrives stigningen i produktionen af ​​automatiske genkendelsessystemer. Som et resultat er den globale markedsværdi af OCR-teknologi, knyttet til $ 8.93 milliarder i 2021, forventes at vokse med en CAGR på 15.4% mellem 2022 og 2030.

Men hvad er OCR-teknologi egentlig? Og hvorfor er det en game changer for virksomheder, der udvikler effektive AI-modeller? Lad os finde ud af det.

Hvad er OCR (Optical Character Recognition)?

OCR er teknologi, der konverterer forskellige typer dokumenter, såsom scannede papirdokumenter, PDF'er eller billeder af tekst, til redigerbare og søgbare data. Det virker ved:

  • Analyse af tekstens struktur i et billede
  • Opdeling af teksten i linjer og tegn
  • Konvertering af disse visuelle tegn til maskinlæsbar tekst

Almindelige anvendelser omfatter:

  • Konvertering af scannede dokumenter til redigerbare tekstfiler
  • Digitalisering af trykte bøger
  • Udtræk tekst fra fotos
  • Konvertering af håndskrevne recepter til digital tekst
  • Nummerpladegenkendelse

Ocr træningsdata

Fordele og udfordringer ved Open-Source-datasæt

Virksomheder er nødt til at sætte fordelene og udfordringerne op mod hinanden for at forstå, om de skal vælge gratis data til deres ML-applikationer.

Fordele

  • Dataene er let tilgængelige. På grund af datatilgængelighed reduceres omkostningerne ved at udvikle applikationen betydeligt.
  • Den tid og indsats, der bruges på at indsamle data til applikationen, reduceres betydeligt, da datasættet er let tilgængeligt.
  • Der er en overflod af fællesskabsfora eller hjælpegrupper, der hjælper med at lære, tilpasse og optimere datasættet.
  • En af de største fordele ved open source-datasættet er, at det ikke lægger nogen begrænsninger på tilpasning.
  •   Open Source-data er tilgængelige for en stor del af befolkningen, hvilket gør analyse og innovation mulig uden monetære barrierer.

Udfordringer

  • De data, der er specifikke for projektet, er svære at tilegne sig. Derudover er der mulighed for manglende information og forkert brug af de tilgængelige data.
  • At erhverve proprietære data tager tid og kræfter og er dyrt
  • Selvom det kan være lettere at erhverve data, kan viden og analyseomkostninger opveje den indledende fordel.
  • Andre udviklere gør også brug af de samme data til at udvikle applikationer.
  • Disse datasæt er meget sårbare over for sikkerhedsbrud, privatliv og samtykke.

22 bedste håndskrifts- og OCR-datasæt til maskinlæring

Open source ocr-datasæt

Mange open source-datasæt er tilgængelige til udvikling af tekstgenkendelsesapplikationer. Nogle af de bedste 22 er

  1. NIST-database

    NIST eller National Institute of Science tilbyder en gratis samling af over 3600 håndskriftsprøver med mere end 810,000 tegnbilleder

  2. MNIST-database

    MNIST-databasen er afledt af NSIT's Special Database 1 og 3 og er en samlet samling af 60,000 håndskrevne numre til træningssættet og 10,000 eksempler til testsættet. Denne open source-database hjælper med at træne modeller til at genkende mønstre, mens de bruger mindre tid på forbehandling.

  3. Tekstgenkendelse

    En open source-database, tekstgenkendelsesdatasættet indeholder omkring 500 indendørs og udendørs billeder af skilte, dørplader, advarselsplader og mere.

  4. Stanford OCR

    Udgivet af Stanford, dette gratis-til-brug datasæt er en håndskrevet ordsamling af MIT Spoken Language Systems Group.

  5. Street View-tekst

    Samlet fra Google Street View-billeder har dette datasæt tekstgenkendelsesbilleder hovedsageligt af tavler og skilte på gadeniveau.

  6. Dokumentdatabase

    Dokumentdatabasen er en samling af 941 håndskrevne dokumenter, inklusive tabeller, formler, tegninger, diagrammer, lister og mere fra 189 forfattere.

  7. Matematiske udtryk

    Matematiske udtryk er en database, der indeholder 101 matematiske symboler og 10,000 udtryk.

  8. Street View-husnumre

    Denne Street View House Numbers er høstet fra Google Street View og er en database, der indeholder 73257 gadehusnummercifre.

  9. Naturligt miljø OCR

    The Natural Environment OCR, er et datasæt med næsten 660 billeder på verdensplan og 5238 tekstanmærkninger.

  10. Matematiske udtryk

    Over 10,000 udtryk med 101+ matematiske symboler.

  11. Håndskrevne kinesiske tegn

    Et datasæt med 909,818 håndskrevne kinesiske tegnbilleder, svarende til omkring 10 nyhedsartikler.

  12. Arabisk trykt tekst

    Et leksikon med 113,284 ord med 10 arabiske skrifttyper.

  13. Håndskrevet engelsk tekst

    Håndskrevet engelsk tekst på en tavle med over 1700 poster.

  14. 3000 miljøer Billeder

    3000 billeder fra forskellige miljøer, inklusive udendørs og indendørs scener under forskellig belysning.

  15. Chars74K data

    74,000 billeder af engelske og Kannada-cifre.

  16. IAM (IAM-håndskrift)

    IAM-databasen har 13,353 håndskrevne tekstbilleder af 657 forfattere fra Lancaster-Oslo/Bergen Corpus of British English.

  17. FUNSD (formforståelse i støjende scannede dokumenter)

    FUNSD inkluderer 199 kommenterede, scannede formularer med varieret og støjende udseende, udfordrende for formforståelse.

  18. Tekst OCR

    TextOCR benchmarker tekstgenkendelse på vilkårlig formet scenetekst i naturlige billeder.

  19. Twitter 100k

    Twitter100k er et stort datasæt til svagt overvåget hentning på tværs af medier.

  20. SSIG-SegPlate – License Plate Character Segmentation (LPCS)

    Dette datasæt evaluerer License Plate Character Segmentation (LPCS) med 101 bilbilleder i dagtimerne.

  21. 105,941 billeder Naturlige scener OCR-data på 12 sprog

    Dataene omfatter 12 sprog (6 asiatiske, 6 europæiske) og forskellige naturlige scener og vinkler. Den har afgrænsningsfelter på linjeniveau og teksttransskriptioner. Det er nyttigt til flersprogede OCR-opgaver.

  22. Indisk skiltebilleddatasæt

    Datasættet har billeder af indiske trafikskilte til klassificering og detektion, taget under forskellige vejrforhold i løbet af dagen, aftenen og natten.

Disse var nogle af de bedste open source-datasæt til træning af ML-modeller til tekstgenkendelsesapplikationer. Det kan tage tid og kræfter at vælge den, der passer til din virksomheds og applikationsbehov. Du skal dog eksperimentere med disse datasæt, før du beslutter dig for det passende.

[Læs også: OCR-infografik – definition, fordele, udfordringer og brugssager]

For at hjælpe dig med at komme videre mod en pålidelig og effektiv tekstgenkendelsesapplikation er Shaip – ​​den højtplacerede udbyder af teknologiløsninger. Vi udnytter vores tekniske erfaring til at skabe tilpassede, optimerede og effektive OCR-træningsdatasæt til forskellige kundeprojekter. For fuldt ud at forstå vores muligheder, kontakt os i dag.

Social Share