Definition
Tekstgenkendelse refererer til identifikation af teksttegn i billeder eller scannede dokumenter. Det omfatter genkendelse af trykte og håndskrevne tegn.
Formål
Formålet er at gøre tekst i visuelle formater tilgængelig og søgbar.
Vigtighed
- Muliggør digitalisering af arkiver.
- Kritisk for tilgængelighed og automatisering.
- Nøjagtigheden afhænger af billedkvaliteten.
- Relateret til OCR-teknologier.
Hvordan det virker
- Optag scannede eller fotograferede dokumenter.
- Forbehandl billeder for at forbedre klarheden.
- Registrer tekstområder.
- Anvend genkendelsesmodeller.
- Udskriv maskinlæsbar tekst.
Eksempler (den virkelige verden)
- Google Lens: genkender tekst i billeder.
- ABBYY FineReader: digitaliserer scannede dokumenter.
- Tesseract OCR: Tekstgenkendelsesmotor med åben kildekode.
Referencer / Yderligere læsning
- Smith, R. “En oversigt over Tesseract OCR-motoren.” ICDAR.
- ISO/IEC 15938-4-standarden.
- IEEE-transaktioner om mønsteranalyse og maskinintelligens.