Definition
Tale-til-tekst (STT) er processen med automatisk at konvertere talesprog til skrevet tekst ved hjælp af AI-modeller. Det er tæt forbundet med ASR.
Formål
Formålet er at gøre talt indhold tilgængeligt og søgbart. Det bruges i vid udstrækning inden for transskription, tilgængelighed og digitale assistenter.
Vigtighed
- Understøtter tilgængelighed for hørehæmmede brugere.
- Leverer transskriptioner af møder og forelæsninger.
- Nøjagtigheden afhænger af accenter og støjforhold.
- Bruges i næsten alle stemmestyrede applikationer.
Hvordan det virker
- Optag lydinput.
- Forbehandl og normaliser lydsignal.
- Anvend ASR-modeller til at genkende ord.
- Transskription af outputtekst.
- Gennemgå eller korriger med menneskelig tilsyn om nødvendigt.
Eksempler (den virkelige verden)
- Google Cloud tale-til-tekst API.
- Microsoft Azure taletjenester.
- Transskription af Otter.ai-møder.
Referencer / Yderligere læsning
- Automatisk talegenkendelse — NIST.
- ISO/IEC 15938-4: Beskrivelse af multimedieindhold.
- Jurafsky & Martin. Tale- og sprogbehandling.
- Hvad er tale-til-tekst-teknologi, og hvordan fungerer det