Definition
Tekst-til-tale (TTS) er den teknologi, der konverterer skrevet tekst til tale ved hjælp af AI-modeller.
Formål
Formålet er at levere naturlig stemmeoutput til tilgængeligheds-, virtuelle assistenter- og medieapplikationer.
Vigtighed
- Kritisk for tilgængelighed for synshandicappede brugere.
- Udbredt anvendt i digitale assistenter og IVR-systemer.
- Risikerer at syntetiske stemmer bliver brugt til svindel.
- Kvalitet afhænger af prosodi og naturlighed.
Hvordan det virker
- Inputteksten behandles og normaliseres.
- Tekst omdannes til fonemer.
- Akustiske modeller genererer talefunktioner.
- Vokodere syntetiserer bølgeformer.
- Outputlyd leveres til brugerne.
Eksempler (den virkelige verden)
- Google Cloud TTS: genererer naturlige stemmer til apps.
- Amazon Polly: tekst-til-tale-tjeneste.
- Apple Siri: stemmeoutput fra tekst.
Referencer / Yderligere læsning
- Tacotron 2: Naturlig TTS med neurale netværk — Google Research.
- ISO/IEC 15938-4: Beskrivelse af multimedieindhold.
- IEEE Signalbehandlingsmagasin: TTS-systemer.
- Tilpassede TTS-løsninger til dine unikke krav