Definition
Tekst-til-video er processen med at generere levende videosekvenser fra naturlige sprogprompter ved hjælp af AI-modeller.
Formål
Formålet er at automatisere videooprettelse til underholdning, reklame og uddannelse.
Vigtighed
- Reducerer omkostningerne ved videoproduktion.
- Rejser etiske og ophavsretlige bekymringer.
- Tidlig fase sammenlignet med tekst-til-billede.
- Beregningsmæssigt krævende.
Hvordan det virker
- Træn på parrede tekst-video-datasæt.
- Indkod prompts i indlejringer.
- Generer framesekvenser ved hjælp af diffusion eller GAN'er.
- Jævn bevægelse med tidsmæssige konsistensmodeller.
- Render den endelige video.
Eksempler (den virkelige verden)
- Runway Gen-2: genererer korte videoer fra prompts.
- Pika Labs: Startup inden for generering af tekst-til-video med kunstig intelligens.
- Google Imagen Video: forskningssystem til videosyntese i høj opløsning.
Referencer / Yderligere læsning
- Ho et al. “Imagen Video: Generering af tekst til video i høj opløsning.” Google Research.
- Dokumentation af landingsbane Gen-2.
- IEEE-transaktioner om multimedia: Generativ videoforskning.