Definition
En multimodal sprogmodel er en udvidelse af LLM'er, der kan behandle og generere på tværs af tekst og andre modaliteter såsom billeder, lyd eller video.
Formål
Formålet er at skabe AI-systemer, der er i stand til at opnå en bedre forståelse og interaktion ud over ren tekst. Disse modeller er nyttige til virtuelle assistenter, tilgængelighedsværktøjer og robotteknologi.
Vigtighed
- Understøtter integration af visuel og auditiv kontekst i svar.
- Styrer nye applikationer som f.eks. visuel spørgsmålsbesvarelse.
- Beregningsmæssigt dyr og kompleks at træne.
- Deler risici for hallucinationer og bias fra LLM'er.
Hvordan det virker
- Indsaml store multimodale datasæt (tekst + billeder/lyd).
- Træn med transformere tilpasset til flere modaliteter.
- Juster indlejringer på tværs af modaliteter for interoperabilitet.
- Finjuster specifikke multimodale opgaver.
- Implementer til multimodal interaktion i den virkelige verden.
Eksempler (den virkelige verden)
- GPT-4 med Vision (OpenAI): behandler tekst og billeder.
- Flamingo (DeepMind): få-skuds læring til multimodale opgaver.
- Google Gemini: integrerer flere modaliteter til ræsonnement.
Referencer / Yderligere læsning
- Alayrac et al. “Flamingo: En visuel sprogmodel.” DeepMind.
- OpenAI GPT-4 teknisk rapport.
- Stanford CRFM-rapport om fondmodeller.
- Hvad er store multimodale modeller (LMM'er)?