30 beeldjes per seconde
Video’s opgebouwd uit woorden met AI aan het roer zijn gebaseerd op dezelfde principes als het maken van een stilstaand beeld uit tekst met behulp van twee neurale netwerken.
Eén neuraal netwerk verzint beelden op basis van jouw woorden. Het tweede AI-netwerk vergelijkt deze beelden met een grote beeldbank en een nauwkeurigheidsscore, die het systeem steeds probeert te overtreffen om de definitieve beelden te verbeteren.
In webvideo’s, meestal 24 tot 30 beelden per seconde, moet het AI-systeem ook bewegingen in het onderwerp tot op de pixel nauwkeurig verwerken.
‘Make-A-Video lost dit probleem op door een leerlaag toe te voegen, die het systeem in staat stelt beweging in de fysieke wereld te begrijpen en toe te passen op traditionele tekst-naar-beeldgeneratie,’ legt Meta-directeur Mark Zuckerberg uit in een Facebook post.
Systeem herkent natuurwetten
Om beweging in levende beelden te begrijpen heeft Meta’s AI natuurwetten ingebouwd, zoals de zwaartekracht, om de interactie tussen mensen en voorwerpen in de video’s aan te sturen.
Daarnaast wordt de AI getraind om bewegingen realistisch te optimaliseren wanneer objecten in video’s met elkaar interageren, inclusief het vormen van schaduwen.
Zo heeft Meta in een video van een kunstenaar die een schilderij maakt de AI getraind om te begrijpen dat een kwast op een doek nieuwe lijnen en kleuren achterlaat.
Meta heeft tot nu toe echter alleen dit soort vooraf gemaakte AI-video’s van 5 seconden gepubliceerd om de technologie te demonstreren, maar je kunt je aanmelden voor de dienst om een van de eerste AI-producenten te worden wanneer het systeem wordt vrijgegeven voor algemeen gebruik.
Google zit niet stil
Verschillende videodiensten vermelden AI al trots als medeproducent, maar hun producten zijn wat eenvoudiger dan Meta’s versie, waarbij slechts de verbeelding de grenzen stelt.
Met de dienst Synthesia kun je bijvoorbeeld tekst typen op een website, waarna door de computer gemaakte avatars je woorden uitspreken als een nieuwslezer.
En op de dienst InVideo kun je meer artistieke inhoud maken van bestaande videosjablonen, hoewel het aantal beperkt is.
Google lanceert ook een tekst-naar-videodienst: Phenaki, genoemd naar het eerste animatiegereedschap dat gebruikmaakt van motieven getekend op een draaiende kartonnen schijf om de illusie van beweging te geven.
De AI-animaties van Google zijn, net als de video’s van Meta, nog niet toegankelijk voor het publiek.
Verder werkt Google aan tools om de verspreiding van nepnieuws te voorkomen – in een tijd dat iedereen geloofwaardige video’s kan maken met Hitler als kleuterleider of andere controversiële onderwerpen.