OpenAI kan nu ook bewegende video’s genereren met Sora
OpenAI lanceert met Sora een nieuwe AI-tool. Met die aanvulling kan het bedrijf nu ook, op basis van tekstuele input, bewegende beelden genereren. Het nieuwe tekst-naar-videomodel is in staat om filmpjes van ongeveer een minuut lang te maken.
Indrukwekkend daarbij is de hoge kwaliteit waarin dat gebeurt: Sora biedt geen korrelige video’s met houterige bewegingen, maar een scherp beeld dat er verdacht normaal uitziet. OpenAI leerde het model begrijpen hoe dingen bewegen, waardoor het nu in staat is zelf zo’n zaken te genereren.
Nog niet voor gebruikers
Hoewel OpenAI al uitpakt met het nieuwe AI-model is het nog niet beschikbaar voor gebruikers. In eerste instantie wordt de technologie getest door zogenaamde ‘red teamers’. Zij proberen de technologie voor minder eerbare doeleinden in te zetten, zodat OpenAI ervoor kan zorgen dat die mogelijkheid verdwijnt tegen de publieke lancering. Wel krijgen een aantal visuele kunstenaars, designers en filmmakers al toegang tot Sora.
Dat moet niet alleen die designers en filmmakers vooruit helpen, maar eigenlijk vooral OpenAI. Zo kunnen ze feedback op het systeem tijdig verwerken, maar ook laten zien waartoe hun AI-technologie precies in staat is.
Begrip van de wereld
Sora is in staat om complexe scènes met meerdere karakters te genereren. Ook de achtergrond is geen probleem: die wordt gewoon ingevuld met allerlei details. Dat komt doordat Sora meer begrijpt dan alleen prompts: het model weet hoe de echte wereld er ongeveer uitziet en kan dat beeld reproduceren.
Dat wil niet zeggen dat het model geen zwaktes kent. Sommige zaken zijn simpelweg nog te complex om goed uitgelegd te krijgen aan een AI-systeem. Zo zal Sora het niet altijd even nauw nemen met de wetten van de fysica. Ook continuïteit vormt een probleem: OpenAI haalt zelf aan dat iemand een hap van een koekje kan doen, maar dat het koekje daarna wel volledig kan blijven. Ruimtelijke details blijken ook moeilijk. Zo kan Sora het verschil tussen rechts en links niet zo goed bepalen. Ook is het soms moeilijk om gebeurtenissen, die doorheen de tijd voorkomen, te blijven volgen.
Voordat Sora beschikbaar komt voor het grote publiek, wil OpenAI nog wat aan de veiligheid sleutelen. Dat doet het met de zogenaamde red teamers, maar ook door in te zetten op C2PA-metadata. Dat is dezelfde soort metadata als waar OpenAI voor DALL-E 3 mee werkt. Aan die metadata zal dan te zien zijn dat het om een AI-video gaat, want dat is soms moeilijk te bepalen.