Nvidia AI-komprimerar videokonferensen

Istället för att skicka videobilden av ditt huvud skickar Nvidia en 3D-modell. Det kräver mycket mindre datatrafik och öppnar möjligheter som att ge deltagarna ögonkontakt eller att prata via avatarer.

Nvidia erbjuder en betaversion av molnplattformen Maxine som modellkomprimerar video med hjälp av maskininlärningstekniken deep learning. Konferenssystem som Zoom och Skype kan komma att integrera Maxine i sina plattformar.

Den första poäng som Nvidia betonar är att bandbredden kan dras ner till en bråkdel av nuvarande videostandarder, eller så kan bildkvaliteten höjas dramatiskt på samma bandbredd. Lanseringen rider på den explosion i användandet av videokonferenser som följt i spåren av coronapandemin.

Först skapas 3D-modeller av konferensdeltagarna. Därefter läser tjänsten av ansiktsuttryck och position i realtid och skickar dem till mottagaren, som använder dem för att rita upp ansiktet.

Eftersom det är en 3D-modell som skickas går det att addera ytterligare transformationer, som rotationer och translationer för att få huvudet att titta in i kameran eller att stanna på konstant avstånd från skärmen.

För den som vill leka går det att ändra utseende eller byta huvudet mot en avatar. En idé är att växla avatar efter talarens emotionella utstrålning.

Möjligheterna slutar inte där. Utvecklingsmiljön är integrerad med Nvidias AI-tjänst Jarvis som innehåller funktioner som översättning, taligenkänning och talgenerering. Deltagarna kan alltså få sina repliker översatta i en textremsa – eller kanske till och med få dem reciterade med en artificiell röst.

Modellkomprimering är en gammal idé. Nvidia blåser liv i den med hjälp av GAN (Generative Adversarial Networks) som är en kombination av maskininlärning och djupa neuronnät. GAN används sedan tidigare för att skapa popkonst, färglägga fotografier, förbättra astronomiska bilder och öka upplösning på bild.

Det är också GAN som är algoritmen bakom den kontroversiella tekniken deep fake som skapar fotorealistiska bilder av människor som inte existerar eller stoppar in existerande människor i artificiellt genererad video.

Maxine kräver dyra AI-accelererade grafikkretsar från Nvidia. Därför är det en molntjänst.