Google Genie (https://sites.google.com/view/genie-2024/) is een fundamenteel wereldmodel ontwikkeld door DeepMind. Het is een generatief AI-model dat is getraind op meer dan 30.000 uur aan publiek beschikbare 2D-platformvideogamebeelden. De belangrijkste functie is het vermogen om volledig interactieve, speelbare omgevingen te genereren rechtstreeks vanuit enkele afbeeldingen, foto’s en zelfs handgetekende schetsen.
Bron: Genie: Generative Interactive Environments (https://arxiv.org/abs/2402.15391)
Hoe is dit mogelijk? Genie gebruikt een onbewaakte leertechniek in het proces van het verwerven van de mogelijkheid om de omgeving nauwkeurig te controleren op basis van videobeelden. Er is geen menselijke actie-tagging vereist. Met behulp van een speciale actiecoderingsmodule legt het subtiele veranderingen tussen opeenvolgende videokaders vast en koppelt deze aan interne representaties van beweging, zoals springen of naar links draaien. Het dynamische model genereert vervolgens het volgende kader in de reeks op basis van de gecodeerde acties.
Als gevolg hiervan kan Genie volledig controleerbare, interactieve game-omgevingen creëren vanuit elke visuele data. Elke spelersbeweging genereert in real-time een nieuw, uniek kader, waardoor een soepele, speelbare sessie ontstaat. Dit is een echt grote innovatie die ons in staat stelt om hele interactieve werelden te creëren vanuit afbeeldingen of tekst.
De innovatie van Genie ligt in het combineren van verschillende belangrijke elementen in één model:
Hoewel elk van deze gebieden eerder is verkend, is Genie het eerste model dat ze combineert om controleerbare omgevingen rechtstreeks uit videobeelden te leren. Deze ongekende benadering van het onderwijzen van modellen zonder menselijke supervisie is een belangrijke innovatie van Genie. Het opent de deur naar het gebruik van de enorme hoeveelheid video die beschikbaar is op het internet als trainingsbron voor AI-modellen en doorbreekt de barrières die samenhangen met de beperkte beschikbaarheid van gelabelde gegevens.
De combinatie van generatieve videomodellen, wereldmodellen en onbewaakt leren in één oplossing vertegenwoordigt een fundamentele vooruitgang in de ontwikkeling van kunstmatige intelligentie. Genie toont aan dat geavanceerde AI-systemen complexe gedragingen en omgevingen rechtstreeks uit ongestructureerde gegevens kunnen leren, zonder handmatige tagging. Dit is een belangrijke stap op de weg naar het bereiken van ware Artificial General Intelligence (AGI).
Bron: Google Genie (https://sites.google.com/view/genie-2024/)
De mogelijkheden van Google Genie gaan veel verder dan het genereren van videogames. Dit baanbrekende AI-model kan toepassingen vinden in veel gebieden:
Echter, de potentiële uitdagingen en beperkingen van deze technologie mogen niet over het hoofd worden gezien. In de huidige fase van ontwikkeling werkt Genie het beste in smalle domeinen zoals 2D-platformspellen. Opschalen naar complexere 3D-omgevingen zal aanvullende onderzoek en optimalisatie vereisen. Bovendien bestaat het risico dat deze technologie kan worden misbruikt om schadelijke of gevaarlijke inhoud te creëren. Het is daarom van cruciaal belang om een robuust ethisch en juridisch kader te ontwikkelen om de ontwikkeling en het gebruik van dergelijke AI-modellen te reguleren.
Bron: Google Genie (https://sites.google.com/view/genie-2024/)
Door de creatie van volledig interactieve omgevingen rechtstreeks vanuit visuele gegevens mogelijk te maken, zonder de noodzaak om handmatig acties te taggen, vertegenwoordigt Google Genie een echte doorbraak in generatieve kunstmatige intelligentie. Dit fundamentele wereldmodel geeft de kracht om beelden uit te drukken in de vorm van speelbare virtuele realiteiten die kunnen worden verkend en gecontroleerd door een mens of AI-agent.
Het potentieel van Genie is enorm – van tools voor game-ontwikkelaars, tot een onbeperkte bron van trainingsgegevens voor AI, tot fysieke simulaties voor robotica. Het is ook een belangrijke stap op de weg naar AGI. Terwijl modellen zoals Genie blijven evolueren, wordt de grens tussen de echte en virtuele werelden steeds vloeibaarder.
Als je onze inhoud leuk vindt, sluit je dan aan bij onze drukke bijengemeenschap op Facebook, Twitter, LinkedIn, Instagram, YouTube, Pinterest, TikTok.
JavaScript-expert en instructeur die IT-afdelingen coacht. Zijn belangrijkste doel is om de productiviteit van het team te verhogen door anderen te leren hoe ze effectief kunnen samenwerken tijdens het coderen.
Bedrijven worstelen met het beheren van een enorme hoeveelheid content die online wordt gepubliceerd, van…
In het tijdperk van digitale transformatie hebben bedrijven toegang tot een ongekende hoeveelheid gegevens over…
Wist je dat je de essentie van een meerdaagse opname van een vergadering of gesprek…
Stel je een wereld voor waarin jouw bedrijf boeiende, gepersonaliseerde video's kan maken voor elke…
Om het potentieel van Large Language Models (LLM's) volledig te benutten, moeten bedrijven een effectieve…
In 2018 was Unilever al begonnen aan een bewuste reis om automatisering en augmentatie in…