Multimodale AI is een zeer geavanceerde vorm van AI die de menselijke capaciteit nabootst om de wereld te interpreteren met behulp van inhoud en gegevens van verschillende zintuigen. Net zoals mensen tekst, afbeeldingen en geluiden begrijpen, integreert multimodale AI deze verschillende soorten gegevens om de context en complexe betekenis in informatie te begrijpen. In het bedrijfsleven kan het bijvoorbeeld een beter begrip van klantopinies mogelijk maken door zowel te analyseren wat ze zeggen als hoe ze het uitdrukken via toon of gezichtsuitdrukking.
Traditionele AI-systemen zijn doorgaans unimodaal, wat betekent dat ze gespecialiseerd zijn in één type gegevens, zoals tekst of afbeeldingen. Ze kunnen grote hoeveelheden gegevens snel verwerken en patronen herkennen die menselijke intelligentie niet kan opmerken. Echter, ze hebben ernstige beperkingen. Ze zijn ongevoelig voor context en minder bedreven in het omgaan met ongebruikelijke en ambiguë situaties.
Dit is de reden waarom multimodale AI een stap verder gaat door modaliteiten te integreren. Dit maakt diepere begrip en veel interessantere interacties tussen mensen en AI mogelijk.
Kunstmatige intelligentiemodellen die vandaag zijn ontwikkeld, maken gebruik van de volgende paren van modaliteiten:
Bron: Ideogram (https://ideogram.ai)
Multimodale AI-modellen zijn ook in staat om tekstuele aanwijzingen en de afbeelding waar ze “door geïnspireerd” zijn tegelijkertijd te volgen. Ze bieden nog interessantere, nauwkeuriger gedefinieerde resultaten en variaties van gemaakte afbeeldingen. Dit is zeer nuttig als je gewoon een iets andere grafiek of banner wilt, of een enkel element wilt toevoegen of verwijderen, zoals een koffiemok:
Bron: Ideogram (https://ideogram.ai)
Bron: HuggingFace.co (https://huggingface.co/tasks/image-to-text)
Bron: NeROIC (https://zfkuang.github.io/NeROIC/resources/material.png)
Er zijn ook experimenten met multimodale AI die muziek in afbeeldingen vertalen, bijvoorbeeld (https://huggingface.co/spaces/fffiloni/Music-To-Image), maar laten we eens kijken naar de zakelijke toepassingen van multimodale AI. Hoe speelt de kwestie van multimodaliteit zich af in de populairste AI-gebaseerde chatbots, ChatGPT en Google Bard?
Google Bard kan eenvoudige afbeeldingen beschrijven en is sinds juli 2023 uitgerust met spraakcommunicatie, toen het in Europa verscheen. Ondanks de variabele kwaliteit van de resultaten van de beeldherkenning is dit tot nu toe een van de sterke punten die de oplossing van Google onderscheidt van ChatGPT.
BingChat kan dankzij het gebruik van DALL-E 3 afbeeldingen genereren op basis van tekst- of spraakopdrachten. Hoewel het de afbeeldingen die door de gebruiker zijn bijgevoegd niet in woorden kan beschrijven, kan het ze wel aanpassen of gebruiken als inspiratie om nieuwe afbeeldingen te creëren.
Vanaf oktober 2023 begon OpenAI ook nieuwe spraak- en afbeeldingsfuncties in ChatGPT Plus, de betaalde versie van de tool, in te voeren. Ze maken het mogelijk om een spraakgesprek te voeren of ChatGPT een afbeelding te tonen, zodat het weet wat je vraagt zonder het in exacte woorden te hoeven beschrijven.
Bijvoorbeeld, je kunt een foto van een monument maken tijdens het reizen en een live gesprek hebben over wat er interessant aan is. Of maak een foto van de binnenkant van je koelkast om erachter te komen wat je kunt bereiden voor het avondeten met de beschikbare ingrediënten en vraag om een stapsgewijs recept.
Het beschrijven van afbeeldingen kan helpen, bijvoorbeeld om goedereninventaris op te stellen op basis van gegevens van CCTV-camera’s of om ontbrekende producten op winkelplanken te identificeren. Objectmanipulatie kan worden gebruikt om de ontbrekende goederen die in de vorige stap zijn geïdentificeerd aan te vullen. Maar hoe kunnen multimodale chatbots in het bedrijfsleven worden gebruikt? Hier zijn drie voorbeelden:
Een geweldig voorbeeld van vooruitstrevende multimodale AI is de optimalisatie van de bedrijfsprocessen van een bedrijf. Bijvoorbeeld, een AI-systeem zou gegevens uit verschillende bronnen kunnen analyseren, zoals verkoopgegevens, klantgegevens en gegevens van sociale media, om gebieden te identificeren die verbetering behoeven en mogelijke oplossingen voor te stellen.
Een ander voorbeeld is het inzetten van multimodale AI om logistiek te organiseren. Het combineren van GPS-gegevens, de status van het magazijn gelezen van een camera en leveringsgegevens om logistieke processen te optimaliseren en de kosten van het bedrijf te verlagen.
Veel van deze functionaliteiten worden vandaag de dag al toegepast in complexe systemen zoals autonome voertuigen en slimme steden. Echter, ze zijn nog niet op deze schaal in kleinere zakelijke contexten toegepast.
Multimodaliteit, of het vermogen om meerdere soorten gegevens te verwerken, zoals tekst, afbeeldingen en audio, bevordert een dieper contextueel begrip en betere interactie tussen mensen en AI-systemen.
Een open vraag blijft, welke nieuwe combinaties van modaliteiten zouden er binnenkort kunnen bestaan? Bijvoorbeeld, zal het mogelijk zijn om tekstanalyses te combineren met lichaamstaal, zodat AI klantbehoeften kan anticiperen door hun gezichtsuitdrukkingen en gebaren te analyseren? Dit soort innovatie opent nieuwe horizonten voor bedrijven, waardoor ze kunnen voldoen aan de voortdurend veranderende klantverwachtingen.
Als je onze inhoud leuk vindt, sluit je dan aan bij onze drukke bijengemeenschap op Facebook, Twitter, LinkedIn, Instagram, YouTube, Pinterest, TikTok.
JavaScript-expert en instructeur die IT-afdelingen coacht. Zijn belangrijkste doel is om de productiviteit van het team te verhogen door anderen te leren hoe ze effectief kunnen samenwerken tijdens het coderen.
Bedrijven worstelen met het beheren van een enorme hoeveelheid content die online wordt gepubliceerd, van…
In het tijdperk van digitale transformatie hebben bedrijven toegang tot een ongekende hoeveelheid gegevens over…
Wist je dat je de essentie van een meerdaagse opname van een vergadering of gesprek…
Stel je een wereld voor waarin jouw bedrijf boeiende, gepersonaliseerde video's kan maken voor elke…
Om het potentieel van Large Language Models (LLM's) volledig te benutten, moeten bedrijven een effectieve…
In 2018 was Unilever al begonnen aan een bewuste reis om automatisering en augmentatie in…