Multimodale AI. Nieuwe toepassingen van kunstmatige intelligentie in het bedrijfsleven | AI in het bedrijfsleven #21

Wat is multimodale AI?

Multimodale AI is een zeer geavanceerde vorm van AI die de menselijke capaciteit nabootst om de wereld te interpreteren met behulp van inhoud en gegevens van verschillende zintuigen. Net zoals mensen tekst, afbeeldingen en geluiden begrijpen, integreert multimodale AI deze verschillende soorten gegevens om de context en complexe betekenis in informatie te begrijpen. In het bedrijfsleven kan het bijvoorbeeld een beter begrip van klantopinies mogelijk maken door zowel te analyseren wat ze zeggen als hoe ze het uitdrukken via toon of gezichtsuitdrukking.

Traditionele AI-systemen zijn doorgaans unimodaal, wat betekent dat ze gespecialiseerd zijn in één type gegevens, zoals tekst of afbeeldingen. Ze kunnen grote hoeveelheden gegevens snel verwerken en patronen herkennen die menselijke intelligentie niet kan opmerken. Echter, ze hebben ernstige beperkingen. Ze zijn ongevoelig voor context en minder bedreven in het omgaan met ongebruikelijke en ambiguë situaties.

Dit is de reden waarom multimodale AI een stap verder gaat door modaliteiten te integreren. Dit maakt diepere begrip en veel interessantere interacties tussen mensen en AI mogelijk.

Wat kan multimodale AI doen?

Kunstmatige intelligentiemodellen die vandaag zijn ontwikkeld, maken gebruik van de volgende paren van modaliteiten:

  • van tekst naar afbeelding – dergelijke multimodale AI kan afbeeldingen creëren op basis van tekstuele aanwijzingen; dit is een kerncapaciteit van de beroemde Midjourney, de door OpenAI ontwikkelde DALL-E 3, beschikbaar in de browser als Bing Image Creator, de geavanceerde Stable Diffusion of het jongste hulpmiddel in de familie, Ideogram, dat niet alleen tekstuele aanwijzingen begrijpt, maar ook tekst op een afbeelding kan plaatsen:
  • Bron: Ideogram (https://ideogram.ai)

    Multimodale AI-modellen zijn ook in staat om tekstuele aanwijzingen en de afbeelding waar ze “door geïnspireerd” zijn tegelijkertijd te volgen. Ze bieden nog interessantere, nauwkeuriger gedefinieerde resultaten en variaties van gemaakte afbeeldingen. Dit is zeer nuttig als je gewoon een iets andere grafiek of banner wilt, of een enkel element wilt toevoegen of verwijderen, zoals een koffiemok:

    Bron: Ideogram (https://ideogram.ai)

  • Van afbeelding naar tekst – kunstmatige intelligentie kan veel meer dan alleen tekst herkennen en vertalen die in een afbeelding wordt gezien of een vergelijkbaar product vinden. Het kan ook een afbeelding in woorden beschrijven – zoals Midjourney doet wanneer je het /describe-commando typt, Google Bard, en het Salesforce-model (dat voornamelijk wordt gebruikt om geautomatiseerde product- en afbeeldingsbeschrijvingen op e-commerce sites te creëren),
  • Bron: HuggingFace.co (https://huggingface.co/tasks/image-to-text)

  • van stem naar tekst – multimodale AI stelt ook spraakopdrachten in Google Bard in staat, maar het wordt het beste uitgevoerd door Bing Chat, evenals ChatGPT dankzij de uitstekende Whisper API, die het herkennen en opnemen van spraak samen met interpunctie in meerdere talen aankan, wat onder andere het werk van internationale klantenservicecentra aanzienlijk kan vergemakkelijken, evenals het snel transcriberen van vergaderingen en het vertalen van zakelijke gesprekken in andere talen in realtime,
  • van tekst naar stem – de tool van ElevenLabs stelt ons in staat om elke tekst die we kiezen om te zetten in een realistisch klinkende uitspraak, en zelfs “stemklonen,” waarbij we de AI zijn geluid en expressie kunnen leren om een opname van elke tekst in een vreemde taal te creëren voor marketing of presentaties aan buitenlandse investeerders, bijvoorbeeld,
  • van tekst naar video – het omzetten van tekst naar video met een pratende avatar is mogelijk in D-ID, Colossyan en Synthesia-tools, onder andere,
  • van afbeelding naar video – het genereren van video’s, inclusief muziekvideo’s, uit afbeeldingen en tekstuele aanwijzingen is vandaag de dag al mogelijk gemaakt door Kaiber, en Meta heeft aangekondigd binnenkort de release van de Make-A-Video-tool aan te kondigen,
  • afbeelding en 3D-model – dit is een bijzonder veelbelovende gebied van multimodale AI, gericht door Meta en Nvidia, die het mogelijk maakt om realistische avatars uit foto’s te creëren, evenals het bouwen van 3D-modellen van objecten en producten door Masterpiece Studio (https://masterpiecestudio.com/masterpiece-studio-pro), NeROIC (https://zfkuang.github.io/NeROIC/), 3DFY (https://3dfy.ai/), waarmee bijvoorbeeld een tweedimensionaal prototypeproduct kan worden teruggebracht naar de camera met een andere kant, een snelle 3D-visualisatie kan worden gemaakt van een schets van een meubelstuk, of zelfs een tekstuele beschrijving:
  • Bron: NeROIC (https://zfkuang.github.io/NeROIC/resources/material.png)

  • van afbeelding naar beweging in de ruimte – deze modaliteit laat multimodale AI verder reiken dan schermen in de zone van het Internet of Things (IoT), autonome voertuigen en robotica, waar apparaten dankzij geavanceerde beeldherkenning en de mogelijkheid om te reageren op veranderingen in de omgeving nauwkeurige acties kunnen uitvoeren.

Er zijn ook experimenten met multimodale AI die muziek in afbeeldingen vertalen, bijvoorbeeld (https://huggingface.co/spaces/fffiloni/Music-To-Image), maar laten we eens kijken naar de zakelijke toepassingen van multimodale AI. Hoe speelt de kwestie van multimodaliteit zich af in de populairste AI-gebaseerde chatbots, ChatGPT en Google Bard?

Multimodaliteit in Google Bard, BingChat en ChatGPT

Google Bard kan eenvoudige afbeeldingen beschrijven en is sinds juli 2023 uitgerust met spraakcommunicatie, toen het in Europa verscheen. Ondanks de variabele kwaliteit van de resultaten van de beeldherkenning is dit tot nu toe een van de sterke punten die de oplossing van Google onderscheidt van ChatGPT.

BingChat kan dankzij het gebruik van DALL-E 3 afbeeldingen genereren op basis van tekst- of spraakopdrachten. Hoewel het de afbeeldingen die door de gebruiker zijn bijgevoegd niet in woorden kan beschrijven, kan het ze wel aanpassen of gebruiken als inspiratie om nieuwe afbeeldingen te creëren.

Vanaf oktober 2023 begon OpenAI ook nieuwe spraak- en afbeeldingsfuncties in ChatGPT Plus, de betaalde versie van de tool, in te voeren. Ze maken het mogelijk om een spraakgesprek te voeren of ChatGPT een afbeelding te tonen, zodat het weet wat je vraagt zonder het in exacte woorden te hoeven beschrijven.

Bijvoorbeeld, je kunt een foto van een monument maken tijdens het reizen en een live gesprek hebben over wat er interessant aan is. Of maak een foto van de binnenkant van je koelkast om erachter te komen wat je kunt bereiden voor het avondeten met de beschikbare ingrediënten en vraag om een stapsgewijs recept.

3 toepassingen van Multimodale AI in het bedrijfsleven

Het beschrijven van afbeeldingen kan helpen, bijvoorbeeld om goedereninventaris op te stellen op basis van gegevens van CCTV-camera’s of om ontbrekende producten op winkelplanken te identificeren. Objectmanipulatie kan worden gebruikt om de ontbrekende goederen die in de vorige stap zijn geïdentificeerd aan te vullen. Maar hoe kunnen multimodale chatbots in het bedrijfsleven worden gebruikt? Hier zijn drie voorbeelden:

  1. Klantendienst: Een multimodale chat die in een online winkel is geïmplementeerd, kan dienen als een geavanceerde klantenservice-assistent die niet alleen tekstvragen beantwoordt, maar ook afbeeldingen en vragen die mondeling worden gesteld begrijpt. Bijvoorbeeld, een klant kan een foto van een beschadigd product maken en deze naar de chatbot sturen, die zal helpen het probleem te identificeren en een passende oplossing aan te bieden.
  2. Analyse van sociale media: Multimodale kunstmatige intelligentie kan sociale mediaberichten analyseren, die zowel tekst als afbeeldingen en zelfs video’s bevatten, om te begrijpen wat klanten zeggen over een bedrijf en zijn producten. Dit kan een bedrijf helpen om klantfeedback beter te begrijpen en sneller op hun behoeften te reageren.
  3. Training en Ontwikkeling: ChatGPT kan worden gebruikt om werknemers te trainen. Bijvoorbeeld, het kan interactieve trainingssessies houden die zowel tekst als afbeeldingen bevatten om werknemers te helpen complexe concepten beter te begrijpen.

De toekomst van multimodale AI in het bedrijfsleven

Een geweldig voorbeeld van vooruitstrevende multimodale AI is de optimalisatie van de bedrijfsprocessen van een bedrijf. Bijvoorbeeld, een AI-systeem zou gegevens uit verschillende bronnen kunnen analyseren, zoals verkoopgegevens, klantgegevens en gegevens van sociale media, om gebieden te identificeren die verbetering behoeven en mogelijke oplossingen voor te stellen.

Een ander voorbeeld is het inzetten van multimodale AI om logistiek te organiseren. Het combineren van GPS-gegevens, de status van het magazijn gelezen van een camera en leveringsgegevens om logistieke processen te optimaliseren en de kosten van het bedrijf te verlagen.

Veel van deze functionaliteiten worden vandaag de dag al toegepast in complexe systemen zoals autonome voertuigen en slimme steden. Echter, ze zijn nog niet op deze schaal in kleinere zakelijke contexten toegepast.

Samenvatting

Multimodaliteit, of het vermogen om meerdere soorten gegevens te verwerken, zoals tekst, afbeeldingen en audio, bevordert een dieper contextueel begrip en betere interactie tussen mensen en AI-systemen.

Een open vraag blijft, welke nieuwe combinaties van modaliteiten zouden er binnenkort kunnen bestaan? Bijvoorbeeld, zal het mogelijk zijn om tekstanalyses te combineren met lichaamstaal, zodat AI klantbehoeften kan anticiperen door hun gezichtsuitdrukkingen en gebaren te analyseren? Dit soort innovatie opent nieuwe horizonten voor bedrijven, waardoor ze kunnen voldoen aan de voortdurend veranderende klantverwachtingen.

Als je onze inhoud leuk vindt, sluit je dan aan bij onze drukke bijengemeenschap op Facebook, Twitter, LinkedIn, Instagram, YouTube, Pinterest, TikTok.

Robert Whitney

JavaScript-expert en instructeur die IT-afdelingen coacht. Zijn belangrijkste doel is om de productiviteit van het team te verhogen door anderen te leren hoe ze effectief kunnen samenwerken tijdens het coderen.

View all posts →

Robert Whitney

JavaScript-expert en instructeur die IT-afdelingen coacht. Zijn belangrijkste doel is om de productiviteit van het team te verhogen door anderen te leren hoe ze effectief kunnen samenwerken tijdens het coderen.

Share
Published by
Robert Whitney

Recent Posts

De rol van AI in contentmoderatie | AI in business #129

Bedrijven worstelen met het beheren van een enorme hoeveelheid content die online wordt gepubliceerd, van…

2 days ago

Sentimentanalyse met AI. Hoe helpt het om verandering in bedrijven te stimuleren? | AI in business #128

In het tijdperk van digitale transformatie hebben bedrijven toegang tot een ongekende hoeveelheid gegevens over…

2 days ago

Beste AI-transcriptietools. Hoe lange opnames om te zetten in beknopte samenvattingen? | AI in business #127

Wist je dat je de essentie van een meerdaagse opname van een vergadering of gesprek…

2 days ago

AI-video generatie. Nieuwe horizonten in videoinhoudproductie voor bedrijven | AI in business #126

Stel je een wereld voor waarin jouw bedrijf boeiende, gepersonaliseerde video's kan maken voor elke…

2 days ago

LLMOps, of hoe taalmodellen effectief te beheren in een organisatie | AI in business #125

Om het potentieel van Large Language Models (LLM's) volledig te benutten, moeten bedrijven een effectieve…

2 days ago

Automatisering of augmentatie? Twee benaderingen van AI in een bedrijf | AI in het bedrijfsleven #124

In 2018 was Unilever al begonnen aan een bewuste reis om automatisering en augmentatie in…

2 days ago