Wat is multimodale AI?

Multimodale AI is een zeer geavanceerde vorm van AI die de menselijke capaciteit nabootst om de wereld te interpreteren met behulp van inhoud en gegevens van verschillende zintuigen. Net zoals mensen tekst, afbeeldingen en geluiden begrijpen, integreert multimodale AI deze verschillende soorten gegevens om de context en complexe betekenis in informatie te begrijpen. In het bedrijfsleven kan het bijvoorbeeld een beter begrip van klantopinies mogelijk maken door zowel te analyseren wat ze zeggen als hoe ze het uitdrukken via toon of gezichtsuitdrukking.

Traditionele AI-systemen zijn doorgaans unimodaal, wat betekent dat ze gespecialiseerd zijn in één type gegevens, zoals tekst of afbeeldingen. Ze kunnen grote hoeveelheden gegevens snel verwerken en patronen herkennen die menselijke intelligentie niet kan opmerken. Echter, ze hebben ernstige beperkingen. Ze zijn ongevoelig voor context en minder bedreven in het omgaan met ongebruikelijke en ambiguë situaties.

Dit is de reden waarom multimodale AI een stap verder gaat door modaliteiten te integreren. Dit maakt diepere begrip en veel interessantere interacties tussen mensen en AI mogelijk.

Wat kan multimodale AI doen?

Kunstmatige intelligentiemodellen die vandaag zijn ontwikkeld, maken gebruik van de volgende paren van modaliteiten:

  • van tekst naar afbeelding – dergelijke multimodale AI kan afbeeldingen creëren op basis van tekstuele aanwijzingen; dit is een kerncapaciteit van de beroemde Midjourney, de door OpenAI ontwikkelde DALL-E 3, beschikbaar in de browser als Bing Image Creator, de geavanceerde Stable Diffusion of het jongste hulpmiddel in de familie, Ideogram, dat niet alleen tekstuele aanwijzingen begrijpt, maar ook tekst op een afbeelding kan plaatsen:
  • Multimodale AI

    Bron: Ideogram (https://ideogram.ai)

    Multimodale AI-modellen zijn ook in staat om tekstuele aanwijzingen en de afbeelding waar ze “door geïnspireerd” zijn tegelijkertijd te volgen. Ze bieden nog interessantere, nauwkeuriger gedefinieerde resultaten en variaties van gemaakte afbeeldingen. Dit is zeer nuttig als je gewoon een iets andere grafiek of banner wilt, of een enkel element wilt toevoegen of verwijderen, zoals een koffiemok:

    Multimodale AI

    Bron: Ideogram (https://ideogram.ai)

  • Van afbeelding naar tekst – kunstmatige intelligentie kan veel meer dan alleen tekst herkennen en vertalen die in een afbeelding wordt gezien of een vergelijkbaar product vinden. Het kan ook een afbeelding in woorden beschrijven – zoals Midjourney doet wanneer je het /describe-commando typt, Google Bard, en het Salesforce-model (dat voornamelijk wordt gebruikt om geautomatiseerde product- en afbeeldingsbeschrijvingen op e-commerce sites te creëren),
  • Multimodale AI

    Bron: HuggingFace.co (https://huggingface.co/tasks/image-to-text)

  • van stem naar tekst – multimodale AI stelt ook spraakopdrachten in Google Bard in staat, maar het wordt het beste uitgevoerd door Bing Chat, evenals ChatGPT dankzij de uitstekende Whisper API, die het herkennen en opnemen van spraak samen met interpunctie in meerdere talen aankan, wat onder andere het werk van internationale klantenservicecentra aanzienlijk kan vergemakkelijken, evenals het snel transcriberen van vergaderingen en het vertalen van zakelijke gesprekken in andere talen in realtime,
  • van tekst naar stem – de tool van ElevenLabs stelt ons in staat om elke tekst die we kiezen om te zetten in een realistisch klinkende uitspraak, en zelfs “stemklonen,” waarbij we de AI zijn geluid en expressie kunnen leren om een opname van elke tekst in een vreemde taal te creëren voor marketing of presentaties aan buitenlandse investeerders, bijvoorbeeld,
  • van tekst naar video – het omzetten van tekst naar video met een pratende avatar is mogelijk in D-ID, Colossyan en Synthesia-tools, onder andere,
  • van afbeelding naar video – het genereren van video’s, inclusief muziekvideo’s, uit afbeeldingen en tekstuele aanwijzingen is vandaag de dag al mogelijk gemaakt door Kaiber, en Meta heeft aangekondigd binnenkort de release van de Make-A-Video-tool aan te kondigen,
  • afbeelding en 3D-model – dit is een bijzonder veelbelovende gebied van multimodale AI, gericht door Meta en Nvidia, die het mogelijk maakt om realistische avatars uit foto’s te creëren, evenals het bouwen van 3D-modellen van objecten en producten door Masterpiece Studio (https://masterpiecestudio.com/masterpiece-studio-pro), NeROIC (https://zfkuang.github.io/NeROIC/), 3DFY (https://3dfy.ai/), waarmee bijvoorbeeld een tweedimensionaal prototypeproduct kan worden teruggebracht naar de camera met een andere kant, een snelle 3D-visualisatie kan worden gemaakt van een schets van een meubelstuk, of zelfs een tekstuele beschrijving:
  • Multimodale AI

    Bron: NeROIC (https://zfkuang.github.io/NeROIC/resources/material.png)

  • van afbeelding naar beweging in de ruimte – deze modaliteit laat multimodale AI verder reiken dan schermen in de zone van het Internet of Things (IoT), autonome voertuigen en robotica, waar apparaten dankzij geavanceerde beeldherkenning en de mogelijkheid om te reageren op veranderingen in de omgeving nauwkeurige acties kunnen uitvoeren.

Er zijn ook experimenten met multimodale AI die muziek in afbeeldingen vertalen, bijvoorbeeld (https://huggingface.co/spaces/fffiloni/Music-To-Image), maar laten we eens kijken naar de zakelijke toepassingen van multimodale AI. Hoe speelt de kwestie van multimodaliteit zich af in de populairste AI-gebaseerde chatbots, ChatGPT en Google Bard?

Multimodaliteit in Google Bard, BingChat en ChatGPT

Google Bard kan eenvoudige afbeeldingen beschrijven en is sinds juli 2023 uitgerust met spraakcommunicatie, toen het in Europa verscheen. Ondanks de variabele kwaliteit van de resultaten van de beeldherkenning is dit tot nu toe een van de sterke punten die de oplossing van Google onderscheidt van ChatGPT.

BingChat kan dankzij het gebruik van DALL-E 3 afbeeldingen genereren op basis van tekst- of spraakopdrachten. Hoewel het de afbeeldingen die door de gebruiker zijn bijgevoegd niet in woorden kan beschrijven, kan het ze wel aanpassen of gebruiken als inspiratie om nieuwe afbeeldingen te creëren.

Vanaf oktober 2023 begon OpenAI ook nieuwe spraak- en afbeeldingsfuncties in ChatGPT Plus, de betaalde versie van de tool, in te voeren. Ze maken het mogelijk om een spraakgesprek te voeren of ChatGPT een afbeelding te tonen, zodat het weet wat je vraagt zonder het in exacte woorden te hoeven beschrijven.

Bijvoorbeeld, je kunt een foto van een monument maken tijdens het reizen en een live gesprek hebben over wat er interessant aan is. Of maak een foto van de binnenkant van je koelkast om erachter te komen wat je kunt bereiden voor het avondeten met de beschikbare ingrediënten en vraag om een stapsgewijs recept.

3 toepassingen van Multimodale AI in het bedrijfsleven

Het beschrijven van afbeeldingen kan helpen, bijvoorbeeld om goedereninventaris op te stellen op basis van gegevens van CCTV-camera’s of om ontbrekende producten op winkelplanken te identificeren. Objectmanipulatie kan worden gebruikt om de ontbrekende goederen die in de vorige stap zijn geïdentificeerd aan te vullen. Maar hoe kunnen multimodale chatbots in het bedrijfsleven worden gebruikt? Hier zijn drie voorbeelden:

  1. Klantendienst: Een multimodale chat die in een online winkel is geïmplementeerd, kan dienen als een geavanceerde klantenservice-assistent die niet alleen tekstvragen beantwoordt, maar ook afbeeldingen en vragen die mondeling worden gesteld begrijpt. Bijvoorbeeld, een klant kan een foto van een beschadigd product maken en deze naar de chatbot sturen, die zal helpen het probleem te identificeren en een passende oplossing aan te bieden.
  2. Analyse van sociale media: Multimodale kunstmatige intelligentie kan sociale mediaberichten analyseren, die zowel tekst als afbeeldingen en zelfs video’s bevatten, om te begrijpen wat klanten zeggen over een bedrijf en zijn producten. Dit kan een bedrijf helpen om klantfeedback beter te begrijpen en sneller op hun behoeften te reageren.
  3. Training en Ontwikkeling: ChatGPT kan worden gebruikt om werknemers te trainen. Bijvoorbeeld, het kan interactieve trainingssessies houden die zowel tekst als afbeeldingen bevatten om werknemers te helpen complexe concepten beter te begrijpen.

De toekomst van multimodale AI in het bedrijfsleven

Een geweldig voorbeeld van vooruitstrevende multimodale AI is de optimalisatie van de bedrijfsprocessen van een bedrijf. Bijvoorbeeld, een AI-systeem zou gegevens uit verschillende bronnen kunnen analyseren, zoals verkoopgegevens, klantgegevens en gegevens van sociale media, om gebieden te identificeren die verbetering behoeven en mogelijke oplossingen voor te stellen.

Een ander voorbeeld is het inzetten van multimodale AI om logistiek te organiseren. Het combineren van GPS-gegevens, de status van het magazijn gelezen van een camera en leveringsgegevens om logistieke processen te optimaliseren en de kosten van het bedrijf te verlagen.

Veel van deze functionaliteiten worden vandaag de dag al toegepast in complexe systemen zoals autonome voertuigen en slimme steden. Echter, ze zijn nog niet op deze schaal in kleinere zakelijke contexten toegepast.

Samenvatting

Multimodaliteit, of het vermogen om meerdere soorten gegevens te verwerken, zoals tekst, afbeeldingen en audio, bevordert een dieper contextueel begrip en betere interactie tussen mensen en AI-systemen.

Een open vraag blijft, welke nieuwe combinaties van modaliteiten zouden er binnenkort kunnen bestaan? Bijvoorbeeld, zal het mogelijk zijn om tekstanalyses te combineren met lichaamstaal, zodat AI klantbehoeften kan anticiperen door hun gezichtsuitdrukkingen en gebaren te analyseren? Dit soort innovatie opent nieuwe horizonten voor bedrijven, waardoor ze kunnen voldoen aan de voortdurend veranderende klantverwachtingen.

Multimodale AI

Als je onze inhoud leuk vindt, sluit je dan aan bij onze drukke bijengemeenschap op Facebook, Twitter, LinkedIn, Instagram, YouTube, Pinterest, TikTok.

Robert Whitney

JavaScript-expert en instructeur die IT-afdelingen coacht. Zijn belangrijkste doel is om de productiviteit van het team te verhogen door anderen te leren hoe ze effectief kunnen samenwerken tijdens het coderen.

View all posts →

AI in business:

  1. 6 geweldige ChatGTP-plug-ins die je leven gemakkelijker zullen maken
  2. Navigeren door nieuwe zakelijke kansen met ChatGPT-4
  3. 3 geweldige AI-schrijvers die je vandaag moet uitproberen
  4. Synthetische acteurs. Top 3 AI video generators
  5. Wat zijn de zwakke punten van mijn zakelijke idee? Een brainstormsessie met ChatGPT
  6. ChatGPT in het bedrijfsleven gebruiken
  7. Nieuwe diensten en producten die met AI werken
  8. Geautomatiseerde sociale media berichten
  9. Het inplannen van sociale media berichten. Hoe kan AI helpen?
  10. De rol van AI in zakelijke besluitvorming
  11. Zakelijke NLP vandaag en morgen
  12. AI-ondersteunde tekstchatbots
  13. AI-toepassingen in het bedrijfsleven - overzicht
  14. Bedreigingen en kansen van AI in het bedrijfsleven (deel 2)
  15. Bedreigingen en kansen van AI in het bedrijfsleven (deel 1)
  16. Wat is de toekomst van AI volgens het McKinsey Global Institute?
  17. Kunstmatige intelligentie in het bedrijfsleven - Inleiding
  18. Wat is NLP, of natuurlijke taalverwerking in het bedrijfsleven
  19. Google Translate vs DeepL. 5 toepassingen van machinevertaling voor bedrijven
  20. Automatische documentverwerking
  21. De werking en zakelijke toepassingen van voicebots
  22. Virtuele assistent technologie, of hoe te praten met AI?
  23. Wat is Business Intelligence?
  24. Hoe kan kunstmatige intelligentie helpen bij BPM?
  25. Creatieve AI van vandaag en morgen
  26. Kunstmatige intelligentie in contentbeheer
  27. De kracht van AI in muziekcreatie verkennen
  28. 3 nuttige AI grafisch ontwerptools. Generatieve AI in het bedrijfsleven
  29. AI en sociale media - wat zeggen ze over ons?
  30. Zal kunstmatige intelligentie bedrijfsanalisten vervangen?
  31. AI-tools voor de manager
  32. De toekomstige arbeidsmarkt en opkomende beroepen
  33. RPA en API's in een digitaal bedrijf
  34. Nieuwe interacties. Hoe verandert AI de manier waarop we apparaten bedienen?
  35. Multimodale AI en de toepassingen ervan in het bedrijfsleven
  36. Kunstmatige intelligentie en het milieu. 3 AI-oplossingen om je te helpen een duurzaam bedrijf op te bouwen.
  37. AI-inhoudsdetectoren. Zijn ze het waard?
  38. ChatGPT vs Bard vs Bing. Welke AI-chatbot leidt de race?
  39. Is chatbot AI een concurrent van Google zoekopdracht?
  40. Effectieve ChatGPT-prompts voor HR en Werving
  41. Prompt engineering. Wat doet een prompt engineer?
  42. AI en wat nog meer? Toptechnologietrends voor bedrijven in 2024
  43. AI en bedrijfsethiek. Waarom je zou moeten investeren in ethische oplossingen
  44. Meta AI. Wat moet je weten over de door AI ondersteunde functies van Facebook en Instagram?
  45. AI-regulering. Wat moet je weten als ondernemer?
  46. 5 nieuwe toepassingen van AI in het bedrijfsleven
  47. AI-producten en -projecten - hoe verschillen ze van andere?
  48. AI als een expert in jouw team
  49. AI-team vs. rolverdeling
  50. Hoe kies je een carrièreveld in AI?
  51. AI in HR: Hoe wervingsautomatisering HR en teamontwikkeling beïnvloedt
  52. AI-ondersteunde procesautomatisering. Waar te beginnen?
  53. 6 meest interessante AI-tools in 2023
  54. Wat is de AI-maturiteitsanalyse van het bedrijf?
  55. AI voor B2B-personalisatie
  56. ChatGPT-toepassingen. 18 voorbeelden van hoe je je bedrijf in 2024 kunt verbeteren met ChatGPT
  57. AI Mockup-generator. Top 4 tools
  58. Microlearning. Een snelle manier om nieuwe vaardigheden te leren
  59. De meest interessante AI-implementaties in bedrijven in 2024
  60. Welke uitdagingen brengt het AI-project met zich mee?
  61. Top 8 AI-tools voor bedrijven in 2024
  62. AI in CRM. Wat verandert AI in CRM-tools?
  63. De EU AI-wet. Hoe reguleert Europa het gebruik van kunstmatige intelligentie
  64. Top 7 AI websitebouwers
  65. No-code tools en AI-innovaties
  66. Hoeveel verhoogt het gebruik van AI de productiviteit van je team?
  67. Hoe ChatGTP te gebruiken voor marktonderzoek?
  68. Hoe de reikwijdte van je AI-marketingcampagne te verbreden?
  69. AI in transport en logistiek
  70. Welke zakelijke pijnpunten kan AI oplossen?
  71. Hoe koppel je een AI-oplossing aan een zakelijk probleem?
  72. Kunstmatige intelligentie in de media
  73. AI in bankieren en financiën. Stripe, Monzo en Grab
  74. AI in de reisindustrie
  75. Hoe AI de geboorte van nieuwe technologieën bevordert
  76. AI in e-commerce. Overzicht van wereldwijde leiders
  77. Top 4 AI afbeeldingscreatietools
  78. Top 5 AI-tools voor data-analyse
  79. De revolutie van AI in sociale media
  80. Is het altijd de moeite waard om kunstmatige intelligentie toe te voegen aan het productontwikkelingsproces?
  81. 6 grootste zakelijke blunders veroorzaakt door AI
  82. AI-strategie in uw bedrijf - hoe bouw je het op?
  83. Beste AI-cursussen – 6 geweldige aanbevelingen
  84. Social media luisteren optimaliseren met AI-tools
  85. IoT + AI, of hoe energie kosten in een bedrijf te verlagen
  86. AI in logistiek. 5 beste tools
  87. GPT Store – een overzicht van de meest interessante GPT's voor bedrijven
  88. LLM, GPT, RAG... Wat betekenen AI-acroniemen?
  89. AI-robots – de toekomst of het heden van het bedrijfsleven?
  90. Wat zijn de kosten van het implementeren van AI in een bedrijf?
  91. Wat doen specialisten in kunstmatige intelligentie?
  92. Hoe kan AI helpen in de carrière van een freelancer?
  93. Automatiseren van werk en het verhogen van de productiviteit. Een gids voor AI voor freelancers
  94. AI voor startups – beste tools
  95. Een website bouwen met AI
  96. Elf Labs en wat nog meer? De meest veelbelovende AI-startups
  97. OpenAI, Midjourney, Anthropic, Hugging Face. Wie is wie in de wereld van AI?
  98. Synthetische gegevens en het belang ervan voor de ontwikkeling van uw bedrijf
  99. Top AI-zoekmachines. Waar te zoeken naar AI-tools?
  100. Video AI. De nieuwste AI video generators
  101. AI voor managers. Hoe AI je werk gemakkelijker kan maken
  102. Wat is er nieuw in Google Gemini? Alles wat je moet weten
  103. AI in Polen. Bedrijven, vergaderingen en conferenties
  104. AI-kalender. Hoe optimaliseer je je tijd in een bedrijf?
  105. AI en de toekomst van werk. Hoe bereidt u uw bedrijf voor op verandering?
  106. AI-stemklonen voor bedrijven. Hoe maak je gepersonaliseerde stemberichten met AI?
  107. "We zijn allemaal ontwikkelaars". Hoe kunnen burgerontwikkelaars uw bedrijf helpen?
  108. Feitencontrole en AI-hallucinaties
  109. AI in werving – wervingsmaterialen stap voor stap ontwikkelen
  110. Sora. Hoe zullen realistische video's van OpenAI het bedrijfsleven veranderen?
  111. Midjourney v6. Innovaties in AI-beeldgeneratie
  112. AI in MKB's. Hoe kunnen MKB's concurreren met giganten met behulp van AI?
  113. Hoe verandert AI influencer marketing?
  114. Is AI echt een bedreiging voor ontwikkelaars? Devin en Microsoft AutoDev
  115. Beste AI-chatbots voor e-commerce. Platforms
  116. AI-chatbots voor e-commerce. Casestudy's
  117. Hoe blijf je op de hoogte van wat er gaande is in de AI-wereld?
  118. AI temmen. Hoe de eerste stappen te zetten om AI in uw bedrijf toe te passen?
  119. Perplexity, Bing Copilot of You.com? Vergelijking van AI-zoekmachines
  120. AI-experts in Polen
  121. ReALM. Een baanbrekend taalmodel van Apple?
  122. Google Genie — een generatief AI-model dat volledig interactieve werelden uit afbeeldingen creëert
  123. Automatisering of augmentatie? Twee benaderingen van AI in een bedrijf
  124. LLMOps, of hoe taalmodellen effectief te beheren in een organisatie
  125. AI-video generatie. Nieuwe horizonten in videoinhoudproductie voor bedrijven
  126. Beste AI-transcriptietools. Hoe lange opnames om te zetten in beknopte samenvattingen?
  127. Sentimentanalyse met AI. Hoe helpt het veranderingen in bedrijven te stimuleren?
  128. De rol van AI in contentmoderatie