Multimodale AI - inhoudsopgave:
Wat is multimodale AI?
Multimodale AI is een zeer geavanceerde vorm van AI die de menselijke capaciteit nabootst om de wereld te interpreteren met behulp van inhoud en gegevens van verschillende zintuigen. Net zoals mensen tekst, afbeeldingen en geluiden begrijpen, integreert multimodale AI deze verschillende soorten gegevens om de context en complexe betekenis in informatie te begrijpen. In het bedrijfsleven kan het bijvoorbeeld een beter begrip van klantopinies mogelijk maken door zowel te analyseren wat ze zeggen als hoe ze het uitdrukken via toon of gezichtsuitdrukking.
Traditionele AI-systemen zijn doorgaans unimodaal, wat betekent dat ze gespecialiseerd zijn in één type gegevens, zoals tekst of afbeeldingen. Ze kunnen grote hoeveelheden gegevens snel verwerken en patronen herkennen die menselijke intelligentie niet kan opmerken. Echter, ze hebben ernstige beperkingen. Ze zijn ongevoelig voor context en minder bedreven in het omgaan met ongebruikelijke en ambiguë situaties.
Dit is de reden waarom multimodale AI een stap verder gaat door modaliteiten te integreren. Dit maakt diepere begrip en veel interessantere interacties tussen mensen en AI mogelijk.
Wat kan multimodale AI doen?
Kunstmatige intelligentiemodellen die vandaag zijn ontwikkeld, maken gebruik van de volgende paren van modaliteiten:
- van tekst naar afbeelding – dergelijke multimodale AI kan afbeeldingen creëren op basis van tekstuele aanwijzingen; dit is een kerncapaciteit van de beroemde Midjourney, de door OpenAI ontwikkelde DALL-E 3, beschikbaar in de browser als Bing Image Creator, de geavanceerde Stable Diffusion of het jongste hulpmiddel in de familie, Ideogram, dat niet alleen tekstuele aanwijzingen begrijpt, maar ook tekst op een afbeelding kan plaatsen:
- Van afbeelding naar tekst – kunstmatige intelligentie kan veel meer dan alleen tekst herkennen en vertalen die in een afbeelding wordt gezien of een vergelijkbaar product vinden. Het kan ook een afbeelding in woorden beschrijven – zoals Midjourney doet wanneer je het /describe-commando typt, Google Bard, en het Salesforce-model (dat voornamelijk wordt gebruikt om geautomatiseerde product- en afbeeldingsbeschrijvingen op e-commerce sites te creëren),
- van stem naar tekst – multimodale AI stelt ook spraakopdrachten in Google Bard in staat, maar het wordt het beste uitgevoerd door Bing Chat, evenals ChatGPT dankzij de uitstekende Whisper API, die het herkennen en opnemen van spraak samen met interpunctie in meerdere talen aankan, wat onder andere het werk van internationale klantenservicecentra aanzienlijk kan vergemakkelijken, evenals het snel transcriberen van vergaderingen en het vertalen van zakelijke gesprekken in andere talen in realtime,
- van tekst naar stem – de tool van ElevenLabs stelt ons in staat om elke tekst die we kiezen om te zetten in een realistisch klinkende uitspraak, en zelfs “stemklonen,” waarbij we de AI zijn geluid en expressie kunnen leren om een opname van elke tekst in een vreemde taal te creëren voor marketing of presentaties aan buitenlandse investeerders, bijvoorbeeld,
- van tekst naar video – het omzetten van tekst naar video met een pratende avatar is mogelijk in D-ID, Colossyan en Synthesia-tools, onder andere,
- van afbeelding naar video – het genereren van video’s, inclusief muziekvideo’s, uit afbeeldingen en tekstuele aanwijzingen is vandaag de dag al mogelijk gemaakt door Kaiber, en Meta heeft aangekondigd binnenkort de release van de Make-A-Video-tool aan te kondigen,
- afbeelding en 3D-model – dit is een bijzonder veelbelovende gebied van multimodale AI, gericht door Meta en Nvidia, die het mogelijk maakt om realistische avatars uit foto’s te creëren, evenals het bouwen van 3D-modellen van objecten en producten door Masterpiece Studio (https://masterpiecestudio.com/masterpiece-studio-pro), NeROIC (https://zfkuang.github.io/NeROIC/), 3DFY (https://3dfy.ai/), waarmee bijvoorbeeld een tweedimensionaal prototypeproduct kan worden teruggebracht naar de camera met een andere kant, een snelle 3D-visualisatie kan worden gemaakt van een schets van een meubelstuk, of zelfs een tekstuele beschrijving:
- van afbeelding naar beweging in de ruimte – deze modaliteit laat multimodale AI verder reiken dan schermen in de zone van het Internet of Things (IoT), autonome voertuigen en robotica, waar apparaten dankzij geavanceerde beeldherkenning en de mogelijkheid om te reageren op veranderingen in de omgeving nauwkeurige acties kunnen uitvoeren.

Bron: Ideogram (https://ideogram.ai)
Multimodale AI-modellen zijn ook in staat om tekstuele aanwijzingen en de afbeelding waar ze “door geïnspireerd” zijn tegelijkertijd te volgen. Ze bieden nog interessantere, nauwkeuriger gedefinieerde resultaten en variaties van gemaakte afbeeldingen. Dit is zeer nuttig als je gewoon een iets andere grafiek of banner wilt, of een enkel element wilt toevoegen of verwijderen, zoals een koffiemok:

Bron: Ideogram (https://ideogram.ai)

Bron: HuggingFace.co (https://huggingface.co/tasks/image-to-text)

Bron: NeROIC (https://zfkuang.github.io/NeROIC/resources/material.png)
Er zijn ook experimenten met multimodale AI die muziek in afbeeldingen vertalen, bijvoorbeeld (https://huggingface.co/spaces/fffiloni/Music-To-Image), maar laten we eens kijken naar de zakelijke toepassingen van multimodale AI. Hoe speelt de kwestie van multimodaliteit zich af in de populairste AI-gebaseerde chatbots, ChatGPT en Google Bard?
Multimodaliteit in Google Bard, BingChat en ChatGPT
Google Bard kan eenvoudige afbeeldingen beschrijven en is sinds juli 2023 uitgerust met spraakcommunicatie, toen het in Europa verscheen. Ondanks de variabele kwaliteit van de resultaten van de beeldherkenning is dit tot nu toe een van de sterke punten die de oplossing van Google onderscheidt van ChatGPT.
BingChat kan dankzij het gebruik van DALL-E 3 afbeeldingen genereren op basis van tekst- of spraakopdrachten. Hoewel het de afbeeldingen die door de gebruiker zijn bijgevoegd niet in woorden kan beschrijven, kan het ze wel aanpassen of gebruiken als inspiratie om nieuwe afbeeldingen te creëren.
Vanaf oktober 2023 begon OpenAI ook nieuwe spraak- en afbeeldingsfuncties in ChatGPT Plus, de betaalde versie van de tool, in te voeren. Ze maken het mogelijk om een spraakgesprek te voeren of ChatGPT een afbeelding te tonen, zodat het weet wat je vraagt zonder het in exacte woorden te hoeven beschrijven.
Bijvoorbeeld, je kunt een foto van een monument maken tijdens het reizen en een live gesprek hebben over wat er interessant aan is. Of maak een foto van de binnenkant van je koelkast om erachter te komen wat je kunt bereiden voor het avondeten met de beschikbare ingrediënten en vraag om een stapsgewijs recept.
3 toepassingen van Multimodale AI in het bedrijfsleven
Het beschrijven van afbeeldingen kan helpen, bijvoorbeeld om goedereninventaris op te stellen op basis van gegevens van CCTV-camera’s of om ontbrekende producten op winkelplanken te identificeren. Objectmanipulatie kan worden gebruikt om de ontbrekende goederen die in de vorige stap zijn geïdentificeerd aan te vullen. Maar hoe kunnen multimodale chatbots in het bedrijfsleven worden gebruikt? Hier zijn drie voorbeelden:
- Klantendienst: Een multimodale chat die in een online winkel is geïmplementeerd, kan dienen als een geavanceerde klantenservice-assistent die niet alleen tekstvragen beantwoordt, maar ook afbeeldingen en vragen die mondeling worden gesteld begrijpt. Bijvoorbeeld, een klant kan een foto van een beschadigd product maken en deze naar de chatbot sturen, die zal helpen het probleem te identificeren en een passende oplossing aan te bieden.
- Analyse van sociale media: Multimodale kunstmatige intelligentie kan sociale mediaberichten analyseren, die zowel tekst als afbeeldingen en zelfs video’s bevatten, om te begrijpen wat klanten zeggen over een bedrijf en zijn producten. Dit kan een bedrijf helpen om klantfeedback beter te begrijpen en sneller op hun behoeften te reageren.
- Training en Ontwikkeling: ChatGPT kan worden gebruikt om werknemers te trainen. Bijvoorbeeld, het kan interactieve trainingssessies houden die zowel tekst als afbeeldingen bevatten om werknemers te helpen complexe concepten beter te begrijpen.
De toekomst van multimodale AI in het bedrijfsleven
Een geweldig voorbeeld van vooruitstrevende multimodale AI is de optimalisatie van de bedrijfsprocessen van een bedrijf. Bijvoorbeeld, een AI-systeem zou gegevens uit verschillende bronnen kunnen analyseren, zoals verkoopgegevens, klantgegevens en gegevens van sociale media, om gebieden te identificeren die verbetering behoeven en mogelijke oplossingen voor te stellen.
Een ander voorbeeld is het inzetten van multimodale AI om logistiek te organiseren. Het combineren van GPS-gegevens, de status van het magazijn gelezen van een camera en leveringsgegevens om logistieke processen te optimaliseren en de kosten van het bedrijf te verlagen.
Veel van deze functionaliteiten worden vandaag de dag al toegepast in complexe systemen zoals autonome voertuigen en slimme steden. Echter, ze zijn nog niet op deze schaal in kleinere zakelijke contexten toegepast.
Samenvatting
Multimodaliteit, of het vermogen om meerdere soorten gegevens te verwerken, zoals tekst, afbeeldingen en audio, bevordert een dieper contextueel begrip en betere interactie tussen mensen en AI-systemen.
Een open vraag blijft, welke nieuwe combinaties van modaliteiten zouden er binnenkort kunnen bestaan? Bijvoorbeeld, zal het mogelijk zijn om tekstanalyses te combineren met lichaamstaal, zodat AI klantbehoeften kan anticiperen door hun gezichtsuitdrukkingen en gebaren te analyseren? Dit soort innovatie opent nieuwe horizonten voor bedrijven, waardoor ze kunnen voldoen aan de voortdurend veranderende klantverwachtingen.

Als je onze inhoud leuk vindt, sluit je dan aan bij onze drukke bijengemeenschap op Facebook, Twitter, LinkedIn, Instagram, YouTube, Pinterest, TikTok.
Robert Whitney
JavaScript-expert en instructeur die IT-afdelingen coacht. Zijn belangrijkste doel is om de productiviteit van het team te verhogen door anderen te leren hoe ze effectief kunnen samenwerken tijdens het coderen.
AI in business:
- 6 geweldige ChatGTP-plug-ins die je leven gemakkelijker zullen maken
- Navigeren door nieuwe zakelijke kansen met ChatGPT-4
- 3 geweldige AI-schrijvers die je vandaag moet uitproberen
- Synthetische acteurs. Top 3 AI video generators
- Wat zijn de zwakke punten van mijn zakelijke idee? Een brainstormsessie met ChatGPT
- ChatGPT in het bedrijfsleven gebruiken
- Nieuwe diensten en producten die met AI werken
- Geautomatiseerde sociale media berichten
- Het inplannen van sociale media berichten. Hoe kan AI helpen?
- De rol van AI in zakelijke besluitvorming
- Zakelijke NLP vandaag en morgen
- AI-ondersteunde tekstchatbots
- AI-toepassingen in het bedrijfsleven - overzicht
- Bedreigingen en kansen van AI in het bedrijfsleven (deel 2)
- Bedreigingen en kansen van AI in het bedrijfsleven (deel 1)
- Wat is de toekomst van AI volgens het McKinsey Global Institute?
- Kunstmatige intelligentie in het bedrijfsleven - Inleiding
- Wat is NLP, of natuurlijke taalverwerking in het bedrijfsleven
- Google Translate vs DeepL. 5 toepassingen van machinevertaling voor bedrijven
- Automatische documentverwerking
- De werking en zakelijke toepassingen van voicebots
- Virtuele assistent technologie, of hoe te praten met AI?
- Wat is Business Intelligence?
- Hoe kan kunstmatige intelligentie helpen bij BPM?
- Creatieve AI van vandaag en morgen
- Kunstmatige intelligentie in contentbeheer
- De kracht van AI in muziekcreatie verkennen
- 3 nuttige AI grafisch ontwerptools. Generatieve AI in het bedrijfsleven
- AI en sociale media - wat zeggen ze over ons?
- Zal kunstmatige intelligentie bedrijfsanalisten vervangen?
- AI-tools voor de manager
- De toekomstige arbeidsmarkt en opkomende beroepen
- RPA en API's in een digitaal bedrijf
- Nieuwe interacties. Hoe verandert AI de manier waarop we apparaten bedienen?
- Multimodale AI en de toepassingen ervan in het bedrijfsleven
- Kunstmatige intelligentie en het milieu. 3 AI-oplossingen om je te helpen een duurzaam bedrijf op te bouwen.
- AI-inhoudsdetectoren. Zijn ze het waard?
- ChatGPT vs Bard vs Bing. Welke AI-chatbot leidt de race?
- Is chatbot AI een concurrent van Google zoekopdracht?
- Effectieve ChatGPT-prompts voor HR en Werving
- Prompt engineering. Wat doet een prompt engineer?
- AI en wat nog meer? Toptechnologietrends voor bedrijven in 2024
- AI en bedrijfsethiek. Waarom je zou moeten investeren in ethische oplossingen
- Meta AI. Wat moet je weten over de door AI ondersteunde functies van Facebook en Instagram?
- AI-regulering. Wat moet je weten als ondernemer?
- 5 nieuwe toepassingen van AI in het bedrijfsleven
- AI-producten en -projecten - hoe verschillen ze van andere?
- AI als een expert in jouw team
- AI-team vs. rolverdeling
- Hoe kies je een carrièreveld in AI?
- AI in HR: Hoe wervingsautomatisering HR en teamontwikkeling beïnvloedt
- AI-ondersteunde procesautomatisering. Waar te beginnen?
- 6 meest interessante AI-tools in 2023
- Wat is de AI-maturiteitsanalyse van het bedrijf?
- AI voor B2B-personalisatie
- ChatGPT-toepassingen. 18 voorbeelden van hoe je je bedrijf in 2024 kunt verbeteren met ChatGPT
- AI Mockup-generator. Top 4 tools
- Microlearning. Een snelle manier om nieuwe vaardigheden te leren
- De meest interessante AI-implementaties in bedrijven in 2024
- Welke uitdagingen brengt het AI-project met zich mee?
- Top 8 AI-tools voor bedrijven in 2024
- AI in CRM. Wat verandert AI in CRM-tools?
- De EU AI-wet. Hoe reguleert Europa het gebruik van kunstmatige intelligentie
- Top 7 AI websitebouwers
- No-code tools en AI-innovaties
- Hoeveel verhoogt het gebruik van AI de productiviteit van je team?
- Hoe ChatGTP te gebruiken voor marktonderzoek?
- Hoe de reikwijdte van je AI-marketingcampagne te verbreden?
- AI in transport en logistiek
- Welke zakelijke pijnpunten kan AI oplossen?
- Hoe koppel je een AI-oplossing aan een zakelijk probleem?
- Kunstmatige intelligentie in de media
- AI in bankieren en financiën. Stripe, Monzo en Grab
- AI in de reisindustrie
- Hoe AI de geboorte van nieuwe technologieën bevordert
- AI in e-commerce. Overzicht van wereldwijde leiders
- Top 4 AI afbeeldingscreatietools
- Top 5 AI-tools voor data-analyse
- De revolutie van AI in sociale media
- Is het altijd de moeite waard om kunstmatige intelligentie toe te voegen aan het productontwikkelingsproces?
- 6 grootste zakelijke blunders veroorzaakt door AI
- AI-strategie in uw bedrijf - hoe bouw je het op?
- Beste AI-cursussen – 6 geweldige aanbevelingen
- Social media luisteren optimaliseren met AI-tools
- IoT + AI, of hoe energie kosten in een bedrijf te verlagen
- AI in logistiek. 5 beste tools
- GPT Store – een overzicht van de meest interessante GPT's voor bedrijven
- LLM, GPT, RAG... Wat betekenen AI-acroniemen?
- AI-robots – de toekomst of het heden van het bedrijfsleven?
- Wat zijn de kosten van het implementeren van AI in een bedrijf?
- Wat doen specialisten in kunstmatige intelligentie?
- Hoe kan AI helpen in de carrière van een freelancer?
- Automatiseren van werk en het verhogen van de productiviteit. Een gids voor AI voor freelancers
- AI voor startups – beste tools
- Een website bouwen met AI
- Elf Labs en wat nog meer? De meest veelbelovende AI-startups
- OpenAI, Midjourney, Anthropic, Hugging Face. Wie is wie in de wereld van AI?
- Synthetische gegevens en het belang ervan voor de ontwikkeling van uw bedrijf
- Top AI-zoekmachines. Waar te zoeken naar AI-tools?
- Video AI. De nieuwste AI video generators
- AI voor managers. Hoe AI je werk gemakkelijker kan maken
- Wat is er nieuw in Google Gemini? Alles wat je moet weten
- AI in Polen. Bedrijven, vergaderingen en conferenties
- AI-kalender. Hoe optimaliseer je je tijd in een bedrijf?
- AI en de toekomst van werk. Hoe bereidt u uw bedrijf voor op verandering?
- AI-stemklonen voor bedrijven. Hoe maak je gepersonaliseerde stemberichten met AI?
- "We zijn allemaal ontwikkelaars". Hoe kunnen burgerontwikkelaars uw bedrijf helpen?
- Feitencontrole en AI-hallucinaties
- AI in werving – wervingsmaterialen stap voor stap ontwikkelen
- Sora. Hoe zullen realistische video's van OpenAI het bedrijfsleven veranderen?
- Midjourney v6. Innovaties in AI-beeldgeneratie
- AI in MKB's. Hoe kunnen MKB's concurreren met giganten met behulp van AI?
- Hoe verandert AI influencer marketing?
- Is AI echt een bedreiging voor ontwikkelaars? Devin en Microsoft AutoDev
- Beste AI-chatbots voor e-commerce. Platforms
- AI-chatbots voor e-commerce. Casestudy's
- Hoe blijf je op de hoogte van wat er gaande is in de AI-wereld?
- AI temmen. Hoe de eerste stappen te zetten om AI in uw bedrijf toe te passen?
- Perplexity, Bing Copilot of You.com? Vergelijking van AI-zoekmachines
- AI-experts in Polen
- ReALM. Een baanbrekend taalmodel van Apple?
- Google Genie — een generatief AI-model dat volledig interactieve werelden uit afbeeldingen creëert
- Automatisering of augmentatie? Twee benaderingen van AI in een bedrijf
- LLMOps, of hoe taalmodellen effectief te beheren in een organisatie
- AI-video generatie. Nieuwe horizonten in videoinhoudproductie voor bedrijven
- Beste AI-transcriptietools. Hoe lange opnames om te zetten in beknopte samenvattingen?
- Sentimentanalyse met AI. Hoe helpt het veranderingen in bedrijven te stimuleren?
- De rol van AI in contentmoderatie