ReALM staat voor “Reference Resolution As Language Modeling,” een baanbrekende oplossing ontwikkeld door Apple-onderzoekers. Het is dus een nieuw taalmodel (Large Language Model, LLM) dat het probleem van referentieherkenning behandelt als een taak op het gebied van taalmodellering.
ReALM zet effectief verschillende soorten context om in een tekstuele representatie, die het vervolgens verwerkt als onderdeel van een taaltaak. Dit kan onder andere omvatten:
Wat maakt ReALM anders dan andere modellen voor referentieherkenning? Ten eerste de aanpak – in plaats van afhankelijk te zijn van beeldverwerking, draait ReALM in het tekstdomein. Dit maakt het veel lichter en efficiënter, wat zou moeten toelaten dat het direct op mobiele apparaten draait terwijl de privacy van de gebruiker behouden blijft.
Het onderzoeksteam van Apple vergeleek ReALM met de krachtigste taalmodellen op de markt vandaag – GPT-3.5 en GPT-4 van OpenAI. De resultaten waren indrukwekkend. In taken voor referentieherkenning bereikte de kleinste variant van ReALM een nauwkeurigheid die vergelijkbaar was met GPT-4! De grotere ReALM-modellen presteerden zelfs beter dan GPT-4 in het herkennen van referenties naar items die op het scherm worden weergegeven (http://arxiv.org/abs/2403.20329).
Wat verklaart dit voordeel? Ten eerste is ReALM geweldig met domeinspecifieke vragen, zoals die met betrekking tot slimme apparaten voor in huis. Dit komt omdat ReALM een dieper begrip van context demonstreert door het model te verfijnen voor domeinspecifieke gegevens.
Bovendien, in tegenstelling tot GPT-4, dat voornamelijk traint op afbeeldingen van echte objecten, blinkt ReALM uit in het herkennen van tekstuele elementen en componenten van gebruikersinterfaces van applicaties. En het is het begrip van interfaces dat cruciaal is voor de soepele interactie van spraakassistenten met de applicaties die we vandaag de dag gebruiken.
Bron: DALL·E 3, prompt: Marta M. Kania (https://www.linkedin.com/in/martamatyldakania/)
Inderdaad, de integratie van ReALM met Siri zou een geheel nieuw hoofdstuk in de interactie tussen mens en computer kunnen openen. Met ReALM zal Siri in staat zijn om commando’s te begrijpen die verwijzingen naar items op het smartphone-scherm bevatten, evenals processen en applicaties die op de achtergrond draaien. Maar wanneer zal deze optie beschikbaar zijn voor gebruikers? Dat is nog onbekend.
We blijven achter met speculatie op basis van de technische mogelijkheden van het model. Hoe zou een Siri die op ReALM draait kunnen werken? Bijvoorbeeld, als je een zakelijke lijstwebsite doorzoekt en een bedrijf ziet dat je interesseert, zou je gewoon tegen Siri kunnen zeggen: “Bel dit bedrijf,” en de assistent – die ReALM gebruikt om de context te analyseren – zal het telefoonnummer van het door jou opgegeven bedrijf vinden en het gesprek starten. Je hoeft niet eens precies uit te leggen welk bedrijf je bedoelt.
A en dit is pas het begin van de mogelijkheden van ReALM. Opdrachten zoals “Speel de laatste afspeellijst af” zouden intuïtieve controle over multimedia-applicaties en slimme apparaten mogelijk maken. ReALM zou ook Siri kunnen helpen om de context van gesprekken en de geschiedenis van opdrachten te begrijpen, zodat de assistent adequaat reageert op eerdere verzoeken van de gebruiker. Dit is een stap in de richting van intelligente agenten die ons dichter bij een kunstmatige intelligentie brengt die niet alleen onze verzoeken begrijpt, maar ook weet hoe ze opdrachten moet uitvoeren.
En dit is nog maar het begin van wat ReALM kan doen. Opdrachten zoals “speel de laatste afspeellijst af” zouden intuïtieve controle over media-applicaties en slimme apparaten mogelijk maken. ReALM zou ook Siri kunnen helpen om de context van gesprekken en de geschiedenis van opdrachten te begrijpen, zodat de assistent adequaat reageert op eerdere verzoeken van de gebruiker. Dit is een stap in de richting van intelligente agenten, die ons dichter bij een kunstmatige intelligentie brengt die niet alleen onze verzoeken begrijpt, maar ook weet hoe ze opdrachten moet uitvoeren.
Helaas moeten gebruikers van Android-apparaten wachten. Momenteel is er geen informatie over de plannen van Google om de mogelijkheden van Gemini toe te voegen aan Google Assistant. Een Google Gemini-app voor Android-apparaten is ontwikkeld (https://play.google.com/store/apps/details?id=com.google.android.apps.bard&hl=en_US), maar deze is nog niet beschikbaar buiten de Verenigde Staten.
Bron: Google Play (https://play.google.com/store/apps/details?id=com.google.android.apps.bard&hl=en_US)
ReALM is Apple’s innovatieve benadering van het oplossen van het probleem van contextherkenning door spraakassistenten. In plaats van afhankelijk te zijn van beeldverwerking, zet dit taalmodel verschillende soorten context om in een tekstuele representatie, die het vervolgens verwerkt in een taaltaak. Deze aanpak zorgt niet alleen voor een hoge herkenningsnauwkeurigheid, maar ook voor de mogelijkheid om op een mobiel apparaat te functioneren terwijl de privacy van de gebruiker behouden blijft.
Het geven van toegang aan Siri tot ReALM kan zorgen voor natuurlijkere en contextuele spraakinteracties, een belangrijke stap richting echt intelligente assistenten. Met ReALM zal Siri in staat zijn om onmiddellijk te reageren op commando’s die verband houden met schermitems, applicaties en achtergrondprocessen. Eén ding is zeker – het verbeteren van het contextueel bewustzijn van assistenten is de sleutel tot het creëren van echt intelligente en natuurlijke spraakinteracties, en ReALM is ongetwijfeld een belangrijke stap in die richting.
Als je onze inhoud leuk vindt, sluit je dan aan bij onze drukke bijencommunity op Facebook, Twitter, LinkedIn, Instagram, YouTube, Pinterest, TikTok.
JavaScript-expert en instructeur die IT-afdelingen coacht. Zijn belangrijkste doel is om de productiviteit van het team te verhogen door anderen te leren hoe ze effectief kunnen samenwerken tijdens het coderen.
Bedrijven worstelen met het beheren van een enorme hoeveelheid content die online wordt gepubliceerd, van…
In het tijdperk van digitale transformatie hebben bedrijven toegang tot een ongekende hoeveelheid gegevens over…
Wist je dat je de essentie van een meerdaagse opname van een vergadering of gesprek…
Stel je een wereld voor waarin jouw bedrijf boeiende, gepersonaliseerde video's kan maken voor elke…
Om het potentieel van Large Language Models (LLM's) volledig te benutten, moeten bedrijven een effectieve…
In 2018 was Unilever al begonnen aan een bewuste reis om automatisering en augmentatie in…