ReALM steht für “Reference Resolution As Language Modeling”, eine bahnbrechende Lösung, die von Apple-Forschern entwickelt wurde. Es handelt sich somit um ein neues Sprachmodell (Large Language Model, LLM), das das Problem der Referenzkennung als Aufgabe im Bereich des Sprachmodells behandelt.
ReALM wandelt effektiv verschiedene Arten von Kontext in eine textuelle Darstellung um, die es dann als Teil einer Sprachaufgabe verarbeitet. Dies kann Folgendes umfassen:
Was macht ReALM anders als andere Modelle zur Referenzkennung? Zunächst der Ansatz – anstatt sich auf die Bildverarbeitung zu verlassen, arbeitet ReALM im Textbereich. Dies macht es viel leichter und effizienter, was es ermöglichen sollte, direkt auf mobilen Geräten zu laufen und dabei die Privatsphäre der Nutzer zu wahren.
Das Forschungsteam von Apple verglich ReALM mit den leistungsstärksten Sprachmodellen auf dem Markt heute – GPT-3.5 und GPT-4 von OpenAI. Die Ergebnisse waren beeindruckend. Bei Aufgaben zur Referenzkennung erzielte die kleinste ReALM-Variante eine Genauigkeit, die mit GPT-4 vergleichbar ist! Die größeren ReALM-Modelle übertrafen sogar GPT-4 bei der Erkennung von Referenzen auf dem Bildschirm (http://arxiv.org/abs/2403.20329).
Was erklärt diesen Vorteil? Zunächst ist ReALM großartig bei domänenspezifischen Anfragen, wie etwa zu Smart-Home-Geräten. Das liegt daran, dass ReALM ein tieferes Verständnis des Kontexts zeigt, indem es das Modell für domänenspezifische Daten feinabstimmt.
Darüber hinaus, im Gegensatz zu GPT-4, das hauptsächlich mit Bildern realer Objekte trainiert, glänzt ReALM bei der Erkennung textueller Elemente und Komponenten von Benutzeroberflächen von Anwendungen. Und das Verständnis der Benutzeroberfläche ist entscheidend für die reibungslose Interaktion von Sprachassistenten mit den Anwendungen, die wir heute nutzen.
Quelle: DALL·E 3, Eingabeaufforderung: Marta M. Kania (https://www.linkedin.com/in/martamatyldakania/)
Tatsächlich könnte die Integration von ReALM mit Siri ein ganz neues Kapitel in der Mensch-Computer-Interaktion eröffnen. Mit ReALM wird Siri in der Lage sein, Befehle zu verstehen, die Referenzen zu auf dem Smartphone-Bildschirm angezeigten Elementen sowie zu Prozessen und Anwendungen, die im Hintergrund laufen, enthalten. Aber wann wird diese Option den Nutzern zur Verfügung stehen? Das ist noch unbekannt.
Wir sind auf Spekulationen angewiesen, die auf den technischen Möglichkeiten des Modells basieren. Wie könnte also ein von ReALM unterstützter Siri funktionieren? Zum Beispiel, wenn Sie eine Website mit Unternehmensverzeichnissen durchsuchen und ein Unternehmen sehen, das Sie interessiert, könnten Sie einfach zu Siri sagen: “Ruf dieses Unternehmen an”, und der Assistent – der ReALM zur Analyse des Kontexts verwendet – findet die Telefonnummer des von Ihnen angegebenen Unternehmens und initiiert den Anruf. Sie müssen nicht einmal genau erklären, welches Unternehmen Sie meinen.
Und das ist erst der Anfang der Möglichkeiten von ReALM. Befehle wie „Spiele die letzte Playlist ab“ würden eine intuitive Steuerung von Multimedia-Anwendungen und Smart-Home-Geräten ermöglichen. ReALM könnte auch Siri ermöglichen, den Kontext von Gesprächen und die Historie der Befehle zu verstehen, sodass der Assistent angemessen auf frühere Anfragen des Nutzers reagiert. Dies ist ein Schritt in Richtung intelligenter Agenten, der uns näher zu einer künstlichen Intelligenz bringt, die nicht nur unsere Anfragen versteht, sondern auch weiß, wie man Befehle ausführt.
Und das ist nur der Anfang dessen, was ReALM leisten kann. Befehle wie “spiele die letzte Playlist” würden eine intuitive Steuerung von Medienanwendungen und Smart-Home-Geräten ermöglichen. ReALM könnte auch Siri ermöglichen, den Kontext von Gesprächen und der Befehlsgeschichte zu verstehen, sodass der Assistent angemessen auf die vorherigen Anfragen des Nutzers reagiert. Dies ist ein Schritt in Richtung intelligenter Agenten, der uns näher zu einer künstlichen Intelligenz bringt, die nicht nur unsere Anfragen versteht, sondern auch weiß, wie man Befehle ausführt.
Leider müssen Nutzer von Android-Geräten warten. Derzeit gibt es keine Informationen über Googles Pläne, die Fähigkeiten von Gemini in den Google Assistant zu integrieren. Eine Google Gemini-App für Android-Geräte wurde entwickelt (https://play.google.com/store/apps/details?id=com.google.android.apps.bard&hl=en_US), ist aber außerhalb der Vereinigten Staaten noch nicht verfügbar.
Quelle: Google Play (https://play.google.com/store/apps/details?id=com.google.android.apps.bard&hl=en_US)
ReALM ist Apples innovativer Ansatz zur Lösung des Problems der Kontextkennung durch Sprachassistenten. Anstatt sich auf die Bildverarbeitung zu verlassen, wandelt dieses Sprachmodell verschiedene Arten von Kontext in eine textuelle Darstellung um, die es dann in einer Sprachaufgabe verarbeitet. Dieser Ansatz gewährleistet nicht nur eine hohe Erkennungsgenauigkeit, sondern auch die Fähigkeit, auf einem mobilen Gerät zu arbeiten und dabei die Privatsphäre der Nutzer zu wahren.
Wenn Siri Zugang zu ReALM erhält, kann dies natürlichere und kontextbezogene Sprachinteraktionen ermöglichen, einen wichtigen Schritt in Richtung wirklich intelligenter Assistenten. Mit ReALM wird Siri in der Lage sein, sofort auf Befehle zu reagieren, die sich auf Bildschirmobjekte, Anwendungen und Hintergrundprozesse beziehen. Eines ist sicher – die Verbesserung des kontextuellen Bewusstseins von Assistenten ist der Schlüssel zur Schaffung wirklich intelligenter und natürlicher Sprachinteraktionen, und ReALM ist zweifellos ein wichtiger Schritt in diese Richtung.
Wenn Ihnen unsere Inhalte gefallen, treten Sie unserer aktiven Community auf Facebook, Twitter, LinkedIn, Instagram, YouTube, Pinterest, TikTok.
JavaScript-Experte und Dozent, der IT-Abteilungen schult. Sein Hauptziel ist es, die Produktivität des Teams zu steigern, indem er anderen beibringt, wie man effektiv beim Programmieren zusammenarbeitet.
Unternehmen haben Schwierigkeiten, eine große Menge an Inhalten zu verwalten, die online veröffentlicht werden, von…
In der Ära der digitalen Transformation haben Unternehmen Zugang zu einer beispiellosen Menge an Daten…
Wussten Sie, dass Sie die Essenz einer mehrstündigen Aufnahme aus einem Meeting oder einem Gespräch…
Stellen Sie sich eine Welt vor, in der Ihr Unternehmen ansprechende, personalisierte Videos für jeden…
Um das Potenzial von großen Sprachmodellen (LLMs) vollständig auszuschöpfen, müssen Unternehmen einen effektiven Ansatz zur…
Im Jahr 2018 hatte Unilever bereits eine bewusste Reise begonnen, um Automatisierungs- und Erweiterungsfähigkeiten in…