Was ist ReALM?

ReALM steht für “Reference Resolution As Language Modeling”, eine bahnbrechende Lösung, die von Apple-Forschern entwickelt wurde. Es handelt sich somit um ein neues Sprachmodell (Large Language Model, LLM), das das Problem der Referenzkennung als Aufgabe im Bereich des Sprachmodells behandelt.

ReALM wandelt effektiv verschiedene Arten von Kontext in eine textuelle Darstellung um, die es dann als Teil einer Sprachaufgabe verarbeitet. Dies kann Folgendes umfassen:

  • Gespräche – wie Textnachrichten, Sprachbefehle an einen Assistenten oder E-Mails,
  • Elemente auf dem Bildschirm – zum Beispiel Fotos, Kalender, Wetter-Widget oder Anwendungen und Prozesse, die im Hintergrund laufen.

Was macht ReALM anders als andere Modelle zur Referenzkennung? Zunächst der Ansatz – anstatt sich auf die Bildverarbeitung zu verlassen, arbeitet ReALM im Textbereich. Dies macht es viel leichter und effizienter, was es ermöglichen sollte, direkt auf mobilen Geräten zu laufen und dabei die Privatsphäre der Nutzer zu wahren.

Inwiefern ist ReALM besser als GPT-4?

Das Forschungsteam von Apple verglich ReALM mit den leistungsstärksten Sprachmodellen auf dem Markt heute – GPT-3.5 und GPT-4 von OpenAI. Die Ergebnisse waren beeindruckend. Bei Aufgaben zur Referenzkennung erzielte die kleinste ReALM-Variante eine Genauigkeit, die mit GPT-4 vergleichbar ist! Die größeren ReALM-Modelle übertrafen sogar GPT-4 bei der Erkennung von Referenzen auf dem Bildschirm (http://arxiv.org/abs/2403.20329).

Was erklärt diesen Vorteil? Zunächst ist ReALM großartig bei domänenspezifischen Anfragen, wie etwa zu Smart-Home-Geräten. Das liegt daran, dass ReALM ein tieferes Verständnis des Kontexts zeigt, indem es das Modell für domänenspezifische Daten feinabstimmt.

Darüber hinaus, im Gegensatz zu GPT-4, das hauptsächlich mit Bildern realer Objekte trainiert, glänzt ReALM bei der Erkennung textueller Elemente und Komponenten von Benutzeroberflächen von Anwendungen. Und das Verständnis der Benutzeroberfläche ist entscheidend für die reibungslose Interaktion von Sprachassistenten mit den Anwendungen, die wir heute nutzen.

ReALM

Quelle: DALL·E 3, Eingabeaufforderung: Marta M. Kania (https://www.linkedin.com/in/martamatyldakania/)

Ist dies der Beginn einer Ära wirklich intelligenter Assistenten?

Tatsächlich könnte die Integration von ReALM mit Siri ein ganz neues Kapitel in der Mensch-Computer-Interaktion eröffnen. Mit ReALM wird Siri in der Lage sein, Befehle zu verstehen, die Referenzen zu auf dem Smartphone-Bildschirm angezeigten Elementen sowie zu Prozessen und Anwendungen, die im Hintergrund laufen, enthalten. Aber wann wird diese Option den Nutzern zur Verfügung stehen? Das ist noch unbekannt.

Wir sind auf Spekulationen angewiesen, die auf den technischen Möglichkeiten des Modells basieren. Wie könnte also ein von ReALM unterstützter Siri funktionieren? Zum Beispiel, wenn Sie eine Website mit Unternehmensverzeichnissen durchsuchen und ein Unternehmen sehen, das Sie interessiert, könnten Sie einfach zu Siri sagen: “Ruf dieses Unternehmen an”, und der Assistent – der ReALM zur Analyse des Kontexts verwendet – findet die Telefonnummer des von Ihnen angegebenen Unternehmens und initiiert den Anruf. Sie müssen nicht einmal genau erklären, welches Unternehmen Sie meinen.

Und das ist erst der Anfang der Möglichkeiten von ReALM. Befehle wie „Spiele die letzte Playlist ab“ würden eine intuitive Steuerung von Multimedia-Anwendungen und Smart-Home-Geräten ermöglichen. ReALM könnte auch Siri ermöglichen, den Kontext von Gesprächen und die Historie der Befehle zu verstehen, sodass der Assistent angemessen auf frühere Anfragen des Nutzers reagiert. Dies ist ein Schritt in Richtung intelligenter Agenten, der uns näher zu einer künstlichen Intelligenz bringt, die nicht nur unsere Anfragen versteht, sondern auch weiß, wie man Befehle ausführt.

Und das ist nur der Anfang dessen, was ReALM leisten kann. Befehle wie “spiele die letzte Playlist” würden eine intuitive Steuerung von Medienanwendungen und Smart-Home-Geräten ermöglichen. ReALM könnte auch Siri ermöglichen, den Kontext von Gesprächen und der Befehlsgeschichte zu verstehen, sodass der Assistent angemessen auf die vorherigen Anfragen des Nutzers reagiert. Dies ist ein Schritt in Richtung intelligenter Agenten, der uns näher zu einer künstlichen Intelligenz bringt, die nicht nur unsere Anfragen versteht, sondern auch weiß, wie man Befehle ausführt.

Leider müssen Nutzer von Android-Geräten warten. Derzeit gibt es keine Informationen über Googles Pläne, die Fähigkeiten von Gemini in den Google Assistant zu integrieren. Eine Google Gemini-App für Android-Geräte wurde entwickelt (https://play.google.com/store/apps/details?id=com.google.android.apps.bard&hl=en_US), ist aber außerhalb der Vereinigten Staaten noch nicht verfügbar.

ReALM

Quelle: Google Play (https://play.google.com/store/apps/details?id=com.google.android.apps.bard&hl=en_US)

Zusammenfassung

ReALM ist Apples innovativer Ansatz zur Lösung des Problems der Kontextkennung durch Sprachassistenten. Anstatt sich auf die Bildverarbeitung zu verlassen, wandelt dieses Sprachmodell verschiedene Arten von Kontext in eine textuelle Darstellung um, die es dann in einer Sprachaufgabe verarbeitet. Dieser Ansatz gewährleistet nicht nur eine hohe Erkennungsgenauigkeit, sondern auch die Fähigkeit, auf einem mobilen Gerät zu arbeiten und dabei die Privatsphäre der Nutzer zu wahren.

Wenn Siri Zugang zu ReALM erhält, kann dies natürlichere und kontextbezogene Sprachinteraktionen ermöglichen, einen wichtigen Schritt in Richtung wirklich intelligenter Assistenten. Mit ReALM wird Siri in der Lage sein, sofort auf Befehle zu reagieren, die sich auf Bildschirmobjekte, Anwendungen und Hintergrundprozesse beziehen. Eines ist sicher – die Verbesserung des kontextuellen Bewusstseins von Assistenten ist der Schlüssel zur Schaffung wirklich intelligenter und natürlicher Sprachinteraktionen, und ReALM ist zweifellos ein wichtiger Schritt in diese Richtung.

ReALM

Wenn Ihnen unsere Inhalte gefallen, treten Sie unserer aktiven Community auf Facebook, Twitter, LinkedIn, Instagram, YouTube, Pinterest, TikTok.

Robert Whitney

JavaScript-Experte und Dozent, der IT-Abteilungen schult. Sein Hauptziel ist es, die Produktivität des Teams zu steigern, indem er anderen beibringt, wie man effektiv beim Programmieren zusammenarbeitet.

View all posts →

AI in business:

  1. 6 großartige ChatGTP-Plugins, die dein Leben einfacher machen werden
  2. Neue Geschäftsmöglichkeiten mit ChatGPT-4 erkunden
  3. 3 großartige KI-Autoren, die du heute ausprobieren musst
  4. Synthetische Schauspieler. Die Top 3 KI-Video-Generatoren
  5. Was sind die Schwächen meiner Geschäftsidee? Eine Brainstorming-Sitzung mit ChatGPT
  6. ChatGPT im Geschäftsleben verwenden
  7. Neue Dienstleistungen und Produkte, die mit KI arbeiten
  8. Automatisierte Social-Media-Beiträge
  9. Planung von Social-Media-Beiträgen. Wie kann KI helfen?
  10. Die Rolle von KI bei der Entscheidungsfindung in Unternehmen
  11. Geschäfts-NLP heute und morgen
  12. KI-unterstützte Text-Chatbots
  13. KI-Anwendungen im Geschäftsbereich - Übersicht
  14. Bedrohungen und Chancen von KI im Geschäftsleben (Teil 2)
  15. Bedrohungen und Chancen von KI im Geschäftsleben (Teil 1)
  16. Was ist die Zukunft der KI laut dem McKinsey Global Institute?
  17. Künstliche Intelligenz im Geschäftsleben - Einführung
  18. Was ist NLP, oder natürliche Sprachverarbeitung im Geschäft?
  19. Google Translate vs DeepL. 5 Anwendungen der maschinellen Übersetzung für Unternehmen
  20. Automatische Dokumentenverarbeitung
  21. Die Betrieb und Geschäftsanwendungen von Voicebots
  22. Virtuelle Assistententechnologie, oder wie man mit KI spricht?
  23. Was ist Business Intelligence?
  24. Wie kann künstliche Intelligenz bei BPM helfen?
  25. Kreative KI von heute und morgen
  26. Künstliche Intelligenz im Content-Management
  27. Die Erkundung der Kraft von KI in der Musikproduktion
  28. 3 nützliche KI-Grafikdesign-Tools. Generative KI im Geschäft
  29. KI und soziale Medien – was sagen sie über uns?
  30. Wird künstliche Intelligenz Geschäftsanalysten ersetzen?
  31. KI-Tools für den Manager
  32. Der zukünftige Arbeitsmarkt und kommende Berufe
  33. RPA und APIs in einem digitalen Unternehmen
  34. Neue Interaktionen. Wie verändert KI die Art und Weise, wie wir Geräte bedienen?
  35. Multimodale KI und ihre Anwendungen im Geschäftsbereich
  36. Künstliche Intelligenz und die Umwelt. 3 KI-Lösungen, die Ihnen helfen, ein nachhaltiges Unternehmen aufzubauen.
  37. KI-Inhaltsdetektoren. Sind sie es wert?
  38. ChatGPT vs Bard vs Bing. Welcher KI-Chatbot führt das Rennen an?
  39. Ist Chatbot-KI ein Konkurrent von Google-Suche?
  40. Effektive ChatGPT-Eingabeaufforderungen für HR und Rekrutierung
  41. Prompt-Engineering. Was macht ein Prompt-Ingenieur?
  42. KI und was noch? Top-Technologietrends für Unternehmen im Jahr 2024
  43. KI und Unternehmensethik. Warum Sie in ethische Lösungen investieren sollten
  44. Meta AI. Was sollten Sie über die KI-unterstützten Funktionen von Facebook und Instagram wissen?
  45. KI-Regulierung. Was müssen Sie als Unternehmer wissen?
  46. 5 neue Anwendungen von KI im Geschäftsleben
  47. KI-Produkte und -Projekte - wie unterscheiden sie sich von anderen?
  48. KI als Experte in Ihrem Team
  49. KI-Team vs. Rollenverteilung
  50. Wie wählt man ein Berufsfeld im Bereich KI aus?
  51. KI im Personalwesen: Wie die Automatisierung der Rekrutierung das Personalwesen und die Teamentwicklung beeinflusst
  52. KI-unterstützte Prozessautomatisierung. Wo anfangen?
  53. 6 interessanteste KI-Tools im Jahr 2023
  54. Was ist die KI-Reifegradanalyse des Unternehmens?
  55. KI für B2B-Personalisierung
  56. ChatGPT-Anwendungsfälle. 18 Beispiele, wie Sie Ihr Geschäft im Jahr 2024 mit ChatGPT verbessern können.
  57. AI-Mockup-Generator. Die 4 besten Tools
  58. Mikrolernen. Eine schnelle Möglichkeit, neue Fähigkeiten zu erwerben.
  59. Die interessantesten KI-Implementierungen in Unternehmen im Jahr 2024
  60. Welche Herausforderungen bringt das KI-Projekt mit sich?
  61. Die besten 8 KI-Tools für Unternehmen im Jahr 2024
  62. KI im CRM. Was ändert sich durch KI in CRM-Tools?
  63. Das EU-KI-Gesetz. Wie reguliert Europa die Nutzung von künstlicher Intelligenz
  64. Die 7 besten KI-Website-Builder
  65. No-Code-Tools und KI-Innovationen
  66. Wie sehr steigert die Nutzung von KI die Produktivität Ihres Teams?
  67. Wie man ChatGTP für Marktforschung nutzt?
  68. Wie kann man die Reichweite seiner KI-Marketingkampagne erweitern?
  69. KI im Transport und in der Logistik
  70. Welche geschäftlichen Schmerzpunkte kann KI beheben?
  71. Wie passt man eine KI-Lösung an ein Geschäftsproblem an?
  72. Künstliche Intelligenz in den Medien
  73. KI im Bankwesen und Finanzwesen. Stripe, Monzo und Grab
  74. KI in der Reisebranche
  75. Wie KI die Entstehung neuer Technologien fördert
  76. KI im E-Commerce. Überblick über globale Marktführer
  77. Die besten 4 KI-Bildgenerierungstools
  78. Die Top 5 KI-Tools für Datenanalyse
  79. Die Revolution der KI in sozialen Medien
  80. Lohnt es sich immer, künstliche Intelligenz in den Produktentwicklungsprozess einzufügen?
  81. 6 größte Geschäftsfehler, die durch KI verursacht wurden
  82. KI-Strategie in Ihrem Unternehmen - wie baut man sie auf?
  83. Beste KI-Kurse – 6 großartige Empfehlungen
  84. Optimierung des Social-Media-Listening mit KI-Tools
  85. IoT + KI, oder wie man die Energiekosten in einem Unternehmen senken kann
  86. KI in der Logistik. 5 beste Werkzeuge
  87. GPT Store – eine Übersicht über die interessantesten GPTs für Unternehmen
  88. LLM, GPT, RAG... Was bedeuten die Abkürzungen der KI?
  89. KI-Roboter – die Zukunft oder die Gegenwart der Wirtschaft?
  90. Was sind die Kosten für die Implementierung von KI in einem Unternehmen?
  91. Was machen Spezialisten für künstliche Intelligenz?
  92. Wie kann KI in der Karriere eines Freelancers helfen?
  93. Automatisierung von Arbeit und Steigerung der Produktivität. Ein Leitfaden für KI für Freiberufler
  94. KI für Startups – beste Werkzeuge
  95. Eine Website mit KI erstellen
  96. Elf Labs und was noch? Die vielversprechendsten KI-Startups
  97. OpenAI, Midjourney, Anthropic, Hugging Face. Wer ist wer in der Welt der KI?
  98. Synthetische Daten und ihre Bedeutung für die Entwicklung Ihres Unternehmens
  99. Top-AI-Suchmaschinen. Wo man nach KI-Tools suchen kann?
  100. Video-KI. Die neuesten KI-Video-Generatoren
  101. KI für Manager. Wie KI Ihre Arbeit erleichtern kann
  102. Was gibt es Neues bei Google Gemini? Alles, was Sie wissen müssen
  103. KI in Polen. Unternehmen, Treffen und Konferenzen
  104. KI-Kalender. Wie optimieren Sie Ihre Zeit in einem Unternehmen?
  105. KI und die Zukunft der Arbeit. Wie bereiten Sie Ihr Unternehmen auf Veränderungen vor?
  106. KI-Stimmenklonierung für Unternehmen. Wie erstellt man personalisierte Sprachnachrichten mit KI?
  107. "Wir sind alle Entwickler". Wie können Bürgerentwickler Ihrem Unternehmen helfen?
  108. Faktenprüfung und KI-Halluzinationen
  109. KI im Recruiting – Entwicklung von Rekrutierungsmaterialien Schritt für Schritt
  110. Sora. Wie werden realistische Videos von OpenAI das Geschäft verändern?
  111. Midjourney v6. Innovationen in der KI-Bilderzeugung
  112. KI in KMU. Wie können KMU mit Riesen mithilfe von KI konkurrieren?
  113. Wie verändert KI das Influencer-Marketing?
  114. Ist KI wirklich eine Bedrohung für Entwickler? Devin und Microsoft AutoDev
  115. Beste KI-Chatbots für E-Commerce. Plattformen
  116. KI-Chatbots für E-Commerce. Fallstudien
  117. Wie bleibt man auf dem Laufenden über das, was in der KI-Welt passiert?
  118. KI zähmen. Wie man die ersten Schritte unternimmt, um KI in seinem Unternehmen anzuwenden?
  119. Perplexity, Bing Copilot oder You.com? Vergleich von KI-Suchmaschinen
  120. KI-Experten in Polen
  121. ReALM. Ein bahnbrechendes Sprachmodell von Apple?
  122. Google Genie — ein generatives KI-Modell, das vollständig interaktive Welten aus Bildern erstellt
  123. Automatisierung oder Augmentierung? Zwei Ansätze zur KI in einem Unternehmen
  124. LLMOps, oder wie man Sprachmodelle effektiv in einer Organisation verwaltet
  125. KI-Videoerstellung. Neue Horizonte in der Videoinhaltsproduktion für Unternehmen
  126. Beste KI-Transkriptionstools. Wie verwandelt man lange Aufnahmen in prägnante Zusammenfassungen?
  127. Sentiment-Analyse mit KI. Wie hilft sie, Veränderungen im Geschäft voranzutreiben?
  128. Die Rolle von KI in der Inhaltsmoderation