Google Genie — ein generatives KI-Modell, das vollständig interaktive Welten aus Bildern erstellt | KI im Geschäft #123

Was ist Google Genie?

Google Genie (https://sites.google.com/view/genie-2024/) ist ein grundlegendes Weltmodell, das von DeepMind entwickelt wurde. Es handelt sich um ein generatives KI-Modell, das auf über 30.000 Stunden öffentlich verfügbarer 2D-Plattformspiel-Videomaterial trainiert wurde. Sein Hauptmerkmal ist die Fähigkeit, vollständig interaktive, spielbare Umgebungen direkt aus einzelnen Bildern, Fotos und sogar handgezeichneten Skizzen zu generieren.

Quelle: Genie: Generative Interactive Environments (https://arxiv.org/abs/2402.15391)

Wie ist das möglich? Genie verwendet eine unüberwachte Lerntechnik, um die Fähigkeit zu erwerben, die Umgebung ausschließlich auf der Grundlage von Videomaterial präzise zu steuern. Es sind keine menschlichen Aktionskennzeichnungen erforderlich. Mit einem speziellen Aktionskodierungsmodul erfasst es subtile Veränderungen zwischen aufeinanderfolgenden Videobildern und ordnet sie internen Darstellungen von Bewegungen zu, wie z.B. Springen oder Linksabbiegen. Das Dynamikmodell generiert dann den nächsten Frame in der Sequenz basierend auf den kodierten Aktionen.

Infolgedessen kann Genie vollständig steuerbare, interaktive Spielumgebungen aus beliebigen visuellen Daten erstellen. Jede Spielerbewegung erzeugt in Echtzeit einen neuen, einzigartigen Frame, was eine flüssige, spielbare Sitzung schafft. Dies ist eine wirklich große Innovation, die es uns ermöglicht, ganze interaktive Welten aus Bildern oder Text zu erstellen.

Warum ist Genie innovativ?

Die Innovation von Genie liegt in der Kombination mehrerer Schlüsselelemente in einem einzigen Modell:

generative Videomodelle, wie Phenaki (https://phenaki.video/), TECO (https://wilson1yan.github.io/teco/) oder maskvit (https://arxiv.org/abs/2206.11894), die zukünftige Frames einer Sequenz basierend auf Eingangsframes und Text vorhersagen können, aber keine aktiven Steuerungsfähigkeiten bieten,
Weltmodelle, die sich darauf konzentrieren, zukünftige Umweltzustände basierend auf den Aktionen eines Agenten vorherzusagen, aber Daten benötigen, die von Menschen bereitgestellt werden,
unüberwachtes Lernen, das es Genie ermöglicht, sowohl die Dynamik der Umgebung als auch den Aktionsraum nur aus Rohvideodaten zu lernen, ohne menschliche Aktionslabels.

Obwohl jeder dieser Bereiche zuvor untersucht wurde, ist Genie das erste Modell, das sie kombiniert, um steuerbare Umgebungen direkt aus Videomaterial zu lernen. Dieser beispiellose Ansatz zur Schulung von Modellen ohne menschliche Aufsicht ist eine Schlüsselinnovation von Genie. Er öffnet die Tür zur Nutzung der riesigen Menge an Videos, die im Internet verfügbar sind, als Trainingsquelle für KI-Modelle, und überwindet die Barrieren, die mit der begrenzten Verfügbarkeit von gekennzeichneten Daten verbunden sind.

Die Kombination von generativen Videomodellen, Weltmodellen und unüberwachtem Lernen in einer einzigen Lösung stellt einen grundlegenden Fortschritt in der Entwicklung künstlicher Intelligenz dar. Genie zeigt, dass fortschrittliche KI-Systeme komplexe Verhaltensweisen und Umgebungen direkt aus unstrukturierten Daten lernen können, ohne manuelle Kennzeichnung. Dies ist ein wichtiger Schritt auf dem Weg zur Erreichung echter Künstlicher Allgemeiner Intelligenz (AGI).

Quelle: Google Genie (https://sites.google.com/view/genie-2024/)

Potenzielle Anwendungen von Google Genie

Die Fähigkeiten von Google Genie gehen weit über die Generierung von Videospielen hinaus. Dieses bahnbrechende KI-Modell kann in vielen Bereichen Anwendung finden:

Werkzeug für Animator:innen – einfach ein Bild, eine Skizze oder eine kurze Textbeschreibung hochladen und Genie wird eine konsistente Animation generieren,
unbegrenzte Trainingsressource für KI-Agenten – mit seiner Fähigkeit, auf völlig neue Bereiche zu verallgemeinern, bietet Genie einen unendlichen Pool von Herausforderungen, aus denen zukünftige KI-Systeme lernen können. Der Mangel an vielfältigen Trainingsumgebungen war bisher eines der Hauptbarrieren für die Entwicklung generischer KI-Agenten,
physikalische Simulationen für Robotik – Forschungen haben gezeigt, dass Genie nicht nur virtuelle Roboter steuern kann, sondern auch die physikalischen Eigenschaften deformierbarer Objekte realisieren kann. Dies könnte enorme Auswirkungen auf die Entwicklung von Robotik und physikalischen Simulationen haben,
Anwendungen in der Kreativwirtschaft – Genie kann die Erstellung interaktiver Kunstinstallationen, virtueller Ausstellungen oder Filme erleichtern. Einfach eine Skizze hochladen und das Modell generiert eine vollständig steuerbare 3D-Welt, die erkundet werden kann.

Die potenziellen Herausforderungen und Einschränkungen dieser Technologie sollten jedoch nicht übersehen werden. In der aktuellen Entwicklungsphase funktioniert Genie am besten in engen Bereichen wie 2D-Plattformspielen. Die Skalierung auf komplexere 3D-Umgebungen erfordert zusätzliche Forschung und Optimierung. Darüber hinaus besteht das Risiko, dass diese Technologie missbraucht werden könnte, um schädliche oder gefährliche Inhalte zu erstellen. Daher ist es entscheidend, einen robusten ethischen und rechtlichen Rahmen zu entwickeln, um die Entwicklung und Nutzung solcher KI-Modelle zu regeln.

Quelle: Google Genie (https://sites.google.com/view/genie-2024/)

Zusammenfassung

Durch die Ermöglichung der Erstellung vollständig interaktiver Umgebungen direkt aus visuellen Daten, ohne die Notwendigkeit, Aktionen manuell zu kennzeichnen, stellt Google Genie einen echten Durchbruch in der generativen künstlichen Intelligenz dar. Dieses grundlegende Weltmodell gibt die Macht, Bilder in Form von spielbaren virtuellen Realitäten auszudrücken, die von einem Menschen oder KI-Agenten erkundet und gesteuert werden können.

Genies Potenzial ist enorm – von Werkzeugen für Spielentwickler über eine unbegrenzte Quelle von Trainingsdaten für KI bis hin zu physikalischen Simulationen für Robotik. Es ist auch ein wichtiger Schritt auf dem Weg zur AGI. Während Modelle wie Genie weiterhin evolvieren, wird die Grenze zwischen der realen und der virtuellen Welt immer fließender.

Wenn Ihnen unsere Inhalte gefallen, treten Sie unserer aktiven Community auf Facebook, Twitter, LinkedIn, Instagram, YouTube, Pinterest, TikTok.

Robert Whitney

JavaScript-Experte und Dozent, der IT-Abteilungen schult. Sein Hauptziel ist es, die Produktivität des Teams zu steigern, indem er anderen beibringt, wie man effektiv beim Programmieren zusammenarbeitet.

View all posts →

Robert Whitney

Next Automatisierung oder Augmentierung? Zwei Ansätze zur KI in einem Unternehmen | KI im Geschäft #124 »

Previous « ReALM. Ein bahnbrechendes Sprachmodell von Apple? | KI im Geschäft #121

Published by

Robert Whitney

4 days ago

Google Genie — ein generatives KI-Modell, das vollständig interaktive Welten aus Bildern erstellt | KI im Geschäft #123

Was ist Google Genie?

Warum ist Genie innovativ?

Potenzielle Anwendungen von Google Genie

Zusammenfassung

Robert Whitney

Recent Posts

Die Rolle von KI in der Inhaltsmoderation | KI im Geschäft #129

Sentiment-Analyse mit KI. Wie hilft sie, Veränderungen im Geschäft voranzutreiben? | KI im Geschäft #128

Beste KI-Transkriptionstools. Wie verwandelt man lange Aufnahmen in prägnante Zusammenfassungen? | KI im Geschäft #127

KI-Videoerstellung. Neue Horizonte in der Videoinhaltsproduktion für Unternehmen | KI im Geschäft #126

LLMOps, oder wie man Sprachmodelle effektiv in einer Organisation verwaltet | KI im Geschäft #125

Automatisierung oder Augmentierung? Zwei Ansätze zur KI in einem Unternehmen | KI im Geschäft #124