CLIP, BLIP & Flamingo: Wie Künstliche Intelligenz lernte, sich über Bilder zu unterhalten.

28.06.2022
Machine Learning kann in Datenmaterial Eigenschaften finden, die die Elemente eines Datensatzes auszeichnen. Dies können zum Beispiel Eigenschaften eines Wortes im Kontext anderer Wörter sein, Gleiches gilt aber auch für Silben oder gar Sätze.
Ähnliche Mechanismen gibt es für Bilder, auch hier können Maschinen unterscheidende Merkmale finden, die visuelle Elemente von einander abgrenzen. So können Linien von Bögen unterschieden werden, verschiedene Farben, aber auch verschiedenes Fell, die räumliche Anordnung von Augen bis hin zur Unterscheidung eines Dackels von einem Schäferhund.
OpenAI hat mit CLIP hat zwei solche Systeme trainiert und zwar auf einem spannenden Datensatz: 400 Millionen Webseiten, die ein Bild enthalten und dazu auch noch den umgebenden Text. Zum Einen hat also die Maschine wie oben beschrieben die bedeutungstragende Elemente von Bildern gelernt, zum Anderen hat ein anderer Teil der Maschine die Elemente der Texte gelernt. Allerdings war die Hypothese, dass sich der Text inhaltlich (weil auf der gleichen Webseite) irgendwie auf den Inhalt der Bilder bezieht. Die Forscher haben sodann die Eigentschaften dieser beiden Modalitäten miteinander statistisch kontrastiert (daher auch der Name: „Contrastive Language–Image Pre-training“) und konnten damit Repräsentationen von Bildteilen auf Repräsentationen von Text abbilden.
Mit Recht kann man sich fragen: wofür denn das? CLIP kann in beide Richtungen funktionieren: Für ein gegebenes Bild kann man verschiedene Wörter präsentieren und CLIP sagt einem, welches dieser Konzepte wahrscheinlicher auf dem Bild zu sehen ist, dh ein Bild von einem Dackel „schlägt“ beim Wort Dackel stärker aus als beim Wort Schäferhund. Aber: für ein gegebenes Wort kann CLIP auch beschreiben welche Bildelemente wichtige Bestandteile sind. (Damit kann man aus Text Bilder träumen lassen, dazu schreibe ich aber einen separaten Artikel.)
CLIP hat das Feld in meinen Augen einige entscheidende Schritte nach vorne gebracht:
- Eine nutzbare Anwendung multimodalen Machine Learnings.
- Referenzielle Semantik (ein Wort bezieht sich auf diesen Bildteil und umgekehrt) gelernt und zwar unsupervised (dh es gab keinen Lehrer).
- Zero Shot Learning: Da alle Wörter und Konzepte bekannt sind, braucht man das System für eine Anwendung nicht trainieren.
CLIP kann allerdings keine ganzen Sätze bilden oder selbständig Bilder beschreiben (= Image Captioning), dazu bedarf es Zusatzmethoden. Neulich kam also die Forschung von Salesforce mit dem einfallsreichen Namen BLIP (Bootstrapping Language-Image Pre-training), welches nach ähnlichem Prinzip funktioniert, aber verschiedene Language Tasks beherrscht, zum Beispiel Visual Question Answering (VQA).
Man kann also eine Frage als Text zu einem Bild stellen, wie zum Beispiel:
- „Welche Farbe hat das Fell des Hundes“ (braun)
- „Wie viele Hunde sind hier zu sehen?“ (vier)
- „Ist hier eine Katze zu sehen?“ (nein) aber auch:
- „Wie ist die emotionale Situation in diesem Bild?“ (ruhig).
Das funktioniert ganz gut, ist aber auf Dauer eintönig, denn der Mensch sieht sich selbst das Bild an, kommt auf Ideen zu Fragen, stellt diese Frage und das System gibt eine Antwort. Deepmind hat nun noch einen drauf gesetzt und Flamingo vorgestellt:
- Flamingo schaut sich mehere Bilder auf einer Webpage an und analysiert die Texte dazwischen, kann also gegebenenfalls eine Diskussion verfolgen.
- Flamingo hat das Erstellen von Bildelementen und Wortelementen „eingefroren“, braucht diese Teile also nicht nochmals zu lernen (das ist der teuere Teil vom Machine Learning)
- Es kann sich auch Bildsequenzen anschauen (vulgo: Videos)
- Flamingo ist ein few shoot learner, dh es kann aus einigen Beispielen die Aufgabe erlernen und für neue Fragen ähnlicher Natur neue Antworten geben.
- Flamingo ist interaktiv!
Es behält also die Teile der Konversation über das Bild im Gedächtnis und der Mensch kann sogar Interpretationen korrigieren oder Hinweise geben. Hier ein Beispiel (der Text in Blau ist von einem Menschen):
Das ist schon sehr erstaunlich! Welche Anwendungen sehen Sie für eine solche Technologie? Zwischen CLIP (Januar 2021) und Flamingo (Mai 2022) liegt ein gutes Jahr, was werden die Systeme nächstes Jahr können? Diskutieren Sie gerne mit uns in unserem LinkedIn Kanal
-
Über ExB
75 leidenschaftliche Mitarbeiter – ein Ziel
Wir wollen nichts Geringeres als die universelle „Verstehmaschine“ schaffen: ein kognitives System, das in der Lage ist, Sprache zu lernen und zu verstehen wie ein Mensch. Schon einmal haben wir eine kühne Idee verwirklicht.
Mehr über ExB -
Unser Produkt
Zentrale Plattform für viele KI-Anwendungen
Die Cognitive Workbench sorgt für eine neue Qualität in der Behandlung von Daten und Wissen. Sie lernt, diese Daten, dieses Wissen bis in die Tiefe zu verstehen. Dank neuester Algorithmen und einfacher Trainierbarkeit.
Mehr zum Produkt -
KI-Forschung
Die Kunst, zwischen den Zeilen zu lesen
Wichtig: Sich nicht mit den theoretischen Verheißungen von KI zu begnügen, sondern genau hinschauen, wofür KI in der Praxis tatsächlich gebraucht wird – und auf welche Weise sie unseren Kunden den größtmöglichen Nutzen bringen kann.
Mehr zur Forschung