Daten, Strom, Silizium: Frisst uns Künstliche Intelligenz die Haare vom Kopf?

10.05.2022
Ein Artikel von ExB CEO Dr. Ramin Assadollahi
LLMs sind Large Language Models, machine learning Modelle, die statistisches Wissen über Sprache reflektieren. Man nutzt sie, um verschiedene Aufgaben zu lösen, wie zum Beispiel Fragen zu beantworten, Dialoge zu führen, Hate-Speech zu identifizieren, oder auch Texte zu verfassen.
Die bekanntesten Modelle sind GPT-3 von OpenAI, T5 von Google oder auch Megatron-LM von NVIDIA. Mit OPT-175B hat nun auch Meta – vormals Facebook- nachgezogen. Warum entwickeln nur sehr große Konzerne entwickeln solche Modelle?
Es gibt drei Gründe:
- sie benötigen Unmengen von Daten zum Trainieren
- sie benötigen große Infrastrukturen zur Berechnung
- und: sie benötigen viel Strom
Auf OPT-175B bezogen heißt das:
- Es wurde auf 180 Milliarden Token (sozusagen „Wörter“) trainiert. Zum Vergleich: ein einzelner Mensch spricht ca 400 Millionen Wörter während seines ganzen Lebens, Goethes „Faust I“ umfasst 31.000 Wörter.
- Man hat dazu knapp Tausend Grafikkarten mit je 80GB RAM benötigt (14.000€, in einem High-End Spielecomputer steckt eine GPU mit 10GB, die ca 1.000€ kostet).
- Meta hat während der Berechnung ca 75 Tonnen CO2 produziert, während GPT-3 ca 500 Tonnen produziert haben soll. Zum Vergleich: ein Mittelklasse Auto produziert 1,4 Tonnen.
Noch befindet sich die Industrie im “Höher, Schneller, Weiter!”-Modus, aber tatsächlich rühmt sich Meta damit, dass dieses Modell zwar ähnlich gute Ergebnisse liefert wie GPT-3, aber nur 1/7 an CO2 produziert hat.
Wir können gerne über Sinn und Unsinn von solchen Modellen diskutieren, zweifellos verfügen sie zwar über die besten Sprachkompetenzen, eignen sich jedoch aus verschiedenen Gründen nur schwer für den Einsatz im Alltag bzw sind nur eingeschränkt verfügbar (das aktuelle von Meta zum Beispiel nur für die Wissenschaft und „wiegt“ überdies 350GB).
Zuweilen bringen sie auch Kompetenzen mit, die für konkrete Problemstellungen gar nicht gebraucht werden und so entstand aus dem berühmten BERT Modell ein schlankeres namens roBERTa, welches zwar über weniger Fähigkeiten verfügt, aber in gewissen Aufgaben vergleichbare Qualität liefert. Am Ende muss man also wissen, was man wofür braucht…
Nach meiner Meinung müssen wir noch mehr an Modellen arbeiten, die nicht nur weniger Strom zur Berechnung benötigen, sondern auch weniger Daten, um sich damit spezifischeren Anwendungsbereichen zu widmen. Oder was meinen Sie?
-
Über ExB
75 leidenschaftliche Mitarbeiter – ein Ziel
Wir wollen nichts Geringeres als die universelle „Verstehmaschine“ schaffen: ein kognitives System, das in der Lage ist, Sprache zu lernen und zu verstehen wie ein Mensch. Schon einmal haben wir eine kühne Idee verwirklicht.
Mehr über ExB -
Unser Produkt
Zentrale Plattform für viele KI-Anwendungen
Die Cognitive Workbench sorgt für eine neue Qualität in der Behandlung von Daten und Wissen. Sie lernt, diese Daten, dieses Wissen bis in die Tiefe zu verstehen. Dank neuester Algorithmen und einfacher Trainierbarkeit.
Mehr zum Produkt -
KI-Forschung
Die Kunst, zwischen den Zeilen zu lesen
Wichtig: Sich nicht mit den theoretischen Verheißungen von KI zu begnügen, sondern genau hinschauen, wofür KI in der Praxis tatsächlich gebraucht wird – und auf welche Weise sie unseren Kunden den größtmöglichen Nutzen bringen kann.
Mehr zur Forschung