Daten, Strom, Silizium: Frisst uns Künstliche Intelligenz die Haare vom Kopf?

10.05.2022

Ein Artikel von ExB CEO Dr. Ramin Assadollahi

LLMs sind Large Language Models, machine learning Modelle, die statistisches Wissen über Sprache reflektieren. Man nutzt sie, um verschiedene Aufgaben zu lösen, wie zum Beispiel Fragen zu beantworten, Dialoge zu führen, Hate-Speech zu identifizieren, oder auch Texte zu verfassen.

Die bekanntesten Modelle sind GPT-3 von OpenAI, T5 von Google oder auch Megatron-LM von NVIDIA. Mit OPT-175B hat nun auch Meta – vormals Facebook- nachgezogen. Warum entwickeln nur sehr große Konzerne entwickeln solche Modelle?

Es gibt drei Gründe:

  • sie benötigen Unmengen von Daten zum Trainieren
  • sie benötigen große Infrastrukturen zur Berechnung
  • und: sie benötigen viel Strom

Auf OPT-175B bezogen heißt das:

  • Es wurde auf 180 Milliarden Token (sozusagen „Wörter“) trainiert. Zum Vergleich: ein einzelner Mensch spricht ca 400 Millionen Wörter während seines ganzen Lebens, Goethes „Faust I“ umfasst 31.000 Wörter.
  • Man hat dazu knapp Tausend Grafikkarten mit je 80GB RAM benötigt (14.000€, in einem High-End Spielecomputer steckt eine GPU mit 10GB, die ca 1.000€ kostet).
  • Meta hat während der Berechnung ca 75 Tonnen CO2 produziert, während GPT-3 ca 500 Tonnen produziert haben soll. Zum Vergleich: ein Mittelklasse Auto produziert 1,4 Tonnen.

Noch befindet sich die Industrie im “Höher, Schneller, Weiter!”-Modus, aber tatsächlich rühmt sich Meta damit, dass dieses Modell zwar ähnlich gute Ergebnisse liefert wie GPT-3, aber nur 1/7 an CO2 produziert hat.

Wir können gerne über Sinn und Unsinn von solchen Modellen diskutieren, zweifellos verfügen sie zwar über die besten Sprachkompetenzen, eignen sich jedoch aus verschiedenen Gründen nur schwer für den Einsatz im Alltag bzw sind nur eingeschränkt verfügbar (das aktuelle von Meta zum Beispiel nur für die Wissenschaft und „wiegt“ überdies 350GB).

Zuweilen bringen sie auch Kompetenzen mit, die für konkrete Problemstellungen gar nicht gebraucht werden und so entstand aus dem berühmten BERT Modell ein schlankeres namens roBERTa, welches zwar über weniger Fähigkeiten verfügt, aber in gewissen Aufgaben vergleichbare Qualität liefert. Am Ende muss man also wissen, was man wofür braucht…

Nach meiner Meinung müssen wir noch mehr an Modellen arbeiten, die nicht nur weniger Strom zur Berechnung benötigen, sondern auch weniger Daten, um sich damit spezifischeren Anwendungsbereichen zu widmen. Oder was meinen Sie?