Der aktuelle Hype um LLM, der mit KI gleichgesetzt wird, hat ein Problem, dass bisher selten ausgesprochen wird. Und zwar ein wirtschaftliches.
Damit meine ich nicht die enormen Bewertungen der großen Player am Markt und den Druck, das VC in irgendeine Form in der Zukunft wieder mit einer hundertfachen Rendite zu verdienen, sondern ein substanzielles.
Large Language Models haben ein Verfallsdatum. Das Training solcher Modelle erfordert eine enorme Datenmenge, die beschafft werden muss (illegale Raubkopien inklusive, wie bei Meta/Facebook), eine enorme Kapazität an Hardware (NVIDIA GPUs) und allgemeine Rechenkapazitäten inkl. Strom- und Klimakosten.
Um dann damit Geld zu verdienen, muss für die Abfrage (Inferenz) wieder eine große dedizierte Rechenkapazität aufgebaut und betrieben werden. Auch hier sind die operativen Kosten enorm.
Die Sprachmodelle haben alle ein Trainingsende, also ein cut-off-date. Dinge, die danach passieren, fließen nicht mehr ins Modell. Es ist quasi wie ein Snapshot der Wikipedia oder Github. Natürlich kann man daraus zukünftige Entwicklungen interpolieren, aber die exakten Terme sind nicht enthalten. Mittels tool_call und MCPs kann man extern bereitgestellte Datensätze, seien es eigene private Dokumente, Dokumentationen oder Quellcode dem Modell bereitstellen und es wird versucht diese dann zu verwenden. Optimiert ist es jedoch nicht und die Anfragekosten steigen dadurch und die Performance nimmt ab.
Es ist also so ähnlich wie bei Starlink: Für den Moment schaut es gut aus, aber monatlich müssen Millionen investiert werden in neue Satelliten und Raketenstarts, ebenso muss laufend neben dem Betrieb bereits an den nächsten Modellen gearbeitet (trainiert) werden.
Gehen wir davon aus, dass die Hardwarekosten sinken werden, dann wird es immer mehr Betreiber von Inferenz-Diensten geben, die auf „gratis“ Modelle wie DeepSeek, QWen, GLM, Kimi und anderen setzen – OpenRouter.ai ist die beste Anlaufstelle für einen Marktüberblick. Für viele Anwendungsfälle sind diese gut genug, da vielleicht nicht eine Aktualität von unter 24 Monaten benötigt wird. Das schmälert die Einnahmen für die Anbieter, die jährlich 2-3 neue Modelle herausbringen.
Die Trainingskosten werden aber nicht günstiger werden und die Komplexität der Modelle scheint weiter zuzunehmen, obwohl viele Papers und Beispiele zeigen, dass man mit der Quantifizierung von großen Modellen vergleichbare Ergebnisse bekommt bei viel weniger Ressourceneinsatz. Man könnte sagen: Es ist wie die verlustbehaftete Kompression von Audio-, Video- und Bilddaten, die man bis zu einem gewissen Grad als Mensch nicht wahrnehmen kann.
So ähnlich ist es auch hier. Man spart 50% der Kosten bei der Inferenz (Abfragen) und verliert 1-2% an Genauigkeit (Prozentangaben beispielhaft bzw. frei erfunden, sie hängen stark vom Modell und dem Einsatzzweck ab).
Wir sehen also ein „race to the bottom“ bei den Nutzungskosten und andererseits eine vermutliche Stagnation bzw. Anstieg der Trainingskosten. Dieses Gap wird das Geschäftsmodell vieler Frontier-LLM zerstören, sobald das VC versiegt.
Würden die Kosten vollständig umgelegt werden, was bisher nicht passiert, wäre die LLM-KI sowieso unwirtschaftlich. Anbieter wie OpenAI oder Anthropic subventionieren gerade die Nutzung massivst, verschenken Kontingente oder verkaufen weiter unter Einstandswert, um möglichst Marktanteile gewinnen und halten zu können. Nachhaltig ist das nicht.
Ich nutze diese Kontingente natürlich auch und bin ein großer Freund von agentic coding / vibe coding geworden. Ich halte es zwar für noch ausgeschlossen, dass man ernsthaft ohne Programmierkenntnisse mehr als ein minimales Produkt fertig bekommt, aber wenn man die richtigen Anforderungen und Fragen stellt, erhält man ziemlich gute Ergebnisse. Dazu muss man aber die Domäne kennen, also Software-Engineering oder was auch immer der Bereich ist, in der man KI verwendet.
Niemals klappt es im ersten Anlauf, man muss schon wissen, was man will und darauf bestehen, dass bestimmte Dinge nach einer exakten Vorgabe (best practices bspw) ausgeführt werden. Natürlich kann man als kompletter Einsteiger das System auch für eine Chat-Session nutzen und sich die Grundlagen jedes Bereiches erklären lassen und somit Kompetenz aufbauen. Wie im Studium, Ausbildung oder jahrelanger Berufserfahrung. Das ist super! Aber man muss schon selbst Kompetenz aufbauen wollen…