The power of LLMs: Large Language Models und ihr Einsatz in Unternehmen

Autorin: Dr. Anja Linnenbürger, VIER Head of Research

Seit etwa einem Jahr sind grosse Sprachmodelle (Large Language Models, LLMs), und allen voran die OpenAI-Anwendungen, in aller Munde. Mit ChatGPT erschien ein öffentlicher Zugang zu einem generativen Sprachmodell als Webchat, der alle bisherigen in den Schatten stellte. Die Antworten wirken natürlich und ChatGPT ist weniger anfällig, toxische Inhalte zu produzieren, als frühere Sprachmodelle. Aber was ist bei ChatGPT anders? Und weshalb sollten Unternehmen den Einsatz generativer Sprachmodelle in Betracht ziehen?

Diese LLMs sind fortschrittliche, maschinelle Lernsysteme, die mit riesigen Mengen von Textdaten vorab trainiert wurden, um ein tiefgehendes Sprachverständnis zu entwickeln. Ihr Ziel ist es, menschliche Sprache zu interpretieren, zu verarbeiten und zu erzeugen sowie weitere Aufgaben im Bereich der Natural Language Processing (NLP) zu erledigen, wie beispielsweise Übersetzungen, Erkennung von Kundenanliegen oder die Analyse von Stimmungen in Texten. Welche neuen Einsatzmöglichkeiten ergeben sich daraus? Um diese Fragen zu beantworten, schauen wir uns kurz einen Teil der Geschichte grosser Sprachmodelle an.

Die Evolution grosser Sprachmodelle

Frühe Sprachmodelle haben recht einfache statistische Methoden verwendet. Das war in vielen Fällen funktional, beispielsweise bei der Erkennung von Anliegen in E-Mails. Gleichzeitig kamen diese Modelle an ihre Grenzen, sobald die Inhalte komplexer wurden oder der erweiterte Kontext einer Aussage relevant wurde. Das änderte sich mit der Einführung neuronaler Netze wie Recurrent Neural Networks (RNN) oder Long Short-Term Memory Networks (LSTMs), die immer besser darin wurden, Kontexte zu verstehen. Diese Systeme hatten aber weiterhin Herausforderungen damit, sehr lange Sequenzen zu verstehen und sind durch die sequenzielle Verarbeitung recht langsam.

Ein riesiger Meilenstein in der Entwicklung von Sprachmodellen war die Vorstellung der Transformerarchitektur durch Google Researcher 2017 mit dem Paper „Attention is all you need”. Im Gegensatz zu traditionellen, sequenziellen Verarbeitungsmodellen wie RNNs oder den daraus entstandenen LSTMs, die Eingaben Schritt für Schritt verarbeiten, ermöglichen Transformermodelle eine effektivere Behandlung von Textdaten. Sie tun dies durch die Implementierung eines innovativen Mechanismus, der als 'Self-Attention' bezeichnet wird. Während LSTMs bereits Attention-Mechanismen nutzen, um wichtige Informationen aus einer Sequenz hervorzuheben, stellen Transformermodelle den Attention Mechanismus in den Mittelpunkt ihrer Architektur.

Weshalb kam der grosse Hype erst mit ChatGPT?

ChatGPT hat deshalb so eine grosse Aufmerksamkeit bekommen, weil es wie bei keinem Modell zuvor gelungen ist, neben der guten Leistungsfähigkeit in der natürlichen Sprachgenerierung auch das „Alignment“ des Modells zu erhöhen. Alignment bedeutet, dass dem Modell beigebracht wird, sich so zu verhalten, wie Menschen es erwarten würden – also Antworten zu geben, die hilfreich sind, möglichst wenig Biases enthalten, möglichst wahr sind (also wenig Halluzinationen) und als sicher wahrgenommen werden. Biases bei LLMs sind ungewollte und potenziell problematische Tendenzen in den generierten Texten, die auf den während des Trainings aufgenommenen Daten und Sprachmustern beruhen können. Halluzinationen sind irreführende oder falsche Aussagen des Modells, die auf den ersten Blick nicht erkennbar sind, weil sie plausibel klingen. Im grundlegenden Training eines Sprachmodells spielt Alignment keine Rolle. Vielmehr lernt das Modell, auf Grundlage einer grossen Datenmenge aus dem Internet das wahrscheinlichste nächste Wort in einem bestimmten Zusammenhang vorherzusagen. Damit reproduziert es ungefilterte Inhalte, die hochgradig voreingenommen oder falsch sein können. Um diese Herausforderungen in den Griff zu bekommen, braucht es spezielles Training.

Was macht ChatGPT besser und warum?

ChatGPT ist deshalb so gut, weil es auf Grundlage einer sehr grossen Menge an menschlich annotierten Daten mittels „Reinforcement Learning from Human Feedback“ (RLHF) trainiert wurde. Gleichzeitig ist das Modell besser in der Lage, grössere Konversationskontexte zu verstehen und damit passende Antworten auch in längeren Dialogen zu geben. Es ist zudem öffentlich und für jeden verfügbar, kann weiterhin von Feedback lernen und hat sich aufgrund des Trainings keinen ähnlichen Fauxpas geleistet wie Galactica von Facebook. Anstatt beim wissenschaftlichen Schreiben zu helfen, hatte Galactica unter anderem wissenschaftliche Artikel und Referenzen erfunden und wurde wenige Tage nach dem Release eingestellt. Alleine, dass OpenAI sich einige Wochen nach dem Scheitern von Galactica (Anfang November 2022) getraut hat, ChatGPT zu veröffentlichen (30.11.2022), zeigt das Vertrauen, welches das Unternehmen in die Leistung seines Modells hatte. Gleichzeitig sind Halluzinationen, wie die von Galactica, auch bei ChatGPT weiterhin ein Problem, das beim Live-Einsatz des Modells adressiert werden muss.

Die Fähigkeit von Transformern

Self-Attention erlaubt es dem Modell, die Beziehungen zwischen allen Worten in einem Satz simultan zu erfassen, indem es Aufmerksamkeitsgewichte berechnet, die anzeigen, wie stark jedes Wort des Eingabetextes mit anderen Worten in Beziehung steht. Jegliche Beziehung zwischen den einzelnen Elementen der Input-Sequenz untereinander wird dabei unabhängig erfasst, ohne durch die sequenzielle Natur früherer Modelle eingeschränkt zu sein. Dadurch kann das Transformermodell kontextuelle Informationen effizienter nutzen. Es bewertet und gewichtet die Eingabesequenz, um zu bestimmen, welche Teile für die aktuelle Aufgabe am relevantesten sind. Beispielsweise kann das Modell bei der Übersetzung eines Satzes die Bedeutung eines Wortes im Kontext des gesamten Satzes verstehen, anstatt sich nur auf die umliegenden Wörter zu konzentrieren.

Die Fähigkeit von Transformern, weitreichende Abhängigkeiten direkt zu modellieren, ohne dass Informationen durch viele Zwischenschritte fliessen müssen, ist ein entscheidender Vorteil. Dadurch können die Modelle sowohl die komplexen Beziehungen zwischen Worten als auch ihre Position im Satz verstehen, was zu einer verbesserten Verarbeitung und Generierung von Sprache führt.

Parameter helfen dabei, Muster zu erkennen

Eines der bekanntesten und immer noch viel verwendeten Transformermodelle ist das Open Source-Modell BERT, welches ebenfalls von Google vorgestellt wurde. Das Modell wird beispielsweise für die Erkennung von Anliegen oder Emotionen fein abgestimmt. Seit der Einführung des BERT-Modells sind viele weitere Modelle hinzugekommen, darunter XLNET, GPT3, LAMBDA, MT NLG, OPT und BLOOM. BERT ist ein recht grosses Modell, mit einer Grösse, die zwischen 110 Millionen und 340 Millionen sogenannten "Parametern" variiert. Andere Modelle, wie GPT3 oder MT NLG, sind jedoch weitaus grösser und umfassen bis zu 175 Milliarden bzw. 340 Milliarden Parameter. Parameter sind im Wesentlichen "Einstellungen" oder "Stellschrauben", die das Modell nutzt, um zu lernen und Vorhersagen zu treffen. Die Anzahl der Parameter bestimmt, wie detailliert und anpassungsfähig das Modell ist. Es
hilft dem Modell, komplizierte Muster zu erkennen und Kontexte besser zu verstehen.

Einige dieser Modelle, wie GPT3, können "generativ" arbeiten – das heisst, sie können selbstständig Texte generieren und sind direkt für viele Aufgaben einsetzbar. Andere, wie BERT, müssen speziell in Bezug auf bestimmte Aufgaben, wie z.B. die Erkennung von Kundenanfragen, trainiert werden. Durch die richtige Balance zwischen der Anzahl der Parameter und der Menge der zur Verfügung stehenden Daten können diese Modelle beeindruckende Ergebnisse in einer Vielzahl von Anwendungen erzielen.

Mit dem Release von GPT4 hat OpenAI direkt nachgelegt und ein noch besseres, grösseres Modell zur Verfügung gestellt. Beide Modelle werden laufend optimiert – zuletzt Anfang November 2023 durch eine Vergrösserung des möglichen Inputs auf 128.000 Tokens (ca. 85.000 Wörter). In der KI und bei Large Language Models (LLMs) bezeichnet ein "Token" die kleinste Einheit der Verarbeitung, oft ein Wort oder Teil eines Wortes. Diese Token werden von den Modellen verwendet, um Sprache zu verstehen, Text zu generieren und komplexe sprachliche Muster zu erkennen. Zudem hat OpenAI die direkte Integration von Retrieval Augmented Generation (RAG) zur Verfügung gestellt. Es können somit Dateien hochgeladen und dem Modell direkt Fragen zu den Inhalten dieser Dateien gestellt werden.

Ist OpenAI die einzige Möglichkeit zum Einsatz leistungsfähiger, generativer KI?

Während OpenAI im vergangenen Jahr die Speerspitze der generativen KI-Entwicklung war und mit Microsoft einen Partner hat, der eine Nutzung auch in Europa datenschutzkonform ermöglicht, gibt es alternative Modelle, die über eine ähnlich hohe Qualität verfügen. ChatGPT hat nicht nur die Öffentlichkeit auf generative KI aufmerksam gemacht. Auch in der Wissenschaft hat es eine Fokussierung auf diese Technologie ausgelöst. Daraus entwickeln sich nahezu wöchentlich neue und bessere Modelle. Insbesondere der Open Source-Bereich holt auf und treibt die Entwicklungen voran.

Bestes Beispiel ist das vortrainierte Sprachmodell Llama2, welches von Facebook im Juli 2023 zur Verfügung gestellt wurde und für kommerzielle Zwecke nutzbar ist. Auf Basis dieses Modells entwickeln sich laufend optimierte Varianten, auch für spezifische Verwendungen wie im medizinischen Bereich. Ebenso hat OpenAI Konkurrenz in Deutschland erhalten durch Aleph Alpha - zumindest zukünftig, denn im November 2023 erhielt das Unternehmen eine Gesamtinvestition von über 500 Mio. US-Dollar - und in den USA durch Google oder Anthropic, in das Amazon über 4 Mrd. Dollar investiert hat. Es gibt also zahlreiche Alternativen zu den bekannten OpenAI-Modellen, die für spezielle Use Cases genauso gut sein können, wie die Modelle des aktuellen Marktführers.