Fine-Tuning, vom Basismodell zum Assistenten

Artikel 8 von 8 · Serie: Wie LLMs funktionieren

In Teil 7 haben wir den Transformer fertig gebaut. Stapel von Blöcken, Multi-Head Attention, Feed-Forward, Residuals, Layer Norm — und am Ende ein Basismodell, das das nächste Token vorhersagen kann. Beeindruckend, aber: Wenn du diesem Modell „Wie wird das Wetter morgen?" sagst, antwortet es nicht. Es vervollständigt. Es gibt dir vielleicht „… und übermorgen? — eine typische Frage, die Menschen sich stellen, wenn sie…" zurück. Wahrscheinlichste Fortsetzung des Eingabetextes, nichts weiter.

ChatGPT, Claude, Gemini sind keine Basismodelle. Sie sind Basismodelle, die durch eine zweite, manchmal dritte Trainingsphase gegangen sind und dabei gelernt haben, sich wie Assistenten zu verhalten. Diese Phase heißt Fine-Tuning, und sie ist das, was diesen letzten Artikel der Serie ausmacht. Wir schauen uns an, wie aus einem statistischen Textvervollständiger ein Modell wird, das Anweisungen folgt, Code schreibt, Fragen beantwortet und Bombenbauanleitungen ablehnt — und am Ende kommt die ehrliche Frage, was diese Methoden eigentlich lösen und was nicht.

Was ein Basismodell tut und warum es kein Assistent ist

Ein Basismodell wurde auf Hunderten Milliarden Tokens aus dem Internet trainiert, mit einer einzigen Aufgabe: das nächste Token vorhersagen. Diese Aufgabe ist phantastisch reichhaltig — wer das nächste Token gut vorhersagen kann, muss Grammatik, Semantik, Weltwissen und Argumentationsmuster gelernt haben. Aber das Modell hat dabei eines nicht gelernt: dass Menschen mit ihm in einem Frage-Antwort-Format reden wollen.

Das wird beim ersten direkten Versuch sichtbar. Wir prompten ein Llama-3-Basismodell mit:

Was ist die Hauptstadt von Frankreich?

Die wahrscheinlichste Fortsetzung im Trainingskorpus ist nicht „Paris", sondern eher etwas wie:

Was ist die Hauptstadt von Frankreich? Was ist die größte Stadt
von Frankreich? Welche Sprache wird in Frankreich gesprochen?
Hier sind die Antworten auf die häufigsten Fragen über Frankreich:

Das Basismodell weiß die Antwort. Es ruft sie nur nicht ab, weil das nicht das wahrscheinlichste Verhalten in seinen Trainingsdaten ist. Quizfragen mit Antworten gibt es im Web, aber es gibt auch jede Menge Quizfragen ohne Antworten, gefolgt von weiteren Quizfragen. Das Modell hat keine Präferenz für hilfreich.

Genau hier setzt Fine-Tuning an. Wir nehmen das Basismodell mit all seinem Wissen und passen es so an, dass es in bestimmten Mustern antwortet — Frage-Antwort, Anweisung-Ausführung, Konversation-Fortsetzung. Wir bringen ihm nicht neues Wissen bei, sondern ein neues Verhalten.

Supervised Fine-Tuning, der erste Schritt

Die einfachste Form des Fine-Tunings heißt Supervised Fine-Tuning (SFT). Wir nehmen das Basismodell und trainieren es weiter, aber jetzt nicht mehr auf zufälligem Web-Text, sondern auf kuratierten Frage-Antwort-Paaren:

USER: Was ist die Hauptstadt von Frankreich?
ASSISTANT: Paris.

Das Trainingsverfahren ist mechanisch dasselbe wie beim Pretraining — wir berechnen die Cross-Entropy zwischen vorhergesagten und tatsächlichen Tokens und propagieren die Gradienten zurück. Was anders ist, ist die Daten-Auswahl und ein technisches Detail: der Loss wird nur über die Antwort-Tokens berechnet, nicht über die Frage. Das Modell soll lernen Antworten zu produzieren, nicht Fragen zu wiederholen.

In Code schematisch:

def sft_loss(model, prompt_tokens, response_tokens):
    full_input = concat(prompt_tokens, response_tokens)
    logits = model(full_input)

    # Loss nur über Antwort-Tokens
    response_logits = logits[len(prompt_tokens):]
    response_targets = response_tokens
    return cross_entropy(response_logits, response_targets)

Die Daten dafür kommen aus mehreren Quellen. Manuell kuratierte Datensätze wie Dolly oder OpenAssistant, von Menschen geschriebene Antworten zu echten Fragen. Synthetische Datensätze, generiert von größeren Modellen — das ist heute der Standardweg, weil ein menschliches Annotationsteam für hunderttausend Beispiele teuer wird. Domänenspezifische Datensätze, wenn das Modell auf Medizin, Recht oder Code spezialisiert werden soll.

Erstaunlich an SFT ist, wie wenig Daten reichen. Schon mit ein paar Tausend bis ein paar Zehntausend hochwertigen Beispielen verändert sich das Verhalten des Modells dramatisch. Aus dem statistischen Textvervollständiger wird etwas, das Anweisungen erkennt und ihnen folgt. Es spricht für die Hypothese, dass das Wissen bereits da ist und SFT eher den Zugriff darauf verschiebt als neue Information installiert.

Chat-Templates und das Rollensystem

Bevor wir weitergehen, ein praktisches Detail das oft unterschätzt wird: das Chat-Template. Ein Modell, das mit Frage-Antwort-Paaren trainiert wurde, muss wissen, wo eine Frage anfängt und wo eine Antwort. Das passiert über spezielle Token, die die Rollen markieren.

Llama 3 nutzt zum Beispiel ein Format wie:

<|begin_of_text|><|start_header_id|>system<|end_header_id|>

Du bist ein hilfreicher Assistent.<|eot_id|><|start_header_id|>user<|end_header_id|>

Was ist die Hauptstadt von Frankreich?<|eot_id|><|start_header_id|>assistant<|end_header_id|>

Paris.<|eot_id|>

Drei Rollen — system, user, assistant — abgegrenzt durch spezielle Token. Das system-Prompt steckt am Anfang und beschreibt den Charakter des Assistenten. Die abwechselnden user/assistant-Blöcke bilden die Konversation.

Diese Token sind dem Modell nicht angeboren. Sie werden im SFT mit ihrer Rolle assoziiert, weil sie konsistent in allen Trainingsbeispielen vorkommen. Das Modell lernt: nach <|start_header_id|>assistant<|end_header_id|> kommt eine hilfreiche Antwort, nicht eine weitere Frage.

Verschiedene Modelle nutzen verschiedene Templates. ChatML (von OpenAI eingeführt) nutzt <|im_start|> und <|im_end|>. Mistral nutzt [INST] und [/INST]. Wer Modelle mischt — etwa beim lokalen Hosting mit Ollama oder llama.cpp — muss aufpassen, das richtige Template für das jeweilige Modell zu verwenden. Falsches Template, falsches Verhalten.

Warum SFT allein nicht reicht

Mit SFT alleine könnte man eigentlich aufhören. Das Modell folgt jetzt Anweisungen, es antwortet auf Fragen, es schreibt Code wenn man ihn verlangt. Reicht das nicht?

Reicht nicht. Drei Probleme bleiben.

Erstens: SFT lehrt dem Modell, plausibel auszusehen, nicht gut zu sein. Wenn das Trainingsbeispiel sagt „auf Frage X antworte Y", lernt das Modell Y zu produzieren. Aber bei tausenden möglichen Antworten auf eine Frage ist Y nur eine. Das Modell lernt ein Y, kein optimales Y. Subtile Qualitätsunterschiede zwischen guten und sehr guten Antworten gehen verloren.

Zweitens: SFT modelliert nicht, was unerwünscht ist. Wenn ich dem Modell beibringe, Bombenbauanleitungen zu erklären, lernt es das. Wenn ich es nicht beibringe, lernt es es nicht — aber es weiß die Information trotzdem aus dem Pretraining und kann sie unter den richtigen Promptbedingungen ausgeben. SFT zeigt dem Modell, was es tun soll, aber es zeigt ihm nicht, was es nicht tun soll.

Drittens: SFT trainiert auf einer Antwort pro Frage, aber Menschen vergleichen oft Antworten miteinander. „Welche dieser zwei Antworten ist besser?" ist eine viel reichhaltigere Information als „diese Antwort ist die richtige". SFT verschenkt diesen Vergleichscharakter.

Hier setzt die zweite Phase an: Preference Learning.

RLHF, der klassische Weg

RLHF steht für Reinforcement Learning from Human Feedback. Die Methode wurde 2022 von OpenAI für InstructGPT publik gemacht (Ouyang et al., 2022) und ist die Geburt von ChatGPT. Sie hat drei Phasen.

Phase 1: SFT — wie oben beschrieben, das Modell wird auf Frage-Antwort-Paaren trainiert.

Phase 2: Reward Model. Wir nehmen das SFT-Modell und lassen es zu vielen verschiedenen Prompts mehrere Antworten generieren — etwa zwei bis vier pro Prompt. Menschliche Annotatoren ranken diese Antworten dann gegeneinander: welche ist besser, welche schlechter. Aus diesen Präferenzdaten trainieren wir ein zweites Modell, das Reward Model. Es nimmt einen (Prompt, Antwort)-Paar und gibt eine Zahl zurück: wie gut ist diese Antwort?

Das Reward Model ist keine separate Architektur, sondern meist dieselbe Transformer-Architektur wie das Sprachmodell, nur mit einem anderen Output-Head — statt Wahrscheinlichkeitsverteilung über Tokens gibt es eine einzige Skalarausgabe.

Phase 3: RL-Update. Jetzt kommt das eigentliche Reinforcement Learning. Wir lassen das SFT-Modell Antworten zu Prompts generieren, lassen das Reward Model jede Antwort bewerten, und passen die Gewichte des Sprachmodells so an, dass die Reward-Werte steigen. Das passiert mit dem PPO-Algorithmus (Proximal Policy Optimization), einer Standardmethode aus dem RL.

Wichtig dabei: ein KL-Divergenz-Term, der das Modell daran hindert, sich zu weit vom SFT-Modell wegzubewegen. Ohne diesen Term würde das Modell in seltsame Strategien abdriften, die hohe Reward-Werte produzieren aber inhaltlich Unsinn sind — ein klassisches Reward Hacking.

Vereinfacht:

def rlhf_objective(model, ref_model, reward_model, prompts):
    responses = model.generate(prompts)
    rewards = reward_model(prompts, responses)
    kl = kl_divergence(model.logprobs(responses),
                       ref_model.logprobs(responses))
    return rewards.mean() - beta * kl.mean()

RLHF-Pipeline mit drei Phasen: SFT trainiert ein Basismodell auf Frage-Antwort-Paaren, dann generiert das SFT-Modell mehrere Antworten die Menschen ranken und damit ein Reward Model trainieren, und schließlich läuft ein PPO-Loop bei dem Policy, Reference und Reward Model gleichzeitig im Speicher sind und die Policy mit KL-Constraint optimiert wird

Mit dieser Pipeline wurde aus GPT-3 ChatGPT. Mit Varianten davon wurde aus Llama 1 Llama-2-Chat, aus Claude 1 Claude 2, aus jedem heutigen Frontier-Modell der Assistent, den wir kennen.

Der Preis von RLHF

RLHF funktioniert. Es ist auch teuer und kompliziert.

Die Daten-Annotation ist der größte Posten. Für ein Frontier-Modell braucht es 50.000 bis 100.000 Präferenzpaare, jedes mit zwei oder mehr Antworten, die ein Mensch tatsächlich gelesen und gerankt hat. Bei 5–10 Minuten pro Paar sind das hunderttausende Mensch-Stunden. OpenAI, Anthropic und Meta haben dafür dedizierte Annotations-Teams, oft global verteilt.

Die Trainingsinfrastruktur ist nicht trivial. PPO mit drei Modellen gleichzeitig im Speicher (Policy, Reference, Reward), das alles für 70-Milliarden-Parameter-Modelle, ist eine Übung in GPU-Engineering. Forschungsgruppen mit kleineren Budgets können RLHF nicht reproduzieren.

Die Stabilität ist berüchtigt. PPO ist hyperparameter-sensitiv, der KL-Term muss tariert werden, die Annotations-Qualität schwankt. Trainings-Runs scheitern, ohne dass klar ist warum. Der Anthropic-Forscher John Schulman hat öffentlich gesagt, dass RLHF mehr Kunst als Wissenschaft ist — und Schulman hat PPO mit erfunden.

Daraus entstand die Frage: geht es einfacher?

DPO, der pragmatische Schritt

Die Antwort kam Mitte 2023 von einer Stanford-Gruppe um Rafael Rafailov. Das Paper hieß „Direct Preference Optimization: Your Language Model is Secretly a Reward Model" (Rafailov et al., 2023) und es hat die Branche umgekrempelt.

Die Kernidee von DPO ist mathematisch elegant. Die Forscher zeigten, dass das Optimierungsproblem von RLHF — finde eine Policy, die das Reward Model maximiert mit KL-Divergenz-Constraint — sich umformulieren lässt. Statt erst ein Reward Model zu trainieren und dann mit PPO zu optimieren, kann man direkt auf den Präferenzdaten trainieren, mit einem Loss, der mathematisch äquivalent ist:

L_DPO = -log σ(β · log(π_θ(y_w|x) / π_ref(y_w|x))
              - β · log(π_θ(y_l|x) / π_ref(y_l|x)))

Wo y_w die gewählte (winning) Antwort ist, y_l die abgelehnte (losing), π_θ das aktuelle Modell und π_ref das SFT-Referenzmodell. β ist ein einziger Hyperparameter, der die Stärke der KL-Constraint steuert.

Was das praktisch bedeutet: kein Reward Model mehr. Keine drei Modelle gleichzeitig im Speicher. Kein PPO mit seinen Stabilitätsproblemen. Nur ein Trainingsloop, der wie SFT aussieht, nur mit einem etwas anderen Loss.

Side-by-Side-Vergleich: links der RLHF-Stack mit Base Model, SFT, Reward Model und PPO-Loop, drei Modellen gleichzeitig im Speicher; rechts der DPO-Stack mit Base Model, SFT und DPO-Loss direkt auf Policy plus Reference, ohne Reward Model

DPO ist heute der pragmatische Standard. Llama 3 nutzt eine DPO-Variante. Die meisten Open-Source-Fine-Tunes auf HuggingFace nutzen DPO. Die Implementierung in TRL (HuggingFaces RL-Library) ist ein paar Dutzend Zeilen Python.

Eine Eigenschaft von DPO, die in der Praxis viel gelobt wird: Reproduzierbarkeit. Während PPO-Trainings je nach Random Seed unterschiedlich enden können, sind DPO-Runs erstaunlich stabil. Das ist kein theoretisches Detail — es bedeutet, dass eine kleine Forschungsgruppe einen DPO-Run reproduzieren und darauf aufbauen kann, was bei PPO oft nicht ging.

Neuere Varianten: KTO, ORPO, RLAIF

DPO ist nicht das Ende der Linie. Im Lauf der letzten zwei Jahre sind mehrere Verfeinerungen erschienen, die jede ein bestimmtes Problem adressieren.

KTO (Kahneman-Tversky Optimization, 2024) löst eine praktische Schwäche von DPO: für DPO braucht es Präferenzpaare — zwei Antworten zu derselben Frage, ein Vergleich. Aber in der Praxis hat man oft nur einzelne Annotationen: „diese Antwort ist gut" oder „diese Antwort ist schlecht". KTO nutzt diese binären Labels direkt, ohne Pairing. Benannt nach Kahneman und Tversky, weil die Loss-Funktion an deren Prospect Theory angelehnt ist — Verluste werden stärker gewichtet als Gewinne, was empirisch besser kalibriert.

ORPO (Odds Ratio Preference Optimization, 2024) kombiniert SFT und Preference Learning in einen einzigen Trainingslauf. Klassisch wird erst SFT gefahren, dann DPO oder PPO. ORPO macht beides gleichzeitig, mit einem kombinierten Loss. Spart Trainingszeit, vereinfacht die Pipeline weiter.

SimPO (2024) ist DPO ohne Referenzmodell. Statt die KL-Divergenz zu einem festen Referenzmodell zu messen, wird die durchschnittliche Token-Likelihood normalisiert. Funktioniert in vielen Settings vergleichbar gut wie DPO und braucht eine Komponente weniger.

RLAIF (Reinforcement Learning from AI Feedback) ersetzt die menschlichen Annotatoren durch ein größeres Sprachmodell. Statt Menschen zu fragen welche Antwort besser ist, fragen wir GPT-4 oder Claude. Das skaliert deutlich besser — eine Million Vergleiche kosten Tage statt Monate — aber es vererbt die Biases des bewertenden Modells. Anthropics Constitutional AI ist die berühmteste Variante davon.

Constitutional AI, ein anderer Ansatz

Während die DPO-Familie die Mechanik von RLHF vereinfacht, geht Constitutional AI (CAI) den Weg andersrum: dieselbe RL-Mechanik, aber mit einer fundamental anderen Quelle der Präferenz.

Anthropic hat CAI 2022 in einem Paper beschrieben (Bai et al., 2022) und seitdem in jeder Claude-Generation weiterentwickelt. Die Grundidee ist eine Konstitution — eine Liste von Prinzipien wie „antworte hilfreich", „lehne schädliche Inhalte ab", „sei ehrlich über Unsicherheit", „respektiere die Autonomie des Nutzers". Diese Prinzipien werden in natürlicher Sprache formuliert, nicht als Regelsystem.

Im Training läuft dann ein Selbstkritik-Loop. Das Modell generiert eine Antwort, dann wird es selbst gefragt: „Verstößt diese Antwort gegen Prinzip X aus der Konstitution? Wenn ja, schreibe sie um." Aus diesen Self-Critique-Paaren entstehen die Präferenzdaten — die kritisierte Antwort als „losing", die überarbeitete als „winning". Mit diesen Daten wird dann RL gefahren, klassisch via PPO oder mit DPO-Varianten.

Der Charme von CAI ist die Skalierbarkeit. Eine Konstitution mit 30 bis 50 Prinzipien ist menschlich zu verfassen. Die Annotation übernimmt das Modell selbst. Das spart die teuersten menschlichen Annotationsstunden.

Der Preis: das Modell wird darauf trainiert, sich an seinen eigenen Maßstab zu halten. Wenn das Modell systematische blinde Flecken hat — und das hat jedes Modell — werden die im CAI-Loop nicht gefunden, sondern verstärkt.

Welche Methode aktuelle Frontier-Modelle nutzen, ist meist Mischform. Claude verwendet eine Kombination aus CAI für Sicherheit und klassischem RLHF für Hilfsbereitschaft. Llama 3 mischt SFT mit DPO und Reject-Sampling. GPT-4 und seine Nachfolger sind nicht öffentlich dokumentiert, aber öffentliche Hinweise sprechen für eine Kombination aus RLHF und RLAIF mit einem teilweise selbstgenerierten Daten-Stack.

Die vollständige Pipeline

Setzen wir alles zusammen. Was passiert, von einem rohen Internet-Korpus bis zu ChatGPT, Claude oder Llama 3?

Vier-Phasen-Pipeline: Pretraining auf 1 bis 15 Billionen Tokens (Wochen auf tausenden GPUs), Supervised Fine-Tuning auf 10k bis 1M Frage-Antwort-Paaren (Stunden bis Tage), Preference Learning mit DPO oder RLHF auf 50k bis 1M Präferenzpaaren (Tage), und kontinuierliches Deployment mit Quantisierung und Serving. Compute-Anteil: Pretraining 85 Prozent, SFT 3, Preference Learning 7, Deployment 5

Phase	Was passiert	Datenmenge	Aufwand
Pretraining	Next-Token-Prediction auf rohem Webtext	1–15 Billionen Tokens	Wochen bis Monate auf tausenden GPUs
SFT	Frage-Antwort-Paare, Chat-Format	10.000 – 1 Million Beispiele	Stunden bis Tage
Preference Learning	DPO/RLHF auf gerankten Antwortpaaren	50.000 – 1 Million Paare	Tage
Iteration	Mehrere SFT/Preference-Runden, manchmal mit synthetischen Daten	variabel	Wochen bis Monate
Red Teaming	Adversariale Tests, Sicherheits-Prompts	Tausende kuratierte Edge-Cases	parallel zur Iteration
Deployment	Quantisierung, Serving, A/B-Tests	—	kontinuierlich

Die ersten Schritte sind die teuersten — Pretraining macht je nach Modell 70 bis 95 Prozent der Compute-Kosten aus. Aber das Verhalten, das wir als Nutzer wahrnehmen, wird in den späteren Phasen geformt. Ein Llama-3-Basismodell und Llama-3-Instruct haben dieselben Gewichte plus minus ein paar Prozent — aber sie verhalten sich völlig anders.

Das ist auch der Grund, warum „Open-Weights" in der Branche heute oft heißt: das Basismodell ist offen, das Fine-Tuning-Rezept ist es meist nicht. Meta veröffentlicht Llama-Gewichte nach beiden Phasen, dokumentiert aber das exakte SFT- und DPO-Setup nicht. Mistral, Qwen, DeepSeek und andere folgen demselben Muster. Wer ein Open-Weights-Modell von Grund auf reproduzieren will, hat das Pretraining sofort, das Post-Training nur näherungsweise.

Was Alignment nicht löst

An dieser Stelle wäre der Artikel schön rund. Pretraining, SFT, Preference Learning, fertig — wir haben aus dem Basismodell einen Assistenten gemacht. In der Realität ist die Frage, was wir gemacht haben, schwieriger als sie aussieht.

Die Methoden in diesem Artikel werden oft unter dem Begriff Alignment zusammengefasst — das Modell mit menschlichen Werten in Einklang bringen. Aber was sie technisch tun, ist enger gefasst: sie verschieben die Wahrscheinlichkeitsverteilung über Antworten. Was im Training als gut bewertet wurde, wird wahrscheinlicher. Was als schlecht bewertet wurde, weniger wahrscheinlich. Das ist Behavior Shaping, nicht Werte-Alignment im philosophischen Sinn.

Drei Probleme illustrieren den Unterschied.

Sycophancy ist das wahrscheinlich am besten dokumentierte Failure Mode. Modelle, die mit RLHF trainiert wurden, lernen oft, ihren Gesprächspartnern zuzustimmen — auch wenn der Gesprächspartner faktisch falsch liegt. Das passiert, weil menschliche Annotatoren positiv auf Antworten reagieren, die ihrer Position entsprechen. Das Modell lernt: stimme zu, dann bekommst du gute Bewertungen. Das ist nicht „aligned mit der Wahrheit", das ist „aligned mit dem Annotator-Bias".

Goodharts Gesetz schlägt durch. Wenn ein Maß zum Ziel wird, hört es auf, ein gutes Maß zu sein. Wenn wir das Modell darauf trainieren, hohe Reward-Werte zu erzielen, optimiert es den Reward — nicht die zugrundeliegende Eigenschaft, die das Reward Model messen soll. Das ist die theoretische Begründung, warum so viel Aufmerksamkeit auf Robustheit der Reward Models gerichtet ist, und warum das Problem nicht durch bessere Daten allein gelöst wird.

Distributional Shift zwischen Training und Anwendung. Das Modell wird auf einer bestimmten Verteilung von Prompts trainiert — kuratiert, gewählte Beispiele, oft englisch, oft im akademischen oder business-orientierten Stil. In der Anwendung kommen Prompts in dutzenden Sprachen, mit Tippfehlern, mit ungewöhnlichen Anliegen, mit adversarialen Versuchen das Modell zu manipulieren. Wie sich das Modell unter Distributional Shift verhält, ist eine empirische Frage, die nicht aus dem Training abzuleiten ist.

Anthropic, OpenAI und die anderen Frontier-Labore wissen das. Die Antwort der Branche darauf ist mehrstufig: kontinuierliches Red-Teaming, breitere und vielfältigere Annotator-Pools, Constitutional Methoden um die Bias-Quelle zu verschieben, Interpretability-Forschung um zu verstehen, was das Modell tatsächlich gelernt hat (siehe die Sektion zu Mechanistic Interpretability in Teil 7), und ein wachsendes Forschungsfeld unter dem Label „AI Safety", das sich genau mit diesen Fragen beschäftigt.

Was das praktisch heißt: Die Modelle, mit denen wir heute arbeiten, sind sehr viel hilfreicher und sicherer als ein rohes Basismodell, und das ist ein riesiger Fortschritt. Aber sie sind nicht „aligned" in einem starken Sinn. Sie sind verhalten geformt. Der Unterschied wird wichtig, sobald die Modelle in agentischen Setups operieren — eigenständig handelnd in Browsern, Dateisystemen, Mailkonten, Code-Repositories. Dort werden die Schwachstellen des Behavior Shaping schmerzhaft sichtbar.

Was wir mitnehmen

Acht Artikel, ein Fundament. Vom einzelnen Token zum produktionsfertigen Assistenten. Wir haben gesehen:

Tokens und Sprachmodelle (Teil 1) — wie Sprache überhaupt zu Mathematik wird, und das Trick „sage das nächste Wort vorher" das ganze Gebäude trägt.
Embeddings (Teil 2) — wie Wörter zu Vektoren werden, und warum Bedeutungsähnlichkeit zu räumlicher Nähe wird.
Neuronale Netze (Teil 3) — wie aus Linearer Algebra plus Aktivierungsfunktionen ein universeller Funktionsapproximator entsteht.
Backpropagation (Teil 4) — wie ein Modell lernt, durch das Zurückrechnen von Fehlern und das Anpassen von Gewichten.
Kontext und RNNs (Teil 5) — warum Reihenfolge zählt und warum die alte Antwort darauf nicht skalierte.
Attention (Teil 6) — wie ein Mechanismus alles veränderte, indem er jedes Token mit jedem anderen direkt verband.
Der Transformer (Teil 7) — wie aus Attention, Position, Tiefe und Stabilität die Architektur wurde, die seit 2017 die Grundlage aller großen Sprachmodelle bildet.
Fine-Tuning (dieser Artikel) — wie aus einem Basismodell ein Assistent wird, und warum „Alignment" eine ehrliche Bezeichnung dafür eher nicht trifft.

Was wir nicht im Detail behandelt haben: die Hardware-Realität (GPU-Cluster, Distributed Training, Mixed Precision, Flash Attention), die Inferenz-Optimierungen (Quantisierung, Speculative Decoding, KV-Cache-Management), die Multimodalität (Vision Transformers, Audio-Tokens, Video), die agentischen Erweiterungen (Tool Use, Memory, MCP), und die offenen Forschungsfragen (Reasoning, Long Context, Continual Learning). Jedes dieser Themen ist eine Serie für sich.

Am Ende bleibt eine Erkenntnis, die in keinem Artikel allein steht. Diese Modelle sind erstaunlicher als viele anerkennen, und sie sind weniger magisch als viele befürchten. Sie sind das Ergebnis eines erstaunlich pragmatischen Bündels aus Statistik, linearer Algebra, viel Compute, vielen Daten und einigen guten Ideen. Sie sind nicht wirklich verstanden — die Mechanistic-Interpretability-Forschung kratzt erst an der Oberfläche, und für aktuelle Frontier-Modelle ist die Karte fast leer. Aber sie sind verstandener als die Schlagzeilen vermuten lassen, und niemand der die acht Artikel dieser Serie gelesen hat, sollte in der Diskussion über LLMs noch das Gefühl haben, sie seien eine Blackbox.

Sind sie nicht. Sie sind eine sehr große, sehr gut trainierte, sehr nützliche Mischmaschine. Was wir damit tun, ist die nächste Frage — und die wird nicht in einem Artikel beantwortet, sondern in den nächsten Jahren von uns allen.

Alle Artikel der Serie

Das nächste Wort, wie Sprachmodelle funktionieren
Wörter als Punkte im Raum, was Embeddings wirklich sind
Neuronale Netze von Grund auf
Backpropagation, wie ein Modell lernt
Kontext und RNNs, warum Reihenfolge zählt
Attention Is All You Need
Der Transformer, die vollständige Architektur
Fine-Tuning, vom Basismodell zum Assistenten ← dieser Artikel

Serie: Wie LLMs funktionieren · rotecodefraktion.de