Was ist ein Context Window?

Das Context Window ist die Menge an Text, die ein Sprachmodell gleichzeitig verarbeiten kann — Input-Prompt plus Ausgabe. Gemessen wird in Token (ein Token entspricht etwa 0,75 deutschen Wörtern). 1 Million Token entsprechen rund 750 000 Wörtern oder 2 000 Seiten Fließtext.

Welche Modelle haben 2026 große Context Windows?

Gemini 2.5 Pro von Google (bis 2 Millionen Token), Claude 3 und 4 von Anthropic (bis 1 Million Token in Enterprise-Varianten), GPT-4-Turbo (128 000 Token Standard, größere Varianten in Enterprise). Mistral und Llama-Modelle liegen meist bei 32 000 bis 128 000 Token.

Ersetzen große Context Windows RAG?

Nein — sie ergänzen es. Bei bis zu einer Handvoll großer Dokumente kann ein Million-Token-Kontext RAG überflüssig machen. Bei Tausenden von Dokumenten bleibt RAG nötig. Zusätzlich ist die Kosten-Frage relevant: Eine Anfrage über 1 Million Token kostet deutlich mehr als eine über 10 000 Token mit gezieltem Retrieval.

Für welche Use-Cases lohnen sich große Kontexte?

Analyse langer Einzel-Dokumente (ein 800-seitiger Vertrag, ein gesamtes Rechercheprojekt, eine komplette Projekt-Historie), ausführliche Mehrschritt-Prompts mit viel Kontext, komplexe Entscheidungen mit vielen Inputs gleichzeitig. Im Mittelstand ist das oft bei juristischen Analysen, M&A-Due-Diligence oder komplexen Ausschreibungen relevant.

Was kosten Anfragen mit großen Kontexten?

Pro 1 Million Input-Token liegen die Preise bei Flaggschiff-Modellen 2026 zwischen 2 und 15 US-Dollar — je nach Modell und Anbieter. Eine einzelne Analyse eines 500-Seiten-Dokumentes kostet also selbst bei einem Premium-Modell meist unter 10 Euro. Ein ganzer Tag voller solcher Analysen liegt im unteren dreistelligen Bereich.

Context Windows 2026: Warum 1 Million Token die neue Normalität sind

Vor zwei Jahren war "das Context Window ist voll" einer der häufigsten Frust-Momente in KI-Projekten. Das Modell konnte nur wenige tausend Wörter gleichzeitig betrachten, längere Dokumente mussten zerlegt, zusammengefasst, neu zusammengeführt werden — und bei jedem Schritt ging ein Stück Kontext verloren. 2026 ist das Geschichte. Die aktuellen Flaggschiff-Modelle verarbeiten routinemäßig 1 Million Token — das sind rund 2 000 Seiten Text in einem einzigen Prompt. Das verändert Use-Cases tiefgreifend.

In diesem Artikel ordnen wir ein, was große Context Windows praktisch bedeuten, wann sie besser sind als klassisches RAG, und welche Use-Cases im Mittelstand dadurch neu möglich werden.

Was ein Context Window ist — und warum es wächst

Ein Sprachmodell verarbeitet Text in Tokens — kleine Einheiten, die oft einem Wort, manchmal einer Silbe entsprechen. Eine Faustregel: 1 Token ≈ 0,75 deutsche Wörter. 1 Million Token sind also rund 750 000 Wörter oder rund 2 000 Seiten Fließtext. 2 Millionen Token entsprechen einer mittleren wissenschaftlichen Fachbibliothek.

Das Wachstum der Context Windows in den letzten zwei Jahren war dramatisch:

2023: GPT-3.5 mit 4 096 Token (etwa 8 Seiten)
2024: GPT-4-Turbo mit 128 000 Token (rund 250 Seiten), Claude 3 mit 200 000 Token
2025: Gemini 1.5 Pro mit 1 Million Token, Claude 3.5/4 mit 500 000-1 000 000 Token
2026: Gemini 2.5 Pro mit 2 Millionen Token Standard, spezielle Enterprise-Varianten darüber hinaus

Der technische Durchbruch liegt in Architektur-Innovationen (unter anderem Sliding-Window-Attention, Ring Attention, State-Space-Modellen) und in massiv gewachsener Rechenkapazität. Die Berichterstattung bei Heise dokumentiert die Sprünge laufend.

Welche Modelle 2026 was können

Gemini 2.5 Pro von Google ist 2026 das Context-Window-Flaggschiff. Über Google AI für Entwickler verfügbar, mit routinemäßigen 2 Millionen Token in der Produktiv-Variante. Die Qualität bleibt auch bei sehr großen Kontexten hoch — Gemini 2.5 findet Passagen in einem 1 500-Seiten-Dokument mit hoher Zuverlässigkeit.

Claude 4 von Anthropic bietet in Enterprise-Varianten bis zu 1 Million Token und ist nach unserer Erfahrung bei Schreibaufgaben mit großem Kontext qualitativ führend. Wenn nicht nur gelesen, sondern auch stilistisch konsistent über viele Seiten hinweg reagiert werden soll, ist Claude oft die bessere Wahl.

GPT-4-Turbo und Nachfolger von OpenAI bewegen sich im Bereich 128 000 bis 1 Million Token, je nach Variante. In der Enterprise-Version sind große Kontexte standardmäßig verfügbar.

Die Unterschiede sind oft nicht bei der reinen Kontext-Länge, sondern bei der Qualität über den Kontext hinweg. Manche Modelle "vergessen" Informationen aus der Mitte langer Kontexte — das "Lost in the Middle"-Problem. Moderne Modelle sind hier deutlich besser geworden, aber das Verhalten lohnt sich zu testen.

Wann große Kontexte besser sind als RAG

Wir haben in +15 Projekten eine pragmatische Entscheidungsregel entwickelt:

Große Kontexte gewinnen:

Bei einem oder wenigen großen Dokumenten (Verträge, Gutachten, Studien, ganze Projekt-Ordner).
Bei Aufgaben, die das gesamte Dokument überblicken müssen (Widerspruchs-Prüfung, Zusammenhangs-Analysen, stilistische Konsistenz).
Bei Einmal-Analysen ohne Wiederholung, wo Retrieval-Infrastruktur nicht wirtschaftlich ist.

RAG gewinnt:

Bei vielen Dokumenten (tausende oder mehr), von denen pro Anfrage nur ein kleiner Teil relevant ist.
Bei häufigen Anfragen an dieselbe Dokumentenbasis — Retrieval ist wiederholbar billiger als große Kontexte jedes Mal.
Bei aktuellen oder sich ändernden Dokumenten, die fortlaufend gepflegt werden.

Große Kontexte sind nicht die Antwort auf alles — aber sie sind 2026 das Werkzeug, das ganze Use-Cases von 'unmöglich' zu 'einfach' verschoben hat.

Die ehrliche Einordnung: Große Kontexte und RAG ergänzen sich. Viele unserer komplexeren Projekte kombinieren beides — RAG findet die relevanten Dokumente, der große Kontext erlaubt dann, das komplette gefundene Dokument im Detail zu analysieren.

Einordnung für den sächsischen Mittelstand

Im Mittelstand öffnen große Kontexte 2026 konkrete neue Use-Cases:

Juristische Vertrags-Analyse. Kanzleien und Steuerberater können einen gesamten 300-Seiten-Vertrag in einem Schritt analysieren lassen: Widersprüche, ungewöhnliche Klauseln, Abweichungen vom Standard. Was früher 4 Stunden gelesen wurde, dauert jetzt 30 Minuten Analyse plus gezielte Prüfung durch den Anwalt.

M&A-Due-Diligence. Bei Unternehmens-Übernahmen fallen hunderte Dokumente an. Das Gesamtbild — inklusive Querverweisen zwischen Finanz-, Vertrags- und Personal-Dokumenten — wird mit großen Kontexten auf einen Blick erfassbar.

Komplexe Ausschreibungen. Öffentliche Ausschreibungen im Bauwesen oder Maschinenbau können 500-1 500 Seiten umfassen. Der Kompakt-Bericht auf Basis des kompletten Dokumentes ist mit großen Kontexten zuverlässig möglich.

Projekt-Historien. Ein komplettes Projekt-Archiv (E-Mails, Protokolle, Angebote, Rechnungen) in einem Zug analysiert — für Post-Mortem, Wiederholungs-Kalkulationen oder Übergaben an neue Teammitglieder.

Technische Spezifikationen. Ganze Normen-Werke, gesamte Maschinen-Dokumentationen, komplette Regelwerke in einem Kontext zu überblicken und daraus konkrete Antworten zu generieren.

Praxis-Empfehlungen: Wie Sie große Kontexte richtig nutzen

1. Token-Budget im Projekt einplanen

Große Kontexte kosten. Eine Anfrage mit 1 Million Input-Token kostet je nach Modell 2-15 US-Dollar. Bei täglicher Nutzung über Wochen summiert sich das. Rechnen Sie realistisch: Wie oft läuft die Analyse, auf wie vielen Dokumenten? Die OpenAI-Preise und Anthropic-Preise sind transparent.

2. Dokumente sauber vorbereiten

Auch mit großen Kontexten gilt: Garbage in, garbage out. Saubere Text-Extraktion aus PDFs, ordentliche Struktur-Marker (Kapitel, Abschnitte), entfernte Bilder und Fußzeilen machen den Unterschied zwischen brauchbarer und unbrauchbarer Analyse.

3. Testphase auf "Lost in the Middle"

Prüfen Sie in der Pilotphase, ob das Modell auch Informationen aus der Mitte langer Dokumente findet. Manche Modelle sind am Anfang und Ende stark, in der Mitte schwächer. Eine einfache Test-Frage zu einer Passage aus dem mittleren Drittel zeigt das schnell.

4. Kombiniert mit RAG bei großen Beständen

Wenn Ihre Dokumentenbasis zehntausende Dokumente umfasst, ist reiner Kontext-Einsatz nicht wirtschaftlich. Aber RAG findet die relevanten 3-5 Dokumente, und dann kann der große Kontext diese komplett analysieren. Das ist oft die beste Kombination.

5. Output-Länge nicht unterschätzen

Das Context Window umfasst Input plus Output. Wenn Sie ein 900 000-Token-Dokument eingeben, bleiben für die Antwort nur 100 000 Token — immer noch viel, aber nicht unbegrenzt. Für sehr lange Zusammenfassungen müssen Sie kürzen oder in Zwischen-Schritte zerlegen. Die Berichterstattung bei Heise zu LLM-Praxis ordnet diese operativen Fragen regelmäßig neu ein.

Unser Take

Große Context Windows sind die KI-Entwicklung der letzten 18 Monate mit dem größten praktischen Hebel — nach unserer Einschätzung noch vor Agentic AI und Multimodal. Sie öffnen Use-Cases, die vorher grundsätzlich nicht möglich waren, und machen bestehende Use-Cases dramatisch einfacher umzusetzen.

Unsere Empfehlung für sächsische Mittelständler: Wenn Ihr Betrieb mit langen Dokumenten arbeitet — Verträge, Ausschreibungen, technische Spezifikationen, Forschungsberichte — sollten Sie große Context Windows in Ihren KI-Überlegungen fest einplanen. Nicht als Ersatz für saubere Retrieval-Infrastruktur, sondern als Ergänzung, die bestimmte Szenarien von "nicht machbar" zu "in Minuten erledigt" verschiebt.

Häufige Fragen

Die Textmenge, die ein Sprachmodell gleichzeitig verarbeitet — Input plus Output. Gemessen in Token. 1 Million Token ≈ 750 000 Wörter ≈ 2 000 Seiten.

Stand: April 2026 — die Context-Window-Landschaft entwickelt sich rasant weiter. Wir aktualisieren diese Einschätzungen bei wesentlichen Modell- oder Preis-Veränderungen.