RAG steht für Retrieval-Augmented Generation. Das ist ein Verfahren, bei dem ein Sprachmodell nicht nur auf sein Trainingswissen zurückgreift, sondern zusätzlich gezielt Dokumente aus Ihrer eigenen Firmenquelle heranzieht. Das Modell beantwortet also Fragen auf Basis Ihrer Handbücher, Angebote, Verträge oder technischen Dokumentation — nicht auf Basis allgemeinen Internetwissens.

Warum reicht ChatGPT allein nicht?

ChatGPT und andere LLMs kennen keine Dokumente Ihres Betriebs. Sie können die Modelle mit einzelnen Texten füttern, aber sie haben kein persistentes Gedächtnis. RAG löst das: Jede Frage wird zuerst mit den relevantesten Dokumenten aus Ihrer Sammlung angereichert, dann beantwortet das Modell.

Wie viele Dokumente kann man mit RAG abdecken?

Technisch praktisch unbegrenzt. In unseren Projekten haben wir RAG-Systeme von wenigen hundert bis über 50 000 Dokumenten gesehen. Die Qualität skaliert nicht linear — ab einer bestimmten Menge wird die richtige Strukturierung und Chunking-Strategie wichtiger als reine Quantität.

Was kostet ein RAG-System?

Ein einfaches RAG-System mit bis zu 1000 Dokumenten liegt projektseitig bei 8 000 bis 20 000 Euro. Komplexere Systeme mit mehreren Zehntausend Dokumenten und spezialisierten Retrieval-Strategien liegen bei 25 000 bis 60 000 Euro. Der EFRE-Digitalisierungszuschuss deckt 50 Prozent bis 60 000 Euro.

Wann lohnt sich RAG nicht?

Wenn die Fragen allgemein sind und keine firmen-spezifischen Dokumente nötig sind — dann reicht ein LLM ohne RAG. Wenn die Dokumentenbasis extrem klein ist (unter 20 Dokumenten), kann man sie auch direkt in den Kontext packen. Für 95 Prozent der Mittelstands-Anwendungsfälle mit firmen-spezifischem Wissen ist RAG aber der richtige Weg.

RAG: Wann Retrieval-Augmented Generation für Mittelständler den Unterschied macht

Wer zum ersten Mal ChatGPT öffnet, fragt etwas Allgemeines: "Erklär mir Quantenphysik", "Schreib mir ein Gedicht", "Was ist die Hauptstadt von Usbekistan?" Das funktioniert brilliant. Dann kommt die zweite Frage: "Wer ist mein wichtigster Ansprechpartner bei der Firma Müller GmbH, und was haben wir ihm im Februar angeboten?" — und nichts passiert mehr. Das Modell weiß nichts über Ihre Firma. Es kennt keine Müller GmbH. Es hat nie Ihr Angebotssystem gesehen.

Genau an diesem Punkt wird klar: Ein LLM ohne Zugriff auf Firmendaten ist für den Mittelstand nur begrenzt nützlich. Und genau deshalb ist RAG — Retrieval-Augmented Generation — in fast jedem unserer +15 Projekte die Default-Architektur. In diesem Artikel erklären wir, wie RAG funktioniert, wann es sich lohnt und wie Sie als Mittelständler den richtigen Aufsatz wählen.

Was RAG ist — in einer Minute erklärt

RAG ist eigentlich kein komplizierter Trick. Das Verfahren läuft in drei Schritten ab:

Indexierung: Alle Ihre Firmen-Dokumente (PDFs, Word-Dateien, interne Wikis, E-Mail-Archive, Datenbanken) werden in kleine Textabschnitte zerlegt und in eine Vector-Datenbank geschrieben. Das passiert einmal zu Beginn und wird dann inkrementell gepflegt.
Retrieval: Wenn eine Anfrage kommt — "Wer ist Ansprechpartner bei Müller GmbH?" — sucht das System zuerst die relevantesten Textabschnitte aus der Vector-Datenbank. Das passiert semantisch, nicht wortwörtlich: Auch "Wer kümmert sich bei Müller um uns?" findet denselben Eintrag.
Generation: Die gefundenen Abschnitte werden zusammen mit der eigentlichen Frage an das Sprachmodell geschickt. Das Modell antwortet nun auf Basis Ihrer Dokumente, mit Quellenangabe und ohne zu halluzinieren.

Das Schöne: Sie müssen das LLM nicht umbauen. Jedes gute LLM — Claude, ChatGPT, Gemini, Mistral — funktioniert mit RAG. Die Arbeit passiert vor dem LLM, im Retrieval-Teil.

Die Vector-Datenbank als Herzstück

Das Stück Infrastruktur, das RAG erst ermöglicht, ist die Vector-Datenbank. Sie speichert nicht Text, sondern "Bedeutungs-Vektoren" (Embeddings). Jedes Textstück wird in einen Zahlenvektor übersetzt, und ähnliche Bedeutungen liegen im Zahlenraum nahe beieinander. Eine Anfrage wird in denselben Raum projiziert, und die Datenbank liefert die nächsten Nachbarn zurück — also die Texte mit ähnlichster Bedeutung.

Die drei wichtigsten Anbieter im Jahr 2026 sind:

Pinecone — der Markt-Pionier mit einer Managed-Cloud-Variante, die besonders einfach zu starten ist. In unseren Projekten der Default, wenn der Betrieb kein Hosting-Thema hat.
Qdrant — die performante Open-Source-Option, die wir bevorzugen, wenn der Betrieb On-Premise oder DSGVO-sensibel unterwegs ist. Qdrant ist in Rust geschrieben und lässt sich selbst hosten.
Weaviate — die flexibelste Option mit integrierten Hybrid-Suche-Features, die sowohl semantisch als auch klassisch-textbasiert arbeitet.

Alle drei sind produktiv und ausgereift. Die Wahl hängt von der Hosting-Situation (Managed vs. On-Premise), dem DSGVO-Rahmen und der Integrationsumgebung ab. Der Heise-Überblick zu KI-Infrastruktur ordnet die Landschaft regelmäßig neu ein.

Einordnung für den sächsischen Mittelstand

In unseren +15 Projekten hat RAG sich in folgenden Anwendungsfällen als Default-Architektur durchgesetzt:

Ausschreibungs-Agent: Ein Sondermaschinenbauer hat 12 Jahre Ausschreibungen archiviert. Der Agent findet pro Ausschreibung ähnliche vergangene Projekte, Preispunkte und typische Fallstricke. Zeitersparnis: sechs bis acht Stunden pro Ausschreibung.

Angebots-KI: Ein Metallverarbeiter hat über 4 000 Angebote in SAP. Die KI schreibt den Erstentwurf auf Basis ähnlicher historischer Angebote, Techniker korrigieren statt neu zu schreiben. Durchlaufzeit: von drei Tagen auf halben Tag.

Technik-Chatbot: Ein Maschinenbauer hat die Handbücher seiner letzten 15 Maschinen-Generationen hinterlegt. Techniker fragen nachts "Wie prüfe ich den Hydraulikdruck an Maschine 2018-B?" und bekommen den genauen Absatz aus der richtigen Doku.

Wissens-Assistent: Eine Kanzlei hat ihre internen Mandats-Notizen indexiert. Neue Anwälte fragen nach präzedenzartigen Fällen und bekommen in Sekunden die relevanten Mandate plus Zitat-Stellen.

Ein LLM ohne RAG ist ein kluger Berater, der Ihre Firma nicht kennt. Ein LLM mit RAG ist ein kluger Berater mit Zugriff auf alle Ihre Ordner, ohne dass Sie sie jedes Mal neu erklären müssen.

Der gemeinsame Nenner: Alle diese Anwendungsfälle wären ohne RAG nicht möglich. Das Firmenwissen ist zu spezifisch, die Dokumentenbasis zu groß für einen einfachen Kontext-Dump. RAG ist der Schritt, der aus einem generischen Chatbot einen Firmen-spezifischen Agenten macht.

Praxis-Empfehlungen: Wie Sie ein RAG-Projekt richtig aufsetzen

1. Dokumentenbasis sauber definieren

Welche Dokumente sollen rein? Welche nicht? Das ist die wichtigste Entscheidung im Projekt. Oft ist weniger mehr. Lieber 800 geprüfte, aktuelle Dokumente als 8 000 mit einer hohen Dunkelziffer veralteter oder widersprüchlicher Inhalte. Der Heise-Überblick zu RAG-Best-Practices lohnt vor Projektstart.

2. Chunking-Strategie früh festlegen

Wie zerlegen Sie die Dokumente in Abschnitte? Zu große Chunks verwässern die Antworten, zu kleine brechen den Kontext. Für Standard-Prosa sind 500-800 Token pro Chunk ein guter Startwert. Für strukturierte Dokumente (Tabellen, Datenblätter) braucht es angepasste Strategien.

3. Quellenangaben pflichtbestandteil

Jede RAG-Antwort sollte mit einer Quellenangabe verknüpft sein — "Siehe Handbuch Maschine 2018-B, Seite 47". Das baut Vertrauen bei den Nutzern und ist gleichzeitig die wichtigste Qualitätskontrolle: Halluziniert das System, fällt es beim Blick in die Quelle auf.

4. DSGVO von Anfang an mitdenken

Personenbezogene Daten in der Vector-Datenbank brauchen einen Auftragsverarbeitungsvertrag und klare Löschkonzepte. Die Weaviate-Dokumentation und Qdrant-Dokumentation zeigen, wie Löschungen sauber in den Vektor-Stores umsetzbar sind — das ist keine triviale Frage.

5. EFRE-Förderung prüfen

Der EFRE-Digitalisierungszuschuss trägt in Sachsen 50 Prozent der Projektkosten bis 60 000 Euro. Ein typisches RAG-Projekt liegt je nach Umfang zwischen 15 000 und 50 000 Euro — damit zahlen Sie netto 7 500 bis 25 000 Euro. Der Antrag muss vor Projektbeginn gestellt werden.

Unser Take

Wir bauen seit zwei Jahren RAG-Systeme für den sächsischen Mittelstand, und die Erfahrung ist klar: RAG ist kein Luxus-Add-on, sondern die Basis jeder KI-Anwendung, die mit firmen-spezifischem Wissen arbeitet. Der Aufwand liegt nicht im Sprachmodell — der liegt im sauberen Retrieval. Wer hier schlampt, bekommt einen schlechten Chatbot. Wer hier sauber arbeitet, bekommt einen Assistenten, der das Wissen seines besten Mitarbeiters skaliert.

Der Fehler, den wir oft sehen: Betriebe starten mit einem generischen LLM-Chatbot ("Wir probieren ChatGPT mal aus") und merken nach vier Wochen, dass die Antworten nicht firmenspezifisch genug sind. Dann wird nachträglich RAG drumherum gebaut — doppelter Aufwand. Unsere Empfehlung: Wenn Sie wissen, dass Firmen-Dokumente ins Spiel kommen, planen Sie RAG von Tag eins mit ein.

Häufige Fragen

Retrieval-Augmented Generation. Das Sprachmodell greift nicht nur auf sein Trainingswissen zurück, sondern holt zusätzlich relevante Passagen aus Ihren Firmen-Dokumenten. Jede Antwort ist firmen-spezifisch und mit Quellenangabe.

Stand: April 2026 — die RAG-Landschaft entwickelt sich weiter (Hybrid-Retrieval, GraphRAG, Agentic-RAG). Wir aktualisieren unsere Architektur-Empfehlungen laufend.

RAG: Wann Retrieval-Augmented Generation für Mittelständler den Unterschied macht

Was RAG ist — in einer Minute erklärt

Die Vector-Datenbank als Herzstück

Einordnung für den sächsischen Mittelstand

Praxis-Empfehlungen: Wie Sie ein RAG-Projekt richtig aufsetzen

1. Dokumentenbasis sauber definieren

2. Chunking-Strategie früh festlegen

3. Quellenangaben pflichtbestandteil

4. DSGVO von Anfang an mitdenken

5. EFRE-Förderung prüfen

Unser Take

Häufige Fragen

PhoenixOne Team

Bereit, das auf Ihren Betrieb anzuwenden?

Weiterlesen

15 KI-Anwendungen für den sächsischen Industriemittelstand — aus unseren Projekten

Mistral AI: Die europäische LLM-Alternative für DSGVO-sensible Betriebe

KI-Kosten 2026 transparent gerechnet: Von Lizenz bis Betrieb