Wer zum ersten Mal ChatGPT öffnet, fragt etwas Allgemeines: "Erklär mir Quantenphysik", "Schreib mir ein Gedicht", "Was ist die Hauptstadt von Usbekistan?" Das funktioniert brilliant. Dann kommt die zweite Frage: "Wer ist mein wichtigster Ansprechpartner bei der Firma Müller GmbH, und was haben wir ihm im Februar angeboten?" — und nichts passiert mehr. Das Modell weiß nichts über Ihre Firma. Es kennt keine Müller GmbH. Es hat nie Ihr Angebotssystem gesehen.
Genau an diesem Punkt wird klar: Ein LLM ohne Zugriff auf Firmendaten ist für den Mittelstand nur begrenzt nützlich. Und genau deshalb ist RAG — Retrieval-Augmented Generation — in fast jedem unserer +15 Projekte die Default-Architektur. In diesem Artikel erklären wir, wie RAG funktioniert, wann es sich lohnt und wie Sie als Mittelständler den richtigen Aufsatz wählen.
Was RAG ist — in einer Minute erklärt
RAG ist eigentlich kein komplizierter Trick. Das Verfahren läuft in drei Schritten ab:
-
Indexierung: Alle Ihre Firmen-Dokumente (PDFs, Word-Dateien, interne Wikis, E-Mail-Archive, Datenbanken) werden in kleine Textabschnitte zerlegt und in eine Vector-Datenbank geschrieben. Das passiert einmal zu Beginn und wird dann inkrementell gepflegt.
-
Retrieval: Wenn eine Anfrage kommt — "Wer ist Ansprechpartner bei Müller GmbH?" — sucht das System zuerst die relevantesten Textabschnitte aus der Vector-Datenbank. Das passiert semantisch, nicht wortwörtlich: Auch "Wer kümmert sich bei Müller um uns?" findet denselben Eintrag.
-
Generation: Die gefundenen Abschnitte werden zusammen mit der eigentlichen Frage an das Sprachmodell geschickt. Das Modell antwortet nun auf Basis Ihrer Dokumente, mit Quellenangabe und ohne zu halluzinieren.
Das Schöne: Sie müssen das LLM nicht umbauen. Jedes gute LLM — Claude, ChatGPT, Gemini, Mistral — funktioniert mit RAG. Die Arbeit passiert vor dem LLM, im Retrieval-Teil.
Die Vector-Datenbank als Herzstück
Das Stück Infrastruktur, das RAG erst ermöglicht, ist die Vector-Datenbank. Sie speichert nicht Text, sondern "Bedeutungs-Vektoren" (Embeddings). Jedes Textstück wird in einen Zahlenvektor übersetzt, und ähnliche Bedeutungen liegen im Zahlenraum nahe beieinander. Eine Anfrage wird in denselben Raum projiziert, und die Datenbank liefert die nächsten Nachbarn zurück — also die Texte mit ähnlichster Bedeutung.
Die drei wichtigsten Anbieter im Jahr 2026 sind:
- Pinecone — der Markt-Pionier mit einer Managed-Cloud-Variante, die besonders einfach zu starten ist. In unseren Projekten der Default, wenn der Betrieb kein Hosting-Thema hat.
- Qdrant — die performante Open-Source-Option, die wir bevorzugen, wenn der Betrieb On-Premise oder DSGVO-sensibel unterwegs ist. Qdrant ist in Rust geschrieben und lässt sich selbst hosten.
- Weaviate — die flexibelste Option mit integrierten Hybrid-Suche-Features, die sowohl semantisch als auch klassisch-textbasiert arbeitet.
Alle drei sind produktiv und ausgereift. Die Wahl hängt von der Hosting-Situation (Managed vs. On-Premise), dem DSGVO-Rahmen und der Integrationsumgebung ab. Der Heise-Überblick zu KI-Infrastruktur ordnet die Landschaft regelmäßig neu ein.
Einordnung für den sächsischen Mittelstand
In unseren +15 Projekten hat RAG sich in folgenden Anwendungsfällen als Default-Architektur durchgesetzt:
Ausschreibungs-Agent: Ein Sondermaschinenbauer hat 12 Jahre Ausschreibungen archiviert. Der Agent findet pro Ausschreibung ähnliche vergangene Projekte, Preispunkte und typische Fallstricke. Zeitersparnis: sechs bis acht Stunden pro Ausschreibung.
Angebots-KI: Ein Metallverarbeiter hat über 4 000 Angebote in SAP. Die KI schreibt den Erstentwurf auf Basis ähnlicher historischer Angebote, Techniker korrigieren statt neu zu schreiben. Durchlaufzeit: von drei Tagen auf halben Tag.
Technik-Chatbot: Ein Maschinenbauer hat die Handbücher seiner letzten 15 Maschinen-Generationen hinterlegt. Techniker fragen nachts "Wie prüfe ich den Hydraulikdruck an Maschine 2018-B?" und bekommen den genauen Absatz aus der richtigen Doku.
Wissens-Assistent: Eine Kanzlei hat ihre internen Mandats-Notizen indexiert. Neue Anwälte fragen nach präzedenzartigen Fällen und bekommen in Sekunden die relevanten Mandate plus Zitat-Stellen.
Ein LLM ohne RAG ist ein kluger Berater, der Ihre Firma nicht kennt. Ein LLM mit RAG ist ein kluger Berater mit Zugriff auf alle Ihre Ordner, ohne dass Sie sie jedes Mal neu erklären müssen.
Der gemeinsame Nenner: Alle diese Anwendungsfälle wären ohne RAG nicht möglich. Das Firmenwissen ist zu spezifisch, die Dokumentenbasis zu groß für einen einfachen Kontext-Dump. RAG ist der Schritt, der aus einem generischen Chatbot einen Firmen-spezifischen Agenten macht.
Praxis-Empfehlungen: Wie Sie ein RAG-Projekt richtig aufsetzen
1. Dokumentenbasis sauber definieren
Welche Dokumente sollen rein? Welche nicht? Das ist die wichtigste Entscheidung im Projekt. Oft ist weniger mehr. Lieber 800 geprüfte, aktuelle Dokumente als 8 000 mit einer hohen Dunkelziffer veralteter oder widersprüchlicher Inhalte. Der Heise-Überblick zu RAG-Best-Practices lohnt vor Projektstart.
2. Chunking-Strategie früh festlegen
Wie zerlegen Sie die Dokumente in Abschnitte? Zu große Chunks verwässern die Antworten, zu kleine brechen den Kontext. Für Standard-Prosa sind 500-800 Token pro Chunk ein guter Startwert. Für strukturierte Dokumente (Tabellen, Datenblätter) braucht es angepasste Strategien.
3. Quellenangaben pflichtbestandteil
Jede RAG-Antwort sollte mit einer Quellenangabe verknüpft sein — "Siehe Handbuch Maschine 2018-B, Seite 47". Das baut Vertrauen bei den Nutzern und ist gleichzeitig die wichtigste Qualitätskontrolle: Halluziniert das System, fällt es beim Blick in die Quelle auf.
4. DSGVO von Anfang an mitdenken
Personenbezogene Daten in der Vector-Datenbank brauchen einen Auftragsverarbeitungsvertrag und klare Löschkonzepte. Die Weaviate-Dokumentation und Qdrant-Dokumentation zeigen, wie Löschungen sauber in den Vektor-Stores umsetzbar sind — das ist keine triviale Frage.
5. EFRE-Förderung prüfen
Der EFRE-Digitalisierungszuschuss trägt in Sachsen 50 Prozent der Projektkosten bis 60 000 Euro. Ein typisches RAG-Projekt liegt je nach Umfang zwischen 15 000 und 50 000 Euro — damit zahlen Sie netto 7 500 bis 25 000 Euro. Der Antrag muss vor Projektbeginn gestellt werden.
Unser Take
Wir bauen seit zwei Jahren RAG-Systeme für den sächsischen Mittelstand, und die Erfahrung ist klar: RAG ist kein Luxus-Add-on, sondern die Basis jeder KI-Anwendung, die mit firmen-spezifischem Wissen arbeitet. Der Aufwand liegt nicht im Sprachmodell — der liegt im sauberen Retrieval. Wer hier schlampt, bekommt einen schlechten Chatbot. Wer hier sauber arbeitet, bekommt einen Assistenten, der das Wissen seines besten Mitarbeiters skaliert.
Der Fehler, den wir oft sehen: Betriebe starten mit einem generischen LLM-Chatbot ("Wir probieren ChatGPT mal aus") und merken nach vier Wochen, dass die Antworten nicht firmenspezifisch genug sind. Dann wird nachträglich RAG drumherum gebaut — doppelter Aufwand. Unsere Empfehlung: Wenn Sie wissen, dass Firmen-Dokumente ins Spiel kommen, planen Sie RAG von Tag eins mit ein.
Häufige Fragen
Retrieval-Augmented Generation. Das Sprachmodell greift nicht nur auf sein Trainingswissen zurück, sondern holt zusätzlich relevante Passagen aus Ihren Firmen-Dokumenten. Jede Antwort ist firmen-spezifisch und mit Quellenangabe.
Stand: April 2026 — die RAG-Landschaft entwickelt sich weiter (Hybrid-Retrieval, GraphRAG, Agentic-RAG). Wir aktualisieren unsere Architektur-Empfehlungen laufend.