02.05.·KI-Gipfel·Noch 7 von 25 Plätzen
Grundlagen · 25. April 2026 · 7 min

RAG: Wann Retrieval-Augmented Generation für Mittelständler den Unterschied macht

RAG kombiniert die Sprachfähigkeit großer Sprachmodelle mit den Dokumenten Ihres Betriebs. Wann es sich lohnt, wie es funktioniert und warum wir es in +15 Projekten standardmäßig einsetzen.

Von PhoenixOne TeamSitz Leipzig · Sachsen

Wer zum ersten Mal ChatGPT öffnet, fragt etwas Allgemeines: "Erklär mir Quantenphysik", "Schreib mir ein Gedicht", "Was ist die Hauptstadt von Usbekistan?" Das funktioniert brilliant. Dann kommt die zweite Frage: "Wer ist mein wichtigster Ansprechpartner bei der Firma Müller GmbH, und was haben wir ihm im Februar angeboten?" — und nichts passiert mehr. Das Modell weiß nichts über Ihre Firma. Es kennt keine Müller GmbH. Es hat nie Ihr Angebotssystem gesehen.

Genau an diesem Punkt wird klar: Ein LLM ohne Zugriff auf Firmendaten ist für den Mittelstand nur begrenzt nützlich. Und genau deshalb ist RAG — Retrieval-Augmented Generation — in fast jedem unserer +15 Projekte die Default-Architektur. In diesem Artikel erklären wir, wie RAG funktioniert, wann es sich lohnt und wie Sie als Mittelständler den richtigen Aufsatz wählen.

Was RAG ist — in einer Minute erklärt

RAG ist eigentlich kein komplizierter Trick. Das Verfahren läuft in drei Schritten ab:

  1. Indexierung: Alle Ihre Firmen-Dokumente (PDFs, Word-Dateien, interne Wikis, E-Mail-Archive, Datenbanken) werden in kleine Textabschnitte zerlegt und in eine Vector-Datenbank geschrieben. Das passiert einmal zu Beginn und wird dann inkrementell gepflegt.

  2. Retrieval: Wenn eine Anfrage kommt — "Wer ist Ansprechpartner bei Müller GmbH?" — sucht das System zuerst die relevantesten Textabschnitte aus der Vector-Datenbank. Das passiert semantisch, nicht wortwörtlich: Auch "Wer kümmert sich bei Müller um uns?" findet denselben Eintrag.

  3. Generation: Die gefundenen Abschnitte werden zusammen mit der eigentlichen Frage an das Sprachmodell geschickt. Das Modell antwortet nun auf Basis Ihrer Dokumente, mit Quellenangabe und ohne zu halluzinieren.

Das Schöne: Sie müssen das LLM nicht umbauen. Jedes gute LLM — Claude, ChatGPT, Gemini, Mistral — funktioniert mit RAG. Die Arbeit passiert vor dem LLM, im Retrieval-Teil.

Die Vector-Datenbank als Herzstück

Das Stück Infrastruktur, das RAG erst ermöglicht, ist die Vector-Datenbank. Sie speichert nicht Text, sondern "Bedeutungs-Vektoren" (Embeddings). Jedes Textstück wird in einen Zahlenvektor übersetzt, und ähnliche Bedeutungen liegen im Zahlenraum nahe beieinander. Eine Anfrage wird in denselben Raum projiziert, und die Datenbank liefert die nächsten Nachbarn zurück — also die Texte mit ähnlichster Bedeutung.

Die drei wichtigsten Anbieter im Jahr 2026 sind:

  • Pinecone — der Markt-Pionier mit einer Managed-Cloud-Variante, die besonders einfach zu starten ist. In unseren Projekten der Default, wenn der Betrieb kein Hosting-Thema hat.
  • Qdrant — die performante Open-Source-Option, die wir bevorzugen, wenn der Betrieb On-Premise oder DSGVO-sensibel unterwegs ist. Qdrant ist in Rust geschrieben und lässt sich selbst hosten.
  • Weaviate — die flexibelste Option mit integrierten Hybrid-Suche-Features, die sowohl semantisch als auch klassisch-textbasiert arbeitet.

Alle drei sind produktiv und ausgereift. Die Wahl hängt von der Hosting-Situation (Managed vs. On-Premise), dem DSGVO-Rahmen und der Integrationsumgebung ab. Der Heise-Überblick zu KI-Infrastruktur ordnet die Landschaft regelmäßig neu ein.

Einordnung für den sächsischen Mittelstand

In unseren +15 Projekten hat RAG sich in folgenden Anwendungsfällen als Default-Architektur durchgesetzt:

Ausschreibungs-Agent: Ein Sondermaschinenbauer hat 12 Jahre Ausschreibungen archiviert. Der Agent findet pro Ausschreibung ähnliche vergangene Projekte, Preispunkte und typische Fallstricke. Zeitersparnis: sechs bis acht Stunden pro Ausschreibung.

Angebots-KI: Ein Metallverarbeiter hat über 4 000 Angebote in SAP. Die KI schreibt den Erstentwurf auf Basis ähnlicher historischer Angebote, Techniker korrigieren statt neu zu schreiben. Durchlaufzeit: von drei Tagen auf halben Tag.

Technik-Chatbot: Ein Maschinenbauer hat die Handbücher seiner letzten 15 Maschinen-Generationen hinterlegt. Techniker fragen nachts "Wie prüfe ich den Hydraulikdruck an Maschine 2018-B?" und bekommen den genauen Absatz aus der richtigen Doku.

Wissens-Assistent: Eine Kanzlei hat ihre internen Mandats-Notizen indexiert. Neue Anwälte fragen nach präzedenzartigen Fällen und bekommen in Sekunden die relevanten Mandate plus Zitat-Stellen.

Ein LLM ohne RAG ist ein kluger Berater, der Ihre Firma nicht kennt. Ein LLM mit RAG ist ein kluger Berater mit Zugriff auf alle Ihre Ordner, ohne dass Sie sie jedes Mal neu erklären müssen.

Der gemeinsame Nenner: Alle diese Anwendungsfälle wären ohne RAG nicht möglich. Das Firmenwissen ist zu spezifisch, die Dokumentenbasis zu groß für einen einfachen Kontext-Dump. RAG ist der Schritt, der aus einem generischen Chatbot einen Firmen-spezifischen Agenten macht.

Praxis-Empfehlungen: Wie Sie ein RAG-Projekt richtig aufsetzen

1. Dokumentenbasis sauber definieren

Welche Dokumente sollen rein? Welche nicht? Das ist die wichtigste Entscheidung im Projekt. Oft ist weniger mehr. Lieber 800 geprüfte, aktuelle Dokumente als 8 000 mit einer hohen Dunkelziffer veralteter oder widersprüchlicher Inhalte. Der Heise-Überblick zu RAG-Best-Practices lohnt vor Projektstart.

2. Chunking-Strategie früh festlegen

Wie zerlegen Sie die Dokumente in Abschnitte? Zu große Chunks verwässern die Antworten, zu kleine brechen den Kontext. Für Standard-Prosa sind 500-800 Token pro Chunk ein guter Startwert. Für strukturierte Dokumente (Tabellen, Datenblätter) braucht es angepasste Strategien.

3. Quellenangaben pflichtbestandteil

Jede RAG-Antwort sollte mit einer Quellenangabe verknüpft sein — "Siehe Handbuch Maschine 2018-B, Seite 47". Das baut Vertrauen bei den Nutzern und ist gleichzeitig die wichtigste Qualitätskontrolle: Halluziniert das System, fällt es beim Blick in die Quelle auf.

4. DSGVO von Anfang an mitdenken

Personenbezogene Daten in der Vector-Datenbank brauchen einen Auftragsverarbeitungsvertrag und klare Löschkonzepte. Die Weaviate-Dokumentation und Qdrant-Dokumentation zeigen, wie Löschungen sauber in den Vektor-Stores umsetzbar sind — das ist keine triviale Frage.

5. EFRE-Förderung prüfen

Der EFRE-Digitalisierungszuschuss trägt in Sachsen 50 Prozent der Projektkosten bis 60 000 Euro. Ein typisches RAG-Projekt liegt je nach Umfang zwischen 15 000 und 50 000 Euro — damit zahlen Sie netto 7 500 bis 25 000 Euro. Der Antrag muss vor Projektbeginn gestellt werden.

Unser Take

Wir bauen seit zwei Jahren RAG-Systeme für den sächsischen Mittelstand, und die Erfahrung ist klar: RAG ist kein Luxus-Add-on, sondern die Basis jeder KI-Anwendung, die mit firmen-spezifischem Wissen arbeitet. Der Aufwand liegt nicht im Sprachmodell — der liegt im sauberen Retrieval. Wer hier schlampt, bekommt einen schlechten Chatbot. Wer hier sauber arbeitet, bekommt einen Assistenten, der das Wissen seines besten Mitarbeiters skaliert.

Der Fehler, den wir oft sehen: Betriebe starten mit einem generischen LLM-Chatbot ("Wir probieren ChatGPT mal aus") und merken nach vier Wochen, dass die Antworten nicht firmenspezifisch genug sind. Dann wird nachträglich RAG drumherum gebaut — doppelter Aufwand. Unsere Empfehlung: Wenn Sie wissen, dass Firmen-Dokumente ins Spiel kommen, planen Sie RAG von Tag eins mit ein.

Häufige Fragen

Retrieval-Augmented Generation. Das Sprachmodell greift nicht nur auf sein Trainingswissen zurück, sondern holt zusätzlich relevante Passagen aus Ihren Firmen-Dokumenten. Jede Antwort ist firmen-spezifisch und mit Quellenangabe.

Stand: April 2026 — die RAG-Landschaft entwickelt sich weiter (Hybrid-Retrieval, GraphRAG, Agentic-RAG). Wir aktualisieren unsere Architektur-Empfehlungen laufend.

Über die Autoren

PhoenixOne Team

Wir bauen KI-Infrastruktur für den deutschen Mittelstand. Seit zwei Jahren, mit über fünfzehn produktiven Systemen im Einsatz — von Dokument-Agenten im Bauhandwerk bis zu vollständigen AI-OS-Setups in der Industrie. Alle Projekte mit Festpreis, Team-Übergabe und EFRE-Förderung beantragt.

Unsere Artikel schreiben wir aus der Projekt-Praxis — mit echten Zahlen, ohne Hype-Vokabeln. Keine einzelnen Autoren, sondern das gesamte Team als Quelle: Projektleiter, Entwickler, Förder-Spezialisten.

Sitz Leipzig · Projekte bundesweit·+15 Projekte live im Betrieb·Gegründet 2024
Jetzt starten

Bereit, das auf Ihren Betrieb anzuwenden?

Ein KI-Audit zeigt in 5 Minuten, wo Ihr Betrieb steht und welche Automation den größten Hebel hat.

Kostenloses KI-Audit starten

Sächsischer Mittelstand — Sitz Leipzig — über 15 Projekte live im Betrieb

Weiterlesen