Was bedeutet 'On-Premise LLM'?

Das Sprachmodell läuft auf Hardware, die Sie selbst kontrollieren — im eigenen Rechenzentrum, in einer privaten Cloud oder auf einem dedizierten Server. Keine Daten verlassen Ihre Infrastruktur. Das Gegenteil ist Cloud-LLM: Die Anfragen laufen über die APIs von OpenAI, Anthropic, Google oder Mistral.

Welche Modelle kann man on-premise betreiben?

Alle Modelle mit offenen Gewichten. Die wichtigsten 2026: Llama (Meta), Mistral und Mixtral (Mistral AI), Qwen (Alibaba), DeepSeek, Gemma (Google) und einige spezialisierte deutsche Modelle wie die aus dem Fraunhofer-Umfeld. Die proprietären Modelle von OpenAI, Anthropic und Google sind nicht on-premise verfügbar.

Was kostet On-Premise im Vergleich zur Cloud?

Die Hardware liegt bei 15 000 bis 150 000 Euro für eine produktive Single-Server-Konfiguration mit mehreren GPUs. Dazu Strom, Kühlung, Wartung. Cloud-API-Kosten skalieren mit Nutzung — für kleine Volumen oft günstiger als On-Premise, ab mittlerer Auslastung kippt die Rechnung zugunsten von On-Premise.

Wann lohnt sich On-Premise für Mittelständler?

Bei sehr sensiblen Daten (Rüstung, kritische Infrastruktur, Medizintechnik), bei hohen Volumen (täglich tausende Anfragen), bei regulatorischen Vorgaben, die Cloud ausschließen. Für die meisten Mittelständler reicht Cloud mit sauberer DSGVO-Auftragsverarbeitung.

Wie schwer ist der Betrieb eines On-Premise-LLMs?

Nicht trivial. Hardware-Beschaffung, Modell-Setup, Updates, Monitoring, Security — rechnen Sie mit einem Tag pro Monat für Wartung und einem guten externen Partner für kritische Phasen. Wer weder IT-Kapazität noch externen Partner hat, sollte bei Cloud bleiben.

On-Premise LLMs 2026: Wann lokales Hosting Sinn macht — und wann Cloud reicht

Wenn wir in Erstgesprächen über DSGVO und KI reden, kommt irgendwann die Frage: "Kann man das nicht auch einfach bei uns im Haus laufen lassen?" Die Antwort ist: Ja, man kann. Die wichtigere Frage ist: Sollten Sie? Und das hängt von drei Faktoren ab — wie sensibel Ihre Daten sind, wie hoch Ihr Nutzungs-Volumen ist, und wie stark Ihr IT-Team aufgestellt ist. In diesem Artikel ordnen wir On-Premise-LLMs für den deutschen Mittelstand ein.

Was On-Premise LLMs 2026 bedeutet

Ein On-Premise-LLM ist ein Sprachmodell, das auf Hardware läuft, die Sie selbst kontrollieren. Das kann der eigene Server-Raum sein, eine Colocation bei einem Rechenzentrums-Partner oder eine private Cloud. Der entscheidende Unterschied zur öffentlichen Cloud: Keine Anfrage verlässt Ihre Infrastruktur. Keine Daten an OpenAI, kein Umweg über amerikanische Server, kein CLOUD-Act-Risiko.

Damit das funktioniert, braucht es Modelle mit offenen Gewichten. Die proprietären Flaggschiffe (GPT-4, Claude Opus, Gemini 2.5 Pro) sind geschlossen und nicht on-premise verfügbar. Die Open-Source-Szene dagegen ist 2026 erstaunlich stark aufgestellt:

Llama-Familie (Meta) — die größte und am besten unterstützte Open-Weight-Familie. Verfügbar auf Hugging Face in diversen Größen von 7B bis 405B Parameter.
Mistral / Mixtral (Mistral AI) — der französische Champion mit exzellenter Mehrsprachigkeit, inklusive Deutsch.
Qwen (Alibaba) — die chinesische Familie, die in vielen Benchmarks auf Augenhöhe spielt.
Gemma (Google) — die kleineren, offenen Varianten aus Googles Gemini-Reihe.
Deutsche Modelle aus dem Fraunhofer-Umfeld — das Fraunhofer IAIS und andere Institute bauen domänenspezifische Modelle, die für bestimmte Branchen passgenau sind.

Die Modell-Übersicht bei Hugging Face listet mehrere zehntausend Varianten — die Auswahl ist enorm, die Qualität sehr unterschiedlich. Wichtig: Open-Weight heißt nicht automatisch Open-Source im rechtlichen Sinn — die Lizenzbedingungen variieren.

Die Hardware-Frage

Für einen produktiven On-Premise-Betrieb brauchen Sie GPUs. Je nach Modell-Größe und Anforderung:

Kleine Modelle (7B-13B) laufen auf einer einzelnen Consumer-GPU (RTX 4090 oder vergleichbar). Hardware-Budget: 5 000 bis 15 000 Euro.
Mittlere Modelle (30B-70B) brauchen mehrere GPUs oder eine Workstation-GPU (H100, A100). Hardware-Budget: 25 000 bis 80 000 Euro.
Große Modelle (>100B Parameter) brauchen Multi-GPU-Setups oder Server. Hardware-Budget: 80 000 bis 250 000+ Euro.

Dazu kommen Strom (ein H100-Server zieht 3-10 kW unter Last), Kühlung, Stellfläche, Wartung. Die deutschen Tech-Publikationen wie Heise berichten regelmäßig über die Beschaffungs-Hürden — Lieferzeiten für H100-GPUs lagen 2025 noch bei Monaten, haben sich 2026 stabilisiert.

Einordnung für den sächsischen Mittelstand

In unseren +15 Projekten gibt es drei Profile, bei denen On-Premise die richtige Wahl ist:

Profil 1 — Hochsensible Daten: Rüstungszulieferer, Medizintechnik mit Patientendaten, Energie-Versorger mit kritischer Infrastruktur. Hier ist On-Premise kein Luxus, sondern oft Auflage oder strategische Notwendigkeit.

Profil 2 — Hohes Volumen: Betriebe, die täglich tausende KI-Anfragen fahren (großer Kundenservice, Batch-Analyse von Verträgen, industrielle Qualitätskontrolle). Ab einer bestimmten Skalierung sind die wiederkehrenden Cloud-Kosten höher als die amortisierte On-Premise-Investition.

Profil 3 — Regulatorische Vorgaben: Bestimmte Branchen oder Kunden-Verträge schließen Cloud-Lösungen aus. Das betrifft häufig öffentliche Auftraggeber, Banken in bestimmten Segmenten, oder Betriebe in Lieferketten der kritischen Infrastruktur. Das BSI liefert Orientierungshilfen, wie die Anforderungen für kritische Sektoren aussehen.

Für alle anderen Mittelständler — das ist die Mehrheit — ist Cloud mit sauberer DSGVO-Auftragsverarbeitung die pragmatischere Wahl. Der Aufwand, eine Cloud-Lösung DSGVO-sauber aufzusetzen, ist deutlich geringer als der Aufwand, einen On-Premise-Betrieb aufzubauen.

Warum Cloud für 85 Prozent der Fälle reicht

Die DSGVO verlangt nicht, dass Daten in Ihrer physischen Infrastruktur liegen. Sie verlangt, dass die Verarbeitung rechtlich sauber geregelt ist — Auftragsverarbeitungsvertrag, angemessene Schutzmaßnahmen, EU-Hosting bei Bedarf, klare Löschkonzepte. Das alles leisten Anbieter wie Mistral, Azure OpenAI oder Anthropic Enterprise heute.

On-Premise ist kein automatischer Sicherheitsgewinn — es ist ein strategischer Entschluss, der in wenigen, klar umrissenen Fällen der richtige Weg ist. Für die meisten Mittelständler ist Cloud-DSGVO die pragmatischere Lösung.

Der größte Irrtum, dem wir begegnen: "Cloud ist unsicher, On-Premise ist sicher." Das ist falsch. On-Premise bedeutet: Sie tragen die Sicherheitsverantwortung selbst. Patching, Updates, Backups, Zugriffsmanagement, physische Sicherheit, Incident-Response. Ein schlecht betriebener On-Premise-Server ist weniger sicher als eine professionell betriebene Cloud-Instanz.

Praxis-Empfehlungen: Wie Sie die richtige Entscheidung treffen

1. Ehrlicher Sensibilitäts-Check

Welche Daten gehen wirklich ins Modell? Wenn es Marketing-Texte, Kundenservice-Mails, Projekt-Briefings sind — Cloud reicht. Wenn es Mandantenakten, Patientendaten, Konstruktionszeichnungen mit Exportkontroll-Relevanz sind — On-Premise wird zum Thema.

2. Volumen realistisch schätzen

Rechnen Sie Ihre erwarteten API-Anfragen pro Monat hoch. Ab etwa 50 000-100 000 Anfragen pro Monat auf großen Modellen beginnen sich On-Premise-Investitionen zu amortisieren — darunter fast nie.

3. IT-Kapazität realistisch bewerten

On-Premise-LLMs brauchen Betreuung. Wer keine eigene IT hat oder kein Budget für einen externen Partner, sollte bei Cloud bleiben. Das Fraunhofer IAIS bietet für bestimmte Branchen Beratungsangebote zur On-Premise-Evaluation.

4. Hybrid-Architekturen prüfen

Oft ist die beste Antwort nicht "entweder-oder", sondern "sowohl-als-auch". Sensible Daten laufen on-premise, unkritische in der Cloud, ein Gateway leitet die Anfragen. Das ist komplexer aufzusetzen, aber gibt maximale Flexibilität.

5. Förderung und Total Cost of Ownership rechnen

Der EFRE-Digitalisierungszuschuss deckt Hardware-Anschaffung für On-Premise-Projekte bis 60 000 Euro (50 Prozent). Bei Cloud sind es die Integrations- und Entwicklungskosten, die förderfähig sind. Rechnen Sie immer 3 Jahre Total Cost of Ownership — dann kippt der Vergleich oft anders als beim ersten Preisschild. Fraunhofer bietet für größere Industrie-Projekte TCO-Studien.

Unser Take

Wir arbeiten mit beiden Welten. In +15 Projekten läuft die große Mehrheit in der Cloud (EU-Hosting, DSGVO-Auftragsverarbeitung, oft Azure OpenAI oder Anthropic Enterprise). Zwei bis drei Projekte laufen hybrid, ein einzelnes rein on-premise. Das spiegelt die Realität: On-Premise ist die richtige Antwort für spezifische Szenarien, nicht die Default-Lösung.

Unser Rat: Lassen Sie sich nicht von der "Cloud ist böse"-Rhetorik treiben. Lassen Sie sich auch nicht von "Cloud ist immer günstiger"-Rhetorik treiben. Machen Sie den Sensibilitäts-Check, den Volumen-Check, den IT-Kapazitäts-Check — und entscheiden Sie dann. Wer bei mindestens zwei der drei Checks auf der "On-Premise-Seite" landet, sollte es prüfen. Wer bei allen drei auf der "Cloud-Seite" landet, sollte nicht künstlich in On-Premise investieren.

Häufige Fragen

Das Sprachmodell läuft auf Hardware, die Sie selbst kontrollieren — eigener Server, Colocation, private Cloud. Keine Daten verlassen Ihre Infrastruktur. Gegenteil ist Cloud-LLM.

Stand: April 2026 — die Hardware- und Modell-Landschaft verändert sich schnell. Wir aktualisieren diese Empfehlungen bei wesentlichen Verschiebungen.