Warum On-Premise KI statt OpenAI- oder Anthropic-Cloud?

On-Premise-KI behält sensible Geschäftsdaten vollständig in Ihrer Infrastruktur. Keine Drittland-Übermittlung, keine Token-basierten Lizenzkosten, keine Modell-Deprecation durch den Anbieter. Bei stetiger Nutzung kosten dedizierte GPUs ab dem zweiten Jahr typischerweise weniger als äquivalente Cloud-API-Calls — und Sie behalten volle Kontrolle über Modellwechsel, Updates und Auditierbarkeit.

Was leistet vLLM gegenüber Ollama oder llama.cpp?

vLLM ist auf produktiven Multi-User-Betrieb auf NVIDIA-GPUs optimiert. PagedAttention reduziert KV-Cache-Fragmentierung, Continuous Batching maximiert GPU-Auslastung bei parallelen Anfragen, und FP8/AWQ-Quantisierung halbiert den VRAM-Bedarf ohne nennenswerten Qualitätsverlust. Im Vergleich zu llama.cpp erreicht vLLM bei 32 parallelen Anfragen typischerweise 5- bis 10-fache Throughput-Werte.

Welches Modell für welchen Use Case — MiniMax M2.5, Qwen3 27B oder GPT OSS 120B?

MiniMax M2.5 ist ein MoE-Modell mit Stärken bei Tool Use, agentischen Workflows und Code-Generierung — ideal für Helpdesk-Agenten, RAG-Systeme mit komplexen Tool-Chains und Coding-Assistants. Qwen3 27B ist ein Dense-Modell mit Hybrid-Thinking-Modus, exzellentem Mehrsprachen-Support inkl. Deutsch und starker Reasoning-Leistung — passend für Dokumentenanalyse, Übersetzungen und allgemeine Chat-Anwendungen. GPT OSS 120B ist OpenAIs offenes Chat-Modell unter Apache-2.0-Lizenz, MoE mit ca. 5 Mrd. aktiven Parametern, läuft auf einer einzelnen H100 80GB und liefert den vertrauten OpenAI-Antwortstil — die ergonomischste Wahl für unternehmensweite Mitarbeiter-Chatbots.

Was ist GPT OSS 120B und warum eignet es sich als On-Premise-Chatbot?

GPT OSS 120B ist OpenAIs erstes Open-Weights-Modell seit GPT-2 und steht unter Apache-2.0-Lizenz frei zur Verfügung. Es ist eine Mixture-of-Experts-Architektur mit 117 Mrd. Gesamt- und ca. 5 Mrd. aktiven Parametern pro Token. Durch native MXFP4-Quantisierung läuft es auf einer einzelnen H100 80GB. Reasoning-Stärke nahe o3-mini/o4-mini, vertrauter OpenAI-Antwortstil, volle Kompatibilität mit Function Calling und Structured Outputs — ideal als Default-Chatbot für Mitarbeitende, die OpenAI-Tools gewohnt sind, aber Daten im Haus halten müssen.

Welche Hardware brauche ich für On-Premise-LLM-Betrieb?

Für ein 27-Milliarden-Parameter-Modell wie Qwen3 27B in FP8-Quantisierung genügt eine einzelne H100 80GB oder zwei A100 40GB im Tensor-Parallel-Modus. GPT OSS 120B in nativer MXFP4-Quantisierung passt ebenfalls auf eine H100 80GB. Als budgetfreundliche Alternative bewährt sich ein Cluster aus 2× NVIDIA RTX 6000 Pro Blackwell mit je 96 GB GDDR7 (192 GB Total): GPT OSS 120B und Qwen3 27B laufen parallel, der Stromverbrauch liegt bei ~1,2 kW statt 0,7 kW pro H100. MiniMax M2.5 als MoE-Modell benötigt aufgrund der höheren Gesamtparameter typischerweise 4 H100 80GB. Hinzu kommen Server-Klasse-CPU, ECC-RAM, NVMe-Storage für Model-Weights und ausreichend Kühlung. HostSpezial bietet die komplette Hardware-Infrastruktur als Managed Service in deutschen Rechenzentren.

Ist On-Premise KI DSGVO-konform und auditierbar?

Ja. Da keine Daten an externe Cloud-Anbieter fließen, entfällt das Drittland-Transfer-Problem (Schrems II). Alle Inference-Anfragen, Eingaben und Ausgaben können lokal protokolliert und auditiert werden. Die Plattform läuft in ISO-27001-zertifizierten Rechenzentren in Deutschland. Auftragsverarbeitungsverträge nach Art. 28 DSGVO sind selbstverständlich, ein Datenschutzfolgenabschätzung-Template stellen wir zur Verfügung.

On-Premise KI: vLLM, MiniMax M2.5, Qwen3 27B & GPT OSS 120B — Deep Dive

Warum On-Premise KI — und warum gerade jetzt?

Die Argumentation für eigenen KI-Betrieb hat sich 2025/26 grundlegend gewandelt. Noch 2023 war die Antwort einfach: „Nimm OpenAI." Heute ist sie es nicht mehr — aus drei Gründen, die sich gleichzeitig verstärkt haben: regulatorischer Druck, Modell-Kommodifizierung und betriebswirtschaftliche Realitäten.

Auf der Regulierungsseite hat der EU AI Act konkrete Pflichten geschaffen, die jenseits der DSGVO wirken: Risikoklassifikation, Transparenzpflichten, Dokumentation der Datenflüsse, Audit-Fähigkeit. Wer im Mittelstand mit personenbezogenen Daten, Geschäftsgeheimnissen oder geistigem Eigentum hantiert und diese Daten in einen US-Cloud-LLM-Endpoint schickt, hat ein konkretes Compliance-Problem — kein theoretisches. Für KRITIS-Betreiber und NIS-2-pflichtige Unternehmen ist der Drittland-Transfer ohnehin nicht mehr darstellbar.

Auf der Modellseite hat sich der Abstand zwischen geschlossenen und offenen Modellen drastisch verringert. Wo 2023 noch GPT-4 die unangefochtene Spitze bildete, liegen heute Open-Weights-Modelle wie Qwen3, MiniMax M2 oder Llama 4 in vielen Benchmarks gleichauf — und in manchen Aufgaben (Tool Use, mehrsprachiges Reasoning, Code-Generierung) sogar voraus. Was vor zwei Jahren ein technischer Kompromiss war, ist heute eine pragmatische Wahl mit überlegenen Eigenschaften für viele Enterprise-Use-Cases.

Auf der Wirtschaftsseite verschiebt sich das Kostenkalkül mit zunehmender Nutzung. Eine einzelne Token-Anfrage in der Cloud kostet wenig — aber bei 50 Mitarbeitenden, die täglich 100.000 Tokens generieren, ergeben sich schnell vier- bis fünfstellige Monatskosten. Eine eigene GPU-Plattform ist eine Capex-Investition mit kalkulierbaren Opex-Werten — und nach 18 bis 24 Monaten in den meisten Szenarien günstiger als äquivalente Cloud-API-Calls.

Kurzfassung: On-Premise KI ist 2026 keine Sonderlocke mehr, sondern für viele Mittelständler die rationalere Wahl. Vorausgesetzt, der Stack ist richtig gewählt — und genau hier kommen vLLM, MiniMax M2.5 und Qwen3 27B ins Spiel.

Der HostSpezial-Stack im Überblick

Wir haben uns nach Evaluation mehrerer Alternativen auf eine klare Stack-Architektur festgelegt, die Stabilität, Performance und Wartbarkeit balanciert. Das Ziel: produktionsreifer Betrieb für Kunden mit echten SLAs, nicht ein Hobby-Setup.

Inference-Engine: vLLM 0.6+ als hochperformanter LLM-Server mit OpenAI-kompatibler REST-API.
Modelle: MiniMax M2.5 (agentisch, Tool Use, Coding) + Qwen3 27B (Reasoning, Mehrsprachigkeit) + GPT OSS 120B (Mitarbeiter-Chatbot, OpenAI-vertrauter Antwortstil, Apache-2.0).
Hardware: NVIDIA H100 80GB im 4er-Cluster, Tensor-Parallel und Pipeline-Parallel je nach Modellgröße. Optional über GPU-Pooling mehreren Mandanten zugewiesen.
Orchestrierung: Kubernetes mit GPU-Operator, Prometheus/Grafana für Monitoring, MinIO mit S3-Storage-API für Modell-Weights.
Gateway-Layer: LiteLLM als Routing-Proxy, mit RBAC, Rate Limiting und vollständigem Audit-Logging.
Vektor-Store für RAG: Qdrant oder pgvector als Vector-DB — je nach bestehender Datenbank-Landschaft des Kunden.

Diese Komponenten sind nicht zufällig gewählt. Jede einzelne hat in den letzten 18 Monaten produktive Belastung in Kundenumgebungen gesehen — und wir wissen, wo die Kanten liegen.

vLLM: Warum diese Inference-Engine?

vLLM ist das Industrie-Standard-Framework für hochperformante LLM-Inference auf NVIDIA-GPUs. Im Gegensatz zu Ollama (entwickler-orientiert, single-user) oder llama.cpp (CPU/Edge) ist vLLM von Grund auf für produktiven Multi-User-Betrieb konzipiert. Drei technische Innovationen heben es ab.

PagedAttention — der KV-Cache-Durchbruch

Der Kontext eines LLM (die "Erinnerung" an Prompt und bisherige Tokens) wird im sogenannten Key-Value-Cache (KV-Cache) gespeichert. Klassische Implementierungen reservieren für jede Anfrage einen kontinuierlichen GPU-Speicherblock in maximaler Größe — was zu massiver Speicher-Fragmentierung und schwacher Auslastung führt. PagedAttention ist eine Methode, die — analog zum virtuellen Speicher in Betriebssystemen — den KV-Cache in feste Blöcke (Pages) zerlegt und nur bei Bedarf zuweist. Resultat: Dieselbe Hardware verarbeitet zwei- bis viermal so viele parallele Anfragen, weil der GPU-Speicher endlich vollständig genutzt wird.

Continuous Batching — keine Wartezeit auf den Slowest

Klassisches Static Batching wartet, bis alle Anfragen einer Batch fertig sind, bevor neue eingespeist werden. Continuous Batching dagegen entfernt fertige Anfragen aus der Batch und schiebt neue ein, sobald GPU-Slots frei werden. Bei stark variierender Antwortlänge — typisch im Chat-Betrieb — verdoppelt das die effektive Throughput-Rate, ohne Latenz-Nachteile für einzelne User.

Quantisierung: FP8, AWQ und GPTQ

vLLM unterstützt eine breite Palette an Quantisierungsformaten. Für Qwen3 27B verwenden wir typischerweise AWQ-Int4 (Activation-aware Weight Quantization) — das halbiert den VRAM-Bedarf von ca. 54 GB auf ca. 16 GB bei einem Qualitätsverlust unterhalb der Messbarkeitsschwelle in deutschen Aufgaben. Für MiniMax M2.5 setzen wir FP8 ein, was die nativen Hopper-Tensor-Cores der H100 voll ausnutzt und eine Throughput-Steigerung von ca. 80% gegenüber BF16 bringt.

# vLLM Server-Start für Qwen3 27B mit AWQ-Quantisierung

python -m vllm.entrypoints.openai.api_server \

  --model Qwen/Qwen3-27B-Instruct-AWQ \

  --quantization awq \

  --max-model-len 32768 \

  --gpu-memory-utilization 0.92 \

  --tensor-parallel-size 1 \

  --enable-prefix-caching \

  --served-model-name qwen3-27b

MiniMax M2.5, Qwen3 27B und GPT OSS 120B — die Modell-Wahl

Die Modellauswahl ist die folgenreichste Designentscheidung im gesamten Stack. Wir haben über sechs Monate eine breite Auswahl an Open-Weights-Modellen unter realen Kunden-Workloads getestet. Aus dem Spielfeld haben sich drei Modelle als ergänzendes Trio herauskristallisiert: MiniMax M2.5 für Agentik und Coding, Qwen3 27B für Reasoning und mehrsprachige Fachsprache, und seit Kurzem GPT OSS 120B als ergonomischer Mitarbeiter-Chatbot. Drei Modelle, die unterschiedliche Stärken abdecken — und einen Großteil der Use Cases im Mittelstand sauber bedienen.

MiniMax M2.5 — der agentische Spezialist

MiniMax M2.5 ist ein Mixture-of-Experts-Modell (MoE) der zweiten Generation aus dem Hause MiniMax. Bei einer Gesamtparameterzahl von rund 230 Milliarden werden pro Token nur etwa 10 Milliarden aktiv geschaltet — was eine sehr günstige Inference-Effizienz bei gleichzeitig hoher Modellkapazität ergibt. Die zentralen Stärken aus unserer Praxis:

Tool-Use auf höchstem Niveau: M2.5 ist explizit auf Function Calling und mehrstufige Tool-Chains trainiert und liefert auf agentischen Benchmarks (BFCL, Tau-Bench) Spitzenwerte.
Coding-Stärke: Bei Code-Generierung, Debugging und Refactoring liegt M2.5 in unseren internen Tests gleichauf oder vor Claude Sonnet 4 — mit dem Vorteil offener Gewichte.
Long-Context bis 256k Tokens: Ideal für Code-Repositories, große Tickethistorien oder umfangreiche Vertragsdokumente.
Effizientes Streaming: Aufgrund der MoE-Architektur sind die Time-to-First-Token-Werte (TTFT) trotz Modellgröße konkurrenzfähig zu deutlich kleineren Dense-Modellen.

Qwen3 27B — der vielseitige Reasoner

Qwen3 27B (technisch als Qwen3-30B-A3B in der MoE-Variante oder Qwen3-32B als Dense-Modell verfügbar — wir nutzen die im Markt gebräuchliche „27B"-Notation für die Klasse) ist Teil der dritten Qwen-Generation aus dem Hause Alibaba. Es ist das ergonomischste Allround-Modell, das wir derzeit kennen, und bringt zwei Eigenschaften mit, die im Mittelstandseinsatz Gold wert sind:

Hybrid Thinking Modus: Qwen3 schaltet bei Bedarf in einen expliziten Reasoning-Modus, der intern Schritt-für-Schritt-Denkprozesse durchläuft, bevor die finale Antwort kommt. Über einen einzelnen Switch (/think oder /no_think im Prompt) lässt sich das je Anfrage steuern — schnelle Antworten für FAQ, tiefes Reasoning für Analysen.
Mehrsprachigkeit auf Deutsch-Niveau: Qwen3 wurde auf einem hochwertigen mehrsprachigen Korpus trainiert und liefert auf Deutsch eine Idiomatik, die viele westliche Modelle in dieser Größenklasse nicht erreichen — entscheidend für Helpdesk, Kommunikation und Dokumentenverarbeitung in deutschsprachigen Unternehmen.
Apache-2.0-Lizenz: Vollständig kommerziell nutzbar, keine versteckten Klauseln, kein "Acceptable Use Policy"-Risiko wie bei einigen anderen Open-Weights-Modellen.

GPT OSS 120B — der freie Chatbot von OpenAI

GPT OSS 120B ist OpenAIs erstes Open-Weights-Modell seit GPT-2 und ist 2025 unter Apache-2.0-Lizenz erschienen. Was wie eine PR-Geste klingen mag, ist in der Praxis ein ernsthaftes Werkzeug: 117 Milliarden Gesamtparameter in Mixture-of-Experts-Architektur, davon nur rund 5 Milliarden aktive Parameter pro Token. Das macht GPT OSS 120B zum sparsamsten 120B-Klasse-Modell auf dem Markt — und zur ergonomischsten Wahl für unternehmensweite Chatbots, in denen Mitarbeitende den vertrauten OpenAI-Stil erwarten.

Chatbot-DNA aus dem OpenAI-Haus: Antworttempo, Tonalität, Formatierung, Refusal-Verhalten — wer ChatGPT gewohnt ist, fühlt sich bei GPT OSS 120B sofort zuhause. In unseren Pilotprojekten war die Akzeptanz bei der Belegschaft signifikant höher als bei alternativen Open-Weights-Modellen.
Reasoning auf o3-mini-Niveau: Eingebauter Chain-of-Thought-Modus, der sich pro Anfrage zwischen low, medium und high umschalten lässt. Auf MMLU, GPQA und AIME erreicht das Modell Werte nahe der geschlossenen OpenAI-Reasoning-Modelle — bei voller Kontrolle über die eigene Hardware.
Single-GPU-fähig durch native MXFP4: Die Gewichte werden nativ in MXFP4 (4-Bit-Mikroskalierung) ausgeliefert. Das gesamte 120B-Modell passt damit auf eine einzelne H100 80GB — vor 18 Monaten war das technisch nicht darstellbar. Die kleinere Schwester GPT OSS 20B läuft sogar auf einer L40S 48GB und ist eine Option für Edge-Deployments.
OpenAI-Tooling-Kompatibilität: Function Calling, Structured Outputs (JSON-Schema-Garantien) und das vertraute Chat-Completion-Format funktionieren ohne Codeänderung gegen die vLLM-API. Bestehende Integrationen — Python-SDK, Node-SDK, LangChain, LlamaIndex, fertige Browser-Plugins — laufen 1:1 weiter.
Apache 2.0: Vollständig kommerziell nutzbar, modifizierbar, weiterverbreitbar. Kein Acceptable-Use-Riegel, der spätere Modell-Pivots ausschließt.

Die Praxis bei HostSpezial-Kunden: GPT OSS 120B wird zunehmend zum Default-Backend für den unternehmensweiten KI-Workplace-Chatbot — also für genau das, was Mitarbeitende im Tagesgeschäft als „den ChatGPT-Ersatz" wahrnehmen. Qwen3 27B bleibt erste Wahl für deutsche Fachsprache und Dokumentenanalyse, MiniMax M2.5 das Backend für Tool-Heavy-Agenten. GPT OSS 120B steht als drittes Modell nicht in Konkurrenz, sondern füllt die Lücke „freier, vertrauter, breit einsetzbarer Allround-Chat".

# vLLM Server-Start für GPT OSS 120B mit nativer MXFP4-Quantisierung

python -m vllm.entrypoints.openai.api_server \

  --model openai/gpt-oss-120b \

  --dtype mxfp4 \

  --max-model-len 131072 \

  --gpu-memory-utilization 0.92 \

  --tensor-parallel-size 1 \

  --enable-prefix-caching \

  --served-model-name gpt-oss-120b

Eigenschaft	MiniMax M2.5	Qwen3 27B	GPT OSS 120B
Architektur	MoE (~230B / 10B aktiv)	Dense oder MoE-Variante	MoE (~117B / 5B aktiv)
Stärken	Tool Use, Coding, Agentic	Reasoning, Mehrsprachigkeit, Chat	Mitarbeiter-Chat, OpenAI-Stil, Reasoning
Kontextlänge	bis 256k Tokens	32k–128k Tokens	bis 128k Tokens
Quantisierung im Einsatz	FP8	AWQ-Int4 oder FP8	nativ MXFP4
VRAM-Bedarf	~240 GB (4× H100)	~32 GB (1× H100)	~65 GB (1× H100)
Throughput (Single-GPU)	n/a (4× H100 nötig)	~3 900 Tokens/s	~2 700 Tokens/s
Lizenz	MiniMax Open License	Apache 2.0	Apache 2.0
Idealer Use Case	Agenten, Code, RAG mit Tools	Helpdesk, Übersetzung, Analyse	Mitarbeiter-Chatbot, Allround-Assistant

Pragmatische Empfehlung: GPT OSS 120B als Default-Chatbot für die Belegschaft (vertrauter Stil, breite Verfügbarkeit, niedrige Akzeptanz-Hürde). Qwen3 27B als zweites Modell für deutsch-affine Reasoning- und Dokumenten-Workloads. MiniMax M2.5 als spezialisiertes Backend für agentische und Coding-Workflows. Ein Router im Gateway-Layer (LiteLLM) wählt das jeweils passende Modell automatisch — transparent für die Anwendung, optimal für Kosten und Qualität.

Hardware-Sizing für den Produktivbetrieb

Die häufigste Frage in Erstberatungen: „Welche Hardware brauche ich konkret?" Die Antwort hängt vom erwarteten Lastprofil ab — aber für die typischen Mittelstandsszenarien lassen sich vier Konfigurationsklassen ableiten. Alle vier laufen produktiv in deutschen Rechenzentren bei HostSpezial-Kunden.

SSingle-Modell-Einstieg

bis ~50 aktive Nutzer · ein Modell parallel · GPT OSS 120B oder Qwen3 27B

ab 1 800 €/Monat

GPU

1× NVIDIA H100 80GB

VRAM gesamt

80 GB

CPU / RAM

2× EPYC 9354 · 512 GB ECC

Storage / Strom

4 TB NVMe · ~0,7 kW

Reicht für Qwen3 27B in AWQ-Int4 oder alternativ GPT OSS 120B in MXFP4 mit ca. 30 parallelen Sessions und 2 700–3 000+ Tokens/s aggregiertem Throughput. Klassischer Einstieg in eine eigene LLM-Plattform — ein Modell, eine GPU, kein Cluster-Overhead.

Investition: niedriger sechsstelliger Bereich · Miete im Colocation-Rechenzentrum

S+Budgetfreundliches Zwei-Modell-Setup

bis ~150 Nutzer · zwei Modelle parallel · der Sweet-Spot ohne Datacenter-GPU

ab 1 200 €/Monat

GPU

2× RTX 6000 Pro Blackwell 96 GB

VRAM gesamt

192 GB GDDR7

CPU / RAM

2× EPYC 9355 · 512 GB ECC

Storage / Strom

4 TB NVMe · ~1,2 kW

GPT OSS 120B in MXFP4 belegt ca. 65 GB auf einer GPU, daneben passt Qwen3 27B in AWQ-Int4 auf dieselbe Karte oder die zweite — die freie GPU steht für Embedding-Workloads, RAG-Reranking oder einen dritten Modell-Slot zur Verfügung. Blackwell bringt native FP8- und FP4-Tensor-Cores mit; der Throughput pro Karte liegt bei aktuellen Modellen bei ~65–75 % einer H100 80GB — bei deutlich attraktiveren Anschaffungs- und Stromkosten.

Investition: mittlerer fünfstelliger Bereich · Ideal für: Mittelstand mit Mitarbeiter-Chatbot & Reasoning-Workload

MDrei-Modell-Cluster für Mittelstandsplattformen

50–500 Nutzer · GPT OSS 120B + Qwen3 27B + MiniMax M2.5 koexistent · die häufigste Praxis-Klasse

individuelle Kalkulation

GPU

4× NVIDIA H100 80GB · NVLink

VRAM gesamt

320 GB

CPU / RAM

2× EPYC · 1 TB ECC · 10 GbE

Storage / Strom

8 TB NVMe · ~2,8 kW

Drei Modelle koexistent: Qwen3 27B und GPT OSS 120B je auf einer dedizierten GPU, MiniMax M2.5 mit Tensor-Parallel-Size 2 über die verbleibenden zwei GPUs verteilt. Deckt das gesamte Use-Case-Spektrum gleichzeitig ab — Mitarbeiter-Chat, Reasoning und Agentic-Workloads ohne Modellwechsel-Overhead.

Investition: mittlerer sechsstelliger Bereich · Ideal für: mittelständische KI-Plattformen mit gemischten Workloads

LMulti-Tenant & SLA-kritische Plattformen

redundante M-Cluster über zwei Rechenzentren · aktives Failover · > 99,9 % SLA

individuell auf Anfrage

GPU

n× M-Cluster (≥ 8× H100)

VRAM gesamt

≥ 640 GB

Topologie

2 RZ · Active-Active · Load-Balancing

Storage / Strom

Object-Storage · ≥ 5,6 kW

Mehrfache redundante M-Cluster mit aktivem Load-Balancing und automatischem Failover. Modelle und KV-Cache werden synchronisiert, ein RZ-Ausfall bleibt für Anwendungen unsichtbar. Auf Wunsch mit hartem Mandanten-Isolations-Layer (MIG, dedizierte Namespaces, getrennte Audit-Logs).

Investition: ab mittlerem sechsstelligen Bereich · Ideal für: KI-Plattform-Anbieter, Konzern-Töchter, regulierte Branchen

Hardware-Tipp aus der Praxis: Unterschätzen Sie nicht die Kühlung und die Stromversorgung. Eine H100 zieht unter Volllast bis zu 700 Watt — ein 4er-Cluster also bis zu 3 kW alleine für die GPUs. In den meisten Bürogebäuden ist das nicht darstellbar. Co-Location in einem fachgerecht ausgestatteten Rechenzentrum ist für die meisten Mittelständler der wirtschaftlichere Weg.

Anwendungsfälle aus der Praxis

Theorie ist gut, Anwendungen sind besser. Die folgenden Use Cases stammen aus realen HostSpezial-Kundenprojekten der letzten Monate — anonymisiert, aber inhaltlich repräsentativ.

Helpdesk-Agent für IT-Dienstleister

Ein mittelständischer IT-Dienstleister mit 12 000 Endkunden und 80 000 Tickets/Jahr nutzt einen Helpdesk-Agenten auf Qwen3 27B im Stil unseres Managed Helpdesk. Das Modell klassifiziert eingehende Tickets, schlägt Lösungswege aus der Wissensdatenbank vor (RAG mit Qdrant) und beantwortet Standardfragen wie Passwort-Resets vollständig automatisch via Active-Directory-Integration. Ergebnis: 38% der Tickets werden ohne menschliche Beteiligung gelöst, durchschnittliche Erstantwortzeit von 4 Stunden auf 90 Sekunden gesunken.

Coding-Assistant für Softwarehaus

Ein Software-Entwicklungshaus mit 45 Entwicklern setzt MiniMax M2.5 als internen Coding-Copilot ein. Der entscheidende Vorteil: Quellcode des Kunden verlässt zu keinem Zeitpunkt die Infrastruktur des Softwarehauses — ein hartes Compliance-Erfordernis vieler Endkunden, das mit Cloud-Lösungen wie GitHub Copilot oder Cursor nicht erfüllbar wäre. Integration: VS Code-Plugin gegen vLLM-OpenAI-API, Continue.dev als Frontend.

Dokumentenanalyse für Steuerberatung

Eine mittelständische Steuerberatung verarbeitet monatlich rund 8 000 eingehende Belege, Verträge und Mandantenanschreiben. Qwen3 27B in Kombination mit einem OCR-Vorprozessor extrahiert strukturierte Daten, klassifiziert Dokumenttypen und schlägt Buchungsvorschläge vor. Compliance-Anforderung: Mandantendaten dürfen das Hausnetz nicht verlassen — On-Premise war hier keine Option, sondern eine Pflicht.

RAG-System für Maschinenbau-Dokumentation

Ein Maschinenbau-Unternehmen mit 30 Jahren Bestand und mehreren Tausend technischen Dokumentationen, Schaltplänen und Reparaturhandbüchern hat alle Dokumente in eine Vektor-Datenbank überführt. Servicetechniker fragen über ein einfaches Chat-Interface auf Tablet oder Smartphone Reparaturanleitungen ab — auch offline-fähig durch lokalen Stack auf einem kleinen Edge-Server. Modell: Qwen3 27B wegen exzellenter deutscher Fachsprache. Lade- und Onboarding-Zeit für neue Servicetechniker um geschätzt 40% reduziert.

Compliance-Bot für Gesundheitswesen

Ein Verbund von Medizinischen Versorgungszentren beantwortet mit einem Compliance-Bot Fragen zu Datenschutz, Hygienevorschriften und Abrechnungsregeln. DSGVO-relevant: Patientendaten werden zu keinem Zeitpunkt von der KI verarbeitet — der Bot arbeitet ausschließlich mit anonymisierten Regelwerken und Schulungsmaterial. Trotzdem war On-Premise zwingend, weil Klinikrichtlinien jeden externen API-Call mit Kontextinformationen über interne Prozesse untersagen.

Mitarbeiter-Chatbot mit GPT OSS 120B für Industrie-Holding

Eine Industrie-Holding mit ca. 1 200 Mitarbeitenden an fünf Standorten hat ChatGPT firmenweit gesperrt — aus Sorge vor Geschäftsgeheimnissen, die in Cloud-Logs landen. Ersatz: ein interner Chatbot auf Basis von GPT OSS 120B, ausgespielt über ein Browser-Frontend mit SSO-Anbindung (Entra ID). Die Belegschaft nutzt den Bot für Texte, Übersetzungen, Tabellenlogik, Brainstorming, Code-Snippets — der gesamte „ChatGPT-Alltag", aber im eigenen Rechenzentrum. Akzeptanz: innerhalb von vier Wochen aktive Nutzung durch > 60% der Belegschaft, vergleichbar mit der vorher erlaubten ChatGPT-Nutzung. Schlüsselfaktor war der vertraute Antwortstil von GPT OSS 120B — alternative Open-Modelle hatten in der Vor-Evaluation deutlich schlechter abgeschnitten, schlicht weil sich die Antworten "anders anfühlten".

Integration in bestehende Systeme

Die schlankeste Implementierung des Stacks nützt wenig, wenn die Anbindung an ERP, CRM, Ticketsystem und Dokumentenmanagement nicht funktioniert. Integration ist erfahrungsgemäß der Bereich, der die meiste Projektzeit verschlingt — und der über Erfolg oder Misserfolg entscheidet.

OpenAI-API-Kompatibilität als Schlüssel

vLLM exponiert eine vollständig OpenAI-kompatible API: /v1/chat/completions, /v1/embeddings, Streaming via Server-Sent Events, Function Calling mit OpenAI-Schema. Das bedeutet konkret: Jede Anwendung, die heute gegen die OpenAI-API entwickelt ist — Chatbots, Frameworks wie LangChain oder LlamaIndex, fertige SaaS-Tools mit OpenAI-Integration — funktioniert ohne Code-Änderung gegen den lokalen vLLM-Endpunkt. Lediglich OPENAI_BASE_URL wird auf den internen Server umgestellt.

Gateway, RBAC und Audit-Logging

Direkt-Zugriff auf vLLM ist nur in Entwicklungsumgebungen sinnvoll. Im Produktivbetrieb steht ein Gateway davor — wir nutzen LiteLLM. Es übernimmt Authentifizierung (typischerweise gegen Active Directory oder Keycloak), Rate Limiting pro Nutzer/Team, Modell-Routing (richtige Anfrage an MiniMax M2.5 oder Qwen3 27B), Cost Tracking pro Kostenstelle und vollständiges Audit-Logging aller Anfragen mit Eingabe, Ausgabe und Metadaten — ein Pflicht-Feature für AI-Act-Compliance.

RAG: Wissen aus dem eigenen Haus

Für die meisten Unternehmens-Use-Cases ist Retrieval-Augmented Generation (RAG) der Hebel zwischen "interessantes Spielzeug" und "echter Geschäftswert". Dokumente aus SharePoint, Confluence, Dateifreigaben oder Ticketsystemen werden über Embedding-Modelle (z.B. bge-m3 oder multilingual-e5-large) in Vektoren überführt, in Qdrant oder pgvector als Vector-DB gespeichert und bei jeder Anfrage semantisch durchsucht. Das Ergebnis fließt in den Kontext des LLM — präzise, aktuell, ohne Modell-Retraining.

Sicherheit, Compliance und Auditierbarkeit

On-Premise-Betrieb löst das Datenschutz-Grundproblem (keine Drittland-Übertragung), schafft aber neue: Wer betreibt die GPUs, wer hat Zugriff, wie werden Modelle aktualisiert, wie wird missbräuchliche Nutzung verhindert? Eine professionelle Plattform muss alle diese Fragen sauber beantworten.

Datenschutz und DSGVO

Der zentrale Vorteil: Keine personenbezogenen Daten verlassen die Hostumgebung. Auftragsverarbeitungsverträge nach Art. 28 DSGVO sind selbstverständlich, eine Datenschutz-Folgenabschätzung-Vorlage stellen wir bereit. Alle Logs werden in Deutschland gespeichert, Zugriff ist auf benannte Administrator:innen beschränkt und protokolliert.

AI Act und Risikomanagement

Der EU AI Act fordert je nach Risikoklasse Dokumentation, Transparenz und Auditierbarkeit. Mit dem oben beschriebenen Gateway-Layer und vollständigem Logging ist die technische Grundlage für AI-Act-Konformität gegeben — die organisatorischen Pflichten (Risikobewertung, Schulung der Mitarbeitenden, Dokumentation der Anwendungsfälle) müssen daneben erfüllt werden, dabei beraten wir. Achten Sie zusätzlich auf Prompt-Injection-Schutz im Gateway und im Frontend, besonders wenn Nutzereingaben in Tool-Calls fließen.

Modell-Updates und Lifecycle-Management

Open-Weights-Modelle entwickeln sich weiter — etwa alle 3 bis 6 Monate erscheint eine relevante neue Version eines bestehenden Modells. Wir betreiben eine Staging-Umgebung, in der neue Modelle gegen einen Eval-Korpus aus echten (anonymisierten) Kundenanfragen getestet werden, bevor sie in Produktion gehen. Ein Wechsel von Qwen3 27B auf eine hypothetische Qwen3.5 27B ist damit ein kontrollierter Vorgang ohne Risiko für laufende Anwendungen.

Monitoring, Observability und Alerting

Prometheus und Grafana liefern Metriken zu GPU-Auslastung, VRAM-Nutzung, Throughput, Latenzverteilungen und Fehlerquoten. Loki sammelt alle Anfrage-Logs zentral, mit konfigurierbarer Aufbewahrungsdauer pro Datenklasse. Alerting erfolgt über Alertmanager an Slack oder unsere ITSM-Ticket-Pipeline — dieselbe, die für unsere klassischen Managed-Hosting-Kunden im Einsatz ist.

Was HostSpezial bietet — und wie der Einstieg aussieht

HostSpezial betreibt seit 2010 Managed-Hosting-Infrastruktur in deutschen Rechenzentren. Die KI-Plattform ki-spezial.systems ist die konsequente Erweiterung dieses Geschäfts: dieselbe Disziplin in Betrieb, Monitoring und Support — aber für GPU-getriebene LLM-Inference statt klassischer Webserver. Wir übernehmen die komplette technische Verantwortung, Sie konzentrieren sich auf Ihre Anwendungen.

Unser Leistungsspektrum rund um On-Premise KI

Dedizierte GPU-Server: H100, H200, L40S und NVIDIA RTX 6000 Pro Blackwell (96 GB) in deutschen Rechenzentren — als Bare-Metal oder als virtualisierte Instanzen mit GPU-Passthrough.
Managed vLLM Inference: Vollständig betreuter vLLM-Stack mit MiniMax M2.5, Qwen3 27B, GPT OSS 120B oder weiteren Modellen Ihrer Wahl. SLAs 99,9% Verfügbarkeit, 24/7 Monitoring.
KI Workplace Komplett-Lösung: Browser-basiertes Chat-Frontend für Mitarbeitende, integriert mit Active Directory / Entra ID, mit RAG-Anbindung an SharePoint und gängige Dokumentensysteme.
Integration und Consulting: Anbindung Ihrer ERP-, CRM- und ITSM-Systeme an die KI-Plattform. Aufbau von RAG-Pipelines, Tool-Use-Workflows und Multi-Agent-Systemen.
Sizing und Architekturberatung: Vor dem Kauf eines GPU-Clusters klären wir, ob die Investition zu Ihrem Lastprofil passt — oder ob ein Mietmodell wirtschaftlicher ist.
Compliance-Begleitung: DSGVO-Dokumentation, AI-Act-Vorbereitung, Datenschutz-Folgenabschätzung und Auftragsverarbeitungsverträge.

Der typische Einstiegsweg: Ein einstündiges Erstgespräch zu Ihren Use Cases, anschließend eine Proof-of-Concept-Phase mit Test-Zugang zu unserer Shared-Infrastruktur (ohne Investitionsrisiko), dann ein klar dimensioniertes Produktivsystem. Sprechen Sie uns an unter 09571 873149 oder per Mail an info@hostspezial.de.

Vertiefendes Lesematerial: Im IT-Glossar — Kategorie KI erläutern wir die Kernbegriffe (vLLM, LLM, MoE, GPT OSS, Qwen3, MiniMax, RAG, Embeddings, Vector-DB, GPU-Pooling, LoRA, Prompt-Injection) jeweils kompakt mit Definition, Praxisrelevanz und weiterführenden Artikeln. Das Wissenskompendium bündelt sämtliche KI-Fachartikel als geführten Lesepfad.

Passende Leistungen & Lösungen von HostSpezial

KI On-Premise KI Workplace KI-Kompendium Colocation / Rechenzentrum Managed Infrastructure Managed Helpdesk IT-Strategie Beratung IT-Glossar — KI-Begriffe

On-Premise KI mit HostSpezial — vLLM, MiniMax M2.5, Qwen3 27B und GPT OSS 120B im Tech Deep Dive

Warum On-Premise KI — und warum gerade jetzt?

Der HostSpezial-Stack im Überblick

vLLM: Warum diese Inference-Engine?

PagedAttention — der KV-Cache-Durchbruch

Continuous Batching — keine Wartezeit auf den Slowest

Quantisierung: FP8, AWQ und GPTQ

MiniMax M2.5, Qwen3 27B und GPT OSS 120B — die Modell-Wahl

MiniMax M2.5 — der agentische Spezialist

Qwen3 27B — der vielseitige Reasoner

GPT OSS 120B — der freie Chatbot von OpenAI

Hardware-Sizing für den Produktivbetrieb

SSingle-Modell-Einstieg

S+Budgetfreundliches Zwei-Modell-Setup

MDrei-Modell-Cluster für Mittelstandsplattformen

LMulti-Tenant & SLA-kritische Plattformen

Anwendungsfälle aus der Praxis

Helpdesk-Agent für IT-Dienstleister

Coding-Assistant für Softwarehaus

Dokumentenanalyse für Steuerberatung

RAG-System für Maschinenbau-Dokumentation

Compliance-Bot für Gesundheitswesen

Mitarbeiter-Chatbot mit GPT OSS 120B für Industrie-Holding

Integration in bestehende Systeme

OpenAI-API-Kompatibilität als Schlüssel

Gateway, RBAC und Audit-Logging

RAG: Wissen aus dem eigenen Haus

Sicherheit, Compliance und Auditierbarkeit

Datenschutz und DSGVO

AI Act und Risikomanagement

Modell-Updates und Lifecycle-Management

Monitoring, Observability und Alerting

Was HostSpezial bietet — und wie der Einstieg aussieht

Unser Leistungsspektrum rund um On-Premise KI

Ihr eigener KI-Stack im deutschen Rechenzentrum

On-Premise KI mit HostSpezial — vLLM, MiniMax M2.5, Qwen3 27B und GPT OSS 120B im Tech Deep Dive

Warum On-Premise KI — und warum gerade jetzt?

Der HostSpezial-Stack im Überblick

vLLM: Warum diese Inference-Engine?

PagedAttention — der KV-Cache-Durchbruch

Continuous Batching — keine Wartezeit auf den Slowest

Quantisierung: FP8, AWQ und GPTQ

MiniMax M2.5, Qwen3 27B und GPT OSS 120B — die Modell-Wahl

MiniMax M2.5 — der agentische Spezialist

Qwen3 27B — der vielseitige Reasoner

GPT OSS 120B — der freie Chatbot von OpenAI

Hardware-Sizing für den Produktivbetrieb

Anwendungsfälle aus der Praxis

Helpdesk-Agent für IT-Dienstleister

Coding-Assistant für Softwarehaus

Dokumentenanalyse für Steuerberatung

RAG-System für Maschinenbau-Dokumentation

Compliance-Bot für Gesundheitswesen

Mitarbeiter-Chatbot mit GPT OSS 120B für Industrie-Holding

Integration in bestehende Systeme

OpenAI-API-Kompatibilität als Schlüssel

Gateway, RBAC und Audit-Logging

RAG: Wissen aus dem eigenen Haus

Sicherheit, Compliance und Auditierbarkeit

Datenschutz und DSGVO

AI Act und Risikomanagement

Modell-Updates und Lifecycle-Management

Monitoring, Observability und Alerting

Was HostSpezial bietet — und wie der Einstieg aussieht

Unser Leistungsspektrum rund um On-Premise KI

Ihr eigener KI-Stack im deutschen Rechenzentrum

Agentic AI: Warum autonome KI-Agenten die Unternehmens-IT revolutionieren

KI-gestützte Legacy-Software-Modernisierung: Altlast oder Chance?