Deployen konnte Ihr KI-Projekt schon. Was fehlte, war der Teil danach: Modell-Updates, Patches, Backups, Audit-Nachweise, jemand, der um drei Uhr nachts hinschaut. Genau den Teil verkaufen wir – als monatliche Pauschale, aus deutschen Rechenzentren oder on-premise bei Ihnen, mit SLA und EU-AI-Act-Betriebsdokumentation.
2024 und 2025 haben viele Unternehmen KI-Piloten gebaut. Dann kam der Alltag – und mit ihm die Frage, die niemand im Projektplan hatte: Wer betreibt das jetzt eigentlich? Analysten erwarten, dass bis Ende 2027 rund vier von zehn Agentic-AI-Projekten wieder eingestellt werden. Meist nicht wegen der Technik – wegen fehlender Governance und unklarer Betriebsverantwortung. Der Unterschied klingt so:
Kein Baukasten-Marketing – ein Leistungsverzeichnis, wie es hinterher im Vertrag steht. Das Fundament (Monitoring, Updates, Backups, Incident-Response, Monatsreport) ist in jeder Position enthalten.
Der Maschinenraum: GPU-Server, vLLM-Inference, KI-Gateway mit OpenAI-kompatibler API und Chat-Oberfläche – dimensioniert, gehärtet, dauerhaft aktuell.
Wissens-Chatbots, die aktuell bleiben: RAG-Pipelines samt Vektordatenbank, Ingestion und Qualitätssicherung – Antworten aus Ihren Dokumenten, mit Quellenangabe.
Der Teil, den Auditoren sehen wollen: KI-Inventar, Risikoklassifizierung nach EU AI Act, lückenloses Logging und Evidenz-Pakete für Revision, Kunden-Audits und Zertifizierung.
Autonome KI-Agenten produktiv betreiben, ohne die Kontrolle abzugeben: Ticket-Triage, Dokumenten-Workflows, Recherche – mit Guardrails, Freigabestufen und hartem Kill-Switch.
LLM on-premise betreiben lassen oder KI DSGVO-konform hosten? Sie entscheiden pro Workload. Die Daten bleiben in jeder Variante in Deutschland.
GPU-Server in Ihrem Haus, im eigenen Netz – remote betrieben über gesicherte Wartungszugänge. Maximale Datenhoheit, geeignet für Berufsgeheimnisträger nach § 203 StGB, auf Wunsch air-gapped.
Ihre private KI-Infrastruktur läuft dediziert bei uns – ohne eigene Hardware-Investition, mit privater Anbindung per VPN oder Standleitung und zweitem deutschen Standort für Disaster Recovery.
Sensible Workloads bleiben bei Ihnen, Lastspitzen und Unkritisches läuft bei uns. Das KI-Gateway routet pro Anwendungsfall – kontrolliert, protokolliert, jederzeit umsteuerbar.
Vier Angaben, ein ehrlicher Richtwert – ohne E-Mail-Gate. Das verbindliche Angebot rechnen wir nach dem Assessment.
Richtwert für typische Umgebungen (Modelle bis 70B-Klasse). Zur Einordnung: Der deutsche Markt liegt zwischen ~1.000 €/Monat für dediziertes Managed-GPU-Hosting und 4.000–8.000 €/Monat für Full-Managed Private AI.
So steht es später im Vertrag. Alle Preise zzgl. USt.; GPU-Hardware wird je nach Modellgröße gemietet oder gekauft und separat ausgewiesen.
| BasisBetriebsübernahme Ihrer bestehenden KI (bis 2 GPU-Nodes)ab 690 €/Mon. | StandardKompletter Managed KI-Stack – RZ oder on-premiseab 1.490 €/Mon. | EnterpriseHA-Betrieb mit Governance für regulierte Umgebungenab 3.900 €/Mon. | |
|---|---|---|---|
| Betrieb | |||
| 24/7-Monitoring, Security- & Modell-Updates, Backups mit Restore-Tests, Monatsreport | ✓ | ✓ | ✓ |
| vLLM-Inference + KI-Gateway (OpenAI-kompatible API) + Chat mit SSO/AD | – | ✓ | ✓ |
| RAG (Wissensquellen mit Index-Pflege) | – | 1 Quelle | unbegrenzt* |
| Hochverfügbarkeit: Failover + DR am zweiten deutschen Standort | – | – | ✓ |
| Governance & Autonomie | |||
| EU-AI-Act-Betriebsdokumentation (Logging, Modellversionen, Zugriffe) | ✓ | ✓ | ✓ |
| Governance-Retainer: KI-Register, Evidenz-Pakete, ISO-42001-Readiness | +590 €/Mon. | +590 €/Mon. | ✓ |
| Betrieb von Agenten-Workflows (Guardrails, HITL, Kill-Switch) | – | +390 €/Mon. je Workflow | 1 inkl., weitere +390 € |
| Service-Level | |||
| Service-Klasse / Reaktionszeit | Standard · NBD, remote | Business · 4 h | Enterprise · 24/7-Rufbereitschaft |
| RTO/RPO vertraglich vereinbart | – | – | ✓ |
| Fester technischer Ansprechpartner | – | – | ✓ |
| Laufzeit / Kündigung | 3 Mon., dann monatlich | 12 Mon. / 3 Mon. | individuell |
| Anfragen | Anfragen | Anfragen | |
* im Rahmen der vereinbarten Infrastruktur. Weitere Positionen: KI-Arbeitsplatz (gemanagter Chat-Zugang inkl. Support) ab 15 €/Nutzer/Monat ab 10 Nutzern · EU-AI-Act-Quick-Check (Inventar, Risikoeinstufung, Maßnahmenplan) einmalig 2.900 €. — Ehrlich: Unter ~30 aktiven Nutzern und ohne Vertraulichkeitsanforderungen ist eine Cloud-API oft günstiger. Ab ~50 Nutzern oder bei sensiblen Daten dreht sich die Rechnung – unsere Kostenanalyse Cloud-API vs. On-Premise zeigt den Break-even nach rund 18 Monaten.
Keine Grauzonen: Die Matrix ist Vertragsbestandteil. Wählen Sie die Betriebstiefe – die Zuständigkeiten passen sich an.
| Aufgabe | HostSpezial | Ihr Team |
|---|---|---|
| 24/7-Monitoring & Alarmierung | ||
| Security-Patches & System-Updates | ||
| Modell-Updates & Rollbacks | ||
| Backups & Restore-Tests | ||
| Incident-Response | ||
| RAG-Datenpflege & Freigaben | ||
| Governance-Doku & AI-Act-Evidenz | ||
| Fachliche Use-Cases & Prompts |
Die KI-Verordnung gilt stufenweise. Wichtig für Ihre Planung: Mit der Digital-Omnibus-Einigung vom Mai 2026 wurden die Hochrisiko-Pflichten nach hinten verschoben – die Transparenz- und GPAI-Pflichten gelten aber längst.
Wer heute ein sauberes KI-Inventar, Logging und dokumentierte Betriebsprozesse aufbaut, hat die späteren Pflichten fast nebenbei erfüllt. Genau diese Artefakte erzeugt unser Managed-Betrieb kontinuierlich – statt sie vor dem Audit mühsam zu rekonstruieren. Bußgelder reichen je nach Verstoß bis 35 Mio. € oder 7 % des Weltjahresumsatzes (verbotene Praktiken) bzw. bis 15 Mio. € oder 3 % bei Pflichtverstößen von Hochrisiko-Systemen.
Stand Juli 2026; verschobene Termine gemäß Digital-Omnibus-Trilogeinigung Mai 2026, finale Verabschiedung ausstehend. Vertiefung: EU AI Act für den Mittelstand.
Wir prüfen Architektur, Modelle, Sicherheitsstand und Dokumentation Ihrer KI – oder planen den neuen Stack. Kostenlos, remote, in der Regel innerhalb einer Woche.
Verantwortungsmatrix, Service-Klasse, Preise und Termine – schriftlich, vor der Unterschrift, ohne Überraschungen.
Monitoring, Patch-Management, Backups und Zugriffskontrolle werden eingerichtet, die Umgebung gehärtet und vollständig dokumentiert.
24/7-Monitoring, geplante Update-Zyklen, Incident-Response mit Reaktionszeiten – und ein Monatsreport über Verfügbarkeit, Nutzung und Kosten.
Neue Modelle, Use-Cases und Agenten-Workflows werden kontrolliert produktiv gesetzt – inklusive fortgeschriebener Compliance-Dokumentation.
Drei Wege zur eigenen KI. Sie greifen ineinander, funktionieren aber auch einzeln – diese Seite ist der dritte.
Eigene GPU-Infrastruktur als Investition: Hardware, Setup, Integration. Mit Kostenvergleich Cloud-API vs. On-Premise und Break-even-Rechnung.
Der Komplettaufbau aus einer Hand: Strategie, Infrastruktur, KI-System, Gateway und individuelle Entwicklung – bis zum Go-Live.
Der dauerhafte Run: Monitoring, Updates, Backups, Governance und SLA als planbare monatliche Pauschale. Egal, wer den Stack gebaut hat.
Ein Large Language Model im eigenen Haus zu betreiben heißt mehr, als ein Modell herunterzuladen: Inference-Engine (vLLM), GPU-Treiber, Quantisierung, API-Gateway, Zugriffskontrolle, Monitoring und Patch-Zyklen müssen dauerhaft zusammenspielen. „Betreiben lassen" bedeutet, diese Betriebsverantwortung an einen Managed Service Provider zu übergeben – die Hardware kann dabei in Ihrem Serverraum stehen. Der Unterschied zum klassischen Hosting: Beim KI-Betrieb altern nicht nur Systeme, sondern auch Modelle und Indizes, und beides braucht geplante Update-Zyklen.
Entscheidend sind drei Fragen: Wo werden Prompts, Dokumente und Embeddings verarbeitet? Wer hat administrativen Zugriff? Und lässt sich beides nachweisen? DSGVO-konformes KI-Hosting heißt deshalb: Verarbeitung ausschließlich in deutschen bzw. europäischen Rechenzentren, ein Auftragsverarbeitungsvertrag nach Art. 28 DSGVO, dokumentierte technische und organisatorische Maßnahmen und lückenloses Zugriffs-Logging. Für Berufsgeheimnisträger nach § 203 StGB – Kanzleien, Praxen, Steuerberater – kommt die Anforderung hinzu, dass auch der Dienstleister vertraglich zur Verschwiegenheit verpflichtet ist.
Der Markt hat sich 2026 sortiert: Token-basierte Inference-APIs deutscher Anbieter beginnen bei unter einem Euro pro Million Tokens, dediziertes Managed-GPU-Hosting startet bei rund 1.000 €/Monat, und Full-Managed Private AI inklusive Governance liegt typischerweise zwischen 4.000 und 8.000 €/Monat. Unsere Pakete setzen bewusst dazwischen an: ab 690 €/Monat für die Betriebsübernahme, ab 1.490 €/Monat für den kompletten Stack – weil ein regionaler MSP mit eigenem Rechenzentrum die Betriebsleistung ohne Konzern-Overhead erbringen kann. Wichtig für den Vergleich: Immer prüfen, ob Modell-Updates, Backups mit Restore-Tests und Compliance-Dokumentation enthalten sind oder extra kosten.
vLLM ist der De-facto-Standard für produktive LLM-Inference – schnell, effizient, aber betriebsintensiv: CUDA-Versionen, Modell-Formate, Speicher-Tuning und Lastverhalten wollen laufend gepflegt werden. Managed vLLM heißt: Wir übernehmen das komplette LLMOps – Engine, Modelle und GPU-Ressourcen bleiben aktuell und performant, Sie nutzen eine stabile, OpenAI-kompatible Schnittstelle. Ihre Anwendungen merken von Updates nichts – außer dass sie schneller werden.
HostSpezial betreibt Ihre KI-Umgebung dauerhaft als Dienstleistung – LLM-Inference, RAG-Pipelines, KI-Chatbots und Agenten-Workflows. Enthalten sind 24/7-Monitoring, Modell- und Security-Updates, Backups, Incident-Response, SLA und eine Betriebsdokumentation, die auch für EU-AI-Act-Nachweise nutzbar ist. Sie nutzen die KI, wir verantworten den Betrieb.
Ab 690 €/Monat (Basis: Betriebsübernahme), ab 1.490 €/Monat (Standard: kompletter Stack) und ab 3.900 €/Monat (Enterprise: HA, Governance, Agenten, 24/7). Alle Preise zzgl. USt., GPU-Hardware separat. Zur Einordnung: Der deutsche Markt bewegt sich zwischen rund 1.000 €/Monat für dediziertes Managed-GPU-Hosting und 4.000–8.000 €/Monat für Full-Managed Private AI.
Beides – und auch hybrid. Betrieb in deutschen HostSpezial-Rechenzentren mit privater Anbindung, on-premise auf GPU-Servern in Ihrem Haus (remote gemanagt) oder hybrid mit sensiblen Workloads bei Ihnen und Lastspitzen bei uns. In allen Varianten bleiben die Daten in Deutschland.
Ja. Verarbeitung ausschließlich in Deutschland, Auftragsverarbeitungsvertrag nach Art. 28 DSGVO, dokumentierte TOM und lückenloses Zugriffs-Logging. Es gehen keine Prompts, Dokumente oder Embeddings an US-Cloud-Dienste. HostSpezial ist nach ISO/IEC 27001:2022 zertifiziert.
Seit Februar 2025 gelten Verbote und die Pflicht zur KI-Kompetenz, seit August 2025 die GPAI-Pflichten. Die Hochrisiko-Pflichten wurden mit der Digital-Omnibus-Einigung vom Mai 2026 auf Dezember 2027 (Annex III) bzw. August 2028 (Annex I) verschoben – vorbehaltlich finaler Verabschiedung. Praktisch heißt das: KI-Inventar, Transparenzpflichten und saubere Betriebsdokumentation jetzt aufbauen. Genau diese Nachweise erzeugt unser Betrieb kontinuierlich mit.
Ja, als Readiness-Unterstützung: Wir liefern die betrieblichen Nachweise (Asset-Inventar, Logging, Rollen, Änderungsmanagement, Incident-Prozesse), die ein KI-Managementsystem nach ISO/IEC 42001 fordert, und arbeiten Ihrem Auditor zu. Die Zertifizierung selbst führt eine akkreditierte Stelle durch.
Ja – das ist das Kernszenario des Basis-Pakets. Wir starten mit einem Betriebs-Assessment, erstellen einen Übernahme-Plan und überführen die Umgebung in den überwachten Regelbetrieb – üblicherweise innerhalb von zwei bis vier Wochen.
Offene, selbst hostbare Modelle (u. a. Llama-, Mistral- und Qwen-Familien) auf vLLM, dahinter ein KI-Gateway mit OpenAI-kompatibler API, Chat-Oberflächen wie Open WebUI und Vektordatenbanken wie Qdrant für RAG. Bestehende Komponenten übernehmen wir, sofern sie betreibbar und sicherheitstechnisch vertretbar sind.
Für Berufsgeheimnisträger nach § 203 StGB ist der On-Premise- oder Private-Hosting-Betrieb besonders relevant: Mandanten- und Patientendaten verlassen das kontrollierte Umfeld nicht. Wir betreiben die KI in Ihrem Haus oder in einem dedizierten Umfeld – mit AVV, Verschwiegenheitsverpflichtung und vollständigem Zugriffs-Logging.
Basis läuft in der Service-Klasse Standard (Reaktion am nächsten Arbeitstag, remote). Standard enthält die Service-Klasse Business mit 4 Stunden Reaktionszeit zu Geschäftszeiten. Enterprise umfasst 24/7-Rufbereitschaft, vertragliche RTO/RPO-Ziele und einen festen technischen Ansprechpartner.
Basis: 3 Monate Mindestlaufzeit, danach monatlich kündbar. Standard: 12 Monate Laufzeit, 3 Monate Kündigungsfrist. Enterprise: individuell. Beim Exit erhalten Sie alle Konfigurationen, Modelle, Daten und die vollständige Betriebsdokumentation – kein Vendor-Lock-in.
KI On-Premise ist das Kaufprojekt (CAPEX), KI Full Stack Providing der Komplettaufbau von Strategie bis Go-Live. KI Managed Services ist die Betriebsschicht: der dauerhafte Run als monatliche Pauschale (OPEX) – egal, ob wir den Stack gebaut haben oder ein anderer.
Architektur, GPU-Sizing und DSGVO-konformer Betrieb im Detail.
Agentic AIWas Agenten heute leisten – und warum Governance über Erfolg entscheidet.
ComplianceFristen, Pflichten und ein pragmatischer Fahrplan für 2026/2027.
Das Betriebs-Assessment ist der erste Schritt – und schon das Ergebnis können Sie sehen, bevor Sie uns beauftragen: ein schriftlicher Bericht, kein Verkaufsgespräch.