hostspezial@ki-ops:~$ tail -f betrieb.log

KI Managed Services – wir übernehmen die Nachtschicht Ihrer KI.

Deployen konnte Ihr KI-Projekt schon. Was fehlte, war der Teil danach: Modell-Updates, Patches, Backups, Audit-Nachweise, jemand, der um drei Uhr nachts hinschaut. Genau den Teil verkaufen wir – als monatliche Pauschale, aus deutschen Rechenzentren oder on-premise bei Ihnen, mit SLA und EU-AI-Act-Betriebsdokumentation.

betrieb.log — kunde: mittelständischer zulieferer · 240 nutzer · 2 gpu-nodes
Live
02:00:04CHECKbackup verifiziert · restore-test bestanden (4 min 12 s)
03:12:41PATCHCVE-2026-31114 · vllm 0.9.4 → 0.9.5 · canary ok · ausgerollt
04:26:03MODELqwen3-32b v06/26 · referenzfragen 48/48 bestanden · aktiviert
05:58:19INDEXrag-reindex · 1.842 dokumente · 0 fehler · dauer 11 min
09:14:22ALERTgpu01 vram 94 % → lastverteilung · auto-mitigiert in 17 s
11:02:37AUDITai-act-evidenz Q2 exportiert · modellversionen + zugriffe · 0 lücken
17:30:00REPORTmonatsreport erstellt · verfügbarkeit 99,96 % · kosten je abteilung
Sie haben von alldem nichts mitbekommen. Genau das ist der Service.
ISO/IEC 27001:2022 zertifizierter Betrieb
Deutsche Rechenzentren · AVV nach DSGVO
Managed Services seit 2010
EU-AI-Act-Betriebsdokumentation inklusive

Deployen kann jeder. Betreiben ist das Geschäft.

2024 und 2025 haben viele Unternehmen KI-Piloten gebaut. Dann kam der Alltag – und mit ihm die Frage, die niemand im Projektplan hatte: Wer betreibt das jetzt eigentlich? Analysten erwarten, dass bis Ende 2027 rund vier von zehn Agentic-AI-Projekten wieder eingestellt werden. Meist nicht wegen der Technik – wegen fehlender Governance und unklarer Betriebsverantwortung. Der Unterschied klingt so:

#it-intern — KI als Projekt
09:12M. Weber„läuft der KI-Server noch? Bekomme nur Timeouts"
09:47IT„schaut nachher jemand drauf? bin im Termin"
11:55M. Weber„immer noch down. wer hat da eigentlich Zugriff?"
14:03IT„der Kollege, der das gebaut hat, ist bis 28.08. im Urlaub"
14:04M. Weber„…"
ausfall: 1 arbeitstag · ursache: nie geklärt · doku: keine
betrieb.log — KI als Managed Service
09:12:07ALERTinference-latenz p95 > schwellwert · ticket #4821 eröffnet
09:13:30ACTIONtechniker verbunden · ursache: hängender worker nach oom
09:31:15RESOLVEDworker neu gestartet · limits angepasst · #4821 geschlossen
09:32:00NOTErca dokumentiert → monatsreport · präventivmaßnahme geplant
störung: 19 minuten · ursache: dokumentiert · sla: eingehalten
§ 01 · LEISTUNGSVERZEICHNIS

Vier Positionen. Jede einzeln buchbar.

Kein Baukasten-Marketing – ein Leistungsverzeichnis, wie es hinterher im Vertrag steht. Das Fundament (Monitoring, Updates, Backups, Incident-Response, Monatsreport) ist in jeder Position enthalten.

01Infrastruktur

Managed KI-Stack

Der Maschinenraum: GPU-Server, vLLM-Inference, KI-Gateway mit OpenAI-kompatibler API und Chat-Oberfläche – dimensioniert, gehärtet, dauerhaft aktuell.

  • Modell-Lifecycle: Auswahl, Updates, Rollback (LLM-Familien Llama, Mistral, Qwen)
  • Referenzfragen-Tests vor jedem Modell-Rollout
  • GPU-, Latenz- und Kosten-Monitoring je Abteilung
  • SSO / Active Directory, Rollen & Kontingente
// enthalten ab
Standard · 1.490 €/Mon.
Betriebsübernahme bestehender Stacks ab Basis · 690 €/Mon.
02Wissen

Managed RAG & Assistenten

Wissens-Chatbots, die aktuell bleiben: RAG-Pipelines samt Vektordatenbank, Ingestion und Qualitätssicherung – Antworten aus Ihren Dokumenten, mit Quellenangabe.

  • Anbindung an SharePoint, Nextcloud, Fileserver, Fachsysteme
  • Index-Pflege und Embedding-Updates
  • Antwortqualitäts-Stichproben je Release
  • Berechtigungen bis auf Dokumentebene
// add-on
ab 490 €/Mon.
Grundausbau in Standard, voll in Enterprise enthalten
03Nachweis

KI-Governance & Compliance

Der Teil, den Auditoren sehen wollen: KI-Inventar, Risikoklassifizierung nach EU AI Act, lückenloses Logging und Evidenz-Pakete für Revision, Kunden-Audits und Zertifizierung.

  • KI-Register: Zweck, Modell, Datenklassen je System
  • Audit-Trail: wer, wann, welches Modell, welche Rechte
  • ISO-42001-Readiness, Zuarbeit für Ihren Auditor
  • Fortgeschriebene technische Dokumentation
// retainer
ab 590 €/Mon.
In Enterprise enthalten · Quick-Check einmalig 2.900 €
04Autonomie

Agentic AI Operations

Autonome KI-Agenten produktiv betreiben, ohne die Kontrolle abzugeben: Ticket-Triage, Dokumenten-Workflows, Recherche – mit Guardrails, Freigabestufen und hartem Kill-Switch.

  • Monitoring je Agent: Erfolgsquote, Kosten, Eskalationen
  • Human-in-the-Loop-Freigaben für kritische Aktionen
  • Budget-Limits je Workflow und je Lauf
  • Audit-Log jedes Agenten-Laufs
// je workflow
ab 390 €/Mon.
Betrieb in Enterprise enthalten
fundament in jeder position: 24/7-monitoring security- & modell-updates backups + restore-tests incident-response monatsreport

Ihr Rechenzentrum, unseres – oder beides.

LLM on-premise betreiben lassen oder KI DSGVO-konform hosten? Sie entscheiden pro Workload. Die Daten bleiben in jeder Variante in Deutschland.

standort: kundeOn-Premise bei Ihnen

GPU-Server in Ihrem Haus, im eigenen Netz – remote betrieben über gesicherte Wartungszugänge. Maximale Datenhoheit, geeignet für Berufsgeheimnisträger nach § 203 StGB, auf Wunsch air-gapped.

standort: hostspezial-rzDeutsches Rechenzentrum

Ihre private KI-Infrastruktur läuft dediziert bei uns – ohne eigene Hardware-Investition, mit privater Anbindung per VPN oder Standleitung und zweitem deutschen Standort für Disaster Recovery.

standort: hybridHybrid pro Workload

Sensible Workloads bleiben bei Ihnen, Lastspitzen und Unkritisches läuft bei uns. Das KI-Gateway routet pro Anwendungsfall – kontrolliert, protokolliert, jederzeit umsteuerbar.

§ 02 · DIMENSIONIERUNG

Was kostet Ihr KI-Betrieb?

Vier Angaben, ein ehrlicher Richtwert – ohne E-Mail-Gate. Das verbindliche Angebot rechnen wir nach dem Assessment.

$ hostspezial dimensionierung --interaktiv
Ausgangslage
Nutzer mit KI-Zugriff50
Module
Betriebsort

// angebots-position (richtwert)

Managed KI Standard
ab 1.490/ Monat
zzgl. USt. · GPU-Hardware separat (Miete oder Kauf)
Verbindliches Angebot anfragen

Richtwert für typische Umgebungen (Modelle bis 70B-Klasse). Zur Einordnung: Der deutsche Markt liegt zwischen ~1.000 €/Monat für dediziertes Managed-GPU-Hosting und 4.000–8.000 €/Monat für Full-Managed Private AI.

§ 03 · LEISTUNGSSCHEIN

Drei Betriebspakete. Eine Tabelle. Keine Sternchen-Tricks.

So steht es später im Vertrag. Alle Preise zzgl. USt.; GPU-Hardware wird je nach Modellgröße gemietet oder gekauft und separat ausgewiesen.

BasisBetriebsübernahme Ihrer bestehenden KI (bis 2 GPU-Nodes)ab 690 €/Mon. StandardKompletter Managed KI-Stack – RZ oder on-premiseab 1.490 €/Mon. EnterpriseHA-Betrieb mit Governance für regulierte Umgebungenab 3.900 €/Mon.
Betrieb
24/7-Monitoring, Security- & Modell-Updates, Backups mit Restore-Tests, Monatsreport
vLLM-Inference + KI-Gateway (OpenAI-kompatible API) + Chat mit SSO/AD
RAG (Wissensquellen mit Index-Pflege)1 Quelleunbegrenzt*
Hochverfügbarkeit: Failover + DR am zweiten deutschen Standort
Governance & Autonomie
EU-AI-Act-Betriebsdokumentation (Logging, Modellversionen, Zugriffe)
Governance-Retainer: KI-Register, Evidenz-Pakete, ISO-42001-Readiness+590 €/Mon.+590 €/Mon.
Betrieb von Agenten-Workflows (Guardrails, HITL, Kill-Switch)+390 €/Mon. je Workflow1 inkl., weitere +390 €
Service-Level
Service-Klasse / ReaktionszeitStandard · NBD, remoteBusiness · 4 hEnterprise · 24/7-Rufbereitschaft
RTO/RPO vertraglich vereinbart
Fester technischer Ansprechpartner
Laufzeit / Kündigung3 Mon., dann monatlich12 Mon. / 3 Mon.individuell
Anfragen Anfragen Anfragen

* im Rahmen der vereinbarten Infrastruktur. Weitere Positionen: KI-Arbeitsplatz (gemanagter Chat-Zugang inkl. Support) ab 15 €/Nutzer/Monat ab 10 Nutzern · EU-AI-Act-Quick-Check (Inventar, Risikoeinstufung, Maßnahmenplan) einmalig 2.900 €. — Ehrlich: Unter ~30 aktiven Nutzern und ohne Vertraulichkeitsanforderungen ist eine Cloud-API oft günstiger. Ab ~50 Nutzern oder bei sensiblen Daten dreht sich die Rechnung – unsere Kostenanalyse Cloud-API vs. On-Premise zeigt den Break-even nach rund 18 Monaten.

§ 04 · VERANTWORTUNGSMATRIX

Wer macht was? Steht im Vertrag.

Keine Grauzonen: Die Matrix ist Vertragsbestandteil. Wählen Sie die Betriebstiefe – die Zuständigkeiten passen sich an.

AufgabeHostSpezialIhr Team
24/7-Monitoring & Alarmierung
Security-Patches & System-Updates
Modell-Updates & Rollbacks
Backups & Restore-Tests
Incident-Response
RAG-Datenpflege & Freigaben
Governance-Doku & AI-Act-Evidenz
Fachliche Use-Cases & Prompts
hostspezial gemeinsam ihr team

EU AI Act: Ihr Betrieb erzeugt die Nachweise nebenbei.

Die KI-Verordnung gilt stufenweise. Wichtig für Ihre Planung: Mit der Digital-Omnibus-Einigung vom Mai 2026 wurden die Hochrisiko-Pflichten nach hinten verschoben – die Transparenz- und GPAI-Pflichten gelten aber längst.

Wer heute ein sauberes KI-Inventar, Logging und dokumentierte Betriebsprozesse aufbaut, hat die späteren Pflichten fast nebenbei erfüllt. Genau diese Artefakte erzeugt unser Managed-Betrieb kontinuierlich – statt sie vor dem Audit mühsam zu rekonstruieren. Bußgelder reichen je nach Verstoß bis 35 Mio. € oder 7 % des Weltjahresumsatzes (verbotene Praktiken) bzw. bis 15 Mio. € oder 3 % bei Pflichtverstößen von Hochrisiko-Systemen.

2024-08-01 [AKTIV] EU AI Act in Kraft – risikobasierter Rahmen für alle KI-Systeme in der EU
2025-02-02 [AKTIV] Verbotene Praktiken & KI-Kompetenz – Schulungspflicht für Mitarbeitende
2025-08-02 [AKTIV] GPAI-Pflichten – Transparenz, technische Doku, Urheberrechts-Policy
2027-12-02 [GEPLANT] Hochrisiko Annex III – Risikomanagement, Logging, menschliche Aufsicht (per Digital Omnibus verschoben)
2028-08-02 [GEPLANT] Hochrisiko Annex I – regulierte Produkte, z. B. Maschinen, Medizinprodukte

Stand Juli 2026; verschobene Termine gemäß Digital-Omnibus-Trilogeinigung Mai 2026, finale Verabschiedung ausstehend. Vertiefung: EU AI Act für den Mittelstand.

§ 05 · ÜBERNAHMEPROTOKOLL

In fünf Schritten zum stabilen KI-Betrieb.

schritt 1/5

Betriebs-Assessment

Wir prüfen Architektur, Modelle, Sicherheitsstand und Dokumentation Ihrer KI – oder planen den neuen Stack. Kostenlos, remote, in der Regel innerhalb einer Woche.

schritt 2/5

Übernahme-Plan & SLA

Verantwortungsmatrix, Service-Klasse, Preise und Termine – schriftlich, vor der Unterschrift, ohne Überraschungen.

schritt 3/5

Onboarding & Härtung

Monitoring, Patch-Management, Backups und Zugriffskontrolle werden eingerichtet, die Umgebung gehärtet und vollständig dokumentiert.

schritt 4/5

Regelbetrieb

24/7-Monitoring, geplante Update-Zyklen, Incident-Response mit Reaktionszeiten – und ein Monatsreport über Verfügbarkeit, Nutzung und Kosten.

schritt 5/5

Weiterentwicklung

Neue Modelle, Use-Cases und Agenten-Workflows werden kontrolliert produktiv gesetzt – inklusive fortgeschriebener Compliance-Dokumentation.

Kaufen, bauen – oder betreiben lassen?

Drei Wege zur eigenen KI. Sie greifen ineinander, funktionieren aber auch einzeln – diese Seite ist der dritte.

Managed AI, verständlich erklärt.

LLM on-premise betreiben lassen: was dahinter steckt

Ein Large Language Model im eigenen Haus zu betreiben heißt mehr, als ein Modell herunterzuladen: Inference-Engine (vLLM), GPU-Treiber, Quantisierung, API-Gateway, Zugriffskontrolle, Monitoring und Patch-Zyklen müssen dauerhaft zusammenspielen. „Betreiben lassen" bedeutet, diese Betriebsverantwortung an einen Managed Service Provider zu übergeben – die Hardware kann dabei in Ihrem Serverraum stehen. Der Unterschied zum klassischen Hosting: Beim KI-Betrieb altern nicht nur Systeme, sondern auch Modelle und Indizes, und beides braucht geplante Update-Zyklen.

KI DSGVO-konform hosten – worauf es ankommt

Entscheidend sind drei Fragen: Wo werden Prompts, Dokumente und Embeddings verarbeitet? Wer hat administrativen Zugriff? Und lässt sich beides nachweisen? DSGVO-konformes KI-Hosting heißt deshalb: Verarbeitung ausschließlich in deutschen bzw. europäischen Rechenzentren, ein Auftragsverarbeitungsvertrag nach Art. 28 DSGVO, dokumentierte technische und organisatorische Maßnahmen und lückenloses Zugriffs-Logging. Für Berufsgeheimnisträger nach § 203 StGB – Kanzleien, Praxen, Steuerberater – kommt die Anforderung hinzu, dass auch der Dienstleister vertraglich zur Verschwiegenheit verpflichtet ist.

Was kostet Managed AI in Deutschland?

Der Markt hat sich 2026 sortiert: Token-basierte Inference-APIs deutscher Anbieter beginnen bei unter einem Euro pro Million Tokens, dediziertes Managed-GPU-Hosting startet bei rund 1.000 €/Monat, und Full-Managed Private AI inklusive Governance liegt typischerweise zwischen 4.000 und 8.000 €/Monat. Unsere Pakete setzen bewusst dazwischen an: ab 690 €/Monat für die Betriebsübernahme, ab 1.490 €/Monat für den kompletten Stack – weil ein regionaler MSP mit eigenem Rechenzentrum die Betriebsleistung ohne Konzern-Overhead erbringen kann. Wichtig für den Vergleich: Immer prüfen, ob Modell-Updates, Backups mit Restore-Tests und Compliance-Dokumentation enthalten sind oder extra kosten.

Managed vLLM statt Eigenbetrieb

vLLM ist der De-facto-Standard für produktive LLM-Inference – schnell, effizient, aber betriebsintensiv: CUDA-Versionen, Modell-Formate, Speicher-Tuning und Lastverhalten wollen laufend gepflegt werden. Managed vLLM heißt: Wir übernehmen das komplette LLMOps – Engine, Modelle und GPU-Ressourcen bleiben aktuell und performant, Sie nutzen eine stabile, OpenAI-kompatible Schnittstelle. Ihre Anwendungen merken von Updates nichts – außer dass sie schneller werden.

der stack · wer betreibt was
Ihre Anwendungen & Promptssie
OpenAI-kompatible APIstabil
KI-Gatewayrollen · logging
RAG · Vektordatenbankindex-pflege
vLLM-Inference · Modelleupdates · rollback
GPU-Nodes · Betriebssystempatches · backups
Deutsches RZ oder Ihr Serverraumiso 27001
schnittstelle bleibt stabil — updates darunter merken sie nicht.

Häufige Fragen zu KI Managed Services.

HostSpezial betreibt Ihre KI-Umgebung dauerhaft als Dienstleistung – LLM-Inference, RAG-Pipelines, KI-Chatbots und Agenten-Workflows. Enthalten sind 24/7-Monitoring, Modell- und Security-Updates, Backups, Incident-Response, SLA und eine Betriebsdokumentation, die auch für EU-AI-Act-Nachweise nutzbar ist. Sie nutzen die KI, wir verantworten den Betrieb.

Ab 690 €/Monat (Basis: Betriebsübernahme), ab 1.490 €/Monat (Standard: kompletter Stack) und ab 3.900 €/Monat (Enterprise: HA, Governance, Agenten, 24/7). Alle Preise zzgl. USt., GPU-Hardware separat. Zur Einordnung: Der deutsche Markt bewegt sich zwischen rund 1.000 €/Monat für dediziertes Managed-GPU-Hosting und 4.000–8.000 €/Monat für Full-Managed Private AI.

Beides – und auch hybrid. Betrieb in deutschen HostSpezial-Rechenzentren mit privater Anbindung, on-premise auf GPU-Servern in Ihrem Haus (remote gemanagt) oder hybrid mit sensiblen Workloads bei Ihnen und Lastspitzen bei uns. In allen Varianten bleiben die Daten in Deutschland.

Ja. Verarbeitung ausschließlich in Deutschland, Auftragsverarbeitungsvertrag nach Art. 28 DSGVO, dokumentierte TOM und lückenloses Zugriffs-Logging. Es gehen keine Prompts, Dokumente oder Embeddings an US-Cloud-Dienste. HostSpezial ist nach ISO/IEC 27001:2022 zertifiziert.

Seit Februar 2025 gelten Verbote und die Pflicht zur KI-Kompetenz, seit August 2025 die GPAI-Pflichten. Die Hochrisiko-Pflichten wurden mit der Digital-Omnibus-Einigung vom Mai 2026 auf Dezember 2027 (Annex III) bzw. August 2028 (Annex I) verschoben – vorbehaltlich finaler Verabschiedung. Praktisch heißt das: KI-Inventar, Transparenzpflichten und saubere Betriebsdokumentation jetzt aufbauen. Genau diese Nachweise erzeugt unser Betrieb kontinuierlich mit.

Ja, als Readiness-Unterstützung: Wir liefern die betrieblichen Nachweise (Asset-Inventar, Logging, Rollen, Änderungsmanagement, Incident-Prozesse), die ein KI-Managementsystem nach ISO/IEC 42001 fordert, und arbeiten Ihrem Auditor zu. Die Zertifizierung selbst führt eine akkreditierte Stelle durch.

Ja – das ist das Kernszenario des Basis-Pakets. Wir starten mit einem Betriebs-Assessment, erstellen einen Übernahme-Plan und überführen die Umgebung in den überwachten Regelbetrieb – üblicherweise innerhalb von zwei bis vier Wochen.

Offene, selbst hostbare Modelle (u. a. Llama-, Mistral- und Qwen-Familien) auf vLLM, dahinter ein KI-Gateway mit OpenAI-kompatibler API, Chat-Oberflächen wie Open WebUI und Vektordatenbanken wie Qdrant für RAG. Bestehende Komponenten übernehmen wir, sofern sie betreibbar und sicherheitstechnisch vertretbar sind.

Für Berufsgeheimnisträger nach § 203 StGB ist der On-Premise- oder Private-Hosting-Betrieb besonders relevant: Mandanten- und Patientendaten verlassen das kontrollierte Umfeld nicht. Wir betreiben die KI in Ihrem Haus oder in einem dedizierten Umfeld – mit AVV, Verschwiegenheitsverpflichtung und vollständigem Zugriffs-Logging.

Basis läuft in der Service-Klasse Standard (Reaktion am nächsten Arbeitstag, remote). Standard enthält die Service-Klasse Business mit 4 Stunden Reaktionszeit zu Geschäftszeiten. Enterprise umfasst 24/7-Rufbereitschaft, vertragliche RTO/RPO-Ziele und einen festen technischen Ansprechpartner.

Basis: 3 Monate Mindestlaufzeit, danach monatlich kündbar. Standard: 12 Monate Laufzeit, 3 Monate Kündigungsfrist. Enterprise: individuell. Beim Exit erhalten Sie alle Konfigurationen, Modelle, Daten und die vollständige Betriebsdokumentation – kein Vendor-Lock-in.

KI On-Premise ist das Kaufprojekt (CAPEX), KI Full Stack Providing der Komplettaufbau von Strategie bis Go-Live. KI Managed Services ist die Betriebsschicht: der dauerhafte Run als monatliche Pauschale (OPEX) – egal, ob wir den Stack gebaut haben oder ein anderer.

Vertiefung aus dem Fachblog.

Ihr KI-Pilot verdient eine Nachtschicht.

Das Betriebs-Assessment ist der erste Schritt – und schon das Ergebnis können Sie sehen, bevor Sie uns beauftragen: ein schriftlicher Bericht, kein Verkaufsgespräch.

  • Remote in ca. einer Woche: Wir prüfen Architektur, Modelle, Sicherheitsstand und Dokumentation Ihrer KI – oder planen den neuen Stack.
  • Schriftliches Ergebnis: Befunde mit Ampel-Bewertung, Maßnahmenplan und Aufwandsschätzung – gehört Ihnen, egal wie Sie sich entscheiden.
  • Kein Risiko: kostenlos, unverbindlich, und wenn eine Cloud-API für Sie günstiger ist, schreiben wir genau das hinein.
Dokument · 12 Seiten

Betriebs-Assessment – Ergebnisbericht

kunde: [ihr unternehmen] · erstellt: kw 29 · status: final
Inference-Stackvllm aktuell, sauber dimensioniert · übernahmefähig
Backupsvorhanden – restore seit 9 monaten nie getestet
Zugriffskontrolleadmin-token im klartext in 3 skripten → sofortmaßnahme
AI-Act-Dokuki-inventar unvollständig · logging nur 7 tage
Wirtschaftlichkeitab 60 nutzern günstiger als cloud-api · rechnung s. 9
maßnahmenplan: 11 punkte aufwand: geschätzt je punkt empfehlung: s. 12