Was kostet Managed AI bei HostSpezial?

Die Betriebspakete starten bei 690 €/Monat (Managed KI Basis: Betriebsübernahme einer bestehenden Umgebung), 1.490 €/Monat (Managed KI Standard: kompletter Stack inklusive Inference, Gateway und Chat-Oberfläche) und 3.900 €/Monat (Managed KI Enterprise: Hochverfügbarkeit, Governance-Retainer, Agenten-Betrieb, 24/7-Rufbereitschaft). Alle Preise zzgl. USt.; GPU-Hardware wird je nach Modell gemietet oder gekauft und separat kalkuliert. Zur Einordnung: Der deutsche Markt bewegt sich zwischen rund 1.000 €/Monat für dediziertes Managed-GPU-Hosting und 4.000–8.000 €/Monat für Full-Managed Private AI.

Ist der Betrieb DSGVO-konform?

Ja. Die Verarbeitung erfolgt ausschließlich in Deutschland – in unseren Rechenzentren oder auf Ihrer Infrastruktur. Sie erhalten einen Auftragsverarbeitungsvertrag (AVV) nach Art. 28 DSGVO mit dokumentierten technischen und organisatorischen Maßnahmen. Es gehen keine Prompts, Dokumente oder Embeddings an US-Cloud-Dienste. HostSpezial ist nach ISO/IEC 27001:2022 zertifiziert.

Was bedeutet der EU AI Act für unseren KI-Betrieb?

Der EU AI Act ist seit dem 1. August 2024 in Kraft und gilt stufenweise: Seit Februar 2025 gelten Verbote und die Pflicht zur KI-Kompetenz, seit August 2025 die Pflichten für General-Purpose-AI-Modelle. Die Hochrisiko-Pflichten wurden mit der Digital-Omnibus-Einigung vom Mai 2026 verschoben – auf Dezember 2027 (Annex III) bzw. August 2028 (Annex I), vorbehaltlich der finalen Verabschiedung. Für die meisten Unternehmen heißt das: KI-Inventar, Transparenzpflichten und saubere Betriebsdokumentation jetzt aufbauen. Genau diese Nachweise – Logging, Modellversionen, Zugriffskontrolle, Änderungshistorie – erzeugt unser Betrieb als Nebenprodukt mit.

Können Sie eine bestehende KI-Umgebung übernehmen?

Ja – das ist das Kernszenario des Basis-Pakets. Viele Unternehmen haben 2024/2025 KI-Piloten aufgebaut, die heute niemand richtig betreibt. Wir starten mit einem Betriebs-Assessment (Architektur, Sicherheitsstand, Dokumentation), erstellen einen Übernahme-Plan und überführen die Umgebung in den überwachten Regelbetrieb – üblicherweise innerhalb von zwei bis vier Wochen.

Welche Modelle und Software betreiben Sie?

Offene, selbst hostbare Modelle (u. a. Llama-, Mistral- und Qwen-Familien) auf vLLM als Inference-Engine, dahinter ein KI-Gateway mit OpenAI-kompatibler API, Chat-Oberflächen wie Open WebUI, Vektordatenbanken wie Qdrant für RAG sowie Monitoring über unseren Standard-Stack. Bestehende Komponenten übernehmen wir, sofern sie betreibbar und sicherheitstechnisch vertretbar sind.

Was ist mit Berufsgeheimnisträgern – Kanzleien, Praxen, Steuerberatern?

Für Berufsgeheimnisträger nach § 203 StGB ist der On-Premise- oder Private-Hosting-Betrieb besonders relevant, weil Mandanten- und Patientendaten das kontrollierte Umfeld nicht verlassen. Wir betreiben die KI in Ihrem Haus oder in einem dedizierten, vertraglich abgesicherten Umfeld – mit AVV, Verschwiegenheitsverpflichtung und vollständigem Zugriffs-Logging.

Wie lange sind Laufzeit und Kündigungsfrist?

Managed KI Basis: 3 Monate Mindestlaufzeit, danach monatlich kündbar. Managed KI Standard: 12 Monate Laufzeit, 3 Monate Kündigungsfrist. Enterprise-Verträge werden individuell vereinbart. Beim Exit erhalten Sie alle Konfigurationen, Modelle, Daten und die vollständige Betriebsdokumentation – es gibt keinen Vendor-Lock-in.

hostspezial@ki-ops:~$ tail -f betrieb.log

KI Managed Services – wir übernehmen die Nachtschicht Ihrer KI.

Deployen konnte Ihr KI-Projekt schon. Was fehlte, war der Teil danach: Modell-Updates, Patches, Backups, Audit-Nachweise, jemand, der um drei Uhr nachts hinschaut. Genau den Teil verkaufen wir – als monatliche Pauschale, aus deutschen Rechenzentren oder on-premise bei Ihnen, mit SLA und EU-AI-Act-Betriebsdokumentation.

Betriebs-Assessment anfragen Leistungsschein & Preise

betrieb.log — kunde: mittelständischer zulieferer · 240 nutzer · 2 gpu-nodes

Live

02:00:04CHECKbackup verifiziert · restore-test bestanden (4 min 12 s)

03:12:41PATCHCVE-2026-31114 · vllm 0.9.4 → 0.9.5 · canary ok · ausgerollt

04:26:03MODELqwen3-32b v06/26 · referenzfragen 48/48 bestanden · aktiviert

05:58:19INDEXrag-reindex · 1.842 dokumente · 0 fehler · dauer 11 min

09:14:22ALERTgpu01 vram 94 % → lastverteilung · auto-mitigiert in 17 s

11:02:37AUDITai-act-evidenz Q2 exportiert · modellversionen + zugriffe · 0 lücken

17:30:00REPORTmonatsreport erstellt · verfügbarkeit 99,96 % · kosten je abteilung

Sie haben von alldem nichts mitbekommen. Genau das ist der Service.

ISO/IEC 27001:2022 zertifizierter Betrieb

Deutsche Rechenzentren · AVV nach DSGVO

Managed Services seit 2010

EU-AI-Act-Betriebsdokumentation inklusive

Deployen kann jeder. Betreiben ist das Geschäft.

2024 und 2025 haben viele Unternehmen KI-Piloten gebaut. Dann kam der Alltag – und mit ihm die Frage, die niemand im Projektplan hatte: Wer betreibt das jetzt eigentlich? Analysten erwarten, dass bis Ende 2027 rund vier von zehn Agentic-AI-Projekten wieder eingestellt werden. Meist nicht wegen der Technik – wegen fehlender Governance und unklarer Betriebsverantwortung. Der Unterschied klingt so:

#it-intern — KI als Projekt

09:12M. Weber„läuft der KI-Server noch? Bekomme nur Timeouts"

09:47IT„schaut nachher jemand drauf? bin im Termin"

11:55M. Weber„immer noch down. wer hat da eigentlich Zugriff?"

14:03IT„der Kollege, der das gebaut hat, ist bis 28.08. im Urlaub"

14:04M. Weber„…"

ausfall: 1 arbeitstag · ursache: nie geklärt · doku: keine

betrieb.log — KI als Managed Service

09:12:07ALERTinference-latenz p95 > schwellwert · ticket #4821 eröffnet

09:13:30ACTIONtechniker verbunden · ursache: hängender worker nach oom

09:31:15RESOLVEDworker neu gestartet · limits angepasst · #4821 geschlossen

09:32:00NOTErca dokumentiert → monatsreport · präventivmaßnahme geplant

störung: 19 minuten · ursache: dokumentiert · sla: eingehalten

§ 01 · LEISTUNGSVERZEICHNIS

Vier Positionen. Jede einzeln buchbar.

Kein Baukasten-Marketing – ein Leistungsverzeichnis, wie es hinterher im Vertrag steht. Das Fundament (Monitoring, Updates, Backups, Incident-Response, Monatsreport) ist in jeder Position enthalten.

01Infrastruktur

Managed KI-Stack

Der Maschinenraum: GPU-Server, vLLM-Inference, KI-Gateway mit OpenAI-kompatibler API und Chat-Oberfläche – dimensioniert, gehärtet, dauerhaft aktuell.

Modell-Lifecycle: Auswahl, Updates, Rollback (LLM-Familien Llama, Mistral, Qwen)
Referenzfragen-Tests vor jedem Modell-Rollout
GPU-, Latenz- und Kosten-Monitoring je Abteilung
SSO / Active Directory, Rollen & Kontingente

// enthalten ab
Standard · 1.490 €/Mon.
Betriebsübernahme bestehender Stacks ab Basis · 690 €/Mon.

02Wissen

Managed RAG & Assistenten

Wissens-Chatbots, die aktuell bleiben: RAG-Pipelines samt Vektordatenbank, Ingestion und Qualitätssicherung – Antworten aus Ihren Dokumenten, mit Quellenangabe.

Anbindung an SharePoint, Nextcloud, Fileserver, Fachsysteme
Index-Pflege und Embedding-Updates
Antwortqualitäts-Stichproben je Release
Berechtigungen bis auf Dokumentebene

// add-on
ab 490 €/Mon.
Grundausbau in Standard, voll in Enterprise enthalten

03Nachweis

KI-Governance & Compliance

Der Teil, den Auditoren sehen wollen: KI-Inventar, Risikoklassifizierung nach EU AI Act, lückenloses Logging und Evidenz-Pakete für Revision, Kunden-Audits und Zertifizierung.

KI-Register: Zweck, Modell, Datenklassen je System
Audit-Trail: wer, wann, welches Modell, welche Rechte
ISO-42001-Readiness, Zuarbeit für Ihren Auditor
Fortgeschriebene technische Dokumentation

// retainer
ab 590 €/Mon.
In Enterprise enthalten · Quick-Check einmalig 2.900 €

04Autonomie

Agentic AI Operations

Autonome KI-Agenten produktiv betreiben, ohne die Kontrolle abzugeben: Ticket-Triage, Dokumenten-Workflows, Recherche – mit Guardrails, Freigabestufen und hartem Kill-Switch.

Monitoring je Agent: Erfolgsquote, Kosten, Eskalationen
Human-in-the-Loop-Freigaben für kritische Aktionen
Budget-Limits je Workflow und je Lauf
Audit-Log jedes Agenten-Laufs

// je workflow
ab 390 €/Mon.
Betrieb in Enterprise enthalten

fundament in jeder position: ✓ 24/7-monitoring ✓ security- & modell-updates ✓ backups + restore-tests ✓ incident-response ✓ monatsreport

Ihr Rechenzentrum, unseres – oder beides.

LLM on-premise betreiben lassen oder KI DSGVO-konform hosten? Sie entscheiden pro Workload. Die Daten bleiben in jeder Variante in Deutschland.

standort: kundeOn-Premise bei Ihnen

GPU-Server in Ihrem Haus, im eigenen Netz – remote betrieben über gesicherte Wartungszugänge. Maximale Datenhoheit, geeignet für Berufsgeheimnisträger nach § 203 StGB, auf Wunsch air-gapped.

standort: hostspezial-rzDeutsches Rechenzentrum

Ihre private KI-Infrastruktur läuft dediziert bei uns – ohne eigene Hardware-Investition, mit privater Anbindung per VPN oder Standleitung und zweitem deutschen Standort für Disaster Recovery.

standort: hybridHybrid pro Workload

Sensible Workloads bleiben bei Ihnen, Lastspitzen und Unkritisches läuft bei uns. Das KI-Gateway routet pro Anwendungsfall – kontrolliert, protokolliert, jederzeit umsteuerbar.

§ 02 · DIMENSIONIERUNG

Was kostet Ihr KI-Betrieb?

Vier Angaben, ein ehrlicher Richtwert – ohne E-Mail-Gate. Das verbindliche Angebot rechnen wir nach dem Assessment.

$ hostspezial dimensionierung --interaktiv

Ausgangslage

Nutzer mit KI-Zugriff50

Module

Betriebsort

// angebots-position (richtwert)

Managed KI Standard

ab 1.490 € / Monat

zzgl. USt. · GPU-Hardware separat (Miete oder Kauf)

Verbindliches Angebot anfragen

Richtwert für typische Umgebungen (Modelle bis 70B-Klasse). Zur Einordnung: Der deutsche Markt liegt zwischen ~1.000 €/Monat für dediziertes Managed-GPU-Hosting und 4.000–8.000 €/Monat für Full-Managed Private AI.

§ 03 · LEISTUNGSSCHEIN

Drei Betriebspakete. Eine Tabelle. Keine Sternchen-Tricks.

So steht es später im Vertrag. Alle Preise zzgl. USt.; GPU-Hardware wird je nach Modellgröße gemietet oder gekauft und separat ausgewiesen.

	BasisBetriebsübernahme Ihrer bestehenden KI (bis 2 GPU-Nodes)ab 690 €/Mon.	StandardKompletter Managed KI-Stack – RZ oder on-premiseab 1.490 €/Mon.	EnterpriseHA-Betrieb mit Governance für regulierte Umgebungenab 3.900 €/Mon.
Betrieb
24/7-Monitoring, Security- & Modell-Updates, Backups mit Restore-Tests, Monatsreport	✓	✓	✓
vLLM-Inference + KI-Gateway (OpenAI-kompatible API) + Chat mit SSO/AD	–	✓	✓
RAG (Wissensquellen mit Index-Pflege)	–	1 Quelle	unbegrenzt*
Hochverfügbarkeit: Failover + DR am zweiten deutschen Standort	–	–	✓
Governance & Autonomie
EU-AI-Act-Betriebsdokumentation (Logging, Modellversionen, Zugriffe)	✓	✓	✓
Governance-Retainer: KI-Register, Evidenz-Pakete, ISO-42001-Readiness	+590 €/Mon.	+590 €/Mon.	✓
Betrieb von Agenten-Workflows (Guardrails, HITL, Kill-Switch)	–	+390 €/Mon. je Workflow	1 inkl., weitere +390 €
Service-Level
Service-Klasse / Reaktionszeit	Standard · NBD, remote	Business · 4 h	Enterprise · 24/7-Rufbereitschaft
RTO/RPO vertraglich vereinbart	–	–	✓
Fester technischer Ansprechpartner	–	–	✓
Laufzeit / Kündigung	3 Mon., dann monatlich	12 Mon. / 3 Mon.	individuell
	Anfragen	Anfragen	Anfragen

* im Rahmen der vereinbarten Infrastruktur. Weitere Positionen: KI-Arbeitsplatz (gemanagter Chat-Zugang inkl. Support) ab 15 €/Nutzer/Monat ab 10 Nutzern · EU-AI-Act-Quick-Check (Inventar, Risikoeinstufung, Maßnahmenplan) einmalig 2.900 €. — Ehrlich: Unter ~30 aktiven Nutzern und ohne Vertraulichkeitsanforderungen ist eine Cloud-API oft günstiger. Ab ~50 Nutzern oder bei sensiblen Daten dreht sich die Rechnung – unsere Kostenanalyse Cloud-API vs. On-Premise zeigt den Break-even nach rund 18 Monaten.

§ 04 · VERANTWORTUNGSMATRIX

Wer macht was? Steht im Vertrag.

Keine Grauzonen: Die Matrix ist Vertragsbestandteil. Wählen Sie die Betriebstiefe – die Zuständigkeiten passen sich an.

Aufgabe	HostSpezial	Ihr Team
24/7-Monitoring & Alarmierung
Security-Patches & System-Updates
Modell-Updates & Rollbacks
Backups & Restore-Tests
Incident-Response
RAG-Datenpflege & Freigaben
Governance-Doku & AI-Act-Evidenz
Fachliche Use-Cases & Prompts

hostspezial gemeinsam ihr team

EU AI Act: Ihr Betrieb erzeugt die Nachweise nebenbei.

Die KI-Verordnung gilt stufenweise. Wichtig für Ihre Planung: Mit der Digital-Omnibus-Einigung vom Mai 2026 wurden die Hochrisiko-Pflichten nach hinten verschoben – die Transparenz- und GPAI-Pflichten gelten aber längst.

Wer heute ein sauberes KI-Inventar, Logging und dokumentierte Betriebsprozesse aufbaut, hat die späteren Pflichten fast nebenbei erfüllt. Genau diese Artefakte erzeugt unser Managed-Betrieb kontinuierlich – statt sie vor dem Audit mühsam zu rekonstruieren. Bußgelder reichen je nach Verstoß bis 35 Mio. € oder 7 % des Weltjahresumsatzes (verbotene Praktiken) bzw. bis 15 Mio. € oder 3 % bei Pflichtverstößen von Hochrisiko-Systemen.

2024-08-01 [AKTIV] EU AI Act in Kraft – risikobasierter Rahmen für alle KI-Systeme in der EU

2025-02-02 [AKTIV] Verbotene Praktiken & KI-Kompetenz – Schulungspflicht für Mitarbeitende

2025-08-02 [AKTIV] GPAI-Pflichten – Transparenz, technische Doku, Urheberrechts-Policy

2027-12-02 [GEPLANT] Hochrisiko Annex III – Risikomanagement, Logging, menschliche Aufsicht (per Digital Omnibus verschoben)

2028-08-02 [GEPLANT] Hochrisiko Annex I – regulierte Produkte, z. B. Maschinen, Medizinprodukte

Stand Juli 2026; verschobene Termine gemäß Digital-Omnibus-Trilogeinigung Mai 2026, finale Verabschiedung ausstehend. Vertiefung: EU AI Act für den Mittelstand.

§ 05 · ÜBERNAHMEPROTOKOLL

In fünf Schritten zum stabilen KI-Betrieb.

schritt 1/5

Betriebs-Assessment

Wir prüfen Architektur, Modelle, Sicherheitsstand und Dokumentation Ihrer KI – oder planen den neuen Stack. Kostenlos, remote, in der Regel innerhalb einer Woche.

schritt 2/5

Übernahme-Plan & SLA

Verantwortungsmatrix, Service-Klasse, Preise und Termine – schriftlich, vor der Unterschrift, ohne Überraschungen.

schritt 3/5

Onboarding & Härtung

Monitoring, Patch-Management, Backups und Zugriffskontrolle werden eingerichtet, die Umgebung gehärtet und vollständig dokumentiert.

schritt 4/5

Regelbetrieb

24/7-Monitoring, geplante Update-Zyklen, Incident-Response mit Reaktionszeiten – und ein Monatsreport über Verfügbarkeit, Nutzung und Kosten.

schritt 5/5

Weiterentwicklung

Neue Modelle, Use-Cases und Agenten-Workflows werden kontrolliert produktiv gesetzt – inklusive fortgeschriebener Compliance-Dokumentation.

Kaufen, bauen – oder betreiben lassen?

Drei Wege zur eigenen KI. Sie greifen ineinander, funktionieren aber auch einzeln – diese Seite ist der dritte.

kaufen · capex

KI On-Premise

Eigene GPU-Infrastruktur als Investition: Hardware, Setup, Integration. Mit Kostenvergleich Cloud-API vs. On-Premise und Break-even-Rechnung.

bauen · projekt

KI Full Stack Providing

Der Komplettaufbau aus einer Hand: Strategie, Infrastruktur, KI-System, Gateway und individuelle Entwicklung – bis zum Go-Live.

betreiben · opex

KI Managed Services

Der dauerhafte Run: Monitoring, Updates, Backups, Governance und SLA als planbare monatliche Pauschale. Egal, wer den Stack gebaut hat.

Managed AI, verständlich erklärt.

LLM on-premise betreiben lassen: was dahinter steckt

Ein Large Language Model im eigenen Haus zu betreiben heißt mehr, als ein Modell herunterzuladen: Inference-Engine (vLLM), GPU-Treiber, Quantisierung, API-Gateway, Zugriffskontrolle, Monitoring und Patch-Zyklen müssen dauerhaft zusammenspielen. „Betreiben lassen" bedeutet, diese Betriebsverantwortung an einen Managed Service Provider zu übergeben – die Hardware kann dabei in Ihrem Serverraum stehen. Der Unterschied zum klassischen Hosting: Beim KI-Betrieb altern nicht nur Systeme, sondern auch Modelle und Indizes, und beides braucht geplante Update-Zyklen.

KI DSGVO-konform hosten – worauf es ankommt

Entscheidend sind drei Fragen: Wo werden Prompts, Dokumente und Embeddings verarbeitet? Wer hat administrativen Zugriff? Und lässt sich beides nachweisen? DSGVO-konformes KI-Hosting heißt deshalb: Verarbeitung ausschließlich in deutschen bzw. europäischen Rechenzentren, ein Auftragsverarbeitungsvertrag nach Art. 28 DSGVO, dokumentierte technische und organisatorische Maßnahmen und lückenloses Zugriffs-Logging. Für Berufsgeheimnisträger nach § 203 StGB – Kanzleien, Praxen, Steuerberater – kommt die Anforderung hinzu, dass auch der Dienstleister vertraglich zur Verschwiegenheit verpflichtet ist.

Was kostet Managed AI in Deutschland?

Der Markt hat sich 2026 sortiert: Token-basierte Inference-APIs deutscher Anbieter beginnen bei unter einem Euro pro Million Tokens, dediziertes Managed-GPU-Hosting startet bei rund 1.000 €/Monat, und Full-Managed Private AI inklusive Governance liegt typischerweise zwischen 4.000 und 8.000 €/Monat. Unsere Pakete setzen bewusst dazwischen an: ab 690 €/Monat für die Betriebsübernahme, ab 1.490 €/Monat für den kompletten Stack – weil ein regionaler MSP mit eigenem Rechenzentrum die Betriebsleistung ohne Konzern-Overhead erbringen kann. Wichtig für den Vergleich: Immer prüfen, ob Modell-Updates, Backups mit Restore-Tests und Compliance-Dokumentation enthalten sind oder extra kosten.

Managed vLLM statt Eigenbetrieb

vLLM ist der De-facto-Standard für produktive LLM-Inference – schnell, effizient, aber betriebsintensiv: CUDA-Versionen, Modell-Formate, Speicher-Tuning und Lastverhalten wollen laufend gepflegt werden. Managed vLLM heißt: Wir übernehmen das komplette LLMOps – Engine, Modelle und GPU-Ressourcen bleiben aktuell und performant, Sie nutzen eine stabile, OpenAI-kompatible Schnittstelle. Ihre Anwendungen merken von Updates nichts – außer dass sie schneller werden.

der stack · wer betreibt was

Ihre Anwendungen & Promptssie

OpenAI-kompatible APIstabil

KI-Gatewayrollen · logging

RAG · Vektordatenbankindex-pflege

vLLM-Inference · Modelleupdates · rollback

GPU-Nodes · Betriebssystempatches · backups

Deutsches RZ oder Ihr Serverraumiso 27001

schnittstelle bleibt stabil — updates darunter merken sie nicht.

Häufige Fragen zu KI Managed Services.

HostSpezial betreibt Ihre KI-Umgebung dauerhaft als Dienstleistung – LLM-Inference, RAG-Pipelines, KI-Chatbots und Agenten-Workflows. Enthalten sind 24/7-Monitoring, Modell- und Security-Updates, Backups, Incident-Response, SLA und eine Betriebsdokumentation, die auch für EU-AI-Act-Nachweise nutzbar ist. Sie nutzen die KI, wir verantworten den Betrieb.

Ab 690 €/Monat (Basis: Betriebsübernahme), ab 1.490 €/Monat (Standard: kompletter Stack) und ab 3.900 €/Monat (Enterprise: HA, Governance, Agenten, 24/7). Alle Preise zzgl. USt., GPU-Hardware separat. Zur Einordnung: Der deutsche Markt bewegt sich zwischen rund 1.000 €/Monat für dediziertes Managed-GPU-Hosting und 4.000–8.000 €/Monat für Full-Managed Private AI.

Beides – und auch hybrid. Betrieb in deutschen HostSpezial-Rechenzentren mit privater Anbindung, on-premise auf GPU-Servern in Ihrem Haus (remote gemanagt) oder hybrid mit sensiblen Workloads bei Ihnen und Lastspitzen bei uns. In allen Varianten bleiben die Daten in Deutschland.

Ja. Verarbeitung ausschließlich in Deutschland, Auftragsverarbeitungsvertrag nach Art. 28 DSGVO, dokumentierte TOM und lückenloses Zugriffs-Logging. Es gehen keine Prompts, Dokumente oder Embeddings an US-Cloud-Dienste. HostSpezial ist nach ISO/IEC 27001:2022 zertifiziert.

Seit Februar 2025 gelten Verbote und die Pflicht zur KI-Kompetenz, seit August 2025 die GPAI-Pflichten. Die Hochrisiko-Pflichten wurden mit der Digital-Omnibus-Einigung vom Mai 2026 auf Dezember 2027 (Annex III) bzw. August 2028 (Annex I) verschoben – vorbehaltlich finaler Verabschiedung. Praktisch heißt das: KI-Inventar, Transparenzpflichten und saubere Betriebsdokumentation jetzt aufbauen. Genau diese Nachweise erzeugt unser Betrieb kontinuierlich mit.

Ja, als Readiness-Unterstützung: Wir liefern die betrieblichen Nachweise (Asset-Inventar, Logging, Rollen, Änderungsmanagement, Incident-Prozesse), die ein KI-Managementsystem nach ISO/IEC 42001 fordert, und arbeiten Ihrem Auditor zu. Die Zertifizierung selbst führt eine akkreditierte Stelle durch.

Ja – das ist das Kernszenario des Basis-Pakets. Wir starten mit einem Betriebs-Assessment, erstellen einen Übernahme-Plan und überführen die Umgebung in den überwachten Regelbetrieb – üblicherweise innerhalb von zwei bis vier Wochen.

Offene, selbst hostbare Modelle (u. a. Llama-, Mistral- und Qwen-Familien) auf vLLM, dahinter ein KI-Gateway mit OpenAI-kompatibler API, Chat-Oberflächen wie Open WebUI und Vektordatenbanken wie Qdrant für RAG. Bestehende Komponenten übernehmen wir, sofern sie betreibbar und sicherheitstechnisch vertretbar sind.

Für Berufsgeheimnisträger nach § 203 StGB ist der On-Premise- oder Private-Hosting-Betrieb besonders relevant: Mandanten- und Patientendaten verlassen das kontrollierte Umfeld nicht. Wir betreiben die KI in Ihrem Haus oder in einem dedizierten Umfeld – mit AVV, Verschwiegenheitsverpflichtung und vollständigem Zugriffs-Logging.

Basis läuft in der Service-Klasse Standard (Reaktion am nächsten Arbeitstag, remote). Standard enthält die Service-Klasse Business mit 4 Stunden Reaktionszeit zu Geschäftszeiten. Enterprise umfasst 24/7-Rufbereitschaft, vertragliche RTO/RPO-Ziele und einen festen technischen Ansprechpartner.

Basis: 3 Monate Mindestlaufzeit, danach monatlich kündbar. Standard: 12 Monate Laufzeit, 3 Monate Kündigungsfrist. Enterprise: individuell. Beim Exit erhalten Sie alle Konfigurationen, Modelle, Daten und die vollständige Betriebsdokumentation – kein Vendor-Lock-in.

KI On-Premise ist das Kaufprojekt (CAPEX), KI Full Stack Providing der Komplettaufbau von Strategie bis Go-Live. KI Managed Services ist die Betriebsschicht: der dauerhafte Run als monatliche Pauschale (OPEX) – egal, ob wir den Stack gebaut haben oder ein anderer.

Vertiefung aus dem Fachblog.

Deep Dive

Ihr KI-Pilot verdient eine Nachtschicht.

Das Betriebs-Assessment ist der erste Schritt – und schon das Ergebnis können Sie sehen, bevor Sie uns beauftragen: ein schriftlicher Bericht, kein Verkaufsgespräch.

Remote in ca. einer Woche: Wir prüfen Architektur, Modelle, Sicherheitsstand und Dokumentation Ihrer KI – oder planen den neuen Stack.
Schriftliches Ergebnis: Befunde mit Ampel-Bewertung, Maßnahmenplan und Aufwandsschätzung – gehört Ihnen, egal wie Sie sich entscheiden.
Kein Risiko: kostenlos, unverbindlich, und wenn eine Cloud-API für Sie günstiger ist, schreiben wir genau das hinein.

Betriebs-Assessment anfragen oder direkt: 09571 873149

Dokument · 12 Seiten

Betriebs-Assessment – Ergebnisbericht

kunde: [ihr unternehmen] · erstellt: kw 29 · status: final

Inference-Stackvllm aktuell, sauber dimensioniert · übernahmefähig

Backupsvorhanden – restore seit 9 monaten nie getestet

Zugriffskontrolleadmin-token im klartext in 3 skripten → sofortmaßnahme

AI-Act-Dokuki-inventar unvollständig · logging nur 7 tage

Wirtschaftlichkeitab 60 nutzern günstiger als cloud-api · rechnung s. 9

maßnahmenplan: 11 punkte aufwand: geschätzt je punkt empfehlung: s. 12