Was ist mit Garantie und Ausfallrisiko bei gebrauchten Servern?

Seriöse Refurbisher geben 12 bis 36 Monate Garantie. HostSpezial liefert vollgetestete Systeme mit 36 Monaten Garantie aus eigenem Lager — inklusive Burn-in-Test, aktualisierter Firmware und Ersatzteilverfügbarkeit. Die Ausfallraten getesteter Enterprise-Hardware aus klimatisiertem Betrieb unterscheiden sich in der Praxis kaum von Neuware nach der Einlaufphase.

Ist Refurbished-IT relevant für CSRD und ESG-Reporting?

Ja. Die Herstellung macht einen erheblichen Teil des CO2-Fußabdrucks von IT-Hardware aus. Wer Refurbished kauft, vermeidet Neuproduktion und kann das als Scope-3-Reduktion im CSRD-Bericht ausweisen — relevant für die ESRS-Standards E1 (Klimawandel) und E5 (Ressourcennutzung und Kreislaufwirtschaft). Laut Bitkom setzen bereits rund 15 Prozent der deutschen Unternehmen Refurbished-IT ein.

On-Premise-GPU oder Cloud-GPU mieten — was rechnet sich?

Faustregel: Läuft die GPU mehr als 6 bis 8 Stunden täglich, amortisiert sich eine gebrauchte On-Premise-Karte meist innerhalb von 12 bis 18 Monaten gegenüber Cloud-Stundenpreisen. Cloud lohnt sich für Lastspitzen, Experimente und kurzes Training. Dauerbetrieb (Chatbots, RAG, Coding-Assistenten) gehört wirtschaftlich auf eigene Hardware — zumal Daten dann das Haus nicht verlassen.

← Alle Artikel

Hardware KI & Infrastruktur 10. Juni 2026 17 Min. Lesezeit

Refurbished Enterprise-Hardware für KI — warum gebrauchte Server und GPUs 2026 die klügste Rechnung sind

Während Hyperscaler die neueste GPU-Generation aufkaufen, entsteht auf der anderen Seite des Marktes das beste Preis-Leistungs-Fenster seit Jahren: Leasingrückläufer und Datacenter-Abverkäufe liefern Enterprise-Server und Datacenter-GPUs zu 30-70 % unter Neupreis — mit genau der Eigenschaft, die für KI-Inference zählt: viel VRAM. Dieser Deep Dive zeigt, welche GPU zu welchem LLM passt, welcher Refurbished-Server als Träger taugt, wann sich On-Premise gegen Cloud-GPUs rechnet und was CSRD-Berichtspflichtige davon haben.

NVIDIA RTX A6000: der 48-GB-Sweet-Spot am Refurbished-Markt

Das Paradox des KI-Booms: Die beste Hardware ist gerade die gebrauchte

2026 ist das Jahr, in dem zwei Marktbewegungen kollidieren. Auf der einen Seite saugen Hyperscaler und KI-Labore die Produktionskapazität der neuesten GPU-Generationen ab — wer als Mittelständler eine aktuelle Datacenter-GPU bestellt, konkurriert preislich und terminlich mit AWS, Azure und Meta. Auf der anderen Seite rollt die größte Refurbished-Welle, die der Servermarkt je gesehen hat: Leasingrückläufer aus den Beschaffungsjahren 2021-2023, Hardware-Refresh-Zyklen großer Rechenzentren und ausgemusterte GPU-Flotten der ersten KI-Welle.

Das Ergebnis ist ein Käufermarkt für genau die Geräteklasse, die der Mittelstand für On-Premise-KI braucht: Server mit viel RAM und PCIe-Steckplätzen, Datacenter-GPUs mit 24 bis 80 GB VRAM. Denn die unbequeme Wahrheit, die im Marketing der GPU-Hersteller untergeht: KI-Inference ist VRAM-gebunden, nicht generationsgebunden. Ein Sprachmodell, das in den Speicher einer drei Jahre alten Karte passt, läuft darauf produktiv — die neueste Generation rechnet schneller, aber sie rechnet nichts, was die alte nicht auch könnte.

„Wir haben den Kunden zwei Angebote gelegt: neuer GPU-Server für das Sechsstellige — oder Refurbished-Träger mit zwei gebrauchten 48-GB-Karten für ein Viertel davon. Der Chatbot antwortet auf beiden in unter einer Sekunde. Raten Sie, was im Rack steht."

HostSpezial Hardware-Team, Projektnotiz Q2/2026

40-70 % unter Neupreis
VRAM schlägt Generation
36 Monate Garantie
Eigenes Lager, 24h-Lieferung
CSRD-Scope-3-Hebel
Break-even vs. Cloud: 12-18 Monate

Woher die Ware kommt — der Refurbished-Markt 2026

„Gebraucht" weckt beim Server-Einkauf falsche Bilder. Refurbished-Enterprise-Hardware stammt nicht aus Kleinanzeigen, sondern aus drei professionellen Quellen:

Leasingrückläufer: Der Großteil der Enterprise-Hardware wird über 36-48-Monats-Verträge geleast. Nach Vertragsende gehen die Systeme zurück an Leasinggeber und Broker — typischerweise drei bis vier Jahre alt, aus klimatisierten Rechenzentren, mit lückenloser Historie.
Hyperscaler- und Datacenter-Refresh: Große Betreiber tauschen Flotten nach festen Zyklen, unabhängig vom Zustand. Die erste Generation der KI-Beschaffungswelle (A100-Ära) erreicht 2025/2026 genau diesen Punkt — deshalb ist die Verfügbarkeit von 80-GB-Karten am Zweitmarkt so gut wie nie.
Decommissioning-Projekte: Cloud-Migrationen und Konsolidierungen setzen komplette Racks frei. Seriöse Refurbisher übernehmen, testen, löschen zertifiziert und vermarkten die Systeme mit neuer Gewährleistung.

Entscheidend ist der Unterschied zwischen „gebraucht gekauft" und „refurbished": Ein professionell aufbereitetes System hat einen Burn-in-Test hinter sich, trägt aktuelle Firmware, wurde gereinigt, und der Händler garantiert dafür — bei HostSpezial 36 Monate aus eigenem Lager. Das ist mehr Absicherung, als mancher Hersteller bei Neuware ohne Support-Vertrag bietet.

Warum Enterprise-Hardware den Gebrauchtkauf verträgt: Server und Datacenter-GPUs sind auf Dauerbetrieb unter Last ausgelegt — ECC-Speicher, redundante Netzteile, Komponenten mit Ausfallraten, die in MTBF-Jahrzehnten gemessen werden. Ein Server, der drei Jahre bei konstanten 22 °C lief, ist technisch in einem anderen Universum als ein drei Jahre altes Consumer-Gerät. Die „Badewannenkurve" der Elektronik spielt dem Käufer sogar zu: Frühausfälle sind längst aussortiert.

Die Ökonomie: Was Refurbished konkret spart

Die Spannen unterscheiden sich je nach Geräteklasse. Richtwerte vom Markt, Stand Juni 2026 (Listenpreis-Vergleich bei funktional vergleichbarer Ausstattung):

Geräteklasse	Beispiel	Refurbished-Ersparnis	Einordnung
2U-Standardserver	HPE DL380 Gen10, Dell R740	60-70 %	Größte Spanne — riesiges Angebot aus Leasingrückläufen, Leistung für Virtualisierung und als GPU-Träger mehr als ausreichend.
Workstation-GPUs	RTX 3090, RTX A5000/A6000	50-65 %	24-48 GB VRAM zum Bruchteil des Neupreises der Nachfolger. Sweet Spot für Entwicklung und kleine Produktiv-Setups.
Datacenter-GPUs	NVIDIA A100 40/80 GB	~50 %, weiter fallend	Die A100-Welle ist da: Rechenzentren drehen von Ampere auf Hopper/Blackwell, das Angebot ist hoch. Gebrauchtpreise streuen stark (grob 4.000-9.000 USD für 80 GB) — Angebote einzeln vergleichen.
Netzwerk	Cisco Catalyst, Arista 7000	50-80 %	Switches altern funktional kaum — 25/100G-Refurbished-Fabric ist der unterschätzte Sparposten im GPU-Cluster.
Aktuelle KI-Flaggschiffe	H100/H200, Blackwell	kaum relevant	H100 refurbished bei ca. 19.000-30.000 USD, H200 am Zweitmarkt praktisch nicht existent — beides außerhalb typischer Mittelstands-Budgets. Hier gilt: Cloud-Burst statt Kauf.

Wichtiger als der Prozentwert ist die richtige Metrik. Für KI-Workloads kauft man nicht „einen Server", sondern Euro pro Gigabyte VRAM. Und in dieser Währung ist der Zweitmarkt konkurrenzlos: Eine gebrauchte RTX 3090 liefert 24 GB für einen mittleren dreistelligen Betrag — pro Gigabyte VRAM ein Bruchteil dessen, was aktuelle Generationen kosten. Wer Inference skalieren will, stellt zwei oder vier günstige Karten nebeneinander, statt eine teure zu kaufen.

Die GPU-Matrix: Welche Karte für welchen KI-Workload

Die Auswahl folgt einer einfachen Hierarchie: erst VRAM-Bedarf des Zielmodells, dann Durchsatz-Anforderung, zuletzt Effizienz. Die wichtigsten Refurbished-Kandidaten im Überblick:

GPU	VRAM	Stärken	Typischer KI-Einsatz	Zweitmarkt
RTX 3090	24 GB	Bestes €/GB-Verhältnis am Markt	Entwicklung, lokale LLMs bis ~27B (quantisiert), Embeddings, Stable Diffusion	Sehr gut
RTX A5000	24 GB	Blower-Kühlung, 230 W — serverfreundlich	Wie 3090, aber für Dauerbetrieb im Rack; auch vGPU/VDI	Gut
RTX A6000	48 GB	48 GB im Workstation-Format, NVLink-fähig	70B-Modelle quantisiert, Fine-Tuning kleiner Modelle, RAG-Produktion	Gut
NVIDIA A100 40/80 GB	40/80 GB	HBM2e-Bandbreite, MIG-Partitionierung, NVLink	Produktive Multi-User-Inference, 70-120B-Modelle, Fine-Tuning	Gut & fallend im Preis
NVIDIA L40S	48 GB	Ada-Generation, FP8, auch Rendering/VDI	Moderne Inference + Mixed Workloads (KI + Grafik)	Begrenzt, jung
NVIDIA A30/L4	24 GB	Niedrige Leistungsaufnahme (165/72 W)	Embeddings, Whisper, kleine Modelle, Edge-Inference	Gut
RTX PRO 5000 Blackwell	48 GB	GDDR7, FP4, PCIe Gen5 — nur als Neuware	Der neue Maßstab der 48-GB-Klasse: unterbietet am US-Markt gebrauchte RTX 6000 Ada im Preis	Neuware
RTX PRO 6000 Blackwell	96 GB	GDDR7 ECC, 1.792 GB/s — doppelte Bandbreite der Ada-Klasse	70B komfortabel, Mixtral 8x22B und 120B-Klasse auf einer Karte — nur als Neuware (ab ca. 11.000 €)	Neuware

Marktverschiebung Juni 2026 — die 96-GB-Klasse: Die RTX PRO 6000 Blackwell (96 GB GDDR7, Max-Q ab ca. 11.000 €, Workstation Edition ca. 12.300-12.500 €) liefert paradoxerweise das beste Preis-Leistungs-Verhältnis pro GB VRAM unter den Neukarten: ca. 115-130 €/GB gegenüber ca. 147 €/GB einer neuen RTX 6000 Ada und ca. 160 €/GB einer neuen L40S. Wer neu kauft, kauft 2026 nicht mehr 2× 48 GB, sondern 1× 96 GB — ohne Multi-GPU-Komplexität, mit fast doppelter Speicherbandbreite und voller Garantie. Das Refurbished-Argument verschiebt sich damit auf die Klassen, in denen der Zweitmarkt wirklich liefert: 24-GB-Karten, A100-Bestände und die Server drumherum. (Straßenpreise: Geizhals-Preisvergleich, Stand 10. Juni 2026.)

Ehrliche Grenze: Für das Training großer Modelle von Grund auf und für Frontier-Scale-Workloads ist gebrauchte Hardware der falsche Weg — dafür sind Speicherbandbreite, Interconnect (NVLink/InfiniBand-Topologien) und FP8-Support aktueller Generationen entscheidend. Die gute Nachricht: 95 % der Mittelstands-KI ist Inference und Fine-Tuning, kein Pre-Training. Genau dort spielt Refurbished seine Stärken aus.

VRAM-Sizing: Welches Modell passt auf welche Karte

Die Kernfrage jeder KI-Hardware-Beratung lautet: Welches Modell wollen Sie betreiben — und in welcher Quantisierung? Als Faustformel braucht ein Modell in 4-Bit-Quantisierung etwa 0,6 GB VRAM pro Milliarde Parameter, plus Reserve für den KV-Cache (wächst mit Kontextlänge und Parallelität). Die gängigsten Konstellationen:

VRAM-Kalkulator · LLM-Inference Richtwerte inkl. KV-Cache-Reserve · vLLM/llama.cpp

ModellklasseQuant.VRAM-BedarfLäuft auf (Refurbished)

8B (z. B. Llama-Klasse)q4~6-8 GBJede 24-GB-Karte, mehrfach parallel

27-32B (z. B. Qwen3)q4~18-22 GB1× RTX 3090 / A5000 (24 GB)

70Bq4~40-45 GB1× A6000/L40S (48 GB, knapp) · besser 2× 48 GB

70BFP16~140+ GB2× A100 80 GB mit Tensor-Parallelität

Mixtral 8x22Bq4~66-73 GB1× 96 GB (RTX PRO 6000) · sprengt jede 48-GB-Karte

120B (z. B. GPT-OSS-Klasse)q4~70-80 GB1× A100 80 GB · 1× 96-GB-Karte · oder 2× 48 GB

Richtwerte für Inference. Fine-Tuning (LoRA/QLoRA) braucht je nach Verfahren das 1,5- bis 3-Fache. Längere Kontexte (>32k Tokens) und viele parallele Nutzer erhöhen den KV-Cache deutlich — Sizing immer gegen den realen Workload rechnen.

Wie ein kompletter Inference-Stack auf solcher Hardware aussieht — vLLM als Engine, Modellauswahl, Multi-GPU-Konfiguration — haben wir im On-Premise-KI Deep Dive ausführlich dokumentiert. Die Kurzfassung für die Hardware-Perspektive: Im reinen Gebraucht-Budget bleiben zwei 48-GB-Karten das vielseitigste Setup — groß genug für 70B-Modelle, flexibel teilbar für zwei getrennte Dienste. Wer Neuware-Budget hat, fährt seit 2026 mit einer einzelnen 96-GB-Karte (RTX PRO 6000 Blackwell) meist besser: gleicher Gesamt-VRAM ohne Tensor-Parallelität, fast doppelte Bandbreite, und Modelle wie Mixtral 8x22B passen ohne Multi-GPU-Verrenkung auf eine Karte.

Die Trägerplattform: Refurbished-Server als GPU-Basis

Die GPU ist nur die halbe Beschaffung — sie braucht einen Server, der sie versorgt. Und hier ist der Refurbished-Markt am reifsten. Bewährte Träger:

Plattform	GPU-Kapazität	Worauf achten
HPE ProLiant DL380 Gen10	Bis 2× Double-Width (mit GPU-Enablement-Kit)	High-Performance-Lüfter-Kit und zweites Riser-Kit nötig; 800 W+-Netzteile wählen. Der Standard-Allrounder.
Dell PowerEdge R740/R750	Bis 2-3× Double-Width	R750 bringt PCIe Gen4 — relevant für Multi-GPU-Durchsatz. GPU-Riser-Konfiguration ab Werk prüfen.
Supermicro 4U GPU-Server	4-8× Double-Width	Der Skalierungspfad: dedizierte GPU-Systeme mit redundanten 2-3-kW-Netzteilen. Refurbished aus KI-Erstausstattungen verfügbar.
Tower (ML350, T-Serie)	1-2× Double-Width	Für Büroumgebungen ohne Rack — leiser, Standard-Steckdose, ideal für den KI-Einstieg im KMU.

Die vier technischen Prüfpunkte, an denen GPU-Nachrüstungen in der Praxis scheitern:

PCIe-Generation und Lanes: Mindestens Gen3 x16 pro Karte, für Multi-GPU-Setups besser Gen4 (R750, Gen11). Bifurcation-Fähigkeit prüfen, wenn mehrere Karten auf einen Riser sollen.
Netzteil-Budget: Eine A6000 zieht 300 W, eine A100 bis 300-400 W — zusätzlich zum Grundsystem. Faustregel: Netzteil-Gesamtleistung minus 400 W Grundlast ergibt das GPU-Budget. Redundanz (1+1) nicht opfern.
Kühlung und Luftführung: Datacenter-GPUs (A100, L40S, A30) sind passiv und brauchen den Luftstrom des Servers — ohne High-Performance-Lüfterkit drosseln sie. Workstation-Karten (3090, A6000) bringen eigene Lüfter mit, brauchen aber Platz.
Strom-Stecker und Riser: EPS- vs. PCIe-8-Pin-Belegung ist herstellerspezifisch — das passende GPU-Kabelkit gehört zur Bestellung, nicht zur Improvisation.

Aus der Praxis: Das häufigste Fehlbild ist der „billige Server + teure GPU"-Reflex ohne Kompatibilitätsprüfung. Wir konfigurieren Träger und Karte als getestetes Gesamtsystem — Riser, Kabelkit, Lüfterprofil, Firmware — und brennen das System vor Auslieferung unter GPU-Volllast ein. Der Unterschied zwischen „Karte steckt" und „Karte hält 24/7-Inference" liegt genau in diesen Details.

Einkaufs-Checkliste: Woran Sie seriöses Refurbishing erkennen

Der Zweitmarkt hat — wie jeder Markt — ein Qualitätsgefälle. Sieben Punkte trennen professionelle Anbieter von Restposten-Händlern:

Herkunft dokumentiert. Leasingrücklauf oder Datacenter-Decommissioning mit nachvollziehbarer Historie — keine anonyme Broker-Kette. Bei GPUs relevant: Karten aus Mining-Betrieb meiden; Datacenter-Karten aus Inference-Clustern sind unkritisch.
Burn-in-Test unter Volllast. Mehrstündiger Stresstest von CPU, RAM (ECC-Fehlerprotokoll!), Storage und GPU — mit Prüfprotokoll. „Eingeschaltet und gebootet" ist kein Test.
Aktuelle Firmware ab Lager. BIOS/UEFI, BMC (iLO/iDRAC/IPMI), NIC- und RAID-Firmware auf aktuellem Stand — inklusive der 2023er-Secure-Boot-Zertifikate, die seit Juni 2026 Pflicht sind. Ein Refurbished-Server mit 2019er-Firmware wird sonst zur Altlast am ersten Tag.
SSD-Wear-Level ausgewiesen. Bei gebrauchten SSDs zählt der Restlebensdauer-Indikator (Percentage Used / Media Wearout). Seriöse Anbieter weisen ihn aus oder verbauen Neuware bei kritischen Werten.
Management-Lizenzen geklärt. iLO Advanced bzw. iDRAC Enterprise sind für Fernwartung praktisch unverzichtbar — vor dem Kauf klären, ob die Lizenz übergeht.
Echte Garantie, nicht Gewährleistungs-Minimum. 12 Monate sind Standard, 36 Monate (wie bei HostSpezial) das Niveau, auf dem Refurbished mit Neuware konkurriert. Entscheidend: Wer leistet — der Händler mit eigenem Lager oder ein anonymer Versender?
Ersatzteil-Verfügbarkeit. Der eigentliche Vorteil etablierter Plattformen wie DL380 oder R740: Netzteile, Lüfter, Riser und Controller sind als Ersatzteil jahrelang verfügbar. Ein eigenes Ersatzteillager beim Lieferanten verkürzt den Austausch von Wochen auf Stunden.

TCO-Rechnung: Refurbished On-Premise vs. Cloud-GPU vs. Neuware

Die häufigste Gegenfrage lautet: Warum überhaupt kaufen, wenn man GPUs stundenweise mieten kann? Die Antwort hängt an der Auslastung. Modellrechnung für einen typischen Mittelstands-Workload — interner Chatbot/RAG auf einem 70B-Modell, Bürozeiten-Betrieb mit Dauerverfügbarkeit:

Szenario	Kostenstruktur	3-Jahres-Sicht	Daten
Refurbished On-Prem (Träger + 2× 48 GB gebraucht)	Einmalig niedrige fünfstellige Investition + Strom (~0,5-0,9 kW unter Last)	Günstigste Variante ab ~12-18 Monaten Betrieb	Bleiben im Haus
Neuware On-Prem (aktuelle Generation)	2,5-4× höhere Investition, etwas bessere Effizienz/Token	Rechnet sich erst bei hoher Dauerauslastung oder Training	Bleiben im Haus
Cloud-GPU (Stunden-/Monatsmiete)	Keine Investition, laufende Kosten pro GPU-Stunde, Egress-Kosten	Bei 24/7-Verfügbarkeit teuerste Variante — Mietkosten überholen den Refurbished-Kaufpreis typisch im 2. Jahr	Verlassen das Haus (AVV/DSGVO-Prüfung nötig)

Die Faustregel aus unseren Projekten: Läuft die GPU mehr als 6-8 Stunden am Tag, gewinnt On-Premise — und Refurbished verkürzt den Break-even auf 12-18 Monate. Cloud-GPUs behalten ihre Berechtigung für Lastspitzen, Trainings-Bursts und Experimente; der hybride Ansatz (Inference im Haus, Training in der Cloud) ist oft das wirtschaftliche Optimum. Wer die Investition scheuen will, ohne in die Cloud zu gehen: Hardware-Miete/HaaS bildet denselben Effekt mit monatlichen Raten ab.

Der DSGVO-Bonus: Bei On-Premise-Inference verlassen Prompts, Dokumente und Embeddings das Haus nicht — kein US-Cloud-Transfer, kein Auftragsverarbeitungsvertrag mit dem GPU-Vermieter, keine Diskussion mit dem Datenschutzbeauftragten über Trainingsdaten-Nutzung. Für Branchen mit Berufsgeheimnissen (Kanzleien, Gesundheitswesen) und DSGVO-kritische KI-Anwendungen ist das häufig das eigentliche Entscheidungskriterium, noch vor dem Preis.

Der CSRD-Hebel: Refurbished als Scope-3-Maßnahme

Seit 2024 sind große Kapitalgesellschaften CSRD-berichtspflichtig, kapitalmarktorientierte KMU folgen gestaffelt — und mit der Berichtspflicht rückt der CO2-Fußabdruck der IT-Beschaffung in den Vorstandsbericht. Der relevante Punkt: Bei IT-Hardware entsteht ein erheblicher Teil der Emissionen in der Herstellung (Embodied Carbon) — Chipfertigung, seltene Erden, Logistik. Wer ein vorhandenes Gerät weiternutzt statt Neuproduktion auszulösen, vermeidet diese Emissionen real und berichtbar:

Scope-3-Reduktion: Refurbished-Beschaffung senkt die eingekauften Emissionen (Kategorie „Purchased Goods") gegenüber Neuware messbar — dokumentierbar für die ESRS-Standards E1 (Klimawandel) und E5 (Ressourcennutzung & Kreislaufwirtschaft).
Kreislaufwirtschaft als Strategie-Baustein: Die Kombination aus Refurbished-Einkauf und zertifizierter Rücknahme/Datenlöschung am Lebensende (WEEE-konform, mit Löschprotokoll nach BSI-Standard) ergibt eine geschlossene, auditierbare Lifecycle-Kette.
Der Markt zieht an: Laut Bitkom setzen bereits rund 15 % der deutschen Unternehmen Refurbished-IT ein, weitere 15 % prüfen es. Aus der Nische ist eine Beschaffungsstrategie geworden.

Für KI-Projekte ist das doppelt elegant: Ausgerechnet die Workload-Klasse mit dem größten Energie-Image lässt sich auf Hardware betreiben, deren Herstellungs-Emissionen bereits abgeschrieben sind. „KI ja, aber auf Kreislauf-Hardware" ist ein Satz, der in Nachhaltigkeitsberichten 2026 gut altert.

Wofür Refurbished die richtige Antwort ist — und wofür nicht

Damit kein falscher Eindruck entsteht: Refurbished ist ein Werkzeug, kein Dogma. Die ehrliche Zuordnung:

Einsatzszenario	Empfehlung	Begründung
LLM-Inference (Chatbot, RAG, Coding-Assistent)	Refurbished ✓	VRAM-gebunden, läuft auf 1-3 Generationen alten Karten produktiv
Fine-Tuning (LoRA/QLoRA), Embeddings, Whisper	Refurbished ✓	Rechenzeit ist unkritisch, VRAM entscheidet
Test-, Dev-, Staging-Umgebungen	Refurbished ✓	Identische Plattform wie Produktion zum Bruchteil der Kosten
Virtualisierungs-Cluster, Backup-Targets, Storage	Refurbished ✓	Der Klassiker — bewährte Plattformen, riesige Ersatzteilbasis
Geschäftskritische Produktion mit Hersteller-SLA-Pflicht	Abwägen	Wenn Compliance Hersteller-Support-Verträge fordert, ist Neuware mit Carepack oft alternativlos
Großskaliges Modell-Training, Frontier-Workloads	Neuware/Cloud	Interconnect und FP8-Effizienz aktueller Generationen sind hier der Hebel

Wie HostSpezial liefert: Lager, Test, Garantie, Sizing

Wir handeln nicht mit Hardware — wir betreiben sie selbst, in eigenen Rechenzentrumsflächen und bei Kunden. Daraus folgt ein anderer Anspruch an das, was unser Lager verlässt:

Nur Enterprise: HPE ProLiant, Dell PowerEdge, IBM/Lenovo, Supermicro; Netzwerk von Cisco, Juniper, Arista; GPUs von NVIDIA. Keine Consumer-Ware im Servergewand.
Vollgetestet mit Protokoll: Burn-in unter Last, ECC-Prüfung, aktualisierte Firmware (inklusive Secure-Boot-2023-Stand), gereinigt und dokumentiert.
36 Monate Garantie aus eigenem Lager — mit Ersatzteilbestand für Netzteile, Lüfter, Riser, Controller. Austausch in Stunden statt Wochen, auf Wunsch mit 24/7-Monitoring kombiniert.
Beratung & Sizing: Wir rechnen vom Workload rückwärts — Zielmodell, Nutzerzahl, Kontextlängen — und konfigurieren das Gesamtsystem inklusive Virtualisierungs- und Inference-Stack. Auf Wunsch bis zum schlüsselfertigen On-Premise-KI-System.
Kauf, Leasing oder Miete: Einmalinvestition, Leasing über 36-60 Monate oder Hardware-as-a-Service — je nach Bilanz-Präferenz.

Glossar — die wichtigsten Begriffe

› Begriffe rund um Refurbished-Hardware und KI-Sizing

Refurbished: Professionell aufbereitete Gebraucht-Hardware: getestet, gereinigt, Firmware aktualisiert, mit neuer Händlergarantie. Abzugrenzen von ungeprüfter „Used"-Ware.
Leasingrückläufer: Hardware aus ausgelaufenen 36-48-Monats-Leasingverträgen — die Hauptquelle des Refurbished-Markts, typischerweise aus klimatisiertem Rechenzentrumsbetrieb.
VRAM: Grafikspeicher der GPU. Für LLM-Inference die entscheidende Größe: Das Modell muss (quantisiert) vollständig hineinpassen, plus KV-Cache für laufende Anfragen.
Quantisierung (q4/q8): Kompression der Modellgewichte auf 4 oder 8 Bit. Reduziert den VRAM-Bedarf auf ca. ein Viertel bzw. die Hälfte von FP16 — bei meist vernachlässigbarem Qualitätsverlust in der Praxis.
KV-Cache: Zwischenspeicher der Attention-Schichten während der Generierung. Wächst mit Kontextlänge und Zahl paralleler Nutzer — der häufig unterschätzte VRAM-Posten.
NVLink: NVIDIA-Interconnect zwischen GPUs, deutlich schneller als PCIe. Relevant für Tensor-Parallelität, wenn ein Modell über mehrere Karten verteilt wird (A100, A6000-Paare).
MIG (Multi-Instance GPU): Partitionierung einer A100/H100 in bis zu sieben isolierte GPU-Instanzen — eine gebrauchte 80-GB-Karte kann so mehrere kleine Workloads parallel bedienen.
Burn-in-Test: Mehrstündiger Volllast-Stresstest vor Auslieferung, der Frühausfälle und thermische Probleme aufdeckt. Qualitätsmerkmal seriöser Refurbisher.
Embodied Carbon: CO2-Emissionen aus Herstellung und Logistik eines Geräts. Bei IT-Hardware ein erheblicher Anteil des Lebenszyklus-Fußabdrucks — der Hebel der Refurbished-Beschaffung im ESG-Reporting.
Scope 3 / ESRS E1, E5: Indirekte Emissionen der Wertschöpfungskette (Scope 3) und die CSRD-Berichtsstandards zu Klimawandel (E1) und Kreislaufwirtschaft (E5), in denen Refurbished-Beschaffung berichtbar wird.

Fazit: Erst der Workload, dann die Karte, dann der Preis

Der KI-Hardware-Markt 2026 belohnt die, die gegen den Reflex kaufen. Während die Schlagzeilen der neuesten GPU-Generation gehören, läuft die produktive Mittelstands-KI auf Karten, die der Zweitmarkt zu Bruchteilen des Neupreises liefert — getragen von Servern, deren Refurbished-Rabatt seit Jahren bewährt ist. Drei Merksätze:

VRAM ist die Währung. Rechnen Sie vom Zielmodell rückwärts: Modellgröße und Quantisierung bestimmen den Speicherbedarf, der Speicherbedarf bestimmt die Karte. Eine gebrauchte 48- oder 80-GB-GPU schlägt jede neue Karte, in die das Modell nicht passt.

Auslastung entscheidet über On-Prem vs. Cloud. Ab 6-8 Stunden täglicher GPU-Nutzung gewinnt eigene Hardware — mit Refurbished liegt der Break-even bei 12-18 Monaten. Cloud bleibt das Werkzeug für Spitzen und Training.

Der Lieferant ist Teil des Produkts. Burn-in-Test, aktuelle Firmware, 36 Monate Garantie und ein Ersatzteillager unterscheiden ein Investitionsgut von einem Restposten. Fragen Sie nach dem Prüfprotokoll — die Antwort sagt alles.

KI-Hardware-Bedarf? Wir rechnen das Sizing für Sie durch.

Vom Zielmodell zur fertigen Konfiguration: Wir beraten herstellerneutral zu Refurbished und Neuware, liefern vollgetestete Systeme mit 36 Monaten Garantie aus eigenem Lager — auf Wunsch als schlüsselfertiges On-Premise-KI-System. Angebot innerhalb von 24 Stunden.

Hardware anfragen

FAQ

Lohnt sich Refurbished-Hardware für KI-Workloads?

Ja, in den meisten Mittelstands-Szenarien. KI-Inference ist VRAM-gebunden, nicht generationsgebunden: Eine drei Jahre alte Datacenter-GPU mit 48 oder 80 GB VRAM rechnet Sprachmodelle zuverlässig — zu 30-60 % der Neuware-Kosten. Nur für großskaliges Training neuester Modelle führt an aktuellen GPU-Generationen kein Weg vorbei.

Welche gebrauchte GPU eignet sich für lokale LLM-Inference?

Für Entwicklung und kleine Teams: RTX 3090 oder RTX A5000 (je 24 GB) — quantisierte Modelle bis ~27B. Für produktive Inference: RTX A6000 (48 GB) — 70B quantisiert; die L40S ist am Zweitmarkt knapp und kaum günstiger als neu. Für große Modelle und Multi-User-Betrieb: NVIDIA A100 80 GB, gern im Paar mit NVLink. Entscheidend ist immer der VRAM, nicht das Benchmark-Ranking.

Wie viel VRAM braucht ein 70B-Modell?

Als 4-Bit-Quantisierung etwa 40-45 GB plus KV-Cache — praktisch also eine 48-GB-Karte knapp, komfortabel mit 2× 48 GB oder 1-2× A100 80 GB. Unquantisiert in FP16 sind es ~140 GB plus Cache, dann braucht es mindestens zwei 80-GB-Karten mit Tensor-Parallelität.

Woher kommt Refurbished-Enterprise-Hardware?

Aus Leasingrückläufen (36-48-Monats-Verträge), Hardware-Refresh-Zyklen großer Rechenzentren und Decommissioning-Projekten. Die Geräte sind typisch drei bis fünf Jahre alt, liefen klimatisiert im Dauerbetrieb und werden vor dem Wiederverkauf getestet, gereinigt und mit aktueller Firmware versehen.

Wie viel spart Refurbished gegenüber Neuware?

Bei Servern 40-70 % gegenüber vergleichbarer Neuware, bei Datacenter-GPUs je nach Generation 30-60 %, bei Netzwerk-Hardware bis 80 %. Ein kompletter KI-Inference-Server (Refurbished-Träger plus gebrauchter 48-GB-GPU) liegt typisch bei einem Drittel bis der Hälfte eines Neusystems.

Was ist mit Garantie und Ausfallrisiko?

HostSpezial liefert vollgetestete Systeme mit 36 Monaten Garantie aus eigenem Lager — inklusive Burn-in-Test, aktueller Firmware und Ersatzteilbestand. Enterprise-Hardware aus klimatisiertem Betrieb hat die Frühausfallphase hinter sich; die praktischen Ausfallraten unterscheiden sich kaum von Neuware.

Ist Refurbished-IT relevant für CSRD und ESG?

Ja. Die Herstellung macht einen erheblichen Teil des CO2-Fußabdrucks von IT-Hardware aus. Refurbished-Beschaffung vermeidet Neuproduktion und ist als Scope-3-Reduktion berichtbar — relevant für die ESRS-Standards E1 (Klimawandel) und E5 (Kreislaufwirtschaft). Laut Bitkom nutzen bereits rund 15 % der deutschen Unternehmen Refurbished-IT.

Lohnt sich die RTX PRO 6000 Blackwell (96 GB) gegenüber gebrauchten Karten?

Bei 70B+ und Neuware-Budget: ja. Die 96-GB-Karte (Max-Q ab ca. 11.000 €) hat mit ca. 115-130 €/GB das beste VRAM-Preisverhältnis aller Neukarten, fast doppelte Bandbreite gegenüber der Ada-Klasse und fasst Mixtral 8x22B oder 120B-Modelle (q4) auf einer einzigen Karte — ohne Multi-GPU-Komplexität. Gebraucht bleibt unschlagbar in der 24-GB-Klasse und bei A100-Beständen; gebrauchte RTX 6000 Ada sind dagegen kaum noch attraktiv, weil die neue RTX PRO 5000 (48 GB) sie preislich unterbietet.

On-Premise-GPU oder Cloud-GPU mieten?

Faustregel: Ab 6-8 Stunden täglicher GPU-Nutzung amortisiert sich gebrauchte On-Premise-Hardware in 12-18 Monaten gegenüber Cloud-Stundenpreisen. Cloud lohnt für Lastspitzen und Trainings-Bursts; Dauerbetrieb (Chatbots, RAG) gehört wirtschaftlich und datenschutzrechtlich auf eigene Hardware.

Welcher Server eignet sich als GPU-Träger?

Bewährt: HPE ProLiant DL380 Gen10 und Dell PowerEdge R740/R750 für 1-2 Double-Width-GPUs, Supermicro-4U-Systeme für 4-8 Karten. Prüfpunkte: PCIe-Generation (mind. Gen3 x16), Netzteil-Budget (300-400 W pro Karte zusätzlich), GPU-Enablement-Kit/Riser und Luftführung für passive Datacenter-Karten.

Kann ich Refurbished-Hardware auch mieten statt kaufen?

Ja — als Miete bzw. Hardware-as-a-Service mit monatlichen Raten inklusive Austausch im Defektfall. Für KI-Pilotprojekte mit unklarem Bedarfsverlauf der schnellste Einstieg; bei stabilem Dauerbetrieb ist der Kauf langfristig günstiger. Details auf der Seite IT-Infrastruktur mieten.