Wer KI in der Produktion einsetzen will, steht früher oder später vor einer grundlegenden Infrastrukturentscheidung: Setzt man auf verwaltete Dienste wie Amazon Bedrock, nutzt man Open-Source-Modelle auf eigenen GPU-Clustern, oder kombiniert man beides? Diese Entscheidung hat weitreichende Konsequenzen für Kosten, Kontrolle, Datenschutz und den Zeitraum bis zum ersten produktiven Einsatz. Dieser Artikel liefert die Entscheidungsmatrix, die wir in der Beratungspraxis mit DACH-Unternehmen verwenden.
Die Optionen im Überblick
- Amazon Bedrock (Managed Service)
- Vollständig verwalteter Zugang zu einer Auswahl an Foundation Models (Anthropic Claude, Meta Llama, Amazon Titan, Mistral u.a.) über eine einheitliche API. Keine GPU-Infrastruktur zu betreiben, keine Modell-Updates zu verwalten. Abrechnung per Token oder per Stunde (Provisioned Throughput). Daten verlassen die AWS-Region nicht — DSGVO-konform aus der Box.
- Eigenbau: Open-Source-Modelle auf AWS (Self-Hosted)
- Betrieb von Open-Source-Modellen (Llama 3, Mistral, Falcon) auf Amazon EC2 GPU-Instanzen (p3, p4, g5) oder Amazon SageMaker Real-Time Endpoints. Volle Kontrolle über Modellgewichte, Konfiguration und Kosten — aber hoher Betriebsaufwand und spezialisiertes Know-how erforderlich.
- Hybrid-Ansatz
- Bedrock für Standard-Use-Cases (RAG, Chatbots, Zusammenfassungen), Self-Hosted für spezialisierte oder sensible Workloads (z.B. Fine-Tuning auf proprietären Daten, sehr hohe Anfragevolumen bei preissensitiven Use-Cases). Dieser Ansatz bietet maximale Flexibilität, erhöht aber die Architekturkomplexität.
Entscheidungsmatrix: Bedrock vs. Self-Hosted vs. Hybrid
| Kriterium | Amazon Bedrock | Self-Hosted (Open Source) | Hybrid |
|---|---|---|---|
| Time-to-Value | Sehr schnell (Tage) | Langsam (Wochen bis Monate) | Mittel |
| Betriebsaufwand | Minimal (AWS verwaltet) | Hoch (eigenes MLOps-Team) | Mittel bis hoch |
| Kosten bei niedrigem Volumen | Gering (pay per token) | Hoch (GPU-Fixkosten) | Mittel |
| Kosten bei sehr hohem Volumen | Steigt linear | Kann günstiger sein | Optimierbar |
| Datenkontrolle / DSGVO | Hoch (Daten in EU-Region) | Sehr hoch (eigene Infrastruktur) | Hoch |
| Modellauswahl | Kuratiert (Top-Modelle) | Beliebig (Open Source) | Beides |
| Fine-Tuning | Eingeschränkt (Bedrock Custom) | Vollständig möglich | Beides |
| Skalierbarkeit | Automatisch (Burst-fähig) | Manuell zu planen | Abhängig von Architektur |
Wann ist Bedrock die richtige Wahl?
Amazon Bedrock ist für die meisten DACH-Unternehmen der optimale Einstiegspunkt — und oft auch die langfristig wirtschaftlichste Lösung. Die wichtigsten Indikatoren:
- Das Unternehmen hat kein dediziertes MLOps-Team und möchte keines aufbauen
- Time-to-Value ist wichtiger als Kostenoptimierung auf Token-Ebene
- Der Use Case erfordert kein proprietäres Fine-Tuning auf sensiblen Daten
- Das Anfragevolumen ist moderat (unter einigen Millionen Tokens pro Tag)
- DSGVO-Konformität muss out-of-the-box gewährleistet sein
Wann ist Self-Hosted sinnvoll?
Ein selbst betriebener Modell-Stack lohnt sich in spezifischen Situationen:
- Sehr hohes Anfragevolumen (Millionen Anfragen pro Tag), bei dem Token-Preise dominant werden
- Fine-Tuning auf hochsensiblen proprietären Daten, die das Unternehmen unter keinen Umständen einer Drittinfrastruktur anvertrauen möchte
- Regulatorische Anforderungen, die einen Air-Gap (physische Trennung) erfordern
- Spezialisierte Modellarchitekturen, die auf Bedrock nicht verfügbar sind
Wichtig: Self-Hosted bedeutet erhebliche laufende Kosten für GPU-Instanzen, Personal für MLOps, Modell-Monitoring und Sicherheitsupdates. Diese TCO-Rechnung wird regelmäßig unterschätzt.
Bedrock Guardrails: Sicherheit als First-Class-Feature
Ein oft übersehener Vorteil von Amazon Bedrock: die eingebauten Guardrails. Sie ermöglichen Content-Filterung, Themenabgrenzung (Topic Denial), Sensible-Daten-Redaktion (PII-Erkennung) und Halluzinations-Erkennung auf Infrastrukturebene — ohne dass Unternehmen eigene Safety-Filter entwickeln müssen. Für DACH-Unternehmen mit regulatorischen Anforderungen ist das ein erheblicher Vorteil gegenüber Open-Source-Lösungen.
Entscheidungsbaum: Welche Option passt zu Ihrem Unternehmen?
- Haben Sie ein dediziertes MLOps-Team? — Nein → Bedrock. Ja → weiter zu 2.
- Ist Fine-Tuning auf proprietären Daten zwingend? — Nein → Bedrock. Ja → weiter zu 3.
- Übersteigt Ihr Volumen 50 Mio. Tokens pro Tag? — Nein → Bedrock. Ja → Self-Hosted oder Hybrid evaluieren.
- Erfordert die Regulatorik einen Air-Gap? — Nein → Hybrid. Ja → Self-Hosted.
Häufig gestellte Fragen
- Kann ich von Bedrock später auf Self-Hosted wechseln?
- Ja — bei einem sauberen API-Abstraktionslayer ist der Wechsel möglich. Storm Reply empfiehlt von Anfang an, Model-Calls hinter einem internen Abstraktionslayer zu kapseln, um Flexibilität zu erhalten.
- Sind Daten auf Amazon Bedrock wirklich sicher vor dem Zugriff durch AWS?
- Ja — AWS hat vertraglich zugesichert und technisch implementiert, dass Kundendaten nicht für das Training von Foundational Models verwendet werden. Alle Daten bleiben in der gewählten AWS-Region (für DACH: eu-central-1 Frankfurt).
- Wie teuer ist Amazon Bedrock für ein mittelgroßes Unternehmen?
- Für einen typischen Enterprise-Use-Case (interne Wissenssuche, ~10.000 Anfragen/Tag) belaufen sich die Bedrock-Kosten auf 500–2.000 EUR pro Monat — abhängig vom Modell und der durchschnittlichen Kontextlänge.
- Unterstützt Amazon Bedrock deutsche Modelle oder deutschsprachige Optimierungen?
- Anthropic Claude und Meta Llama liefern auf Bedrock sehr gute Ergebnisse für deutschsprachige Texte — ohne spezielle Konfiguration. Für hochspezialisierte Fachsprache (z.B. rechtliche Texte, Medizin) kann ein ergänzendes Fine-Tuning sinnvoll sein.
KI-Infrastruktur-Beratung anfragen
Storm Reply hilft Ihnen, die richtige KI-Infrastrukturentscheidung für Ihr Unternehmen zu treffen — technisch fundiert und wirtschaftlich bewertet.
Jetzt Beratung anfragen