ROI von KI-Projekten: Wie Sie messen, ob es sich wirklich lohnt

Am Ende des ersten Quartals fragt die Geschäftsführung: „Was hat uns das KI-Projekt gebracht?" Und der Ingenieur, der den Pilot geleitet hat, blättert in seinen Notizen. Inhalte wurden schneller erstellt. Agenten haben einige E-Mails übernommen. Berichte kommen früher. Aber eine konkrete Zahl — wie viele Stunden, wie viele Euro, was der Unterschied zum Vorher ist — fehlt. Nicht weil das Projekt gescheitert wäre. Sondern weil niemand vor dem Start gemessen hat, wie es vorher aussah.

Diese Situation ist in der Praxis häufiger als sie es sein sollte. Die meisten Quellen gehen davon aus, dass 75–95 % der KI-Projekte den geplanten Geschäftswert nicht erreichen. Einer der Hauptgründe ist nicht mangelnde Technologiequalität, sondern das Fehlen eines messbaren Rahmens: keine Baseline, keine vorab vereinbarten Metriken — und wenn es Zeit zur Bewertung kommt, vergleichen wir etwas mit nichts. Dieser Artikel beschreibt, wie man es richtig macht — von der Definition der Baseline über realistische Kostenpositionen bis zur Entscheidung, wann ein Projekt tatsächlich Sinn ergibt.

Warum die Baseline der wichtigste Schritt ist

Vor jedem KI-Einsatz gibt es einen Zustand, den Sie verbessern wollen. Dieser Zustand — die Baseline — ist der Referenzwert, gegen den Sie jede Verbesserung messen. Ohne sie haben Sie keinen ROI. Sie haben nur eine Geschichte.

Die Baseline sollte Folgendes erfassen:

Zeit — wie viele Stunden pro Woche verbringt ein konkretes Team mit der jeweiligen Aufgabe (nicht geschätzt, sondern real gemessen oder aus einem Tracker belegt)
Fehlerquote — wie hoch ist die aktuelle Rate an Fehlern, Nacharbeit oder Eskalationen
Kosten — Personalkosten für die betreffende Aufgabe, gegebenenfalls externe Kosten (Outsourcing, Lizenzen)
Latenz — wie lange dauert die Bearbeitung einer Anfrage vom Eingang bis zum Ausgang

Das Problem: Diese Zahlen haben Unternehmen in der Regel nicht parat. Der Zeitaufwand für E-Mails wird nicht erfasst. Die Fehlerquote bei der Dokumentenverarbeitung wurde nie berechnet. Es ist daher völlig in Ordnung, die Baseline speziell vor dem Projekt zu erheben — auch retrospektiv für die letzten drei Monate. Entscheidend ist, dass sie existiert, bevor der Pilot startet.

Bei Projekten, bei denen die Messung schwierig ist (etwa ein KI-Assistent für Entscheidungsprozesse), gibt es indirekte Proxy-Metriken: Zeit vom Eingang einer Anfrage bis zur endgültigen Entscheidung, Anzahl der Iterationen bis zur Genehmigung eines Dokuments, Prozentsatz der Fälle, bei denen das Ergebnis direkt ohne Bearbeitung verwendbar war.

Was zu den Gesamtkosten gehört

Hier beschönigen die meisten internen Business Cases die Realität. In die Präsentation schafft es der Preis für API-Token und vielleicht eine Softwarelizenz. Alles andere wird verschwiegen oder auf später vertagt. Die tatsächlichen Kosten eines KI-Projekts umfassen mehrere Schichten:

Entwicklung und Integration

Interne Ingenieursstunden oder externer Dienstleister für Entwicklung, Integration in bestehende Systeme und Testing
Prototyping und Experimente, die nicht in der Produktion endeten (das sind reale Projektkosten)
Datenvorbereitung — Bereinigung, Annotation, Strukturierung der Eingabedaten

Betrieb — Token und Infrastruktur

Bei Cloud-API-Modellen sind das Token-Kosten — bei einem einfachen Copiloten können sie marginal sein, bei Agentic-Lösungen mit Dutzenden Aufrufen täglich steigen sie rasch. Bei lokalem Einsatz sind es Hardware (GPU-Server), Strom und Wartung. Die Kalkulation dieser Kosten wird im Artikel über KI-Agenten-Kosten in der Produktion ausführlicher behandelt.

Menschen und Prozesse

Change Management — Zeit für Schulung, Teamadaption, Workflow-Anpassung
Überprüfung und Aufsicht — bei Ergebnissen, die in der Produktion eingesetzt werden (Verträge, Berichte, E-Mails), muss jemand kontrollieren. Dieser Zeitaufwand wird in ROI-Kalkulationen systematisch unterschätzt.
Anpassung von System-Prompts, Qualitätsmonitoring, Behebung von Ausfällen und Regressionen

Wartung und Updates

Modelle ändern sich, APIs werden aktualisiert, Unternehmensprozesse entwickeln sich weiter. Ein eingesetztes KI-System ist kein fertiges Produkt — es ist eine lebende Komponente, die regelmäßige Pflege benötigt. Ein realistischer Richtwert sind 15–30 % der ursprünglichen Entwicklungskosten als jährliche Betriebskosten.

Die gute Nachricht: Diese Auflistung zwingt zu präziserem Denken. Wir haben Projekte gesehen, bei denen nach Aufschlüsselung aller Positionen herauskam, dass ein Copilot für einen einzigen Operator effizienter ist als ein umfangreiches Multi-Agent-System — weil die Gesamtkosten bei vergleichbarem messbarem Nutzen mehrfach niedriger waren.

Wie man den Nutzen berechnet — quantitativ und qualitativ

Wenn Sie Baseline und Kosten haben, folgt die andere Seite der Gleichung: messbare Vorteile.

Direkte Einsparungen

Die am einfachsten berechenbare Kategorie:

Eingesparte Zeit × Stundensatz = Personalkosteneinsparung. Wenn ein Agent 4 Stunden manuelle Arbeit täglich bei 25 €/Std. ersetzt, beträgt die jährliche Einsparung ~26.000 €.
Reduzierte Fehlerquote — wenn eine KI-Dokumentenprüfung die Fehlerrate von 8 % auf 2 % gesenkt hat, berechnen Sie die Kosten für die Korrektur jedes Fehlers und multiplizieren Sie mit der Differenz.
Bearbeitungsgeschwindigkeit — eine Verkürzung der Zeit von der Kundenanfrage bis zur Antwort lässt sich in weniger Eskalationen oder gerettete Verkaufschancen umrechnen.

Indirekte Vorteile

Sie sind real, aber schwerer messbar. Dazu gehören erhöhte Teamkapazität (Menschen erledigen wertschöpfende Aufgaben statt Routinearbeit), höhere Kundenzufriedenheit, schnellere Entscheidungsfindung. Nehmen Sie diese Vorteile in den Business Case auf, drücken Sie sie aber nicht als genaue Zahl aus — quantifizieren Sie sie konservativ oder benennen Sie sie als qualitativ.

Strategischer Wert

Manche Projekte rechnen sich nicht rein finanziell, haben aber strategischen Wert: Reduzierung der Abhängigkeit von einem bestimmten Anbieter, Einhaltung von Vorschriften (EU AI Act, DSGVO), Verbesserung der Dateninfrastruktur, die auch für andere Projekte wertvoll ist. Diese Vorteile sind ein legitimer Bestandteil des Business Case — kennzeichnen Sie sie nur klar als strategisch, nicht als finanziell.

Payback und ROI — wie man sie realistisch liest

Wenn Sie die Zahlen haben, ist die Berechnung geradlinig:

ROI (%) = (Gesamtnutzen − Gesamtkosten) / Gesamtkosten × 100
Payback Period = Gesamtkosten / Monatlicher Nutzen

Wo die meisten Business Cases scheitern, ist der Zeithorizont. 84 % der CEOs gehen realistischerweise davon aus, dass eine positive Rendite länger als 6 Monate dauert. Bei komplexen Use Cases (nicht nur ein Copilot, sondern agentic Workflows, RAG über Unternehmensdokumentation, ERP-Integration) ist ein realistischer Horizont 12–24 Monate. Piloten mit einem Payback „unter drei Monaten" sind nur bei sehr einfachen Automatisierungen mit niedrigen Implementierungskosten real.

Einige praktische Empfehlungen für die Arbeit mit Zahlen:

1.Verwenden Sie konservative Nutzenschätzungen und realistische (nicht optimistische) Kostenschätzungen
2.Führen Sie Szenarien auf: bester Fall, Basisfall, schlechtester Fall — mit unterschiedlichen Annahmen zur Adoption
3.Trennen Sie Einmalkosten (Entwicklung, Integration) von wiederkehrenden Kosten (Token, Wartung, Personal)
4.Vergessen Sie den Ramp-up nicht — die ersten Monate nach dem Einsatz sind typischerweise weniger effizient, bis sich das Team adaptiert hat

Der verwandte Überblick, warum KI-Piloten scheitern, zeigt, dass das Fehlen messbarer Ziele vor dem Start einer der häufigsten Misserfolgsgründe ist.

Wann ein Projekt keinen Business Case hat

Ein ehrlicher Teil jedes ROI-Rahmens ist auch die Entscheidung, wann ein KI-Einsatz keinen Sinn ergibt. Wir haben Projekte gesehen, bei denen diese Entscheidung nicht rechtzeitig getroffen wurde — und das Ergebnis war ein halbes Jahr vergeudeter Zeit ohne Ergebnis.

Signale, dass ein Projekt keinen ausreichenden Business Case hat:

Zu kleine Größenordnung — wenn eine Aufgabe ein Team weniger als 5 Stunden pro Woche beschäftigt, erreichen die Einsatz- und Wartungskosten selten einen sinnvollen Payback
Keine Daten vorhanden — ein KI-System ohne qualitativ hochwertige Eingabedaten produziert keine brauchbaren Ergebnisse. Wenn keine Daten vorhanden sind, investieren Sie zuerst in die Dateninfrastruktur
Prozess ist nicht definiert — KI automatisiert Prozesse, keinen Chaos. Wenn Mitarbeiter die Schritte zur manuellen Bearbeitung einer Aufgabe nicht beschreiben können, wird KI sie nicht für sie lösen
Zu hoher Überwachungsaufwand — wenn jedes KI-Ergebnis genauso gründlich überprüft werden muss wie vor dem KI-Einsatz, ist der effektive Nutzen nahe null

Ein Projekt auf Basis einer ROI-Analyse abzulehnen ist kein Scheitern — es ist eingesparte Zeit und eingesparte Mittel, die dorthin gelenkt werden können, wo ein echter Business Case besteht.

Weiche Vorteile — wie man sie im Business Case darstellt

Die Kategorie „weiche Vorteile" wird in Präsentationen dazu verwendet, eine schwache quantitative Geschichte zu überdecken. Das bedeutet nicht, dass sie nicht existieren — sie existieren, müssen aber anders benannt werden.

Statt „verbesserte Kundenzufriedenheit" schreiben Sie: „aus der Umfrage vor dem Einsatz: 62 % der Kunden bewerteten die Reaktionszeit als zu langsam; nach dem Copilot-Einsatz sank die durchschnittliche Reaktionszeit von 4,2 Stunden auf 47 Minuten." Das ist messbar — auch wenn es eine Proxy-Metrik ist, keine direkte Finanzzahl.

Statt „höhere Teameffizienz" schreiben Sie: „Das Team verbrachte vor dem Einsatz im Schnitt 12 Stunden pro Woche mit der Erstellung von Statusberichten; nach dem Einsatz 2,5 Stunden." Wenn Sie das nicht in Euro umrechnen können, führen Sie es als faktische Kapazitätseinsparung auf — nicht als finanziellen Vorteil.

Vorteile, die wirklich nur ein Gefühl sind (bessere Mitarbeitermoral, moderneres Unternehmensimage), ordnen Sie dem strategischen Abschnitt zu und weisen ihnen keinen Zahlenwert zu.

ROI-Tracking nach dem Einsatz — warum es sich vom Business Case unterscheidet

Ein Business Case wird vor dem Projekt erstellt. Das ROI-Tracking nach dem Einsatz ist eine andere Disziplin — und die meisten Unternehmen führen es nur oberflächlich durch.

Ein KI-System in der Produktion sollte Live-Monitoring-Metriken haben, die regelmäßig ausgewertet werden:

Volumen der verarbeiteten Aufgaben (und Trend)
Akzeptanzrate des Ergebnisses ohne menschliche Bearbeitung (Acceptance Rate)
Prozentsatz der Fehler oder Eskalationen
Tatsächliche Zeit für Überwachung (vs. ursprünglicher Annahme)

Diese Daten dienen zwei Zwecken: Erstens bestätigen oder widerlegen sie die Annahmen aus dem Business Case; zweitens zeigen sie, wo das System degradiert — das Modell veraltet, die Eingaben ändern sich, es wächst ein Drift gegenüber dem ursprünglichen Use Case. Die Observability von KI-Systemen ist ein Thema für sich; die Grundlage bildet das Logging jedes Inputs, Outputs und jeder Agentenentscheidung.

Für Unternehmen, die mehrere KI-Projekte parallel in Betracht ziehen, ist das ROI-Tracking auf Portfolioebene entscheidend: nicht nur, welches Projekt den höchsten ROI hat, sondern auch, welche Projekte Teamkapazität verbrauchen, ohne messbaren Nutzen zu liefern.

Häufige Fragen

Wie definiert man eine Baseline, wenn keine historischen Daten vorliegen?

Erheben Sie Daten vor dem Pilot-Start — auch 4–6 Wochen reichen für die meisten Prozesse als ausreichende Stichprobe. Wenn das nicht möglich ist, führen Sie strukturierte Interviews mit Teammitgliedern durch: „Wie viele Stunden pro Woche verbringen Sie mit dieser Aufgabe? Wie viele Fälle bearbeiten Sie monatlich?" Kombinieren Sie das mit vorhandenen Systemlogs (Ticketing-System, E-Mail-Metadaten, ERP-Aufzeichnungen). Eine Schätzung mit explizit benannter Unsicherheit ist besser als gar keine Baseline.

Was ist ein realistischer Payback-Horizont für ein KI-Projekt in einem Industrieunternehmen?

Für einen einfachen Copiloten (Assistent für Dokumentation, E-Mails, Reporting): 6–12 Monate. Für RAG über Unternehmensdokumentation oder prädiktive Analytik: 12–18 Monate. Für ein komplexes agentic System, das mit ERP/SCADA integriert ist: 18–36 Monate. Die Abkürzung „unter 6 Monate" gilt nur bei niedrigen Implementierungskosten und großer Skalierung — etwa wenn ein Agent Hunderte manueller Operationen täglich ersetzt.

Wie bezieht man Fine-tuning- oder RAG-Infrastrukturkosten in den ROI ein?

Ja — und sie sollten getrennt von den Betriebskosten ausgewiesen werden. Fine-tuning ist eine Einmalausgabe (Dataset-Vorbereitung, Trainingszeit, Evaluierung), aber das Modell muss periodisch aktualisiert werden — planen Sie eine jährliche Wiederholung ein. RAG-Infrastruktur (Vektordatenbank, Embedding-Pipeline, Retrieval-Optimierung) ist ein Fixkostenelement mit geringer variabler Komponente. Beide sind Investitionen in Grundlagen, die mehreren Use Cases dienen können — verteilen Sie sie auf die Projekte, die sie nutzen.

Was tun, wenn der Pilot einen Nutzen gezeigt hat, das Produktions-Deployment ihn aber nicht repliziert?

Das ist ein häufiges Szenario — die meisten Piloten laufen mit kuratierten Eingaben und kontrollierten Bedingungen. Die erste Frage: Wie hoch ist die Acceptance Rate der realen Ergebnisse (ohne Bearbeitung)? Wenn sie gegenüber dem Pilot deutlich gesunken ist, liegt das Problem entweder an einem Distributions-Shift der Eingabedaten oder daran, dass der Pilot-Scope die tatsächliche Produktionsvariabilität nicht repräsentiert hat. Lösung: Analyse der Fehlerursachen, Erweiterung der Trainingsstichprobe oder Einengung des Scopes auf die Teilmenge von Fällen, bei denen das System zuverlässig funktioniert.

Wann macht es Sinn, eine Build-vs.-Buy-Analyse vor der ROI-Berechnung durchzuführen?

Immer. Der ROI hängt davon ab, ob Sie das System intern aufbauen, eine fertige Lösung kaufen oder beides kombinieren. Jede Variante hat ein anderes Kostenprofil und einen anderen Payback. Build vs. Buy wird im gesonderten Artikel zu dieser Entscheidung ausführlicher behandelt — wir empfehlen ihn als Vorschritt vor der Finalisierung eines jeden Business Case.

*Wenn Sie einen Business Case für ein KI-Projekt erarbeiten und Unterstützung bei der Definition von Metriken, der Baseline oder dem Kostenmodell benötigen — genau dabei helfen wir Industriekunden, bevor sie in die Entwicklung einsteigen. Kontaktieren Sie uns für eine kostenlose Erstberatung.*