Drei Jahre lang habe ich denselben Pitch-Deck in verschiedenen Versionen angesehen: „Wir setzen einen KI-Assistenten für Bediener ein, 30 % Zeitersparnis, ROI in 8 Monaten." Realität nach 12 Monaten in 10 Einsätzen: vier Use-Cases, die sich rentiert haben (oft dreifach), und sechs, die das Budget aufgefressen haben — das Team ging von Begeisterung über Frustration in Schweigen. Hier sind konkrete Use-Cases mit Zahlen und einige, die wir Kunden empfehlen abzulehnen — egal, wie viel Budget sie übrig haben.
Vier Use-Cases, die Geld verdienen
1. SOP-Suche und Schichtübergabe-Zusammenfassung
**Use-Case:** Der Bediener muss schnell eine Vorgehensweise finden („wie setze ich Alarm 14-021 an Linie L4 zurück") oder übernimmt die Schicht und möchte ein 90-Sekunden-Briefing über das, was in den vorangegangenen zwei Schichten passiert ist.
**Stack:** RAG über SOP-Dokumente + Schicht-Logs + Wartungs-Tickets. Tablet an der Linie (Zebra ET40, Panasonic Toughbook) oder Voice Assistant über Bluetooth-Headset (Plantronics Voyager 5200 UC) für laute Umgebungen.
**Reale Zahlen aus dem Einsatz (deutscher Tier-2-Automotive-Zulieferer, 3-monatiges Pilotprojekt):** - 14 Stunden / Woche eingesparte Zeit bei Schichtübergabe und SOP-Suche über 8 Bediener hinweg - Bei einem Stundensatz von 28 EUR / h fully-loaded → **1 568 EUR / Monat Einsparung** - Einsatz und Integration: 38 000 EUR (RAG-Pipeline + 6 Wochen Field-Tuning) - **ROI: 24 Monate** in einer Linie. Bei Skalierung auf 4 Linien → 8 Monate.
Entscheidend: Wir haben nicht „lade alles hoch" gespielt. Ein Domain-Engineer hat mit dem Bediener die 200 am häufigsten gestellten Fragen aus dem Schicht-Log durchgegangen, und mit diesen Chunks wurde das Retrieval feingetunt. Fragen, die niemand stellt, wurden nicht optimiert — der ROI braucht sie nicht.
2. Troubleshooting-Wizard für PLC / SCADA / Robotik
**Use-Case:** Der Bediener stößt auf einen Alarm, den er nicht sofort identifizieren kann. Er öffnet den Copilot, schreibt „Allen-Bradley CompactLogix 5380, Alarm Code 16#0001, RPI exceeded" und erhält: - Beschreibung des Fehlers in menschlicher Sprache - Top-3 wahrscheinlichste Ursachen aus historischen Tickets - Schritt-für-Schritt-Diagnose - Link zum Rockwell-Handbuch mit der exakten Seite
**Stack:** RAG über: PLC-Handbücher (Rockwell Knowledgebase, Siemens TIA Portal Docs, Beckhoff TwinCAT Docs) + internes Issue-Tracker (Jira, ServiceNow, eigenes System) + Community-Foren (Plctalk.net, Reddit /r/PLC scraped). Embedding-Modell: BGE-M3 oder Cohere multilingual. Reranker: BGE-Reranker-v2-m3.
**Reale Zahlen aus dem Einsatz (slowenischer EMS-Hersteller, vollwertiger Einsatz 9 Monate):** - MTTR (Mean Time To Repair) sank um 18 % über 6 Monate - Ersetzte die informelle Interaktion „ich frage Peter, der seit 10 Jahren mit diesen Linien arbeitet" — Peter konnte wertvollere Dinge tun - Bei 200 Vorfällen / Monat × durchschnittlich 45 min MTTR × 18 % Reduktion × 65 EUR / h Techniker → **8 775 EUR / Monat** - Einsatz: 52 000 EUR - **ROI: 6 Monate.**
Entscheidend: Peter ist nicht gegangen. Peter hat geholfen, das System zu trainieren — seine 10 Jahre Erfahrung wurden in Prompt-Templates und Feedback-Loop integriert. Ohne Peter wäre das System generisch und hätte sich erst nach 24+ Monaten amortisiert.
3. Qualitätsabweichungsmeldung / 8D-Entwurf
**Use-Case:** Die Linie produziert einen Batch mit Abweichung (schlechte Kalibrierung, Materialfehler, Bedienerfehler). Bediener + Qualitätsingenieur müssen einen 8D-Report, eine Root-Cause-Analyse und einen Corrective-Action-Plan verfassen. Dauert typischerweise 4–8 Stunden.
**Stack:** LLM (Claude Sonnet 4.6, lokales Llama 3.3 70B oder Qwen2.5-32B-Instruct) mit Zugriff auf: 5-Why-Template, Ishikawa-Format, historische 8D-Reports der Firma, ISO 9001 / IATF 16949 Guidelines. Der Qualitätsingenieur beschreibt den Defekt in 3–5 Sätzen, das System generiert einen **Entwurf** des 8D — die menschliche Prüfung und Ergänzung bleiben erhalten.
**Reale Zahlen aus dem Einsatz (österreichischer Tier-1-Metal-Forming-Zulieferer):** - 8D-Draft-Time: von 6 h auf durchschnittlich 1,5 h - 14 Reports / Monat × 4,5 h Einsparung × 55 EUR / h Engineer → **3 465 EUR / Monat** - Einsatz: 18 000 EUR (einfacherer Stack, weil strengeres Format) - **ROI: 5 Monate.**
Entscheidend: Die KI hat niemals einen 8D-Report abgeschlossen — das ist ein Human-in-the-Loop-Gate. Sie generiert Entwurf + Vorschläge für Präventionsmaßnahmen anhand von Präzedenzfällen. Ohne Review würde sich der ROI in ein Compliance-Risiko verwandeln.
4. Mehrsprachige Bedieneranweisungen
**Use-Case:** Die Linie hat Bediener aus 5 Ländern (SK, UA, RO, PL, HU). SOPs liegen im englischen Original vor. Die Bediener brauchen eine native-language Schritt-für-Schritt-Erklärung.
**Stack:** GPT-5 oder Claude Sonnet 4.6 (Cloud, Business-Tier-Subscription mit GDPR-EU-Region) mit Tool-Call für native TTS (Azure Speech, ElevenLabs). Der Bediener scannt den QR-Code des SOP, bekommt die Erklärung in seiner Sprache und kann Rückfragen stellen.
**Reale Zahlen (polnische Elektronikmontage):** - Onboarding eines neuen Bedieners: von 12 auf 7 Tage (40 % Reduktion) - Bei 6 neuen Bedienern / Quartal × 5 Tage × 8 h × 22 EUR / h fully-loaded → **5 280 EUR / Quartal = 21 120 EUR jährlich** - Einsatz: 24 000 EUR - **ROI: 14 Monate.**
Entscheidend: Die SOPs waren im Original qualitativ. Für Fabriken mit schlechten, veralteten SOPs übersetzt das System schlechte Anweisungen — es ist kein Übersetzer von Fehlern, nur einer Sprachbarriere.
Sechs Use-Cases, bei denen es sich nicht rechnet
1. Echtzeit-Prozesssteuerung
„Wir fügen KI hinzu, die in Echtzeit Parameter an der Linie optimiert." Niemals.
Die Latenz eines LLM-Aufrufs beträgt 800–3 000 ms. Der Prozesssteuerungs-Loop arbeitet in 10–100-ms-Zyklen. Darüber hinaus: regulatorische Anforderungen (IEC 61508, ISO 13849) verlangen deterministisches Verhalten — ein LLM ist per Definition nicht-deterministisch.
**Stattdessen:** klassische SPS + klassische Regelung (PID, MPC). Das LLM hat Wert in der **Offline-Analyse von Logs und dem Vorschlagen von Tuning** von Parametern — nicht in der Echtzeit-Inferenz.
2. Routine-Vision-QS
„Ein LLM mit Vision-Modul schaut sich das Bild des Bauteils an und sagt, ob es einen Defekt hat."
Multimodale LLMs (GPT-4o, Claude Sonnet 4.6 Vision) haben 3–5 s Latenz, 70–85 % Accuracy bei nicht-expertenhaften Vision-Aufgaben, 0,005–0,015 USD pro Bild. Ein purpose-built Vision-System (Cognex VisionPro Deep Learning, Keyence CV-X) hat 30–80 ms Latenz, 98–99,7 % Accuracy, null Kosten pro Bild nach dem HW-Kauf.
**Wann LLM Sinn ergibt:** **Incident-Analyse** (im Nachhinein, ein Experte möchte eine schnelle Einschätzung), Edge-Case-Kategorisierung (Defekt, den der Klassifizierer nicht kannte), Generierung von Defect-Reports aus 50 Fotos. Echtzeit-QS an der Linie — niemals.
3. Wartungsplanung
„Das LLM entscheidet, wann präventive Wartung anhand von Usage-Patterns geplant wird."
Dafür gibt es CMMS (Computerized Maintenance Management System) — IBM Maximo, SAP PM, Limble, MaintainX. Diese Systeme haben deterministische Regeln, ERP-Integration (was bestellt werden muss) und auditfähige Logs. Ein LLM fügt keinen Mehrwert zur Optimierung hinzu, die ein deterministischer Scheduler besser erledigt.
**Wann LLM hilft:** **Erklärung**, warum das CMMS einen bestimmten Zeitplan vorgeschlagen hat, Summary-Report für das Management („diese Woche hat die Wartung 47 % der Team-Kapazität in Anspruch genommen, 60 % davon an Linie L3, die drei häufigsten Störungen waren …"). Entscheidungsfindung — nein.
4. Safety-kritische Interaktion
„Der KI-Copilot sagt dem Bediener, ob der Eintritt in die Zone sicher ist."
LSI (Life Safety Interlock) muss FMEA-analysiert, zertifiziert (SIL 2/3) und deterministisch sein. Ein LLM hat hier keinen Platz — nicht als Sekundärkanal, nicht als Informationskanal. Die Sprache des LSI lautet: Lichtvorhang, Safety-Relais, zweikanaliger Start, manueller Reset — keine Software, über der ein LLM stehen würde.
**Wann LLM hilft:** **Trainingssimulation** von Safety-Szenarien für Bediener außerhalb der Live-Zone. Live-Entscheidungen — absolut nicht.
5. Inventar / Bestellungen / Lieferketten-Entscheidungen
„Die KI entscheidet, wie viel Rohstoff anhand von Trends bestellt werden soll."
Das ist die Aufgabe eines ERP-MRP-Systems (SAP S/4HANA, Oracle, NetSuite) mit den richtigen Forecast-Modulen. Ein LLM fügt hier 5–10 % marginale Accuracy gegenüber einem gut konfigurierten MRP hinzu und 30–50 % gegenüber einem schlechten. Aber das schlechte MRP zu fixen, ist günstiger und nachhaltiger, als eine LLM-Schicht darüber zu legen.
6. „Universeller Chatbot für die ganze Fabrik"
„Der Bediener kann nach allem fragen — SOPs, HR, Payroll, Betriebsdaten, OEE, Qualität, Planung."
Ein einzelner Chatbot, der alles weiß, weiß alles schlecht. Authority-Boundaries (HR-Daten vs. Operations-Daten vs. Finanzdaten) verschwimmen, Role-Based Access Control lässt sich in einem LLM nicht robust implementieren (Prompt Injection bricht RBAC), und der Bediener verliert das Vertrauen bei der ersten schlechten Antwort.
**Besserer Ansatz:** 3–5 spezialisierte Copiloten mit eingegrenzter Domäne. Jeder mit eigenem RAG, eigenem System-Prompt, eigenem Audit-Log. Einheitliches UI, spezialisiertes Backend.
Stack-Entscheidungen 2026
Lokales vs. Cloud-LLM
**Lokal (eigener GPU-Server):** geeignet für größere Einsätze (50+ Bediener täglich), regulierte Branchen (Automotive/Aerospace mit ITAR-Compliance), Fabriken ohne stabiles Internet.
Konkrete Modelle 2026: - **Qwen2.5-32B-Instruct AWQ** — 24 GB VRAM, hervorragende multilinguale Fähigkeiten, gut für EU-Sprachen - **Llama 3.3 70B AWQ** — 48 GB VRAM, stärkeres Reasoning, besser für Troubleshooting - **Mistral Small 3 (22B)** — 16 GB VRAM, gute Wahl für kostensensitive Setups
Hardware: 1× RTX A6000 (48 GB) oder 2× RTX 4090 (kumulativ 48 GB) für Llama 3.3 70B. Preis 12–18 k EUR. Throughput beim vLLM-Serving: 40–80 RPS bei typischem Shop-Floor-Query-Mix.
**Cloud-LLM:** geeignet für kleinere Einsätze, Pilotphasen, Projekte ohne Data-Residency-Anforderung. Default 2026: **Claude Sonnet 4.6 (Anthropic EU-Region)** oder **GPT-5 (Azure OpenAI EU)**. Per-Query-Cost typischerweise 0,002–0,012 EUR bei RAG mit 4k Input-Tokens + 300 Output-Tokens. Monatliche Kosten bei 200 Anfragen / Tag × 22 Tage × 8 Bediener = **75–250 EUR / Monat**.
UI: Tablet vs. Voice
**Tablet:** Zebra ET40 (3 800 EUR), Panasonic Toughbook G2 (4 200 EUR), Microsoft Surface Pro 11 in IP65-Schutzhülle (2 800 EUR). Geeignet für detailliertes Troubleshooting, Foto-Anhänge, Skizzieren von Schemata. Lärm der Linie stört nicht.
**Voice (Bluetooth-Headset):** Plantronics Voyager 5200 UC (260 EUR), Jabra Engage 65 (310 EUR), Apple AirPods Pro 2 im Industrial-Setup (310 EUR + Custom-Dock). Geeignet für hands-free Operationen, laute Umgebung bis 95 dB mit Active Noise Cancellation. STT-Latenz (Speech-to-Text) ist kritisch — Whisper v3 large auf lokaler GPU 200–400 ms, Cloud Azure Speech 250–500 ms.
In Piloten haben wir festgestellt, dass die **Kombination** am besten funktioniert: Tablet für detaillierte Interaktion, Voice für Quick-Query („wie setze ich Alarm 14-021 zurück" während des Gehens zur Maschine).
Pilot-Framework, das kein Geld verbrennt
1. **Wählen Sie 1 (max. 2) Use-Cases** aus den empfohlenen 4. Niemals „wir setzen alles auf einmal ein". 2. **Definieren Sie ein messbares KPI** *vor* dem Start: Stunden-Ersparnis, MTTR-Reduktion, Draft-Time, Onboarding-Time. Ohne Baseline-Messung wird der ROI-Report Wunschdenken. 3. **8-wöchige PoC-Phase:** 4 Wochen Integration + 4 Wochen Field-Testing mit 6–10 Bedienern. Keine Skalierung vor abgeschlossener PoC. 4. **Stop-Go-Gate nach PoC:** wenn das KPI nicht mindestens 50 % des Ziels erreicht, nicht skalieren. Überprüfen Sie den Stack oder beenden Sie das Projekt. 5. **6-monatiges Rollout** zu allen Bedienern + Integration mit bestehenden Systemen (MES, CMMS, ERP Read-Only Access).
Konkretes Beispiel vom erwähnten deutschen Zulieferer: 80 Stunden Verschwendung in der Integration kamen daher, dass das Team versuchte, den KI-Copilot mit **9 internen Systemen** in der PoC-Phase zu verbinden. Real erwiesen sich 6 von 9 als überflüssig, und 3 reichten aus. Aber die Priorität „integrate everything first" hat die ersten 3 Monate des Projekts gekostet.
---
*Wir implementieren Shop-Floor-KI-Copilot-Lösungen mit 8-wöchiger PoC + 6-monatigem Rollout. Wenn Sie diese Art von Einsatz erwägen, durchläuft der erste Workshop (3 Stunden) die 4 empfohlenen Use-Cases an Ihrem konkreten Prozess und scheidet jene aus, die sich in einem vernünftigen Horizont nicht amortisieren.*