KI-Copilot für Bediener — wo er Geld verdient und wo nicht

Drei Jahre lang habe ich denselben Pitch-Deck in verschiedenen Versionen angesehen: „Wir setzen einen KI-Assistenten für Bediener ein, 30 % Zeitersparnis, ROI in 8 Monaten." Realität nach 12 Monaten in 10 Einsätzen: vier Use-Cases, die sich rentiert haben (oft dreifach), und sechs, die das Budget aufgefressen haben — das Team ging von Begeisterung über Frustration in Schweigen. Hier sind konkrete Use-Cases mit Zahlen und einige, die wir Kunden empfehlen abzulehnen — egal, wie viel Budget sie übrig haben.

Vier Use-Cases, die Geld verdienen

1. SOP-Suche und Schichtübergabe-Zusammenfassung

Use-Case: Der Bediener muss schnell eine Vorgehensweise finden („wie setze ich Alarm 14-021 an Linie L4 zurück") oder übernimmt die Schicht und möchte ein 90-Sekunden-Briefing über das, was in den vorangegangenen zwei Schichten passiert ist.

Stack: RAG über SOP-Dokumente + Schicht-Logs + Wartungs-Tickets. Tablet an der Linie (Zebra ET40, Panasonic Toughbook) oder Voice Assistant über Bluetooth-Headset (Plantronics Voyager 5200 UC) für laute Umgebungen.

Reale Zahlen aus dem Einsatz (deutscher Tier-2-Automotive-Zulieferer, 3-monatiges Pilotprojekt): - 14 Stunden / Woche eingesparte Zeit bei Schichtübergabe und SOP-Suche über 8 Bediener hinweg - Bei einem Stundensatz von 28 EUR / h fully-loaded → 1 568 EUR / Monat Einsparung - Einsatz und Integration: 38 000 EUR (RAG-Pipeline + 6 Wochen Field-Tuning) - ROI: 24 Monate in einer Linie. Bei Skalierung auf 4 Linien → 8 Monate.

Entscheidend: Wir haben nicht „lade alles hoch" gespielt. Ein Domain-Engineer hat mit dem Bediener die 200 am häufigsten gestellten Fragen aus dem Schicht-Log durchgegangen, und mit diesen Chunks wurde das Retrieval feingetunt. Fragen, die niemand stellt, wurden nicht optimiert — der ROI braucht sie nicht.

2. Troubleshooting-Wizard für PLC / SCADA / Robotik

Use-Case: Der Bediener stößt auf einen Alarm, den er nicht sofort identifizieren kann. Er öffnet den Copilot, schreibt „Allen-Bradley CompactLogix 5380, Alarm Code 16#0001, RPI exceeded" und erhält: - Beschreibung des Fehlers in menschlicher Sprache - Top-3 wahrscheinlichste Ursachen aus historischen Tickets - Schritt-für-Schritt-Diagnose - Link zum Rockwell-Handbuch mit der exakten Seite

Stack: RAG über: PLC-Handbücher (Rockwell Knowledgebase, Siemens TIA Portal Docs, Beckhoff TwinCAT Docs) + internes Issue-Tracker (Jira, ServiceNow, eigenes System) + Community-Foren (Plctalk.net, Reddit /r/PLC scraped). Embedding-Modell: BGE-M3 oder Cohere multilingual. Reranker: BGE-Reranker-v2-m3.

Reale Zahlen aus dem Einsatz (slowenischer EMS-Hersteller, vollwertiger Einsatz 9 Monate): - MTTR (Mean Time To Repair) sank um 18 % über 6 Monate - Ersetzte die informelle Interaktion „ich frage Peter, der seit 10 Jahren mit diesen Linien arbeitet" — Peter konnte wertvollere Dinge tun - Bei 200 Vorfällen / Monat × durchschnittlich 45 min MTTR × 18 % Reduktion × 65 EUR / h Techniker → 8 775 EUR / Monat - Einsatz: 52 000 EUR - ROI: 6 Monate.

Entscheidend: Peter ist nicht gegangen. Peter hat geholfen, das System zu trainieren — seine 10 Jahre Erfahrung wurden in Prompt-Templates und Feedback-Loop integriert. Ohne Peter wäre das System generisch und hätte sich erst nach 24+ Monaten amortisiert.

3. Qualitätsabweichungsmeldung / 8D-Entwurf

Use-Case: Die Linie produziert einen Batch mit Abweichung (schlechte Kalibrierung, Materialfehler, Bedienerfehler). Bediener + Qualitätsingenieur müssen einen 8D-Report, eine Root-Cause-Analyse und einen Corrective-Action-Plan verfassen. Dauert typischerweise 4–8 Stunden.

Stack: LLM (Claude Sonnet 4.6, lokales Llama 3.3 70B oder Qwen2.5-32B-Instruct) mit Zugriff auf: 5-Why-Template, Ishikawa-Format, historische 8D-Reports der Firma, ISO 9001 / IATF 16949 Guidelines. Der Qualitätsingenieur beschreibt den Defekt in 3–5 Sätzen, das System generiert einen Entwurf des 8D — die menschliche Prüfung und Ergänzung bleiben erhalten.

Reale Zahlen aus dem Einsatz (österreichischer Tier-1-Metal-Forming-Zulieferer): - 8D-Draft-Time: von 6 h auf durchschnittlich 1,5 h - 14 Reports / Monat × 4,5 h Einsparung × 55 EUR / h Engineer → 3 465 EUR / Monat - Einsatz: 18 000 EUR (einfacherer Stack, weil strengeres Format) - ROI: 5 Monate.

Entscheidend: Die KI hat niemals einen 8D-Report abgeschlossen — das ist ein Human-in-the-Loop-Gate. Sie generiert Entwurf + Vorschläge für Präventionsmaßnahmen anhand von Präzedenzfällen. Ohne Review würde sich der ROI in ein Compliance-Risiko verwandeln.

4. Mehrsprachige Bedieneranweisungen

Use-Case: Die Linie hat Bediener aus 5 Ländern (SK, UA, RO, PL, HU). SOPs liegen im englischen Original vor. Die Bediener brauchen eine native-language Schritt-für-Schritt-Erklärung.

Stack: GPT-5 oder Claude Sonnet 4.6 (Cloud, Business-Tier-Subscription mit GDPR-EU-Region) mit Tool-Call für native TTS (Azure Speech, ElevenLabs). Der Bediener scannt den QR-Code des SOP, bekommt die Erklärung in seiner Sprache und kann Rückfragen stellen.

Reale Zahlen (polnische Elektronikmontage): - Onboarding eines neuen Bedieners: von 12 auf 7 Tage (40 % Reduktion) - Bei 6 neuen Bedienern / Quartal × 5 Tage × 8 h × 22 EUR / h fully-loaded → 5 280 EUR / Quartal = 21 120 EUR jährlich - Einsatz: 24 000 EUR - ROI: 14 Monate.

Entscheidend: Die SOPs waren im Original qualitativ. Für Fabriken mit schlechten, veralteten SOPs übersetzt das System schlechte Anweisungen — es ist kein Übersetzer von Fehlern, nur einer Sprachbarriere.

Sechs Use-Cases, bei denen es sich nicht rechnet

1. Echtzeit-Prozesssteuerung

„Wir fügen KI hinzu, die in Echtzeit Parameter an der Linie optimiert." Niemals.

Die Latenz eines LLM-Aufrufs beträgt 800–3 000 ms. Der Prozesssteuerungs-Loop arbeitet in 10–100-ms-Zyklen. Darüber hinaus: regulatorische Anforderungen (IEC 61508, ISO 13849) verlangen deterministisches Verhalten — ein LLM ist per Definition nicht-deterministisch.

Stattdessen: klassische SPS + klassische Regelung (PID, MPC). Das LLM hat Wert in der Offline-Analyse von Logs und dem Vorschlagen von Tuning von Parametern — nicht in der Echtzeit-Inferenz.

2. Routine-Vision-QS

„Ein LLM mit Vision-Modul schaut sich das Bild des Bauteils an und sagt, ob es einen Defekt hat."

Multimodale LLMs (GPT-4o, Claude Sonnet 4.6 Vision) haben 3–5 s Latenz, 70–85 % Accuracy bei nicht-expertenhaften Vision-Aufgaben, 0,005–0,015 USD pro Bild. Ein purpose-built Vision-System (Cognex VisionPro Deep Learning, Keyence CV-X) hat 30–80 ms Latenz, 98–99,7 % Accuracy, null Kosten pro Bild nach dem HW-Kauf.

Wann LLM Sinn ergibt: Incident-Analyse (im Nachhinein, ein Experte möchte eine schnelle Einschätzung), Edge-Case-Kategorisierung (Defekt, den der Klassifizierer nicht kannte), Generierung von Defect-Reports aus 50 Fotos. Echtzeit-QS an der Linie — niemals.

3. Wartungsplanung

„Das LLM entscheidet, wann präventive Wartung anhand von Usage-Patterns geplant wird."

Dafür gibt es CMMS (Computerized Maintenance Management System) — IBM Maximo, SAP PM, Limble, MaintainX. Diese Systeme haben deterministische Regeln, ERP-Integration (was bestellt werden muss) und auditfähige Logs. Ein LLM fügt keinen Mehrwert zur Optimierung hinzu, die ein deterministischer Scheduler besser erledigt.

Wann LLM hilft: Erklärung, warum das CMMS einen bestimmten Zeitplan vorgeschlagen hat, Summary-Report für das Management („diese Woche hat die Wartung 47 % der Team-Kapazität in Anspruch genommen, 60 % davon an Linie L3, die drei häufigsten Störungen waren …"). Entscheidungsfindung — nein.

4. Safety-kritische Interaktion

„Der KI-Copilot sagt dem Bediener, ob der Eintritt in die Zone sicher ist."

LSI (Life Safety Interlock) muss FMEA-analysiert, zertifiziert (SIL 2/3) und deterministisch sein. Ein LLM hat hier keinen Platz — nicht als Sekundärkanal, nicht als Informationskanal. Die Sprache des LSI lautet: Lichtvorhang, Safety-Relais, zweikanaliger Start, manueller Reset — keine Software, über der ein LLM stehen würde.

Wann LLM hilft: Trainingssimulation von Safety-Szenarien für Bediener außerhalb der Live-Zone. Live-Entscheidungen — absolut nicht.

5. Inventar / Bestellungen / Lieferketten-Entscheidungen

„Die KI entscheidet, wie viel Rohstoff anhand von Trends bestellt werden soll."

Das ist die Aufgabe eines ERP-MRP-Systems (SAP S/4HANA, Oracle, NetSuite) mit den richtigen Forecast-Modulen. Ein LLM fügt hier 5–10 % marginale Accuracy gegenüber einem gut konfigurierten MRP hinzu und 30–50 % gegenüber einem schlechten. Aber das schlechte MRP zu fixen, ist günstiger und nachhaltiger, als eine LLM-Schicht darüber zu legen.

6. „Universeller Chatbot für die ganze Fabrik"

„Der Bediener kann nach allem fragen — SOPs, HR, Payroll, Betriebsdaten, OEE, Qualität, Planung."

Ein einzelner Chatbot, der alles weiß, weiß alles schlecht. Authority-Boundaries (HR-Daten vs. Operations-Daten vs. Finanzdaten) verschwimmen, Role-Based Access Control lässt sich in einem LLM nicht robust implementieren (Prompt Injection bricht RBAC), und der Bediener verliert das Vertrauen bei der ersten schlechten Antwort.

Besserer Ansatz: 3–5 spezialisierte Copiloten mit eingegrenzter Domäne. Jeder mit eigenem RAG, eigenem System-Prompt, eigenem Audit-Log. Einheitliches UI, spezialisiertes Backend.

Stack-Entscheidungen 2026

Lokales vs. Cloud-LLM

Lokal (eigener GPU-Server): geeignet für größere Einsätze (50+ Bediener täglich), regulierte Branchen (Automotive/Aerospace mit ITAR-Compliance), Fabriken ohne stabiles Internet.

Konkrete Modelle 2026: - Qwen2.5-32B-Instruct AWQ — 24 GB VRAM, hervorragende multilinguale Fähigkeiten, gut für EU-Sprachen - Llama 3.3 70B AWQ — 48 GB VRAM, stärkeres Reasoning, besser für Troubleshooting - Mistral Small 3 (22B) — 16 GB VRAM, gute Wahl für kostensensitive Setups

Hardware: 1× RTX A6000 (48 GB) oder 2× RTX 4090 (kumulativ 48 GB) für Llama 3.3 70B. Preis 12–18 k EUR. Throughput beim vLLM-Serving: 40–80 RPS bei typischem Shop-Floor-Query-Mix.

Cloud-LLM: geeignet für kleinere Einsätze, Pilotphasen, Projekte ohne Data-Residency-Anforderung. Default 2026: Claude Sonnet 4.6 (Anthropic EU-Region) oder GPT-5 (Azure OpenAI EU). Per-Query-Cost typischerweise 0,002–0,012 EUR bei RAG mit 4k Input-Tokens + 300 Output-Tokens. Monatliche Kosten bei 200 Anfragen / Tag × 22 Tage × 8 Bediener = 75–250 EUR / Monat.

UI: Tablet vs. Voice

Tablet: Zebra ET40 (3 800 EUR), Panasonic Toughbook G2 (4 200 EUR), Microsoft Surface Pro 11 in IP65-Schutzhülle (2 800 EUR). Geeignet für detailliertes Troubleshooting, Foto-Anhänge, Skizzieren von Schemata. Lärm der Linie stört nicht.

Voice (Bluetooth-Headset): Plantronics Voyager 5200 UC (260 EUR), Jabra Engage 65 (310 EUR), Apple AirPods Pro 2 im Industrial-Setup (310 EUR + Custom-Dock). Geeignet für hands-free Operationen, laute Umgebung bis 95 dB mit Active Noise Cancellation. STT-Latenz (Speech-to-Text) ist kritisch — Whisper v3 large auf lokaler GPU 200–400 ms, Cloud Azure Speech 250–500 ms.

In Piloten haben wir festgestellt, dass die Kombination am besten funktioniert: Tablet für detaillierte Interaktion, Voice für Quick-Query („wie setze ich Alarm 14-021 zurück" während des Gehens zur Maschine).

Pilot-Framework, das kein Geld verbrennt

1.Wählen Sie 1 (max. 2) Use-Cases aus den empfohlenen 4. Niemals „wir setzen alles auf einmal ein".
2.Definieren Sie ein messbares KPI *vor* dem Start: Stunden-Ersparnis, MTTR-Reduktion, Draft-Time, Onboarding-Time. Ohne Baseline-Messung wird der ROI-Report Wunschdenken.
3.8-wöchige PoC-Phase: 4 Wochen Integration + 4 Wochen Field-Testing mit 6–10 Bedienern. Keine Skalierung vor abgeschlossener PoC.
4.Stop-Go-Gate nach PoC: wenn das KPI nicht mindestens 50 % des Ziels erreicht, nicht skalieren. Überprüfen Sie den Stack oder beenden Sie das Projekt.
5.6-monatiges Rollout zu allen Bedienern + Integration mit bestehenden Systemen (MES, CMMS, ERP Read-Only Access).

Konkretes Beispiel vom erwähnten deutschen Zulieferer: 80 Stunden Verschwendung in der Integration kamen daher, dass das Team versuchte, den KI-Copilot mit 9 internen Systemen in der PoC-Phase zu verbinden. Real erwiesen sich 6 von 9 als überflüssig, und 3 reichten aus. Aber die Priorität „integrate everything first" hat die ersten 3 Monate des Projekts gekostet.

---

*Wir implementieren Shop-Floor-KI-Copilot-Lösungen mit 8-wöchiger PoC + 6-monatigem Rollout. Wenn Sie diese Art von Einsatz erwägen, durchläuft der erste Workshop (3 Stunden) die 4 empfohlenen Use-Cases an Ihrem konkreten Prozess und scheidet jene aus, die sich in einem vernünftigen Horizont nicht amortisieren.*