AI-copilot voor operators — waar het wel rendeert en waar niet

Drie jaar lang heb ik in verschillende varianten naar dezelfde pitch deck gekeken: "we zetten een AI-assistent in voor operators, ze besparen 30 % tijd, ROI binnen 8 maanden". Realiteit na 12 maanden in 10 implementaties: vier use-cases die zich terugverdienden (vaak drievoudig) en zes die het budget opaten waarna het team van enthousiasme via frustratie in stilte overging. Hier zijn de concrete use-cases met cijfers, plus enkele die we klanten afraden, ongeacht hoeveel geld ze beschikbaar hebben.

Vier use-cases die geld opleveren

1. SOP-zoekfunctie en shift-handover summary

Use-case: een operator moet snel een procedure vinden ("hoe reset ik alarm 14-021 op lijn L4?"), of neemt een dienst over en wil een briefing van 90 seconden over wat er op de vorige twee diensten is gebeurd.

Stack: RAG over SOP-documenten + shift logs + maintenance tickets. Tablet op de lijn (Zebra ET40, Panasonic Toughbook) of voice-assistent via een bluetooth-headset (Plantronics Voyager 5200 UC) voor lawaaierige omgevingen.

Daadwerkelijke cijfers uit een implementatie (Duitse Tier-2 automotive supplier, 3-maands pilot): - 14 uur per week bespaarde tijd op shift-handover en SOP-zoekwerk verdeeld over 8 operators - Bij een fully-loaded uurtarief van 28 EUR/uur → 1 568 EUR/maand besparing - Implementatie en integratie: 38 000 EUR (RAG-pipeline + 6 weken field tuning) - ROI: 24 maanden op één lijn. Bij opschaling naar 4 lijnen → 8 maanden.

Cruciaal: we hebben niet "alles erin geladen". Een domain engineer en operator hebben samen de 200 meest gestelde vragen uit het shift log doorgenomen en het retrieval op die chunks afgesteld. Vragen die niet gesteld worden, werden niet geoptimaliseerd — de ROI heeft ze niet nodig.

2. Troubleshooting-wizard voor PLC / SCADA / robotica

Use-case: een operator komt een alarm tegen dat hij niet onmiddellijk kan thuisbrengen. Hij opent de copilot, typt "Allen-Bradley CompactLogix 5380, alarm code 16#0001, RPI exceeded" en krijgt: - een beschrijving van de fout in mensentaal - de top-3 meest waarschijnlijke oorzaken volgens historische tickets - step-by-step diagnostiek - een link naar de Rockwell-handleiding op de juiste pagina

Stack: RAG over: PLC-handleidingen (Rockwell Knowledgebase, Siemens TIA Portal docs, Beckhoff TwinCAT docs) + interne issue tracker (Jira, ServiceNow, eigen systeem) + community-fora (Plctalk.net, Reddit /r/PLC scraped). Embedding-model: BGE-M3 of Cohere multilingual. Reranker: BGE-Reranker-v2-m3.

Daadwerkelijke cijfers uit een implementatie (Sloveense EMS-fabrikant, volledige rollout 9 maanden): - MTTR (Mean Time To Repair) daalde met 18 % over 6 maanden - Verving de informele interactie "ik vraag het aan Peter, die al 10 jaar met die lijnen werkt" — Peter kon waardevoller werk doen - Bij 200 incidenten/maand × gemiddeld 45 min MTTR × 18 % reductie × 65 EUR/uur monteur → 8 775 EUR/maand - Implementatie: 52 000 EUR - ROI: 6 maanden.

Cruciaal: Peter is niet weggegaan. Peter heeft het systeem mee getraind — zijn 10 jaar ervaring werd in prompt-templates en de feedback loop geïntegreerd. Zonder Peter zou het systeem generiek zijn en zich pas na 24+ maanden hebben terugverdiend.

3. Quality deviation reporting / 8D-draft

Use-case: een lijn produceert een batch met een afwijking (verkeerde kalibratie, materiaaldefect, operatorfout). Operator en quality engineer moeten een 8D-rapport, root cause analysis en corrective action plan opstellen. Dit duurt doorgaans 4–8 uur.

Stack: LLM (Claude Sonnet 4.6, lokaal Llama 3.3 70B of Qwen2.5-32B-Instruct) met toegang tot: het 5 Why-template, het Ishikawa-format, historische 8D-rapporten van het bedrijf, ISO 9001 / IATF 16949 richtlijnen. De quality engineer beschrijft het defect in 3–5 zinnen, het systeem genereert een draft 8D — menselijke review en aanvulling blijft.

Daadwerkelijke cijfers uit een implementatie (Oostenrijkse tier-1 metal forming): - 8D draft-tijd: van 6 uur naar gemiddeld 1,5 uur - 14 rapporten/maand × 4,5 uur besparing × 55 EUR/uur engineer → 3 465 EUR/maand - Implementatie: 18 000 EUR (eenvoudigere stack, omdat het format strikter is) - ROI: 5 maanden.

Cruciaal: AI heeft nooit een 8D afgesloten — dat is een human-in-the-loop gate. Het genereert een draft + suggesties voor preventieve maatregelen op basis van precedenten. Zonder review zou ROI veranderen in compliance risk.

4. Multi-language operator instructions

Use-case: een lijn heeft operators uit 5 landen (SK, UA, RO, PL, HU). SOP's staan in het Engelse origineel. Operators hebben een uitleg in hun moedertaal nodig, stap voor stap.

Stack: GPT-5 of Claude Sonnet 4.6 (cloud, business-tier subscription met GDPR EU-region) met tool-call voor native TTS (Azure Speech, ElevenLabs). De operator scant de QR-code van de SOP, krijgt de uitleg in zijn taal en kan vervolgvragen stellen.

Daadwerkelijke cijfers (Poolse elektronicamontage): - Onboarding van een nieuwe operator: van 12 dagen naar 7 (40 % reductie) - Bij 6 nieuwe operators/kwartaal × 5 dagen × 8 u × 22 EUR/uur fully-loaded → 5 280 EUR/kwartaal = 21 120 EUR per jaar - Implementatie: 24 000 EUR - ROI: 14 maanden.

Cruciaal: de SOP's waren kwalitatief in het origineel. Voor fabrieken met slechte, verouderde SOP's vertaalt het systeem slechte instructies — het is geen vertaler van fouten, alleen van een taalbarrière.

Zes use-cases waarbij het zich niet terugverdient

1. Real-time process control

"We voegen AI toe die in real-time de parameters op de lijn optimaliseert." Nooit.

De latency van een LLM-call is 800–3 000 ms. Een process control loop werkt op 10–100 ms cyclussen. Daarnaast: regulatieve eisen (IEC 61508, ISO 13849) vereisen deterministisch gedrag — een LLM is per definitie non-deterministisch.

Wat in plaats daarvan: klassieke PLC + classical control (PID, MPC). LLM heeft waarde in offline analyse van logs en het voorstellen van parameter-tuning — niet in real-time inferentie.

2. Routine vision QA

"Een LLM met vision-module bekijkt een foto van het onderdeel en zegt of er een defect is."

Multimodale LLM's (GPT-4o, Claude Sonnet 4.6 vision) hebben 3–5 sec latency, 70–85 % accuracy op een niet-expert-vision-taak, $0,005–0,015 per beeld. Een purpose-built vision-systeem (Cognex VisionPro Deep Learning, Keyence CV-X) heeft 30–80 ms latency, 98–99,7 % accuracy, geen per-image cost na aanschaf van de hardware.

Wanneer een LLM wel zin heeft: incident-analyse (achteraf, een expert wil een snelle beoordeling), edge case categorisering (defect dat de classifier niet kende), het genereren van defect-rapporten op basis van 50 foto's. Real-time QA op de lijn — nooit.

3. Maintenance scheduling

"De LLM beslist wanneer preventief onderhoud te plannen op basis van usage patterns."

Daarvoor bestaat een CMMS (Computerized Maintenance Management System) — IBM Maximo, SAP PM, Limble, MaintainX. Deze systemen hebben deterministische regels, integratie met ERP (wat besteld moet worden) en auditeerbare logs. Een LLM voegt geen waarde toe aan optimalisaties die een deterministische scheduler beter doet.

Wanneer een LLM wel helpt: uitleggen waarom het CMMS een bepaald schema heeft voorgesteld, summary-rapporten voor management ("deze week heeft onderhoud 47 % van de teamcapaciteit gekost, 60 % daarvan op lijn L3, en de drie meest voorkomende storingen waren ..."). Decision-making — niet.

4. Safety-critical interaction

"De AI-copilot vertelt de operator of het veilig is om de zone te betreden."

Een LSI (Life Safety Interlock) moet FMEA-geanalyseerd zijn, gecertificeerd (SIL 2/3), deterministisch. Een LLM hoort daar niet — niet als secundair kanaal, niet als informatief kanaal. De taal van een LSI is: light curtain, safety relay, tweekanaals start, manual reset — geen software waarboven een LLM zou hangen.

Wanneer een LLM wel helpt: trainingssimulatie van safety-scenario's voor operators buiten een live zone. Live decision — absoluut niet.

5. Inventory / orders / supply chain decisions

"AI bepaalt hoeveel grondstoffen te bestellen, op basis van trends."

Dat is de taak van het ERP-MRP-systeem (SAP S/4HANA, Oracle, NetSuite) met de juiste forecast-modules. Een LLM voegt 5–10 % marginale accuracy toe ten opzichte van een goed geconfigureerde MRP en 30–50 % ten opzichte van een slechte. Maar het fixen van een slechte MRP is goedkoper en duurzamer dan er een LLM-laag overheen leggen.

6. "Een universele chatbot voor de hele fabriek"

"De operator kan over alles vragen stellen — SOP's, HR, payroll, operationele data, OEE, kwaliteit, planning."

Eén chatbot die alles weet, weet alles slecht. Authority boundaries (HR-data vs. operational data vs. financial data) vervagen, role-based access control is in een LLM onmogelijk robuust te implementeren (prompt injection breekt RBAC), en de operator verliest het vertrouwen bij het eerste foute antwoord.

Beter: 3–5 gespecialiseerde copilots met een ingeperkt domein. Elk met eigen RAG, eigen system prompt, eigen audit log. Gezamenlijke UI, gespecialiseerde backend.

Stack-beslissingen in 2026

Lokale vs. cloud-LLM

Lokaal (eigen GPU-server): geschikt voor grotere implementaties (50+ operators per dag), gereguleerde sectoren (automotive aerospace met ITAR-compliance), fabrieken zonder stabiele internetverbinding.

Concrete modellen in 2026: - Qwen2.5-32B-Instruct AWQ — 24 GB VRAM, uitstekende multilinguale capaciteiten, goed voor EU-talen - Llama 3.3 70B AWQ — 48 GB VRAM, sterker reasoning, beter voor troubleshooting - Mistral Small 3 (22B) — 16 GB VRAM, goede keuze voor cost-sensitive setups

Hardware: 1× RTX A6000 (48 GB) of 2× RTX 4090 (cumulatief 48 GB) voor Llama 3.3 70B. Prijs 12–18 k EUR. Throughput bij vLLM serving: 40–80 RPS bij een typische shop-floor query mix.

Cloud-LLM: geschikt voor kleinere implementaties, pilotfasen, projecten waar u geen data residency nodig hebt. Default in 2026: Claude Sonnet 4.6 (Anthropic EU-region) of GPT-5 (Azure OpenAI EU). Per-query cost doorgaans 0,002–0,012 EUR bij RAG met 4k input-tokens + 300 output-tokens. Maandkost bij 200 queries/dag × 22 dagen × 8 operators = 75–250 EUR/maand.

UI: tablet vs. voice

Tablet: Zebra ET40 (3 800 EUR), Panasonic Toughbook G2 (4 200 EUR), Microsoft Surface Pro 11 in een IP65-behuizing (2 800 EUR). Geschikt voor gedetailleerde troubleshooting, foto-attachments, schema's tekenen. De herrie van de lijn maakt niet uit.

Voice (bluetooth headset): Plantronics Voyager 5200 UC (260 EUR), Jabra Engage 65 (310 EUR), Apple AirPods Pro 2 in een industriële setup (310 EUR + custom dock). Geschikt voor hands-free werk, luidruchtige omgevingen tot 95 dB met active noise cancellation. STT-latency (Speech-to-Text) is cruciaal — Whisper v3 large op een lokale GPU 200–400 ms, cloud Azure Speech 250–500 ms.

In pilots bleek dat een combinatie het best werkt: tablet voor gedetailleerde interactie, voice voor snelle queries ("hoe reset ik alarm 14-021" terwijl je naar de machine loopt).

Pilot-framework dat geen geld verbrandt

1.Selecteer 1 (max 2) use-cases uit de 4 aanbevolen. Nooit "we rollen alles tegelijk uit".
2.Definieer een meetbare KPI *voorafgaand* aan de start: bespaarde uren, MTTR-reductie, draft-tijd, onboarding-tijd. Zonder baseline-meting wordt het ROI-rapport wishful thinking.
3.8-weken PoC-fase: 4 weken integratie + 4 weken field testing met 6–10 operators. Geen opschaling vóór een afgeronde PoC.
4.Stop-go gate na PoC: als de KPI's niet minstens 50 % van het doel halen, niet opschalen. Stack herzien of project stopzetten.
5.6-maands rollout naar alle operators + integratie met bestaande systemen (MES, CMMS, ERP read-only access).

Concreet voorbeeld van de genoemde Duitse supplier: 80 uur verspilde integratie ontstond doordat het team de AI-copilot in de PoC-fase met 9 interne systemen wilde verbinden. In werkelijkheid bleken er 6 van de 9 overbodig en 3 voldoende. Maar de "integrate everything first"-prioriteit kostte de eerste 3 maanden van het project.

---

*We implementeren shop-floor AI-copilot oplossingen met een 8-weken PoC + 6-maands rollout. Als u dit type implementatie overweegt, doorloopt de eerste workshop (3 uur) de 4 aanbevolen use-cases op uw concrete proces en schrapt diegene die zich niet binnen een redelijke termijn terugverdienen.*