Die Linie läuft, Sensoren messen, Operatoren kontrollieren. Trotzdem entweichen Fehler — nicht weil die Menschen schlecht arbeiten, sondern weil die menschliche visuelle Aufmerksamkeit bei repetitiven Aufgaben objektive Grenzen hat. Nach zwei Stunden monotoner Inspektion sinkt die Erkennungszuverlässigkeit spürbar. KI-Bildverarbeitungssysteme haben diese Grenzen nicht: Sie verarbeiten jedes Teil gleich und erreichen bei korrektem Einsatz Genauigkeiten über 99 % dort, wo ein menschlicher Inspektor typischerweise rund 85 % erzielt.
Das Problem ist, dass „korrekter Einsatz" nicht trivial ist. In der Praxis sehen wir Projekte, bei denen ein KI-Qualitätskontrollsystem entscheidende Ergebnisse lieferte — und gleichermaßen Projekte, die mit einer installierten Kamera endeten, die nach drei Monaten abgeschaltet wurde. Der Unterschied liegt nicht in der Technologie, sondern darin, was der Hersteller getan hat, bevor er die erste Hardware kaufte. Dieser Artikel ist eine Entscheidungshilfe: wann man einsteigen sollte, was zuerst zu klären ist — und wo KI allein nicht ausreicht.
Was KI-Sichtprüfung tatsächlich leistet
Die Grundaufgabe ist einfach: Die Kamera nimmt ein Teil auf, das Modell entscheidet OK oder NOK, das System markiert oder schleust aus. Hinter dieser Einfachheit verbergen sich drei verschiedene technische Aufgaben, die unterschiedliche Ansätze erfordern.
Fehlererkennung — Lokalisierung eines konkreten Fehlers auf der Oberfläche oder am Bauteil: Kratzer, Riss, Porosität, fehlerhafter Schweißnaht. Das Modell muss nicht nur sagen „ein Fehler existiert", sondern auch zeigen, wo. Werkzeuge wie YOLOv10 oder YOLO11 (Ultralytics) sind 2026 der Standard für die Echtzeiterkennung: Sie verarbeiten ein Bild in unter 200 ms, was der überwältigenden Mehrheit der Produktionsgeschwindigkeiten entspricht.
Anomaly Detection — das Erkennen von etwas „Anderem als gewöhnlich", ohne im Voraus zu wissen, wonach genau man sucht. Modelle, die nur auf „guten" Teilen trainiert wurden, lernen die Normalverteilung; jede Abweichung wird als Anomalie markiert. Dieser Ansatz eignet sich für Serienfertigungen, bei denen Fehler selten sind und es nicht genug fehlerhafte Beispiele für klassisches Supervised Training gibt.
Segmentierung und Messung — präzise Umrahmung der Fehlerfläche, Maßmessung, Objektzählung. SAM 2 (Meta) ermöglicht heute Zero-Shot-Segmentierung — es kann einen unbekannten Fehlertyp ohne vorheriges Training einrahmen, was die Annotation neuer Fehlerkategorien erheblich beschleunigt.
Moderne Systeme kombinieren alle drei: YOLO erkennt, SAM segmentiert, nachgelagerte Messlogik entscheidet über den Schweregrad.
Wann sich KI lohnt — und wann nicht
Nicht jedes Inspektionsproblem verdient ein Vision-Modell. Bevor Sie in Hardware und Integration investieren, beantworten Sie fünf Fragen.
1. Ist der Fehler visuell konsistent? Kratzer auf einem Aluminiumprofil sehen immer ähnlich aus. Korrosion an Schweißnähten kann Dutzende von Varianten aufweisen. Je konsistenter das visuelle Erscheinungsbild des Fehlers ist, desto einfacher lässt sich das Modell trainieren und desto höhere Genauigkeit erreichen Sie. Fehler mit extrem variablem Erscheinungsbild (abhängig von Materialtemperatur, Aufprallwinkel, Rohstoffcharge) sind deutlich anspruchsvoller.
2. Haben Sie genug Fehlerbilder? Das ist die häufigste Hürde. Für klassisches Supervised Training nach YOLOv10-Art benötigen Sie in der Größenordnung Hunderte bis Tausende annotierter Beispiele *je* Fehlerkategorie. In der Praxis haben die meisten Hersteller volle Archive von OK-Teilen und Dutzende von Fehlerbildern. Lösungen existieren — synthetische Augmentierungen, GAN-generierte Fehler oder eben Anomaly Detection ohne Fehlerlabels —, aber sie erhöhen die Komplexität.
3. Ist die Prüfung reproduzierbar? Beleuchtung, Teilelage, Bewegungsgeschwindigkeit, Reflexionen — all das muss stabil sein. Ein Modell, das bei einer Beleuchtungsart trainiert wurde, versagt bei einer anderen. Das ist kein schlechtes Modell, das ist Physik. Wenn die Fertigungslinie keine stabilen Aufnahmebedingungen hat, müssen diese zuerst mechanisch oder konstruktiv gelöst werden — KI löst das nicht.
4. Kann ein bestehendes System das Problem günstiger lösen? Einfache Binärkontrollen (An-/Abwesenheit eines Bauteils, korrekte Ausrichtung) löst klassische regelbasierte Bildverarbeitung mit Profilsensoren zu einem Bruchteil der Kosten und ohne Trainingsdaten. KI lohnt sich dort, wo regelbasierte Systeme versagen — unregelmäßige Oberflächen, Formvariabilität, subjektive Qualitätskriterien.
5. Was kostet ein durchgeschlüpfter Fehler gegenüber einem Fehlalarm? In der Automobilindustrie kann ein einziger durchgeschlüpfter Fehler einen Rückruf von Hunderten von Fahrzeugen bedeuten. Im Konsumgüterbereich ist die Toleranz höher. Das Verhältnis NOK/OK und die Kosten beider Fehlertypen bestimmen, welchen Schwellenwert Sie einstellen — und beeinflussen damit direkt, ob das KI-System wirtschaftlich sinnvoll ist.
Die Realität der Genauigkeit: Was 99 % bedeuten
Die Zahl „99 % Genauigkeit" taucht in jeder Präsentation auf. Es ist wichtig zu verstehen, was sie bedeutet — und was nicht.
Wenn eine Fertigungslinie täglich 10.000 Teile produziert und der Fehleranteil 1 % beträgt, haben Sie 100 fehlerhafte Teile. Ein KI-System mit 99 % Gesamtgenauigkeit kann bei dieser Verteilung eine sehr unterschiedliche reale Leistung aufweisen — je nachdem, wie sich das 1 % auf False Positives und False Negatives aufteilt. Für kritische Anwendungen ist nicht die Gesamtgenauigkeit entscheidend, sondern die Genauigkeit auf der Klasse von Fehlern, die Sie tatsächlich abfangen müssen.
In der Praxis beobachten wir folgende Muster: Modelle, die gut auf den Hauptfehlertypen trainiert wurden, erzielen bei genau diesen Typen exzellente Ergebnisse, degradieren jedoch bei seltenen oder neuen Varianten, die nicht in den Trainingsdaten enthalten waren. Daher ist die kontinuierliche Erweiterung des Trainingssets um neue Produktionsbeispiele entscheidend — das Modell ist keine einmalige Investition, sondern ein lebendiges System.
Der Vergleich mit menschlicher Inspektion ist ebenfalls kontextabhängig. KI-Systeme sind konstant besser bei wiederkehrenden, klar definierten Kontrolltypen. Ein erfahrener Inspektor mit tiefem Prozesswissen kann Anomalien erkennen, die das Modell noch nicht gesehen hat — ein hybrides Setup (KI flaggt, menschlicher Operator validiert Edge Cases) ist 2026 gängige Produktionspraxis.
Wenig Daten: So lösen Sie das chronische Problem
Der Mangel an Fehlermustern ist die Realität der meisten Hersteller. Einige bewährte Ansätze:
Anomaly Detection statt Klassifizierung. Modelle wie ViT (Vision Transformer), die nur auf „guten" Teilen trainiert wurden, lernen die Normalitätsverteilung. In der Produktion erhält jedes Teil, das von dieser Verteilung abweicht, einen hohen Anomaly-Score. Nachteil: Das Modell kann den Fehlertyp nicht benennen, nur melden „etwas stimmt nicht". Für eine erste Deployment-Phase reicht das.
Synthetische Augmentierung. Realistische synthetische Fehler (Kratzer, Risse, Flecken) lassen sich direkt auf OK-Bildern mit algorithmischen Methoden oder GAN-/Diffusionsmodellen generieren. In Industrieprojekten haben wir gesehen, dass qualitativ hochwertige synthetische Augmentierung 30–50 % der realen Fehlerbeispiele ersetzen kann, ohne die Genauigkeit wesentlich zu beeinträchtigen — allerdings hängt das Ergebnis stark von der Ähnlichkeit der Synthese mit der Realität ab.
`SAM 2` für die Annotation. Manuelles Annotieren von Bildern ist zeitaufwendig. SAM 2 ermöglicht Zero-Shot-Segmentierung — ein Experte zeigt auf den Fehler, das Modell rahmt ihn sofort mit einer präzisen Maske ein. In der Praxis verkürzt das die Annotation neuer Fehlerkategorien um 60–80 % gegenüber dem klassischen manuellen Workflow.
Transfer Learning. Beginnen Sie mit einem Modell, das auf industriellen Daten vortrainiert wurde (es gibt öffentliche Datensätze zur Oberflächenfehlerkennung bei Metall, Textilien und Holz), und finetunen Sie es auf Ihren spezifischen Daten. Sie benötigen deutlich weniger Beispiele als beim Training von Grund auf.
Für ein tieferes Verständnis des Umgangs mit Trainingsdaten — einschließlich der Frage, wie viele Samples Sie realistisch brauchen und wie man sie strukturiert — verweisen wir auf Datensatz für Fine-tuning — Menge und Qualität.
Edge-Deployment: Wo die Verarbeitung stattfindet
Eine zentrale Architekturentscheidung: Wo läuft die Inferenz?
Cloud — Bilder werden an einen Remote-Server gesendet. Für die meisten Fertigungslinien ungeeignet wegen Latenz (Netzwerk-Roundtrip + Verarbeitung) und Verfügbarkeit (Internetausfall = Prüfausfall). Für Offline-Stapelverarbeitung archivierter Bilder ist Cloud akzeptabel.
On-Premise-Server — Inferenzserver im Werksnetz, typischerweise mit GPU (NVIDIA RTX 4090 oder A-Serie). Die Latenz im Intranet ist gering (Millisekunden), die Verfügbarkeit hängt nur von der internen Infrastruktur ab. Standard für die meisten Serienfertigungen.
Edge Device — Berechnung direkt bei der Kamera oder auf einem Industrie-PC an der Linie. Schlanke Vision-Modelle, die in das ONNX- oder TensorRT-Format exportiert werden, ermöglichen heute den Einsatz auch ohne dedizierte GPU — zum Beispiel über OpenVINO auf Intel-Hardware oder ONNX Runtime auf einem Standard-Industrie-PC. Für einfache binäre OK/NOK-Entscheidungen reicht das. Für komplexe Multi-Class-Erkennung mit hoher Genauigkeit ist Edge-Hardware nach wie vor der limitierende Faktor.
In der Praxis verwenden wir eine Kombination: Das Edge Device trifft die sofortige OK/NOK-Entscheidung in unter 100 ms, die Ergebnisse werden zur Analyse, zum Retraining und für Reports an einen zentralen Server gesendet. Diese Architektur ist ausfallsicher bei Netzwerkunterbrechungen und ermöglicht gleichzeitig ein zentrales Modellmanagement.
Wenn Sie die Hardware-Dimensionierung für einen Inferenzserver abwägen, kann auch der Artikel über GPU für LLM-Inferenz hilfreich sein — die Prinzipien zu Memory Bandwidth und VRAM-Sizing gelten gleichermaßen.
Integration in den Fertigungsprozess
Ein Vision-System, das Ergebnisse nur auf einem Monitor anzeigt, hat keinen vollen Wert. Echte Integration bedeutet:
Anbindung an das Produktionssystem — MES, SCADA oder direkt SPS. Ein NOK-Signal löst eine Aktion aus: Linienstopp, Ausschleusen des Teils, Alarm an den Operator. Ohne diese Kopplung ist KI nur ein passiver Beobachter.
Rückverfolgbarkeit — Jedes Teil hat ein Bild, eine Entscheidung, einen Zeitstempel und eine Batch-ID. Bei Reklamationen oder Kundenanalysen können Sie den Inspektionsdatensatz sofort wiedergeben. Das ist einer der wertvollsten Nebeneffekte von KI-Bildverarbeitungssystemen — nicht nur Automatisierung, sondern Dokumentation.
Geschlossener Regelkreis — Fortgeschrittenere Deployments (wir sehen sie zunehmend) verbinden das Bildverarbeitungssystem direkt mit einem Roboterarm oder einem Korrekturaktuator. Erkannter Fehler → Korrektur- oder Sortierbbefehl → Bestätigung der Korrektur durch ein weiteres Bild. Dieses Closed-Loop-Muster ist die Richtung, in die sich die Branche bewegt.
Dashboard und Retraining-Pipeline — Operatoren müssen die Systemleistung in Echtzeit sehen (Anzahl OK/NOK, erkannte Fehlertypen, False-Alarm-Rate). Und wenn ein neuer Fehlertyp auftritt, muss ein Workflow existieren: Operator markiert das Bild → Annotation → Ergänzung des Trainingssets → Retraining → Deployment der neuen Modellversion. Ohne diese Pipeline altert das Modell.
Für Teams, die überlegen, wie man solche Agentic Loops für die langfristige Verwaltung von KI-Systemen einrichtet, empfehlen wir KI-Agenten-Architekturen (ReAct, Plan-and-Execute).
Wann klassische Kameras ausreichen
Es wäre unehrlich, dies nicht zu sagen: Es gibt Fälle, in denen ein KI-Vision-Modell nicht die richtige Antwort ist.
An-/Abwesenheit eines Bauteils — ob eine Schraube an ihrem Platz ist, ob ein Etikett aufgebracht wurde, ob ein Verschluss geschlossen ist. Klassische regelbasierte Bildverarbeitung bewältigt das zuverlässig zu einem deutlich niedrigeren Preis und ohne Trainingsdaten.
Maßkontrolle mit Mikrometergenauigkeit — Kontaktmesssysteme oder Laserprofilometer sind für Maße im Submillimeterbereich genauer und zuverlässiger als Kamerainspektionen.
Extrem einfache Binärkontrollen — Wenn der Fehler immer gleich aussieht und der Kontrast gegenüber dem Hintergrund ausreichend ist, genügt ein einfacher Schwellenwert-Algorithmus. KI ist Overkill.
KI-Vision bringt Mehrwert dort, wo Variabilität, Komplexität oder Subjektivität die Möglichkeiten regelbasierter Systeme übersteigen. Wenn Sie an der Grenze stehen, machen Sie einen Pilot: Testen Sie beide Ansätze an realen Daten und vergleichen Sie Implementierungskosten und Verbesserung der Erkennungsrate.
Häufige Fragen
Wie viele Trainingsbilder brauche ich für die Fehlererkennung?
Für ein klassisches Supervised-Modell (YOLO-Typ) benötigen Sie typischerweise Hunderte annotierter Beispiele pro Fehlerkategorie — in der Praxis bedeutet das 500 bis 2.000 Bilder für eine erste brauchbare Version. Wenn Sie weniger haben, erwägen Sie Anomaly Detection (nur auf OK-Teilen trainiert) oder synthetische Augmentierung. Die Qualität der Annotationen ist wichtiger als die reine Anzahl — schlecht annotierte Daten schaden dem Modell eher, als dass sie nützen.
Wie schnell muss die Kamera sein, und wie schnell entscheidet das System?
Für die meisten Fertigungslinien (bis zu 60 Teile pro Minute) reicht eine Kamera mit 60 fps und eine Inferenzlatenz unter 100 ms. YOLO11 auf einer RTX 4090 verarbeitet ein Bild in 10–30 ms, was selbst für schnellere Linien ausreichend Puffer lässt. Für extrem schnelle Prozesse (Hunderte von Teilen pro Minute) sind Zeilenkameras und Spezialhardware erforderlich — das ist eine andere Lösungskategorie.
Funktioniert KI-Sichtprüfung bei reflektierenden oder transparenten Materialien?
Reflektierende Oberflächen (poliertes Metall, Chrom) und transparente Materialien (Glas, Kunststoff) sind technisch anspruchsvoller — Reflexionen und variabler Kontrast führen das Modell in die Irre. Die Lösung ist eine Kombination aus spezieller Beleuchtung (polarisiert, Domeleuchte, koaxial) und Training auf Daten, die genau unter diesen Bedingungen aufgenommen wurden. Es ist kein unlösbares Problem, erfordert aber mehr Vorbereitung und Testing.
Brauche ich eine GPU direkt an der Fertigungslinie?
Nicht zwingend. Für einfache Modelle reicht ein leistungsstarker Industrie-PC ohne dedizierte GPU (CPU-Inferenz ist langsamer, aber für weniger anspruchsvolle Aufgaben ausreichend). Für Echtzeit-Inspektion mit komplexen Modellen empfehlen wir einen Edge-Server mit GPU im Schaltschrank an der Linie — nicht direkt in der staub- und vibrationsreichen Umgebung. Eine GPU in der Cloud oder auf einem zentralen Server ist eine Alternative, aber abhängig von der Netzverfügbarkeit.
Wann wird KI-Sichtprüfung menschliche Kontrolle vollständig ersetzen?
In der Praxis nähern sich nur wenige einem vollständigen Ersatz. Das gängigere Modell ist Augmentierung: KI bewältigt 90–95 % der Inspektion autonom, der Rest (Edge Cases, neue Fehlertypen, eskalierte Reklamationen) geht an einen menschlichen Experten. Dieses Hybrid-Modell ist rational — es spart den Großteil der manuellen Arbeit und bewahrt gleichzeitig das Fachwissen für Situationen, in denen das Modell noch nicht zuverlässig ist.
*KI-Sichtprüfung ist kein Produkt, das man kauft und einsteckt — es ist ein System, das entworfen, trainiert und gepflegt werden muss. Bei MP Industrial Solutions helfen wir Fertigungsunternehmen zu beurteilen, ob und wie KI-Inspektion für ihren Prozess sinnvoll ist: von der Analyse bestehender Daten und Fehlermuster über die Wahl der Architektur bis hin zur Integration mit bestehendem MES oder SCADA. Wenn Sie diesen Schritt erwägen, schauen wir uns gerne zunächst Ihren konkreten Fall direkt an.*
