Eine der häufigsten Fragen, die wir von technischen Teams erhalten, die ihren ersten Produktions-Agenten planen: „Welches Framework sollen wir verwenden?" Die Frage ist verständlich — GitHub hat Dutzende Projekte, jedes mit Demos, die gut aussehen, und Vergleichsblogs, die sich widersprechen.
Die kurze Antwort: Das Framework ist eine nachrangige Entscheidung. Das Primäre ist die Agenten-Architektur — das Muster, nach dem der Agent denkt und handelt (ReAct, Plan-and-Execute, Reflexion). Frameworks *implementieren* diese Muster, sie erfinden sie nicht. LangGraph, CrewAI, AutoGen und eigener Code sind vier Wege, dieselben Muster im Code zu realisieren. Jeder hat andere Trade-offs. Dieser Artikel hilft Ihnen, den richtigen zu wählen — oder rät Ihnen ab, überhaupt ein Framework zu nehmen, wo keins nötig ist.
Was Frameworks tun (und was nicht)
Bevor wir konkrete Projekte vergleichen, sollte klar sein, was ein Agent-Framework überhaupt löst. Typischerweise bietet es:
- Schrittorchestrierung — wie der Agent von einem Zustand in den nächsten wechselt (Reason-Act-Observe-Schleife oder Plan → Ausführung → Reflexion)
- Kontext- und Zustandsverwaltung — wo Verlauf, Zwischenergebnisse und Kontext zwischen Aufrufen gespeichert werden
- Routing zwischen Agenten — wie eine Aufgabe von einem spezialisierten Agenten an den nächsten übergeben wird
- Tool-Integration — standardisierter Weg, wie der Agent externe APIs, Vektordatenbanken und Code aufruft
- Checkpointing und Wiederaufnahme — Möglichkeit, den Agenten nach einem Fehler ohne Fortschrittsverlust fortzusetzen
Was Frameworks nicht tun: Sie nehmen Ihnen nicht die Verantwortung für korrekte Prompts, Toolqualität, Guardrails oder Observability ab. Das bleibt bei Ihnen, unabhängig von der Wahl.
LangGraph: Expliziter Graph, expliziter Zustand
LangGraph baut den Agenten als gerichteten Graphen — Knoten sind Funktionen (LLM-Aufruf, Tool, Bedingung), Kanten sind Zustandsübergänge. Der Zustand ist eine explizite Python-Dataclass oder ein Dict, das zwischen den Knoten weitergereicht wird.
Was das in der Praxis bedeutet:
- Jeder Übergang im Graphen ist sichtbar und isoliert testbar
- Checkpointing ist eingebaut — der Agent kann anhalten und vom letzten Knoten fortgesetzt werden (wichtig bei langen Aufgaben)
- HITL (Human-in-the-Loop) wird über
interrupt()implementiert — der Agent hält an, wartet auf menschliche Eingabe und macht dann weiter. Das entspricht der Anforderung aus EU AI Act Art. 14 nach Human Oversight bei High-Risk-Systemen, die ab August 2026 verbindlich ist - Debugbarkeit ist überdurchschnittlich: Man weiß genau, in welchem Knoten und mit welchem Zustand der Agent versagt hat
Wann LangGraph sinnvoll ist:
- Produktive stateful Agenten mit mehreren Schritten (mehr als 3–4 Tool-Calls pro Aufgabe)
- Checkpointing ist erforderlich — der Agent läuft Minuten oder Stunden
- HITL bei kritischen Aktionen (Finanzoperationen, Dokumentenversand)
- Das Team möchte eine Graph-Visualisierung des Ablaufs für Review und Debugging
- Einsatz in regulierten Umgebungen, wo ein Audit-Trail auf Knoten-Ebene erforderlich ist
Wann LangGraph unnötig ist:
- Einfaches einschrittiges RAG (embed → retrieve → generate) — hier ist es Overhead ohne Mehrwert
- Schneller Prototyp, bei dem Sie das Ergebnis in einem Tag brauchen, nicht in einer Woche
- Das Team ist mit Graph-Programmierung nicht vertraut — die Lernkurve ist real
LangGraph gilt heute als produktionstabilstes Framework für Enterprise Stateful Agents. Es ist nicht der einfachste Einstieg, aber der kontrollierteste Ausgang.
CrewAI: Rollen, Teams, schneller Start
CrewAI denkt in den Begriffen Rollen und Teams. Sie definieren Agenten mit konkreten Rollen (Researcher, Analyst, Writer), jeder mit eigenem Ziel und eigenem Tool-Set, und das Framework koordiniert, wie sie die Aufgabe untereinander weitergeben.
Die Einstiegshürde ist niedrig — ein grundlegendes Multi-Agent-Team schaffen Sie in ~20–35 Zeilen Code. Das ist der Hauptvorzug von CrewAI: ein funktionsfähiges Multi-Agent-System in Stunden prototypisieren, nicht in Tagen.
Was das in der Praxis bedeutet:
- Schnelles Prototyping ist tatsächlich schnell — die Syntax ist lesbar, ein neues Teammitglied kommt in Stunden rein
- Die rollenbasierte Abstraktion ist intuitiv für Teams, die in den Begriffen „wer macht was" denken
- In der Produktion hat CrewAI weniger Werkzeuge für explizite Zustandssteuerung und Checkpointing als LangGraph
- Debugbarkeit ist schwächer — bei einem Fehler ist es schwieriger, genau zu identifizieren, in welchem Schritt und warum
Wann CrewAI sinnvoll ist:
- Proof-of-Concept oder interner Prototyp, bei dem Sie schnell Mehrwert zeigen wollen
- Multi-Agent-Szenarien, bei denen rollenbasiertes Denken natürlich zum Problem passt (z. B. Pipeline: Datenerhebung → Analyse → Bericht)
- Team ohne tiefe Kenntnisse in Graph-basiertem Programmieren
- Weniger kritische Systeme, bei denen gelegentliche Fehler akzeptabel sind
Wann CrewAI nicht ausreicht:
- Produktionssysteme, die zuverlässiges Checkpointing und Wiederaufnahme benötigen
- HITL mit garantiertem Stopp an kritischen Punkten
- Lange agentische Aufgaben (Dutzende Tool-Calls), bei denen der Zustand explizit verwaltet werden muss
- Regulierte Umgebungen mit Audit-Trail-Anforderung
CrewAI ist kein schlechtes Framework. Es ist das richtige Werkzeug für den Prototyp — aber der Übergang vom CrewAI-Prototyp zum Produktionssystem bedeutet häufig eine teilweise oder vollständige Neuentwicklung in LangGraph oder eigenem Code.
AutoGen: Konversationsagenten, Forschungscharakter
AutoGen (jetzt AG2) denkt anders als LangGraph oder CrewAI. Statt eines expliziten Graphen oder von Rollen gibt es einen konversationalen GroupChat — Agenten schreiben sich Nachrichten, das Framework steuert, wer wann spricht.
AutoGen erreichte 2025 Version 1.0 GA, was auf eine zunehmende Reife hinweist. Es ist in Forschungsumgebungen und beim Experimentieren mit Multi-Agent-Dialogen beliebt.
Was das in der Praxis bedeutet:
- Stark für Szenarien, in denen die Lösung durch Konversation zwischen Agenten entsteht — z. B. ein Agent schreibt Code, ein anderer überprüft ihn und schlägt Korrekturen vor
- Flexibel und ausdrucksstark für Experimente — ein neuer Agent lässt sich leicht in den Chat einfügen
- In der Produktion weniger vorhersagbar — der Konversationsfluss ist schwerer deterministisch zu steuern als ein expliziter Graph
- Observability und Checkpointing sind im Vergleich zu LangGraph Schwachstellen
Wann AutoGen sinnvoll ist:
- Forschung und Experimente mit neuen Agent-to-Agent-Mustern
- Systeme, in denen mehrere Spezialisten (Agenten) gemeinsam iterativ an einer Antwort arbeiten müssen
- Coding-Assistenten und Code-Review-Pipelines
- Prototypen, bei denen niedrigere Vorhersagbarkeit akzeptabel ist
Wann AutoGen nicht ausreicht:
- Produktionssysteme mit Anforderungen an deterministischen Ablauf
- Szenarien, bei denen ein garantierter Stopp (HITL) bei bestimmten Aktionen erforderlich ist
- Unternehmen mit langfristiger Verantwortung für Ausgabequalität — konversationaler Chaos ist schwer auditierbar
Eigener Code: Manchmal die beste Wahl
Das ist die Antwort, die Menschen nicht erwarten, aber in der Praxis sehen wir sie häufiger als man meinen würde: Manchmal ist kein Framework nötig.
Wenn Ihr Agent eine feste Sequenz von Schritten ausführt — z. B. ein Dokument empfängt, 2–3 Tools aufruft und eine strukturierte Ausgabe zurückgibt — kann Python mit direktem SDK-Aufruf (Anthropic, OpenAI) und eigener Retry-Logik sauberer, schneller und leichter wartbar sein als jedes Framework.
Wann eigener Code sinnvoll ist:
- Die Agenten-Logik ist einfach und stabil — weniger als 3–4 Schritte, kein Verzweigen
- Das Team hat starke Python-Kenntnisse und Frameworks fügen mehr Komplexität als Mehrwert hinzu
- Sie wollen minimale Abhängigkeiten — jedes Framework bringt Dutzende transitive Pakete mit
- Sie bauen eine spezifische Pipeline, kein generisches Agent-Runtime
Achtung vor der Falle:
Eigener Code wird schnell zu einem unkontrollierbaren „Hobby-Framework" — Sie fügen Zustand, Retry und Checkpointing einen nach dem anderen hinzu. Wenn der Agent auf 5+ Schritte mit Verzweigungen anwächst, wird LangGraph oder ein anderes Framework zur rationalen Wahl. Eigener Code ist ein guter Start, aber nicht immer ein gutes Ziel.
Entscheidungsrahmen
Statt einer Tabelle (die unlesbar wäre) hier die Entscheidungslogik aus der Praxis:
Beginnen Sie mit der Frage: Wie viele Schritte und wie viel Komplexität?
- Weniger als 3–4 Schritte, feste Sequenz → eigener Code oder CrewAI
- 5+ Schritte, Verzweigung, Bedarf an Wiederaufnahme → LangGraph
- Multi-Agent-Dialog, Forschung, Coding-Review → AutoGen
Dann: Ist es ein Prototyp oder Produktion?
- Prototyp, PoC, Demo → CrewAI oder AutoGen (Geschwindigkeit des Einstiegs)
- Produktion, SLA, regulierte Umgebung → LangGraph oder eigener Code (Kontrolle)
Dann: Ist HITL erforderlich?
- Ja, mit garantiertem Stopp → LangGraph (
interrupt()) oder eigener Code mit explizitem Await - Nein oder „Human-on-the-Loop" genügt → beliebiges Framework
Zuletzt: Was sind die Observability-Anforderungen?
Das ist der Punkt, den Unternehmen am häufigsten unterschätzen. Ohne Observability — das Erfassen von Traces auf Ebene jedes Knotens und Tool-Calls — können Sie in der Produktion keine Fehler diagnostizieren. Für LangGraph ist die natürliche Integration LangSmith, für andere Frameworks funktioniert Langfuse (self-hostable, framework-agnostisch) oder Arize Phoenix gut. Mehr zu diesem Thema im Artikel über Observability von AI-Agenten.
Was alle Frameworks gemeinsam haben: Tool Calling
Ein Muster gilt unabhängig davon, welches Framework Sie wählen: Zuverlässigkeit beim Tool-Calling ist nicht selbstverständlich. Die meisten Produktions-Incidents bei Agenten entstehen nicht durch schlechtes Reasoning — sie entstehen durch fehlgeformte Tool-Argumente, unbehandelte Tool-Fehler oder weil der Agent ein Tool mit sinnlosen Parametern aufruft.
Obligatorisches Minimum für die Produktion:
- Strenge JSON-Schema-Validierung von Ein- und Ausgabe jedes Tools
- Retry-Logik mit exponentiellem Backoff bei Transaktionsfehlern
- Maximale Anzahl von Versuchen (z. B. 3) mit Fallback — der Agent muss graceful „aufgeben" können
- Logging jedes Tool-Calls mit Parametern und Ergebnis
Eine tiefergehende Betrachtung dieses Themas bietet der Artikel Tool Calling zuverlässig.
Frameworks vs. Muster: Die richtige Reihenfolge
Kehren wir zum Ausgangspunkt zurück. Beantworten Sie diese Fragen, bevor Sie ein Framework wählen:
- 1.Welches Muster brauche ich? ReAct (Schleife), Plan-and-Execute (erst planen), Reflexion (Selbstkritik)? Mehr zu Mustern in Architekturen von AI-Agenten.
- 2.Was sind die Anforderungen an Zuverlässigkeit und Auditierbarkeit? Regulierte Umgebung, Finanzoperationen, Gesundheitswesen — hier gelten LangGraph oder eigener Code.
- 3.Welcher Horizont gilt? Prototyp für 2 Wochen vs. System, das 2 Jahre laufen soll — das sind fundamental unterschiedliche Entscheidungen.
Das Framework ist nur eine Hülle. Ein schlechtes Muster in einem eleganten Framework scheitert trotzdem. Das richtige Muster in schlichtem eigenem Code kann jahrelang problemlos laufen.
Häufige Fragen
Kann ich Frameworks kombinieren?
Ja, aber mit Bedacht. Die Kombination von LangGraph für die Orchestrierung mit einem CrewAI-Crew innerhalb eines Knotens ist technisch möglich, macht das Debugging aber komplexer. In der Praxis empfehlen wir, ein Framework für das gesamte System zu wählen. Wenn das nicht möglich ist (z. B. wenn Sie einen bestehenden CrewAI-Prototyp in ein neues LangGraph-System integrieren), isolieren Sie die Integration in einen dedizierten Knoten mit klarem API-Kontrakt.
Muss ich von CrewAI zu LangGraph migrieren, wenn ich in die Produktion gehe?
Nicht zwingend. Manche Produktionssysteme laufen auf CrewAI zuverlässig — das hängt von der Komplexität des Agenten und den Anforderungen ab. Faustregel aus der Praxis: Wenn Ihr Agent länger als eine Minute läuft, mehr als 5 Schritte hat oder garantiertes HITL benötigt, lohnt sich die Migration. Kürzere, einfachere Agenten können auf CrewAI bleiben.
Ist AutoGen für die Produktion geeignet?
AutoGen 1.0 GA (2025) ist ausgereifter als seine 0.x-Versionen. Für klar definierte Use-Cases (Coding-Assistenten, Review-Pipelines) ist ein Produktionseinsatz realistisch. Für Szenarien mit Anforderung an Auditierbarkeit jedes Schritts und garantiertes HITL bleibt LangGraph die bessere Wahl.
Welches Modell soll ich mit dem Framework verwenden?
Das Framework ist modell-agnostisch — es funktioniert mit jedem Modell mit Tool-Calling-Unterstützung. In der Praxis empfehlen wir, während der Entwicklung mit einem Frontier-Modell (Claude Sonnet, GPT-Klasse) zu testen, und wenn die Kosten kritisch sind, schrittweise günstigere Modelle (Haiku-Tier, Open-Weight Qwen 3.x oder Llama 4) in der Produktionsumgebung zu erproben. Die Kosten verschiedener Modelle in agentischen Szenarien werden im Artikel Kosten von AI-Agenten in der Produktion behandelt.
Wie lösen Frameworks Sicherheit — Guardrails?
Kurze Antwort: Sie tun es nicht — das ist Ihre Verantwortung. Das Framework liefert die Ablaufstruktur, keine Sicherheitsschicht. Guardrails (Input-Validierung, Prompt-Injection-Erkennung, Tool-Permission-Scope, Output-Filtering) müssen Sie explizit hinzufügen — entweder über dedizierte Tools (NeMo Guardrails, Guardrails AI) oder eigene Validierungslogik. Mehr dazu im Artikel über Guardrails für AI-Agenten.
*Die Wahl des Frameworks ist eine wichtige Entscheidung, aber nicht die wichtigste beim Aufbau eines Agenten. Bei MP Industrial Solutions begleiten wir Kunden den gesamten Weg — von der Wahl des Musters und Frameworks über die Produktionsbereitstellung bis hin zu Monitoring und Guardrails. Wenn Sie Ihren ersten Produktions-Agenten planen oder einschätzen möchten, ob Ihr Prototyp produktionsreif ist, sprechen wir gerne Ihren konkreten Use-Case durch.*
