Ludwigsburg | Anteilig remote | Vollzeit

AI-Agent Quality & Ops Engineer (m/w/d)

Deine Mission

Du stellst die messbare Qualität, kontrollierte Weiterentwicklung und den zuverlässigen Betrieb unserer agentenbasierten KI-Systeme sicher. Du verantwortest die KI-spezifische Betriebsschicht: Evaluation, Qualitätsmetriken, Drift-Erkennung, kontrollierte Releases von Prompts, Modellen und Tools sowie Observability des Agentenverhaltens. Dein Erfolg zeigt sich darin, dass Qualitätsprobleme erkannt werden, bevor sie Nutzer erreichen.

Deine Aufgaben

  • Du definierst und pflegst Qualitätskriterien für agentenbasierte Workflows – von fachlicher Korrektheit über Compliance-Konformität bis hin zu UX-Vertrauenssignalen wie Stabilität und Nachvollziehbarkeit.
  • Du baust und betreibst Evaluationssuiten inklusive Golden Test Cases, Replay-basierter Evaluationen aus Produktionstraces und Failure-Scenario-Testing.
  • Du verantwortest das Lifecycle-Management von Prompts, Modellen und Agent Tools – mit klarer Versionierung, Regression Protection und kontrollierten Rollouts.
  • Du betreibst Agent-Observability mit Langfuse und überwachst Traces, Tool-Usage-Patterns, Latenzverteilungen und Kosten pro Workflow.
  • Du implementierst Anomaly Detection für Qualitätsdegradierung, Kosten-/Token-Anomalien und unerwartete Eskalationsmuster.
  • Du definierst KI-spezifische Release-Readiness-Kriterien und unterstützt Release-Entscheidungen mit Qualitäts-, Regressions- und Kostensignalen.
  • Du nutzt KI-gestützte Entwicklungsworkflows (z.B. AI Coding Agents, automatisierte Testgenerierung, Analyse-Assistenten) als festen Bestandteil deiner täglichen Arbeit.
  • Du unterstützt die Einhaltung von DSGVO, EU AI Act und interner AI Governance aus der Perspektive des KI-Verhaltens.

Damit begeisterst du uns

  • Du hast einen soliden Software-Engineering-Hintergrund mit Erfahrung in der Qualitätssicherung nicht-deterministischer Systeme.
  • Du bringst Erfahrung in der Gestaltung von Evaluationsstrategien für LLM- oder agentenbasierte Workflows mit – inklusive Regression Detection über Prompt-/Modellversionen hinweg.
  • Du arbeitest routiniert mit Kotlin/Java in JVM-Systemen und nutzt Python für Evaluation und Analyse.
  • Du hast Erfahrung mit Observability-Tools (idealerweise Langfuse) und kannst Signale auswerten, um KI-Verhalten zu beurteilen.
  • Du denkst metrisch und strukturiert, erkennst Drift- und Anomalie-Muster und kommunizierst Qualitätsrisiken klar an verschiedene Stakeholder.
  • Du bist bereit, dich in die Fachdomäne Tax & Accounting einzuarbeiten und auf Detailebene mit Fachexperten zu interagieren.
  • Du sprichst hervorragend Deutsch und gut Englisch.