Konzeption und Verantwortung für End-to-End-RAG-Pipelines — von der Dokumentenaufnahme und Chunking-Strategie bis zur Retrieval-Evaluierung und Antwortqualität
Bewertung, Fine-Tuning und Deployment von LLMs (OpenAI, Anthropic, Open-Source) für domänenspezifische deutschsprachige Anwendungsfälle
Architektur robuster, skalierbarer KI-Systeme unter Einhaltung von Enterprise-Anforderungen an Zuverlässigkeit und Compliance
Aufbau von Evaluierungsrahmen — automatisierte Evals, Human-in-the-Loop-Tests, Regressions-Suites — zur Sicherstellung der Produktionszuverlässigkeit
Zusammenarbeit mit Fullstack-Entwickler:innen zur Bereitstellung von KI-Funktionen über saubere APIs und intuitive Produktoberflächen
Enge Zusammenarbeit mit Unternehmenskunden: Anforderungen verstehen, in technische Lösungen übersetzen und maßgeschneiderte Ergebnisse liefern
Verfolgung aktueller GenAI-Entwicklungen und kurzfristige Übersetzung relevanter Forschung in praktische Produktverbesserungen
Qualifikation
Was wir suchen
Technische Anforderungen
5+ Jahre Softwareentwicklungserfahrung, davon mindestens 2 Jahre in angewandter KI/ML in Produktionsumgebungen
Tiefe Python-Kenntnisse — du schreibst sauberen, testbaren, produktionsreifen Code (nicht nur Notebooks)
Praktische Erfahrung mit RAG-Architekturen und Vector-Datenbanken (Pinecone, Weaviate, Qdrant o.ä.)
Fundiertes Wissen über mindestens einen großen LLM-Anbieter (OpenAI, Anthropic, Cohere) und Best Practices im Prompt Engineering
Solides Verständnis von MLOps: Modell-Versionierung, Deployment, Monitoring und graceful Degradation in der Produktion
Erfahrung mit Orchestrierungs-Frameworks wie LangChain, LlamaIndex o.ä.
Persönlichkeit & Arbeitsweise
Du überbrückst den Weg von der Forschung zur Produktion schneller als jede:r andere im Team
Gute Deutschkenntnisse (mindestens auf B2-Niveau und Bereitschaft, innerhalb von 6 Monaten C1-Niveau zu erreichen)
Sicherer Umgang mit Unklarheiten — du definierst das Problem und schlägst die Lösung vor, anstatt auf ein Spec-Dokument zu warten
Besonders willkommen
Erfahrung mit mehrsprachigen NLP-Aufgaben, insbesondere deutschsprachiger Textverarbeitung
Fine-Tuning oder RLHF-Erfahrung (LoRA, QLoRA, DPO)
Kenntnisse in Multi-Agent-Frameworks (LangGraph, CrewAI, AutoGen)
Hintergrund in Enterprise-KI-Deployments, Information Retrieval oder Wissensgraphen
Open-Source-GenAI-Projekte, technische Artikel oder Community-Beiträge (GitHub, HuggingFace, arXiv)