Intervenir sur des sujets opérationnels avec un impact direct sur la conception, l’évaluation et l’amélioration d’agents d’intelligence artificielle autonomes dans différents domaines (santé, éducation, usages quotidiens), dans le cadre de l’entraînement de modèles de langage (LLM).
Missions principales
Rédaction de grilles d’évaluation avec critères objectifs de validation des performances des agents IA
Analyse et débogage des traces d’exécution pour identifier les erreurs et schémas de défaillance
Tests de robustesse des agents face à des cas limites, injections de prompts et usages incorrects d’outils
Évaluation d’architectures logicielles modulaires de niveau production
Analyse des interactions multi-tours entre systèmes et utilisateurs
Fourniture de retours techniques détaillés pour l’entraînement des modèles de langage
Participation à des tâches techniques via une plateforme avec missions flexibles
Compétences attendues
Expérience en développement backend, automatisation IA ou intégration de systèmes complexes
Maîtrise d’au moins deux langages de programmation (Python, JavaScript, Go ou Java)
Bonne connaissance des bases de données SQL
Expérience en environnement de production réel (non simulé)
Capacité à analyser des architectures logicielles modulaires
Compréhension des systèmes multi-agents et interactions complexes
Profil recherché
Expérience en ingénierie logicielle ou intelligence artificielle
Autonomie et rigueur dans la réalisation de tâches techniques
Capacité à travailler sur des problématiques complexes de manière structurée
Connaissances appréciées en intégration d’API et outils (Supabase, Gmail, etc.)
Sensibilité aux enjeux de sécurité (fuites de données, injections de prompts, escalade de privilèges)