Contribuer à l’évaluation et à l’amélioration de systèmes d’IA autonomes et de modèles de langage avancés à travers des analyses techniques, des tests et des retours experts sur des workflows complexes.
Missions principales
Évaluation d’agents IA et analyse de leurs comportements sur différents scénarios
Rédaction de critères d’évaluation avec des indicateurs objectifs de validation
Analyse et débogage des traces d’exécution afin d’identifier les défaillances
Tests de robustesse face aux cas limites, injections de prompts et mauvais usages des outils
Évaluation d’architectures logicielles modulaires en environnement de production
Analyse des interactions multi-turn et des comportements systèmes
Production de retours techniques détaillés pour l’entraînement de modèles LLM
Participation au processus d’onboarding et aux missions attribuées à distance
Compétences attendues
Expérience en développement backend, automatisation IA ou intégration de systèmes complexes
Bonne maîtrise d’au moins deux langages parmi Python, JavaScript, Go ou Java
Expérience avec les bases de données SQL
Capacité à travailler sur des environnements réels de production
Compréhension des architectures logicielles modulaires
Connaissance des interactions multi-turn et des workflows complexes
Une expérience avec Supabase, Gmail API ou d’autres APIs est un plus
Connaissance des problématiques de sécurité liées aux IA : privacy leaks, prompt injection, escalation de privilèges
Profil recherché
Expérience confirmée sur des projets techniques complexes ou systèmes IA
Capacité d’analyse, rigueur et autonomie
Aisance dans l’évaluation de systèmes logiciels en environnement dynamique
Bonne capacité à produire des retours techniques structurés
Capacité à travailler efficacement à distance