Une méthode plus rapide et plus efficace pour prévenir les réponses toxiques des chatbots IA

Les chatbots IA comme ChatGPT peuvent être capables de générer du code informatique ou de résumer des articles de manière utile. Cependant, ils pourraient aussi fournir des instructions pour fabriquer une bombe. Pour prévenir ces problèmes de sécurité, les entreprises utilisent un processus appelé “red-teaming” qui consiste à tester le chatbot avec des prompts susceptibles de déclencher des réponses toxiques. Mais cette méthode n’est pas toujours efficace car les testeurs humains peuvent manquer certains prompts.
Des chercheurs du MIT ont développé une technique d’apprentissage automatique pour améliorer le “red-teaming”. Leur méthode consiste à entraîner un modèle de langage à générer automatiquement une grande variété de prompts susceptibles de provoquer des réponses toxiques du chatbot testé. Ce modèle est récompensé pour sa curiosité et sa capacité à trouver de nouveaux prompts innovants plutôt que de se concentrer sur les mêmes prompts toxiques.
Cette approche s’est avérée plus efficace que les méthodes manuelles ou d’autres techniques d’apprentissage automatique existantes. Elle permet de tester plus en profondeur la sécurité des chatbots IA avant leur déploiement, ce qui sera essentiel alors que ces modèles de langage se multiplient.

Points clés

  • Les chatbots IA peuvent apprendre à générer du contenu toxique ou illégal à partir des données utilisées pour les entraîner.
  • Le “red-teaming” manuel pour tester la sécurité des chatbots est long et coûteux, et ne permet pas toujours de couvrir tous les cas problématiques.
  • Les chercheurs du MIT ont développé une méthode d’apprentissage automatique pour générer automatiquement une grande diversité de prompts toxiques.
  • Cette approche “curieuse” surpasse les autres techniques d’automatisation du “red-teaming” en termes de toxicité et de diversité des réponses générées.
  • Elle permet de tester plus en profondeur la sécurité des chatbots IA avant leur déploiement, ce qui sera essentiel à l’avenir.

A retenir

Les entreprises devraient envisager d’utiliser des méthodes d’apprentissage automatique avancées comme celle développée par le MIT pour tester plus efficacement la sécurité de leurs chatbots IA avant de les rendre publics. Cela permettra de s’assurer que ces modèles de langage ne génèrent pas de contenu toxique ou illégal.

Sources :