Benchmark de Kili Technology : Évaluation des Modèles de Langage Face aux Techniques de Manipulation

Analyse des vulnérabilités des LLMs en 2023

Kili Technology a publié un rapport sur l’évaluation des modèles de langage (LLMs) en utilisant des techniques de red teaming pour identifier leurs vulnérabilités face à des prompts manipulatoires. Le rapport révèle des différences significatives dans la résistance des modèles aux attaques en fonction de la langue, avec une meilleure performance contre les prompts en français par rapport à l’anglais. Les résultats soulignent la nécessité d’améliorer les mesures de sécurité des modèles pour éviter la désinformation et la manipulation.

Points clés

Kili Technology a développé un benchmark de red teaming pour évaluer les LLMs.
Les résultats montrent que les prompts en anglais ont un taux de succès plus élevé pour manipuler les modèles que ceux en français.
GPT4o a échoué contre 28,92 % des prompts adversariaux, tandis que Command R+ a échoué contre 83,82 %.
Des vulnérabilités critiques ont été identifiées dans les domaines de la manipulation, de la désinformation et des biais.
Les techniques de manipulation les plus efficaces incluent les attaques de Few/Many Shot et les attaques de Bait and Switch.

À retenir

Alors, si vous pensiez que les modèles de langage étaient infaillibles, détrompez-vous ! Avec des vulnérabilités aussi évidentes, il serait peut-être temps de leur donner un petit coup de pouce en matière de sécurité. Après tout, qui n’aime pas un bon vieux jeu de cache-cache avec la désinformation, n’est-ce pas ?

Sources