Anthropic dévoile les Secrets de Claude Sonnet
Anthropic a réalisé une avancée majeure dans la compréhension du fonctionnement interne de ses modèles de langage. Ils ont identifié comment des millions de concepts sont représentés au sein de Claude Sonnet, l’un de leurs modèles de langage géants déployés. Cette découverte de l’interprétabilité pourrait à l’avenir aider à rendre les modèles d’IA plus sûrs.
Points clés
- Anthropic a appliqué une technique d’apprentissage de dictionnaire pour extraire des millions de “features” (concepts) du modèle Claude Sonnet
- Ces features correspondent à une vaste gamme d’entités comme des villes, des personnes célèbres, des éléments chimiques, des domaines scientifiques, et même de la syntaxe de programmation
- Certaines features sont plus abstraites et correspondent à des concepts comme les bugs informatiques, les préjugés de genre, ou les conversations sur le fait de garder des secrets
- En manipulant artificiellement ces features, les chercheurs ont pu observer des changements de comportement du modèle, comme une obsession soudaine pour le Golden Gate Bridge ou la génération d’un e-mail d’arnaque
- Ces découvertes pourraient aider à rendre les modèles d’IA plus sûrs, en permettant de surveiller les comportements dangereux et de renforcer les mécanismes de sécurité
À retenir
Les travaux d’Anthropic ouvrent une nouvelle fenêtre sur le fonctionnement des modèles de langage géants, révélant une complexité insoupçonnée dans la représentation des concepts. Bien que ces recherches ne soient qu’un début, elles offrent des perspectives passionnantes pour améliorer la sûreté et la fiabilité de ces modèles d’IA. Après tout, qui n’a pas rêvé d’avoir un assistant IA aussi obsédé par le Golden Gate Bridge que soi-même ?
Sources


