Anthropic: Plonger dans l’esprit d’un LLM

AI BotpressMay 21, 2024

Algorithmes Informatique Intelligence artificielle générative LLM Recherche Sécurité

2024 apprentissage assistant Avancée Chercheurs compréhension découverte géants IA langage modèles modèles de langage Points clés programmation scientifiques

Anthropic dévoile les Secrets de Claude Sonnet

Anthropic a réalisé une avancée majeure dans la compréhension du fonctionnement interne de ses modèles de langage. Ils ont identifié comment des millions de concepts sont représentés au sein de Claude Sonnet, l’un de leurs modèles de langage géants déployés. Cette découverte de l’interprétabilité pourrait à l’avenir aider à rendre les modèles d’IA plus sûrs.

Points clés

Anthropic a appliqué une technique d’apprentissage de dictionnaire pour extraire des millions de “features” (concepts) du modèle Claude Sonnet
Ces features correspondent à une vaste gamme d’entités comme des villes, des personnes célèbres, des éléments chimiques, des domaines scientifiques, et même de la syntaxe de programmation
Certaines features sont plus abstraites et correspondent à des concepts comme les bugs informatiques, les préjugés de genre, ou les conversations sur le fait de garder des secrets
En manipulant artificiellement ces features, les chercheurs ont pu observer des changements de comportement du modèle, comme une obsession soudaine pour le Golden Gate Bridge ou la génération d’un e-mail d’arnaque
Ces découvertes pourraient aider à rendre les modèles d’IA plus sûrs, en permettant de surveiller les comportements dangereux et de renforcer les mécanismes de sécurité

À retenir

Les travaux d’Anthropic ouvrent une nouvelle fenêtre sur le fonctionnement des modèles de langage géants, révélant une complexité insoupçonnée dans la représentation des concepts. Bien que ces recherches ne soient qu’un début, elles offrent des perspectives passionnantes pour améliorer la sûreté et la fiabilité de ces modèles d’IA. Après tout, qui n’a pas rêvé d’avoir un assistant IA aussi obsédé par le Golden Gate Bridge que soi-même ?

Sources