Allocation dynamique de compute dans les modèles de langage basés sur les Transformers
Dans cette étude, les auteurs présentent les Transformers Mixture-of-Depths (MoD), une méthode permettant aux Transformers d’allouer dynamiquement des FLOPs (ou compute) à des positions spécifiques dans une séquence, optimisant ainsi l’allocation le long de la séquence pour différentes couches à travers la profondeur du modèle. Cette méthode impose un budget de compute total en limitant le nombre de jetons (k) pouvant participer aux calculs d’auto-attention et de MLP dans une couche donnée. Les jetons à traiter sont déterminés par le réseau à l’aide d’un mécanisme de routage top-k.
Points clés
- Les Transformers Mixture-of-Depths (MoD) permettent aux modèles d’apprendre à allouer dynamiquement du compute aux positions les plus pertinentes dans une séquence.
- La méthode MoD utilise un mécanisme de routage top-k pour déterminer les jetons à traiter, garantissant ainsi un budget de compute total fixe.
- Les modèles MoD peuvent être jusqu’à 50 % plus rapides lors de l’échantillonnage post-entraînement, tout en nécessitant une fraction des FLOPs par passe avant.
- Les Transformers Mixture-of-Depths peuvent être combinés avec des experts Mixture-of-Experts (MoE) pour former des modèles MoDE, améliorant ainsi les performances.
A retenir
Les Transformers Mixture-of-Depths offrent une approche innovante pour optimiser l’allocation de compute dans les modèles de langage basés sur les Transformers, permettant ainsi d’améliorer l’efficacité et la vitesse de traitement. La combinaison de MoD avec d’autres techniques telles que Mixture-of-Experts (MoE) peut encore renforcer les performances.