Gradient dévoile une version améliorée du modèle Llama 3 8B
Gradient a récemment publié une version mise à jour du modèle de base Llama 3 8B, étendant sa longueur de contexte de 8 000 à plus de 1,04 million de tokens. Cela a été rendu possible grâce à l’utilisation de techniques avancées comme les embeddings de position rotatifs (RoPE) et l’approche d’entraînement progressif du “Large World Model”. Ces améliorations permettent à Llama 3 d’exploiter et d’extrapoler efficacement des contextes beaucoup plus longs que lors de son entraînement initial.
Points clés
- Gradient a étendu la longueur de contexte du modèle Llama 3 8B de 8 000 à plus de 1,04 million de tokens
- Cela a été réalisé en utilisant des techniques comme les embeddings de position rotatifs (RoPE) et l’approche d’entraînement progressif du “Large World Model”
- Ces méthodes nécessitent moins de tokens et d’étapes d’entraînement que les techniques précédentes, permettant aux LLM comme Llama d’utiliser et d’extrapoler à des contextes beaucoup plus longs
- La version précédente de Llama 3 publiée par Meta n’avait qu’un contexte de 400 000 tokens
- L’amélioration de la longueur de contexte ne doit pas compromettre les performances ou faire perdre au modèle son focus sur les informations au milieu du contexte
À retenir
L’extension de la longueur de contexte de Llama 3 à 1 million de tokens est une réalisation impressionnante qui le met sur un pied d’égalité avec des modèles comme Gemini 1.5. Cependant, il faudra veiller à ce que cette amélioration ne se fasse pas au détriment des performances ou de la capacité du modèle à rester concentré sur les informations clés. Espérons que les équipes de recherche continueront à repousser les limites des LLM tout en maintenant leur fiabilité et leur robustesse.
Sources