Llama 3 atteint désormais 1 million de tokens de contexte sur Hugging Face

Gradient dévoile une version améliorée du modèle Llama 3 8B

Gradient a récemment publié une version mise à jour du modèle de base Llama 3 8B, étendant sa longueur de contexte de 8 000 à plus de 1,04 million de tokens. Cela a été rendu possible grâce à l’utilisation de techniques avancées comme les embeddings de position rotatifs (RoPE) et l’approche d’entraînement progressif du “Large World Model”. Ces améliorations permettent à Llama 3 d’exploiter et d’extrapoler efficacement des contextes beaucoup plus longs que lors de son entraînement initial.

Points clés

Gradient a étendu la longueur de contexte du modèle Llama 3 8B de 8 000 à plus de 1,04 million de tokens
Cela a été réalisé en utilisant des techniques comme les embeddings de position rotatifs (RoPE) et l’approche d’entraînement progressif du “Large World Model”
Ces méthodes nécessitent moins de tokens et d’étapes d’entraînement que les techniques précédentes, permettant aux LLM comme Llama d’utiliser et d’extrapoler à des contextes beaucoup plus longs
La version précédente de Llama 3 publiée par Meta n’avait qu’un contexte de 400 000 tokens
L’amélioration de la longueur de contexte ne doit pas compromettre les performances ou faire perdre au modèle son focus sur les informations au milieu du contexte

À retenir

L’extension de la longueur de contexte de Llama 3 à 1 million de tokens est une réalisation impressionnante qui le met sur un pied d’égalité avec des modèles comme Gemini 1.5. Cependant, il faudra veiller à ce que cette amélioration ne se fasse pas au détriment des performances ou de la capacité du modèle à rester concentré sur les informations clés. Espérons que les équipes de recherche continueront à repousser les limites des LLM tout en maintenant leur fiabilité et leur robustesse.

Sources