Les dernières sorties de modèles de langage open source passées au crible

Ce mois d’avril 2024 a été exceptionnel pour les modèles de langage open source, avec la sortie de quatre grands modèles : Mixtral, Llama 3, Phi-3 et OpenELM. Cet article passe en revue les performances et les caractéristiques de ces nouveaux modèles, ainsi que les dernières recherches sur les méthodes d’alignement par renforcement comme PPO et DPO.

Points clés

  • Mixtral 8x22B est le dernier modèle à mélange d’experts (MoE) de Mistral AI, qui surpasse les performances de modèles plus gros comme Llama 3 8B
  • Llama 3, la dernière version du modèle de Meta AI, a été entraîné sur 15 trillions de tokens et dépasse largement les performances de Llama 2
  • Phi-3 de Microsoft, basé sur l’architecture Llama, surpasse Llama 3 8B malgré une taille moitié moindre grâce à un jeu de données de meilleure qualité
  • OpenELM d’Apple est une famille de modèles de petite taille (270M à 3B) conçus pour le déploiement sur mobile, avec une stratégie d’évolution de la taille des couches
  • Les études comparent les méthodes d’alignement par renforcement PPO et DPO, concluant que PPO est généralement supérieur à DPO, surtout sur les données hors-distribution

À retenir

Avec ces sorties impressionnantes de modèles de langage open source, il est clair que le domaine de l’IA progresse à un rythme effréné. Cependant, il faudra encore des efforts pour s’assurer que ces modèles soient vraiment sûrs et fiables, en particulier lorsqu’ils sont déployés dans le monde réel. Mais bon, ce n’est qu’un détail, non ? L’important est qu’on puisse tous jouer avec ces jouets high-tech !

Sources