Une nouvelle ère pour les modèles de langage

Le blog présente SmolLM, une famille de modèles de langage compacts et performants, avec des tailles variant de 135M à 1.7B de paramètres. Ces modèles, entraînés sur un corpus de données de haute qualité, visent à réduire les coûts d’inférence tout en améliorant la confidentialité des utilisateurs. L’article explore la curation des données, l’évaluation et l’utilisation de ces modèles innovants.

Points clés

  • SmolLM comprend trois tailles de modèles : 135M, 360M et 1.7B de paramètres.
  • Le corpus SmolLM-Corpus inclut des ensembles de données tels que Cosmopedia v2, Python-Edu et FineWeb-Edu.
  • Cosmopedia v2 est le plus grand ensemble de données synthétiques pour le pré-entraînement, avec plus de 30 millions de documents.
  • Les modèles SmolLM surpassent d’autres modèles de leur catégorie sur divers benchmarks, notamment en raisonnement de bon sens.
  • SmolLM-1.7B a montré des performances impressionnantes dans la génération de code Python avec un score de 24 pass@1.

À retenir

En résumé, si vous pensez que les petits modèles de langage ne peuvent pas rivaliser avec les géants, détrompez-vous ! SmolLM prouve que la taille n’est pas tout, et que même des modèles compacts peuvent offrir des performances remarquables. Alors, pourquoi ne pas les adopter ? Après tout, qui a besoin de gros modèles quand on peut avoir l’efficacité à portée de main, n’est-ce pas ?

Sources