SmolLM : des modèles de langage petits mais puissants

Une nouvelle ère pour les modèles de langage

Le blog présente SmolLM, une famille de modèles de langage compacts et performants, avec des tailles variant de 135M à 1.7B de paramètres. Ces modèles, entraînés sur un corpus de données de haute qualité, visent à réduire les coûts d’inférence tout en améliorant la confidentialité des utilisateurs. L’article explore la curation des données, l’évaluation et l’utilisation de ces modèles innovants.

Points clés

SmolLM comprend trois tailles de modèles : 135M, 360M et 1.7B de paramètres.
Le corpus SmolLM-Corpus inclut des ensembles de données tels que Cosmopedia v2, Python-Edu et FineWeb-Edu.
Cosmopedia v2 est le plus grand ensemble de données synthétiques pour le pré-entraînement, avec plus de 30 millions de documents.
Les modèles SmolLM surpassent d’autres modèles de leur catégorie sur divers benchmarks, notamment en raisonnement de bon sens.
SmolLM-1.7B a montré des performances impressionnantes dans la génération de code Python avec un score de 24 pass@1.

À retenir

En résumé, si vous pensez que les petits modèles de langage ne peuvent pas rivaliser avec les géants, détrompez-vous ! SmolLM prouve que la taille n’est pas tout, et que même des modèles compacts peuvent offrir des performances remarquables. Alors, pourquoi ne pas les adopter ? Après tout, qui a besoin de gros modèles quand on peut avoir l’efficacité à portée de main, n’est-ce pas ?

Sources