Un framework pour optimiser le coût et la qualité des LLM
Les auteurs présentent RouteLLM, un cadre open-source innovant pour le routage des LLM. Ils démontrent comment ce système peut réduire considérablement les coûts tout en maintenant une qualité de réponse élevée, grâce à l’utilisation de données de préférences et de techniques d’augmentation des données. Les résultats sont impressionnants, avec des économies allant jusqu’à 85% sur certains benchmarks, tout en atteignant 95% des performances du modèle le plus puissant (GPT-4).
Points clés
- RouteLLM est un cadre open-source pour le routage des LLM, visant à optimiser le rapport coût/qualité
- Le système route les requêtes entre deux modèles, un plus puissant et coûteux (GPT-4) et un plus faible mais moins cher (Mixtral)
- Les auteurs utilisent des données de préférences humaines pour entraîner quatre types de routeurs, dont un modèle à factorisation matricielle et un classifieur causal
- Sur le benchmark MT Bench, le routeur à factorisation matricielle permet d’atteindre 95% des performances de GPT-4 avec 26% seulement des appels à ce modèle, soit 48% moins cher
- En augmentant les données d’entraînement avec un juge IA, les performances sont encore améliorées, le routeur à factorisation matricielle n’utilisant que 14% des appels à GPT-4 pour 95% de ses performances
- Les routeurs RouteLLM se montrent également plus performants et moins coûteux que des solutions commerciales comme Martian ou Unify AI
- Le cadre RouteLLM est open-source et les auteurs publient tous les modèles et jeux de données sur Hugging Face
À retenir
Les résultats impressionnants de RouteLLM démontrent tout le potentiel des techniques de routage pour optimiser l’utilisation des LLM les plus puissants. Avec des économies allant jusqu’à 85% tout en maintenant une qualité élevée, c’est une véritable aubaine pour les entreprises et développeurs qui souhaitent tirer le meilleur parti de ces modèles de langage coûteux. Reste plus qu’à espérer que cette technologie se démocratise rapidement pour que nous puissions tous en profiter !
Sources