RouteLLM : Un cadre open-source pour un routage rentable des LLM

Un framework pour optimiser le coût et la qualité des LLM

Les auteurs présentent RouteLLM, un cadre open-source innovant pour le routage des LLM. Ils démontrent comment ce système peut réduire considérablement les coûts tout en maintenant une qualité de réponse élevée, grâce à l’utilisation de données de préférences et de techniques d’augmentation des données. Les résultats sont impressionnants, avec des économies allant jusqu’à 85% sur certains benchmarks, tout en atteignant 95% des performances du modèle le plus puissant (GPT-4).

Points clés

RouteLLM est un cadre open-source pour le routage des LLM, visant à optimiser le rapport coût/qualité
Le système route les requêtes entre deux modèles, un plus puissant et coûteux (GPT-4) et un plus faible mais moins cher (Mixtral)
Les auteurs utilisent des données de préférences humaines pour entraîner quatre types de routeurs, dont un modèle à factorisation matricielle et un classifieur causal
Sur le benchmark MT Bench, le routeur à factorisation matricielle permet d’atteindre 95% des performances de GPT-4 avec 26% seulement des appels à ce modèle, soit 48% moins cher
En augmentant les données d’entraînement avec un juge IA, les performances sont encore améliorées, le routeur à factorisation matricielle n’utilisant que 14% des appels à GPT-4 pour 95% de ses performances
Les routeurs RouteLLM se montrent également plus performants et moins coûteux que des solutions commerciales comme Martian ou Unify AI
Le cadre RouteLLM est open-source et les auteurs publient tous les modèles et jeux de données sur Hugging Face

À retenir

Les résultats impressionnants de RouteLLM démontrent tout le potentiel des techniques de routage pour optimiser l’utilisation des LLM les plus puissants. Avec des économies allant jusqu’à 85% tout en maintenant une qualité élevée, c’est une véritable aubaine pour les entreprises et développeurs qui souhaitent tirer le meilleur parti de ces modèles de langage coûteux. Reste plus qu’à espérer que cette technologie se démocratise rapidement pour que nous puissions tous en profiter !

Sources