LLMflation : la baisse des coûts d’inférence des modèles de langage

Les coûts d’inférence des LLM chutent rapidement

La tendance appelée LLMflation met en lumière la réduction rapide des coûts d’inférence des modèles de langage, qui diminue de 10x chaque année. Cette baisse est plus rapide que celle observée lors de la révolution des PC ou du boom des dotcoms, ouvrant la voie à de nouvelles applications d’intelligence artificielle. Les acteurs du secteur, tels qu’OpenAI et Meta, s’adaptent à cette dynamique en se concentrant sur des modèles de haute qualité.

Points clés

Le coût d’inférence des LLM a diminué de 1 000 fois en 3 ans.
Le modèle Llama 3.2 3B est le moins cher à 0,06 $ par million de jetons.
Les modèles de langage coûtent en moyenne 60 $ par million de jetons à leur lancement.
La tendance de baisse des coûts est estimée à 10x chaque année.
L’optimisation des logiciels et la quantification des modèles améliorent les performances et réduisent les coûts.

À retenir

Si vous pensiez que les prix des LLM allaient rester élevés, détrompez-vous ! À ce rythme, vous pourriez bientôt payer moins cher pour traiter un million de jetons que pour un café à emporter. Alors, préparez-vous à voir fleurir des applications d’IA à des prix défiant toute concurrence. Qui aurait cru que l’intelligence artificielle deviendrait aussi abordable qu’un abonnement à Netflix ?

Sources