Des configurations matérielles spécifiques selon les cas d’usage

Cet article analyse les différentes configurations matérielles nécessaires pour l’entraînement et l’inférence des Large Language Models (LLM). Il détaille les étapes clés du processus, de l’entraînement non supervisé à l’apprentissage par renforcement, et met en avant les ressources de calcul colossales requises. Il explore également les solutions comme le transfert learning et les techniques comme LoRA pour optimiser les coûts. Enfin, l’article aborde les considérations à prendre en compte pour le déploiement en production en fonction du nombre d’utilisateurs.

Points clés

  • L’entraînement d’un LLM de 40 à 100 milliards de paramètres nécessite l’utilisation d’une centaine de GPU H100 pendant un mois, représentant un coût potentiel d’un million d’euros
  • Le réentraînement complet d’un LLM sur un nouveau langage de programmation peut également coûter plusieurs centaines de milliers d’euros
  • Le transfert learning et les techniques comme LoRA permettent de réduire les coûts d’entraînement en ne modifiant que partiellement les modèles pré-entraînés
  • Pour l’inférence, il faut prévoir au minimum deux GPU H100 avec 80 Go de RAM chacun, ainsi que des GPU moins puissants pour le RAG
  • Le nombre de GPU nécessaires pour l’inférence dépend fortement du nombre d’utilisateurs de l’application, avec environ 4 cartes H100 pour 400 utilisateurs simultanés

À retenir

Avec les ressources colossales nécessaires pour entraîner et déployer des LLM, il est clair que seules les plus grandes entreprises et les acteurs les mieux financés pourront se le permettre à l’heure actuelle. Cependant, les progrès constants en matière d’optimisation des modèles et de réduction des coûts de calcul laissent espérer une démocratisation prochaine de cette technologie révolutionnaire.

Sources

Quelle configuration choisir, de l’entraînement à l’inférence des LLM