Comment configurer votre infrastructure pour entraîner et déployer des LLM

Des configurations matérielles spécifiques selon les cas d’usage

Cet article analyse les différentes configurations matérielles nécessaires pour l’entraînement et l’inférence des Large Language Models (LLM). Il détaille les étapes clés du processus, de l’entraînement non supervisé à l’apprentissage par renforcement, et met en avant les ressources de calcul colossales requises. Il explore également les solutions comme le transfert learning et les techniques comme LoRA pour optimiser les coûts. Enfin, l’article aborde les considérations à prendre en compte pour le déploiement en production en fonction du nombre d’utilisateurs.

Points clés

L’entraînement d’un LLM de 40 à 100 milliards de paramètres nécessite l’utilisation d’une centaine de GPU H100 pendant un mois, représentant un coût potentiel d’un million d’euros
Le réentraînement complet d’un LLM sur un nouveau langage de programmation peut également coûter plusieurs centaines de milliers d’euros
Le transfert learning et les techniques comme LoRA permettent de réduire les coûts d’entraînement en ne modifiant que partiellement les modèles pré-entraînés
Pour l’inférence, il faut prévoir au minimum deux GPU H100 avec 80 Go de RAM chacun, ainsi que des GPU moins puissants pour le RAG
Le nombre de GPU nécessaires pour l’inférence dépend fortement du nombre d’utilisateurs de l’application, avec environ 4 cartes H100 pour 400 utilisateurs simultanés

À retenir

Avec les ressources colossales nécessaires pour entraîner et déployer des LLM, il est clair que seules les plus grandes entreprises et les acteurs les mieux financés pourront se le permettre à l’heure actuelle. Cependant, les progrès constants en matière d’optimisation des modèles et de réduction des coûts de calcul laissent espérer une démocratisation prochaine de cette technologie révolutionnaire.

Sources

Quelle configuration choisir, de l’entraînement à l’inférence des LLM