Inférence d’un LLM open source : Cloud vs On Premise, quel choix faire ?

Inférence d’un LLM open source : Cloud ou On Premise ?

Lorsqu’il s’agit d’inférer un modèle de langage open source (LLM), les entreprises hésitent entre le déploiement sur une infrastructure interne (on premise) ou dans le cloud. Le choix dépend de plusieurs facteurs, notamment la taille du modèle et les exigences en matière de confidentialité des données.

Points clés

L’inférence d’un LLM open source sur une infrastructure interne est motivée principalement par la confidentialité des données.
Un modèle de langage de petite taille (SML), inférieur à 2 milliards de paramètres, peut être facilement exécuté on premise.
Pour inférer en interne un LLM open source digne de ce nom, une infrastructure volumineuse est nécessaire, comprenant des serveurs à large bande de type HPE Cray et des cartes GPU puissantes, comme les Nvidia H100.
Le RAG (retrieval-augmented generation) nécessite des cartes graphiques supplémentaires, telles que les A100.
Le coût d’une configuration minimale pour inférer un LLM open source de taille moyenne peut rapidement dépasser plusieurs centaines de milliers d’euros.
L’infrastructure cloud est beaucoup moins onéreuse, avec un tarif pouvant s’élever à quelques euros par heure d’utilisation.
Orange Business propose une solution intermédiaire de GPU as a Service de confiance, offrant toutes les garanties de confidentialité pour les utilisateurs concernés.

A retenir

Alors, on hésite encore entre le cloud et l’on premise pour inférer un LLM open source ? Si vous êtes prêt à investir des centaines de milliers d’euros et à attendre des mois pour obtenir les précieuses cartes H100, l’on premise est fait pour vous ! Sinon, tournez-vous vers le cloud, qui vous offrira une solution beaucoup moins coûteuse et plus rapide à mettre en place. Et pour ceux qui ont des exigences particulières en matière de confidentialité, la solution de GPU as a Service d’Orange Business pourrait bien être le compromis idéal.