Stable Diffusion XL Fine Tuning sur Salad

Un service de fine tuning de Stable Diffusion XL à faible coût

Cet article détaille la mise en place d’une plateforme de fine tuning de Stable Diffusion XL (SDXL) à faible coût, développée par Shawn Rushefsky sur la plateforme SaladCloud. Grâce à l’utilisation de technologies serverless et d’un système d’orchestration et d’autoscaling personnalisé, le coût moyen par étape d’entraînement n’est que de 0,00023918 $, avec un temps d’entraînement médian de 53,82 minutes. L’article présente également les défis techniques relevés et les améliorations futures envisagées pour optimiser davantage cette solution de fine tuning de Stable Diffusion.

Points clés

Mise en place d’une plateforme de fine tuning de Stable Diffusion XL (SDXL) sur la plateforme distribuée SaladCloud
Utilisation de technologies serverless (Cloudflare Workers, D1, R2, KV) pour réduire les coûts opérationnels
Développement d’un système d’orchestration et d’autoscaling personnalisé pour gérer les interruptions de nœuds et la capacité limitée
Coût moyen par étape d’entraînement de 0,00023918 $, avec un minimum de 0,00016179 $
Temps d’entraînement médian de 53,82 minutes pour 1000 jobs complétés avec succès
90,1% des jobs réalisés sur un seul nœud sans interruption, 9% nécessitant 2 nœuds et 0,9% 3 nœuds ou plus
Importance du fine tuning du text encoder pour de meilleurs résultats
Pistes d’amélioration identifiées, comme l’inférence asynchrone pour la validation

À retenir

Cette expérience de fine tuning de Stable Diffusion XL sur une infrastructure distribuée et interruptible démontre la faisabilité et l’efficacité d’une telle approche, malgré les défis techniques importants. Grâce à l’utilisation de technologies serverless et d’un système d’orchestration personnalisé, les coûts d’entraînement peuvent être réduits de manière significative, ouvrant la voie à des services accessibles pour les particuliers comme les entreprises. Avec quelques améliorations supplémentaires, cette plateforme pourrait devenir un outil puissant et rentable pour l’expérimentation et le développement de modèles d’IA génératives.

Sources