Embeddings quantifiés binaires et scalaires pour une récupération plus rapide et moins coûteuse

Quantification d’embeddings pour améliorer l’évolutivité

Les embeddings sont des outils polyvalents en traitement automatique du langage naturel, mais peuvent poser des défis en termes d’évolutivité pour les cas d’utilisation en production. La quantification d’embeddings est une approche novatrice pour réduire la taille des valeurs individuelles dans l’embedding, permettant ainsi de maintenir un niveau de performance élevé tout en réduisant considérablement les coûts de calcul, de mémoire et de stockage.

Points clés

Les embeddings sont des représentations numériques d’objets complexes, tels que du texte, des images ou de l’audio, et sont utilisés dans de nombreux cas d’utilisation en traitement automatique du langage naturel.
Les embeddings peuvent être difficiles à mettre à l’échelle pour les cas d’utilisation en production, ce qui entraîne des solutions coûteuses et des temps de latence élevés.
La quantification d’embeddings est une approche novatrice pour réduire la taille des valeurs individuelles dans l’embedding, permettant ainsi de maintenir un niveau de performance élevé tout en réduisant considérablement les coûts de calcul, de mémoire et de stockage.
La quantification binaire consiste à convertir les valeurs float32 d’un embedding en valeurs binaires, ce qui permet une réduction de 32x de la mémoire et de l’espace de stockage.
La quantification scalaire (int8) consiste à convertir les valeurs float32 d’un embedding en valeurs entières, ce qui permet une réduction de 4x de la mémoire et de l’espace de stockage.
La combinaison de la quantification binaire et scalaire permet de bénéficier à la fois de la vitesse extrême des embeddings binaires et de la grande préservation des performances des embeddings scalaires avec rescoring.

À retenir

Vous cherchez à améliorer l’évolutivité de vos embeddings tout en réduisant les coûts de calcul, de mémoire et de stockage ? La quantification d’embeddings est la solution qu’il vous faut ! En convertissant les valeurs float32 de vos embeddings en valeurs binaires ou entières, vous pouvez maintenir un niveau de performance élevé tout en réduisant considérablement les coûts associés. Et en combinant la quantification binaire et scalaire, vous pouvez bénéficier à la fois de la vitesse extrême des embeddings binaires et de la grande préservation des performances des embeddings scalaires avec rescoring.

Sources :