Un modèle compact et performant pour l’extraction d’informations structurées
L’équipe de NuMind a développé NuExtract, un modèle de langage compact et spécialisé dans l’extraction d’informations structurées à partir de textes. Comparé aux grands modèles de langage généralistes, NuExtract offre des performances similoires ou supérieures, tout en étant jusqu’à 100 fois plus léger. Ce modèle peut être utilisé en mode zéro-shot ou affiné sur des cas d’usage spécifiques pour encore améliorer ses résultats.
Points clés
- NuMind a entraîné des modèles de langage de 0,5 à 7 milliards de paramètres sur un jeu de données d’extraction structurée généré par un grand modèle de langage
- Les modèles NuExtract-tiny, NuExtract et NuExtract-large atteignent des performances similaires ou supérieures à des LLM populaires 100 fois plus volumineux
- L’extraction d’informations structurées est une tâche complexe qui va au-delà des tâches classiques de traitement du langage naturel
- Les applications clés sont le traitement de documents techniques comme les rapports médicaux ou financiers, ainsi que les conversations avec des agents conversationnels
- Le jeu de données d’entraînement a été généré automatiquement à partir de 300 000 textes du corpus C4, avec des schémas d’extraction allant jusqu’à 9 niveaux de profondeur
- NuExtract peut être utilisé en mode zéro-shot avec un simple schéma JSON, ou affiné sur des cas d’usage spécifiques pour de meilleures performances
À retenir
Avec NuExtract, NuMind propose une solution d’extraction d’informations structurées performante et accessible. Bien que les grands modèles de langage généralistes comme GPT-4 puissent également réaliser cette tâche, NuExtract offre des résultats similaires ou supérieurs, tout en étant beaucoup plus léger et abordable. Nul doute que ce modèle spécialisé trouvera de nombreuses applications dans les années à venir, de l’analyse de rapports techniques à l’enrichissement d’agents conversationnels intelligents.
Sources