Petits modèles de langage pour guider les grands modèles de langage dans les tâches de raisonnement

Une nouvelle étude introduit un cadre novateur, LM-Guided CoT, qui utilise un modèle de langage (LM) léger pour guider un grand modèle de langage noir (i.e., >10B) dans les tâches de raisonnement. Cette approche est efficace en ressources car elle ne nécessite que l’entraînement du modèle de langage léger.

Points clés

  • L’approche LM-Guided CoT utilise un modèle de langage léger (i.e., 10B) dans les tâches de raisonnement.
  • Le modèle de langage léger génère d’abord une justification pour chaque instance d’entrée, puis le grand modèle de langage est invité à prédire une sortie de tâche basée sur la justification générée.
  • L’approche est optimisée à l’aide de l’apprentissage par renforcement à partir de signaux de récompense orientés vers la justification et la tâche.
  • Les résultats expérimentaux montrent que l’approche surpasse toutes les méthodes de base en termes de précision de prédiction d’answer.
  • L’apprentissage par renforcement aide également le modèle à produire des justifications de meilleure qualité avec des performances améliorées en QA.

À retenir

Il semble que les petits modèles de langage puissent aider les grands modèles de langage à raisonner de manière plus efficace en les guidant dans les tâches de raisonnement. Cette approche légère et efficace en ressources pourrait ouvrir la voie à de nouvelles avancées dans le domaine de l’IA et du traitement automatique du langage naturel.

Sources :