Un modèle d’action open-source et des progrès dans le raisonnement spatial des LLM

Microsoft a développé une nouvelle technique appelée “visualisation de la pensée” (VoT) qui permet aux modèles de langage de grande taille (LLM) d’acquérir des capacités de raisonnement spatial. Cela se traduit par la création d’un modèle d’action open-source capable de contrôler des interfaces utilisateur de manière intuitive. Cet article analyse les avancées de Microsoft dans ce domaine et les performances impressionnantes de cette nouvelle approche.

Points clés

  • Microsoft a publié un article de recherche sur la “visualisation de la pensée” (VoT), une technique permettant aux LLM d’acquérir des capacités de raisonnement spatial
  • VoT amène les LLM à visualiser étape par étape leur raisonnement spatial, ce qui améliore grandement leurs performances dans des tâches comme la navigation visuelle ou le remplissage de grilles
  • Microsoft a également développé un projet open-source appelé “Pi Win Assistant” qui met en pratique ces techniques de VoT pour contrôler l’environnement Windows uniquement avec des commandes vocales
  • Le modèle d’action open-source de Microsoft surpasse largement les performances des LLM traditionnels dans des tâches nécessitant du raisonnement spatial
  • VoT s’appuie sur l’émergence des capacités des LLM les plus avancés, ce qui peut limiter les performances sur des modèles moins développés

À retenir

Les travaux de Microsoft sur la “visualisation de la pensée” représentent une avancée majeure pour doter les LLM de véritables capacités de raisonnement spatial. Avec leur modèle d’action open-source, ils démontrent que cette approche peut être appliquée avec succès dans des environnements réels. Bien que ces techniques restent limitées par le niveau de développement des LLM, elles ouvrent la voie à de nouvelles applications passionnantes dans des domaines comme la robotique ou la conduite autonome.

Sources