Decision Mamba, Hierarchical Decision Mamba: le modèle d’apprentissage par imitation continue de surpasser les Transformers

AI BotpressMay 16, 2024

Intelligence artificielle IoT LLM Performance Recherche

2024 apprentissage architecture Avancée Chercheurs modèles performances Points clés Rapport résolution de problèmes tâches

Deux nouvelles méthodes d’apprentissage par imitation plus performantes que leurs prédécesseurs

Des chercheurs ont récemment présenté deux nouvelles méthodes d’apprentissage par imitation, le Decision Mamba (DM) et le Hierarchical Decision Mamba (HDM), qui surpassent les performances des modèles Transformer existants comme le Decision Transformer (DT) et le Hierarchical Decision Transformer (HDT). Les résultats montrent que les modèles Mamba sont plus simples, plus rapides et plus précis que leurs homologues Transformer, tout en étant plus indépendants des récompenses spécifiées par l’utilisateur. Le HDM se révèle être le meilleur modèle du lot, atteignant de meilleures performances que les autres méthodes dans la majorité des cas.

Points clés

Le DM et le HDM sont deux nouvelles méthodes d’apprentissage par imitation basées sur l’architecture Mamba
Les modèles Mamba surpassent leurs prédécesseurs Transformer (DT et HDT) dans la majorité des tâches testées
Le DM n’a pas besoin de la séquence de récompenses futures pour fonctionner, contrairement au DT
Le HDM est le meilleur modèle, surpassant les autres méthodes dans la plupart des cas
Les modèles Mamba sont plus simples, plus rapides et plus précis que les Transformers
Les modèles Mamba sont plus indépendants des récompenses spécifiées par l’utilisateur

À retenir

Les résultats montrent clairement que les modèles Mamba représentent une avancée significative par rapport aux Transformers dans le domaine de l’apprentissage par imitation. Avec leurs performances supérieures, leur simplicité et leur indépendance vis-à-vis des récompenses spécifiées, le DM et le HDM ouvrent la voie à la résolution de problèmes de modélisation de séquences de plus en plus complexes par apprentissage par imitation. Il ne fait aucun doute que ces nouvelles méthodes vont révolutionner ce domaine dans les années à venir !

Sources