Mamba, un modèle d’état-espace prometteur pour l’amélioration de la parole
Cette étude explore l’utilisation de Mamba, un modèle d’état-espace novateur intégrant un mécanisme de sélection, pour relever le défi de l’amélioration de la parole (SE). Des investigations approfondies impliquant des schémas neuronaux SE de base et avancés, ainsi que l’utilisation de fonctions objectif axées sur le signal et la métrique, ont été menées. Les résultats expérimentaux montrent que Mamba présente un potentiel significatif pour faire progresser les performances de SE. En fait, sur le jeu de données VoiceBank-DEMAND, SEMamba avec PCS a atteint un score PESQ record de 3,69, établissant un nouvel état de l’art.
Points clés
- Cette étude explore l’utilisation du modèle d’état-espace Mamba pour l’amélioration de la parole (SE)
- Mamba intègre un mécanisme de sélection qui permet de modéliser efficacement les longues dépendances
- Des architectures SE de base et avancées utilisant Mamba ont été testées et comparées à des modèles Transformer
- Mamba a démontré des performances comparables ou supérieures aux Transformer, tout en étant plus efficace en termes de calcul
- Avec l’architecture SE avancée, SEMamba a atteint un score PESQ de 3,55 sans l’utilisation de la perte de cohérence (CL)
- En combinant CL et la technique de stretching du contraste perceptuel (PCS), SEMamba a établi un nouveau record PESQ de 3,69 sur le jeu de données VoiceBank-DEMAND
- Mamba s’avère être une alternative prometteuse aux modèles Transformer pour les tâches de génération vocale
À retenir
Cette étude démontre de manière convaincante que le modèle d’état-espace Mamba peut être une alternative très performante aux modèles Transformer pour l’amélioration de la parole. Avec ses capacités de modélisation des longues dépendances et son efficacité computationnelle, Mamba a permis d’atteindre de nouveaux sommets de qualité audio sur le jeu de données VoiceBank-DEMAND. Bien sûr, il reste encore du travail à faire pour optimiser davantage les performances, mais il est clair que Mamba est une piste à ne pas négliger pour les futurs systèmes d’amélioration de la parole. Après tout, qui a besoin d’un Transformer quand on peut avoir un Mamba ?
Sources


