Une ressource précieuse pour l’entraînement des modèles de langage

Pleias, une entreprise spécialisée dans l’IA, vient d’annoncer la mise à disposition d’un corpus massif de 2 millions de vidéos YouTube sous licence Creative Commons. Cette ressource, nommée “YouTube-Commons”, comprend les transcriptions textuelles de ces vidéos dans de nombreuses langues. Elle vise à fournir aux chercheurs et développeurs de l’IA une alternative éthique et transparente aux pratiques actuelles d’utilisation de contenus protégés par le droit d’auteur pour l’entraînement des modèles de langage.

Points clés

  • Pleias a publié un corpus de 2 millions de vidéos YouTube sous licence Creative Commons
  • Ce corpus, appelé “YouTube-Commons”, contient les transcriptions textuelles des vidéos dans plusieurs langues
  • L’objectif est de proposer une ressource ouverte et transparente pour l’entraînement des modèles de langage
  • Actuellement, de nombreux modèles de langage sont entraînés sur des contenus YouTube protégés par le droit d’auteur
  • Pleias souhaite contribuer à la définition de bonnes pratiques en matière d’utilisation de licences libres pour l’IA
  • Le corpus a été constitué avec le soutien de l’État français, via la start-up LANGU:IA
  • Pleias prévoit d’étendre le corpus à d’autres sources de contenus sous licence libre

À retenir

Cette annonce de Pleias est une excellente nouvelle pour le développement éthique et transparent de l’intelligence artificielle. En mettant à disposition un vaste corpus de contenus libres de droits, l’entreprise ouvre la voie à une nouvelle ère dans l’entraînement des modèles de langage. Fini les pratiques douteuses d’utilisation de contenus protégés, place à une approche ouverte et responsable ! Espérons que d’autres acteurs de l’IA suivront cet exemple et contribueront à faire émerger une IA plus respectueuse des créateurs.

Sources

Big announcement: pleias releases a massive open corpus of 2 million Youtube videos in Creative Commons (CC-By) on Hugging Face