Vers une approche éthique et ouverte du développement de l’IA
Cet article explore les efforts de Pierre-Carl Langlais, chercheur en humanités numériques et co-fondateur de la startup française Pleias, pour construire un jeu de données publiques appelé “Common Corpus” afin de former des modèles de langage ouverts et éthiques. Il met en lumière les enjeux liés à l’utilisation de données issues du web dans le développement de l’IA, ainsi que l’importance de la phase de “fine-tuning” pour adapter ces modèles aux besoins spécifiques des communautés. L’objectif est de démocratiser l’innovation dans le domaine de l’IA en s’appuyant sur des communs de données solides et diversifiés.
Points clés
- Pierre-Carl Langlais, chercheur et co-fondateur de Pleias, plaide pour une approche du développement de l’IA en tant que “bien commun”
- Il a lancé le projet “Common Corpus”, un jeu de données publiques de 180 milliards de mots en plusieurs langues, pour former des modèles de langage ouverts
- Le projet implique de nombreux acteurs, du ministère de la Culture français aux chercheurs en patrimoine numérique
- L’objectif est de démocratiser l’accès à des jeux de données de qualité pour l’entraînement des modèles de langage
- Le “fine-tuning” est essentiel pour adapter ces modèles généraux aux besoins spécifiques des communautés
- Des exemples comme Albert, un agent conversationnel français, illustrent cette approche communautaire de l’IA
À retenir
Avec l’initiative de Common Corpus, Pierre-Carl Langlais montre qu’il est possible de développer l’IA de manière éthique et ouverte, en s’appuyant sur des communs de données diversifiés et en impliquant activement les communautés dans l’adaptation des modèles à leurs besoins. C’est une approche ambitieuse mais nécessaire pour s’assurer que l’IA serve réellement l’intérêt général et non les seuls intérêts économiques des plus puissants.
Sources