Common Corpus : la plus grande collection de données de domaine public pour l’entraînement des LLM

Lancement du Common Corpus, une collection révolutionnaire pour l’entraînement des LLM

Pierre-Carl Langlais, Anastasia Stasenko et le professeur Ivan Yamshchikov ont annoncé le lancement du Common Corpus, la plus grande collection de données de domaine public jamais publiée pour l’entraînement des LLM (Large Language Models). Cette initiative internationale vise à améliorer l’accessibilité, la reproductibilité et les normes éthiques des LLM.

Points clés

Le Common Corpus est la plus grande collection de données de domaine public pour l’entraînement des LLM, avec 500 milliards de mots.
Il est issu d’une collaboration internationale, coordonnée par Pleias et impliquant des acteurs clés dans l’entraînement des LLM, l’éthique de l’IA et le patrimoine culturel.
Le corpus est multilingue, couvrant l’anglais, le français, le néerlandais, l’espagnol, l’allemand et l’italien.
L’initiative est soutenue par des organisations majeures engagées dans une approche open science de l’IA, telles que Hugging Face, Occiglot, EleutherAI, Nomic AI et OpenLLM France.
Le Common Corpus vise à démocratiser l’innovation des LLM et à garantir un avenir plus diversifié et équitable pour la formation et le déploiement des modèles.

À retenir

Le Common Corpus est une avancée majeure dans le domaine des LLM, offrant une alternative ouverte et transparente aux corpus privés détenus par de grandes entreprises. Cette initiative encourage la collaboration et l’échange de connaissances, contribuant ainsi à un avenir plus équitable et diversifié pour l’IA.