Common Corpus : le plus grand ensemble de données multilingue pour l’apprentissage automatique

Un trésor de textes pour l’IA et la recherche

Le Common Corpus est une collection massive de textes, comprenant plus de 2 trillions de tokens, qui offre une grande diversité de contenu, allant des livres aux articles scientifiques. Ce corpus, accessible sous des licences permissives, est conçu pour soutenir la recherche en intelligence artificielle et l’apprentissage automatique, tout en garantissant une qualité et une éthique élevées. Il s’agit d’une ressource précieuse pour les chercheurs et les développeurs cherchant à entraîner des modèles linguistiques.

Points clés

Le Common Corpus contient plus de 2 trillions de tokens, ce qui en fait l’un des plus grands ensembles de données textuelles au monde.
Il est composé de cinq collections : OpenCulture, OpenGovernment, OpenSource, OpenScience et OpenWeb.
Le corpus est multilingue, principalement en anglais et en français, mais inclut également des données dans d’autres langues.
Tous les textes sont sous licences permissives, permettant une utilisation commerciale et non commerciale.
Le corpus a été conçu avec un fort accent sur la qualité, ayant éliminé les contenus toxiques et biaisés.

À retenir

Si vous êtes en quête d’une bibliothèque textuelle pour vos projets d’IA, le Common Corpus est votre meilleur ami. Avec ses milliards de mots soigneusement sélectionnés, il vous évitera de plonger dans les profondeurs du web à la recherche de contenu. Après tout, qui a besoin de chercher quand on peut avoir tout ça à portée de clic ?

Sources