L’IA sera-t-elle à court de données ?

Cette étude explore les défis et les possibilités en matière de mise à l’échelle des systèmes d’apprentissage automatique, en particulier à la lumière de la nature limitée des données textuelles humaines publiques. Les résultats indiquent que si les tendances actuelles se poursuivent, les modèles d’IA épuiseront le stock disponible de données textuelles humaines publiques entre 2026 et 2032. Cependant, l’apprentissage par transfert et la génération de données synthétiques sont identifiés comme des pistes prometteuses pour permettre la poursuite du développement des systèmes d’IA au-delà de cette contrainte.

Points clés

  • Les progrès récents en modélisation linguistique se sont fortement appuyés sur l’entraînement non supervisé sur de grandes quantités de texte généré par l’homme
  • Les plus grands ensembles de données textuelles publiques contiennent des milliers de milliards de mots collectés à partir de milliards de pages web
  • L’étude prévoit que les modèles d’IA utiliseront la totalité de ces données textuelles humaines publiques entre 2026 et 2032
  • Au-delà, la disponibilité des données textuelles humaines publiques risque de devenir un facteur limitant pour la poursuite de la mise à l’échelle des modèles de langage
  • L’apprentissage par transfert et la génération de données synthétiques sont identifiés comme des solutions potentielles pour surmonter ce goulot d’étranglement
  • L’étude souligne la nécessité de poursuivre les recherches pour quantifier les gains de performance de ces méthodes alternatives

À retenir

Cette étude soulève un défi de taille pour l’IA : l’épuisement imminent des données textuelles humaines publiques, qui ont jusqu’à présent alimenté les progrès des modèles de langage. Heureusement, des pistes prometteuses comme l’apprentissage par transfert et la génération de données synthétiques semblent pouvoir permettre à l’IA de continuer à évoluer malgré cette contrainte. Reste à espérer que les chercheurs sauront relever ce défi avec succès dans les années à venir !

Sources