Solutions innovantes pour l’IA en manque de données

Face à la pénurie croissante de données pour former l’intelligence artificielle, des start-up comme Gretel proposent des solutions en générant des données synthétiques. Ce phénomène, surnommé “heurter le mur des données”, pourrait survenir dès 2026, incitant les entreprises à explorer de nouvelles approches pour alimenter leurs modèles d’IA. L’article met en lumière les défis et les opportunités dans ce domaine en pleine évolution.

Points clés

  • L’IA, en particulier les grands modèles de langage, consomme des données à un rythme alarmant.
  • ChatGPT d’OpenAI a été entraîné sur environ 300 milliards de mots provenant de l’Internet public.
  • La start-up Gretel, évaluée à 350 millions de dollars, crée des données synthétiques pour aider les entreprises d’IA.
  • Anthropic, Meta, Microsoft et Google utilisent déjà des données synthétiques pour l’entraînement de leurs modèles.
  • Scale AI, valorisée à 14 milliards de dollars, fournit des données annotées par des humains à des start-up d’IA.
  • Toloka, une société basée à Amsterdam, emploie neuf millions de “tolokers” pour annoter et créer des données.
  • Nestor Maslej, chercheur à Stanford, souligne que l’efficacité des données pourrait être plus importante que leur quantité.
  • Mistral AI et OpenAI développent des modèles plus petits nécessitant moins de données.
  • Les données synthétiques peuvent exacerber les biais et entraîner des “effondrements de modèle”.
  • L’industrie de l’IA commence à se détourner des modèles massifs vers des modèles plus spécifiques et adaptés.

À retenir

Alors, si vous pensiez que l’IA allait s’arrêter de grandir à cause d’un manque de données, détrompez-vous ! Avec des start-up qui fabriquent des “fausses données” comme des petits pains, il y a de quoi s’inquiéter. Qui aurait cru que la solution à la crise des données serait de… mentir un peu ? Mais bon, tant que ça fonctionne, pourquoi pas ?

Sources