L’IA générative, un atout pour l’analyse de données
Cette étude de recherche vise à appliquer les modèles de langage de grande taille (LLM) pour relever les défis de la science des données, tels que la classification, la régression et l’imputation des valeurs manquantes dans les données tabulaires. Malgré leur maîtrise du traitement du langage naturel, les LLM font face à des limites dans le traitement des données tabulaires structurées, en raison d’un manque d’exposition à ces types de données lors de leur formation initiale. La recherche se concentre sur l’atténuation de cette lacune en compilant un corpus complet de tableaux annotés avec des instructions, puis en formant à grande échelle le modèle Llama-2 sur cet ensemble de données enrichi. Le modèle formé est ensuite évalué dans différents scénarios, démontrant des améliorations significatives par rapport aux références existantes.

Points clés

  • L’étude vise à appliquer les LLM aux tâches prédictives en science des données, telles que la classification, la régression et l’imputation des valeurs manquantes.
  • Les LLM font face à des limitations dans le traitement des données tabulaires structurées, en raison d’un manque d’exposition à ce type de données lors de leur formation initiale.
  • La recherche se concentre sur la constitution d’un corpus étendu de tableaux annotés pour former le modèle Llama-2 de manière approfondie.
  • Le modèle formé démontre des performances impressionnantes, avec des améliorations moyennes de 8,9% sur les tâches de classification et de 10,7% sur les tâches de régression, par rapport à Llama-2 non affiné.
  • Pour les tâches d’imputation des valeurs manquantes, le modèle surpasse GPT-4 de 27%.
  • Le modèle affiche également des améliorations significatives dans les scénarios d’apprentissage en très peu d’exemples (28,8%) et d’apprentissage en contexte étendu (18,8%).

A retenir

Cette étude ouvre la voie à l’utilisation des LLM pour l’analyse de données structurées, un domaine essentiel en science des données. Les résultats prometteurs démontrent le potentiel des LLM bien formés pour améliorer les capacités d’analyse et de modélisation prédictive. Les entreprises devraient envisager d’exploiter ces avancées pour accroître l’efficacité de leurs processus décisionnels.

Sources :