Évaluer la fiabilité des systèmes de questions-réponses basés sur le RAG

Ce document présente le benchmark CRAG, un ensemble de 4 409 paires de questions-réponses conçu pour évaluer les capacités des systèmes de questions-réponses (QA) basés sur la génération augmentée par la récupération (RAG). L’évaluation des solutions RAG existantes montre que, bien que l’ajout du RAG améliore la précision jusqu’à 44 %, les meilleures solutions ne répondent correctement qu’à 63 % des questions sans hallucination. CRAG révèle également des performances plus faibles pour les questions portant sur des faits à dynamique élevée, à faible popularité ou à complexité élevée, soulignant les défis à relever pour développer des systèmes QA dignes de confiance.

Points clés

  • CRAG est un benchmark de 4 409 paires de questions-réponses couvrant 5 domaines et 8 types de questions
  • Il simule la récupération d’informations à partir de diverses sources, notamment jusqu’à 50 pages HTML et des graphes de connaissances factices
  • L’évaluation utilise à la fois une évaluation humaine et une évaluation automatique basée sur des modèles
  • L’ajout du RAG n’améliore la précision des solutions QA que jusqu’à 44 %
  • Les meilleures solutions RAG de l’industrie ne répondent correctement qu’à 63 % des questions sans hallucination
  • Les performances sont plus faibles pour les questions portant sur des faits à dynamique élevée, à faible popularité ou à complexité élevée
  • CRAG vise à faire progresser la recherche sur la génération augmentée par la récupération (RAG) pour développer des systèmes QA dignes de confiance

À retenir

Le benchmark CRAG révèle que les systèmes QA actuels, même avec l’ajout du RAG, peinent encore à fournir des réponses fiables et exemptes d’hallucinations. Les défis sont particulièrement importants pour les questions portant sur des faits à dynamique élevée, à faible popularité ou à complexité élevée. Il reste donc du travail à faire pour développer des solutions QA vraiment dignes de confiance. Mais bon, avec un peu de chance, les chercheurs trouveront rapidement la solution miracle qui résoudra tous ces problèmes !

Sources

Quiz sur le document: 10 questions

Loading