Un modèle de langage open source pour évaluer les autres modèles de langage
Cet article présente PROMETHEUS 2, un modèle de langage évaluateur open source plus puissant que son prédécesseur. PROMETHEUS 2 se rapproche étroitement des jugements humains et des modèles de langage propriétaires comme GPT-4, tout en étant capable de traiter les formats d’évaluation directe et de classement par paires, associés à des critères d’évaluation définis par l’utilisateur. Les auteurs montrent que la fusion des poids de modèles entraînés sur différents formats d’évaluation permet d’obtenir un modèle de langage évaluateur unifié performant.
Points clés
- PROMETHEUS 2 est un modèle de langage évaluateur open source plus puissant que son prédécesseur
- PROMETHEUS 2 se rapproche étroitement des jugements humains et des modèles de langage propriétaires comme GPT-4
- PROMETHEUS 2 peut traiter les formats d’évaluation directe et de classement par paires
- PROMETHEUS 2 peut évaluer selon des critères d’évaluation définis par l’utilisateur
- La fusion des poids de modèles entraînés sur différents formats d’évaluation permet d’obtenir un modèle de langage évaluateur unifié performant
- Les auteurs ont développé un nouvel ensemble de données de retour d’information de classement par paires appelé la PREFERENCE COLLECTION
À retenir
Avec PROMETHEUS 2, les chercheurs ont réussi à développer un modèle de langage évaluateur open source qui rivalise avec les modèles propriétaires tout en offrant une grande flexibilité. La fusion des poids s’avère être une approche efficace pour obtenir un modèle unifié capable de s’adapter à différents formats d’évaluation. Désormais, les équipes de recherche disposent d’un outil open source puissant et polyvalent pour évaluer la qualité des sorties des modèles de langage, sans avoir à dépendre de solutions propriétaires opaques. Bravo les gars, vous avez fait du beau travail !
Sources


