LLMs Evaluation
AlpacaEval
Un évaluateur automatique pour les modèles de langage. Validés par des humains, de haute qualité, bon marché et rapide.
FastChat
FastChat est une plateforme collaborative pour les modèles de langage LLMs.
BigCode Eval
BigCode Evaluation Harness est un framework pour l'évaluation des modèles de langage de génération de code autorégressif.
Promptfoo
Testez vos invites, modèles et RAGs. Évaluez et comparez les LLMs, détectez les régressions et améliorez la qualité des invites.