Non classé
Un nouveau défi de codage en IA publie ses premiers résultats – et ce n’est pas très encourageant.
Un nouveau défi de codage IA, le prix K, a été lancé par le Laude Institute, avec son premier gagnant, Eduardo Rocha de Andrade, un ingénieur brésilien ayant obtenu un score de réussite de seulement 7,5 % aux questions.
Ce défi vise à établir des barèmes rigoureux pour évaluer la performance des modèles d’IA en programmation, contrastant avec le système SWE-Bench qui présente des scores beaucoup plus élevés.
L’organisateur, Andy Konwinski, a mis en lumière le besoin de références difficiles et a promis un million de dollars au premier modèle open source atteignant un score supérieur à 90 %.
Le prix K, conçu comme une version sans contamination de SWE-Bench, utilise des problèmes de GitHub signalés après une date limite pour éviter l’apprentissage ciblé.
Les critiques soulignent l’importance de ces nouveaux repères pour évaluer l’IA, avec des opinions partagées sur les causes de la disparité de scores.
Konwinski insiste sur le fait que la difficulté de ce défi sert de rappel sur l’état actuel des capacités d’IA, incitant ainsi l’industrie à relever le défi et à repenser les attentes vis-à-vis des performances des modèles.