Recherche

« Universal Guide évalue l’impact des modèles plus petits au sein de la même famille sur les LLM »

Publié

on

Des chercheurs du MIT et du MIT-IBM Watson AI Lab ont développé un guide visant à améliorer l’estimation des performances des modèles de langage à grande échelle (LLM) en utilisant des modèles plus petits et moins coûteux.

L’entraînement de ces modèles peut coûter des millions, rendant donc crucial un choix judicieux des architectures, des optimisateurs et des ensembles de données.

Pour prédire la performance des grands modèles, ils se basent sur des lois de mise à l’échelle, qui relient la performance de modèles plus petits à celle des plus grands.

Autre nouveauté dans cette recherche, ils ont compilé une vaste base de données regroupant plus de 485 modèles issus de diverses architectures pour mieux comprendre et concevoir ces lois de mise à l’échelle.

Ce travail a révélé qu’inclure des points de contrôle de formation intermédiaire et former plusieurs modèles peut améliorer la précision des prédictions.

Les auteurs soulignent aussi que les petites lois de mise à l’échelle peuvent être utilisées efficacement pour tirer des estimations de performances des modèles cibles sans avoir à entraîner ces derniers complètement.

De plus, ils envisagent d’étoffer leur recherche pour inclure l’inférence des modèles, explorant comment ces systèmes pourraient mieux répondre aux requêtes en temps réel, en tenant compte des données et des paramètres supplémentaires.

Leave a Reply

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Populaires

Quitter la version mobile