Non classé
Modèles de vision améliorés pour le languettement grâce à des données d’entraînement synthétiques.
Alors que des systèmes propriétaires comme ChatGPT mènent la course, les chercheurs de l’Université de Pennsylvanie et de l’Allen Institute for AI ont mis au point une méthode innovante pour créer des figures scientifiques et des tableaux, permettant à des modèles open source de rivaliser avec leurs homologues fermés.
Leur ensemble de données COSYN-400K comprend plus de 400 000 images synthétiques et a montré qu’il surpassait des modèles de haute performance tels que GPT-4V.
Pour optimiser la création d’un large éventail de données, l’équipe a développé un logiciel appelé DataDreamer, qui automatise le processus de génération.
En intégrant des « personnages » pour diversifier les perspectives, Cosyn a produit des échantillons d’entraînement riches et variés.
Grâce à cette approche, les chercheurs espèrent rendre les techniques de formation visuelle accessibles tout en contournant les problèmes éthiques liés au contenu protégé.
Leur objectif final est de permettre aux modèles d’IA non seulement de comprendre des images, mais également d’interagir avec elles de manière proactive.