Non classé

Modèles de vision améliorés pour le languettement grâce à des données d’entraînement synthétiques.

Publié

on

Cosyn utilise l’intelligence artificielle open source pour générer des données de formation permettant à d’autres modèles d’apprendre à interpréter des images complexes, telles que des graphiques financiers et des étiquettes de nutrition.

Alors que des systèmes propriétaires comme ChatGPT mènent la course, les chercheurs de l’Université de Pennsylvanie et de l’Allen Institute for AI ont mis au point une méthode innovante pour créer des figures scientifiques et des tableaux, permettant à des modèles open source de rivaliser avec leurs homologues fermés.

Leur ensemble de données COSYN-400K comprend plus de 400 000 images synthétiques et a montré qu’il surpassait des modèles de haute performance tels que GPT-4V.

Pour optimiser la création d’un large éventail de données, l’équipe a développé un logiciel appelé DataDreamer, qui automatise le processus de génération.

En intégrant des « personnages » pour diversifier les perspectives, Cosyn a produit des échantillons d’entraînement riches et variés.

Grâce à cette approche, les chercheurs espèrent rendre les techniques de formation visuelle accessibles tout en contournant les problèmes éthiques liés au contenu protégé.

Leur objectif final est de permettre aux modèles d’IA non seulement de comprendre des images, mais également d’interagir avec elles de manière proactive.

Leave a Reply

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Populaires

Quitter la version mobile