Non classé
La méthode forme sur des modèles d’IA génératifs pour identifier des objets sur mesure.
Les modèles actuels, comme les modèles de langage visuel (VLM), réussissent bien à reconnaître des objets généraux mais peinent à localiser des instances précises, comme un animal de compagnie, en raison d’un manque d’apprentissage contextuel.
Des chercheurs du MIT et du MIT-IBM Watson AI Lab ont développé une méthode améliorée, utilisant des données de suivi vidéo, pour permettre aux VLM de se concentrer sur des indices contextuels au lieu de s’appuyer uniquement sur des connaissances préalablement acquises.
Cette technique a montré des améliorations significatives dans la précision de la localisation, augmentant de 12 % en moyenne.
En outre, les chercheurs ont constaté que les VLM, bien que liés à des modèles de langage, n’héritent pas toujours de leur capacité d’apprentissage contextuel.
Pour pallier cela, ils ont introduit des pseudo-noms pour éviter que les modèles reconnaissent les objets sur la base d’informations antérieures.
Leur approche a permis d’améliorer la performance des VLM dans l’identification d’objets spécifiques dans différents contextes visuels, ouvrant ainsi la voie à des applications pratiques dans des domaines tels que la robotique et la réalité augmentée.