Entreprise
Le plus vaste ensemble de données multimodal open source au monde permet une efficacité de formation 17 fois supérieure, libérant ainsi le potentiel de l’IA d’entreprise reliant documents, audio et vidéo.
Ces données nécessitent une étiquetage et une organisation appropriés pour être efficaces.
Le lancement de l’ensemble de données EMM-1 marque une avancée significative, offrant 1 milliard de paires de données et 100 millions de groupes dans cinq modalités : texte, image, vidéo, audio et nuages de points 3D.
En intégrant différents types de données, ces ensembles permettent aux modèles d’IA de mieux comprendre les relations entre elles, offrant ainsi des inférences plus riches, semblables à la perception humaine.
Développé par Encord, EMM-1 utilise la méthodologie de formation EBind, qui privilégie la qualité des données à l’échelle de calcul brute.
Cette approche a permis à un modèle de 1,8 milliard de paramètres d’égaler les performances de modèles beaucoup plus grands tout en diminuant le temps d’entraînement.
Les ensembles de données multimodaux comme EMM-1 ouvrent la voie à des cas d’utilisation variés dans le secteur.
En combinant différents types de données, les entreprises peuvent extraire des informations pertinentes présentes dans divers silos d’information.
Par exemple, dans le domaine juridique, un avocat pourrait rassembler des preuves audio et vidéo dispersées pour créer des dossiers complets.
Captur AI, un client d’Encord, illustre cette application en vérifiant l’authenticité des images sur des appareils mobiles.
En ajoutant un contexte audio, l’entreprise vise à améliorer la précision des évaluations dans des domaines tels que l’assurance.
En fin de compte, le succès des modèles d’IA pourrait dépendre davantage de la qualité des données que des capacités techniques des infrastructures, marquant un tournant stratégique dans le développement de l’IA.