Apple dévoile un modèle d’IA pour l’édition d’images basée sur des instructions
éditer des images en fonction d'instructions en langage naturel.
Apple a dévoilé un nouveau modèle d’IA open-source baptisé “MGIE”, conçu pour éditer des images en fonction d’instructions en langage naturel.
MGIE a été développé dans le cadre d’une collaboration entre Apple et des chercheurs de l’Université de Californie à Santa Barbara.
MGIE, abréviation de MLLM-Guided Image Editing (édition d’images guidée par MLLM), est le premier à exploiter les MLLM, des modèles d’IA robustes capables de traiter à la fois du texte et des images, pour améliorer l’édition d’images basée sur des instructions.
Les MLLM jouent un rôle crucial dans cette innovation, car ils convertissent habilement des textes simples ou ambigus en instructions précises et complètes que l’éditeur de photos peut exécuter.
Bien que les MLLM aient fait preuve d’une compréhension multimodale exceptionnelle et d’une capacité à générer des réponses visuelles, leur application à des tâches d’édition d’images est restée relativement inexploitée jusqu’à présent.
Le MGIE fait preuve d’une polyvalence remarquable, capable de répondre à un large éventail de besoins en matière d’édition, depuis les corrections de couleurs de base jusqu’aux manipulations complexes d’objets. En outre, le modèle offre la possibilité d’effectuer des modifications globales et localisées, ce qui permet d’adapter le processus d’édition aux préférences de l’utilisateur.
Lire aussi : L’autorité de régulation américaine rejette la demande d’Apple et de Disney de ne pas voter sur l’IA
MGIE utilise les MLLM dans deux domaines clés : tout d’abord, pour extraire des instructions précises à partir des données de l’utilisateur, offrant ainsi des conseils clairs et concis pour l’édition. Par exemple, une entrée telle que “améliorer le bleu du ciel” peut donner une instruction telle que “augmenter la saturation du ciel de 20%”.
Deuxièmement, MGIE utilise les MLLM pour créer une imagination visuelle qui capture l’essence de la modification souhaitée. Cette représentation guide la manipulation au niveau des pixels. MGIE utilise une approche de formation innovante de bout en bout qui optimise simultanément la dérivation des instructions, l’imagination visuelle et les modules d’édition d’images.
Le modèle a été présenté dans un article accepté à la prestigieuse International Conference on Learning Representations (ICLR) 2024, un lieu de référence pour la recherche en IA. L’article souligne l’efficacité de MGIE dans l’amélioration des mesures automatisées et de l’évaluation humaine, tout en maintenant une efficacité d’inférence compétitive.
MGIE est disponible en tant qu’initiative open-source sur GitHub, offrant aux utilisateurs l’accès à son code, à ses ensembles de données et à ses modèles pré-entraînés. En outre, le projet comprend un cahier de démonstration illustrant l’utilité de MGIE pour différentes tâches d’édition. Pour plus de commodité, les utilisateurs peuvent explorer MGIE via une démo en ligne hébergée sur Hugging Face Spaces, une plateforme collaborative pour les projets d’apprentissage machine (ML).