La classification d’images sans apprentissage supervisé (apprentissage zéro-shot en français) est une technique de vision par ordinateur permettant de classer des images dans différentes catégories, même si le modèle n’a jamais été spécifiquement entraîné sur ces catégories auparavant. Cela diffère de la classification d’images traditionnelle où le modèle doit être entraîné sur un large ensemble de données d’images étiquetées pour chaque catégorie.
Voici comment cela fonctionne :
- Modèle pré-entraîné massif: Un modèle important est entraîné sur un énorme ensemble de données contenant à la fois des images et leurs descriptions textuelles. Cela permet au modèle d’apprendre les relations entre les concepts visuels et leurs descriptions écrites.
- Transfert d’apprentissage: Lorsque vous avez une nouvelle image à classifier, vous fournissez au modèle l’image et une liste de catégories possibles (descriptions écrites). Le modèle compare l’image à sa compréhension interne des descriptions et attribue la catégorie la plus probable à l’image.
L’utilisation de la classification d’images sans apprentissage supervisé présente plusieurs avantages :
- Moins de données d’entraînement nécessaires: Vous n’avez pas besoin de collecter et d’étiqueter un ensemble de données massif pour chaque nouvelle catégorie que vous souhaitez classifier.
- Adaptabilité: Le modèle peut être appliqué à de nouvelles tâches de classification sans nécessiter d’être réentraîné.
Voici quelques exemples d’utilisation de la classification d’images sans apprentissage supervisé :
- Identification d’objets dans les images: Classification d’images contenant un chat, un chien ou un cheval.
- Classification de scènes: Reconnaissance d’une plage, d’une forêt ou d’une rue de ville sur une image.
- Recherche d’images: Recherche d’images en fonction de descriptions textuelles.
Si vous souhaitez en savoir plus sur la classification d’images sans apprentissage supervisé, voici quelques ressources à consulter :
- Un article de blog expliquant la classification sans apprentissage supervisé avec un exemple utilisant CLIP : https://blog.roboflow.com/zero-shot-object-tracking/ (en anglais)
- Un guide sur la classification d’images sans apprentissage supervisé de Hugging Face : https://huggingface.co/docs/transformers/main/en/tasks/zero_shot_image_classification (en anglais)
Related Posts