Archives dans octobre 2024

Différences entre les Modèles de YOLO11

YOLOv11 offre une gamme diversifiée de modèles adaptés à des tâches spécifiques en vision par ordinateur. Les principaux types incluent :

  1. Modèles de Détection Standard : Ces modèles sont conçus pour la détection d’objets, désignés par des noms de fichiers comme
    yolo11n.pt

    ,

    yolo11s.pt

    .

  2. Modèles de Segmentation d’Instance : Ils gèrent la segmentation d’instance et sont désignés par un suffixe
    -seg

    , tel que

    yolo11n-seg.pt

    .

  3. Modèles d’Estimation de Pose : Ces modèles estiment les poses et sont indiqués par le suffixe
    -pose

    , comme

    yolo11n-pose.pt

    .

  4. Modèles de Boîtes Englobantes Orientées (OBB) : Conçus pour la détection d’objets orientés, ces modèles sont marqués par le suffixe
    -obb

    .

  5. Modèles de Classification : Ces modèles s’occupent des tâches de classification d’images et sont désignés par le suffixe
    -cls

    .

Modèles de Segmentation d’Instance (

-seg

)

Les modèles de segmentation d’instance dans YOLOv11 fournissent des contours ou des masques précis pour chaque objet détecté, dépassant ainsi le simple encadrement par boîtes . Ces modèles sont particulièrement utiles dans des applications où des informations de forme précises sont cruciales, comme dans l’imagerie médicale ou la conduite autonome . La sortie de la segmentation comprend des masques ou des contours, ainsi que des étiquettes de classe et des scores de confiance pour chaque objet, permettant ainsi de connaître non seulement la position des objets, mais aussi leurs formes exactes . Par rapport à d’autres modèles comme Mask R-CNN ou Faster R-CNN, les modèles de segmentation de YOLO11 offrent des performances en temps réel, une précision supérieure et une facilité d’utilisation [19:184].

Modèles d’Estimation de Pose (

-pose

)

Les modèles d’estimation de pose dans YOLO11 sont conçus pour identifier des points clés spécifiques, qui représentent généralement les articulations ou d’autres caractéristiques critiques des objets, en particulier des humains . La sortie se compose des coordonnées [x, y] et des scores de confiance pour chaque point clé, permettant ainsi une analyse de pose détaillée . Ces modèles se distinguent des autres modèles en se concentrant sur les poses humaines, ce qui permet une détection et un suivi précis des points clés. Ils sont entraînés sur le jeu de données COCO et introduisent une extraction de caractéristiques améliorée ainsi que des pipelines d’entraînement optimisés pour une meilleure vitesse et précision . Ils utilisent moins de paramètres que le modèle YOLOv8m, ce qui les rend efficaces sur le plan computationnel sans sacrifier la précision .

Principales Différences entre les Modèles de Segmentation et d’Estimation de Pose

  • Type de Sortie :
    • Les modèles de segmentation produisent des masques ou des contours entourant chaque objet détecté .
    • Les modèles d’estimation de pose produisent des coordonnées [x, y] et des scores de confiance pour les points clés .
  • Concentration sur les Applications :
    • Les modèles de segmentation sont essentiels pour les tâches nécessitant des formes d’objets détaillées, comme l’imagerie médicale et la conduite autonome .
    • Les modèles d’estimation de pose sont spécialisés pour l’analyse de poses humaines et les applications impliquant la détection de points clés .
  • Caractéristiques de Performance :
    • Les modèles de segmentation de YOLO11 offrent des performances en temps réel et une haute précision par rapport à des modèles comme Mask R-CNN .
    • Les modèles d’estimation de pose fournissent un moyen efficace et précis de suivre et d’analyser les poses, grâce à une extraction de caractéristiques avancée et à des techniques d’entraînement optimisées .

Conclusion

​YOLO11 propose des modèles spécialisés pour différentes tâches en vision par ordinateur.​ Les modèles de segmentation se concentrent sur les contours précis des objets, tandis que les modèles d’estimation de pose mettent l’accent sur la détection des points clés pour l’analyse des poses. Chaque type de modèle tire parti des avancées architecturales de YOLO11 pour offrir des performances, une précision et une efficacité élevées dans diverses applications.

YOLO11

YOLO11

YOLO11, la dernière version de la famille YOLO (You Only Look Once), a été officiellement lancée le 30 septembre 2024 par Ultralytics lors de l’événement YOLOVision. YOLO11 poursuit l’héritage des versions précédentes avec d’importantes améliorations en matière d’architecture, d’optimisation de l’entraînement, de rapidité et d’adaptabilité, ce qui en fait un outil polyvalent pour une large gamme de tâches de vision par ordinateur.

Caractéristiques Clés

  • Architecture Améliorée : Les modèles de YOLO11 possèdent une architecture améliorée mieux adaptée à l’entrée d’images, au traitement, et à la formulation de prédictions.
  • Optimisation GPU : Ces modèles sont optimisés pour l’entraînement sur GPU, offrant des améliorations tant en vitesse qu’en précision. Cette optimisation GPU permet un traitement beaucoup plus rapide que celui de ses prédécesseurs, avec jusqu’à 25 % de réduction de latence.
  • Réduction des Paramètres : YOLOv11 utilise moins de paramètres, ce qui rend les modèles plus rapides sans affecter significativement la précision.
  • Soutien à Plusieurs Tâches : YOLOv11 est hautement adaptable, prenant en charge une multitude de tâches telles que la détection d’objets, la segmentation d’images, l’estimation de pose, les boîtes englobantes orientées, et la classification.

Améliorations de Performance

Comparaison avec YOLOv10 et YOLOv8

  • Précision des Modèles : YOLO11 a montré des améliorations dans les scores de mAP (moyenne de la précision moyenne) par rapport à YOLOv10 et YOLOv8. Par exemple, le modèle YOLO11 Nano a une valeur de mAP de 39,5, comparable à celle de YOLOv10.
  • Latence et Vitesse : La latence pour les modèles YOLO11 est considérablement plus basse. Par exemple, le modèle YOLOv11 Nano a une latence de 1,55 ms, par rapport à 1,84 ms pour YOLOv10, ce qui reflète une amélioration rapide.
  • Efficacité et Vitesse d’Inférence : YOLOv11 utilise jusqu’à 22 % de paramètres en moins que YOLOv8 et offre jusqu’à 2 % de vitesses d’inférence plus rapides.

Modèles et Tailles de YOLO11

YOLOv1 est disponible en diverses variantes de modèles :

  • Modèles de Boîtes Englobantes : Versions standards sans suffixe.
  • Modèles de Segmentation d’Instance : Désignés par
    -seg

    .

  • Modèles d’Estimation de Pose : Désignés par
    -pose

    .

  • Modèles de Boîtes Englobantes Orientées : Désignés par
    -obb

    .

  • Modèles de Classification : Désignés par
    -cls

    .

Ces modèles sont disponibles en différentes tailles : Nano (n), Petit (s), Moyen (m), Grand (l), et Très Grand (x).

Spécifications Techniques

  • Statistiques de mAP : Les modèles YOLO11 démontrent un léger avantage sur les valeurs de mAPval par rapport à YOLOv10 : × Nano : 39,5 (v11) vs 39,5 (v10) × Petit : 47,0 (v11) vs 46,8 (v10) × Moyen : 51,5 (v11) vs 51,3 (v10) × Grand : 53,4 (v11) vs 53,4 (v10) × Très Grand : 54,7 (v11) vs 54,4 (v10)
  • Mesures de Latence : À travers les différentes tailles, YOLOv11 affiche une latence réduite, avec des améliorations notables dans les modèles de plus petite taille.

Applications de YOLOv11

YOLOv11 trouve des applications dans divers domaines en raison de son adaptabilité et de ses performances efficaces :

  • Surveillance Agricole : Utilisé sur des drones pour surveiller la santé et la croissance des cultures.
  • Systèmes de Sécurité : Intégré dans des systèmes basés sur le cloud pour une surveillance et une détection d’objets améliorées.

Déploiement et Entraînement

YOLOv11 peut être déployé sur diverses plateformes, y compris des appareils de périphérie et des environnements cloud, et prend en charge les systèmes dotés de GPU NVIDIA pour une performance améliorée. Les flux de travail d’entraînement exploitent le paquet Python d’Ultralytics, garantissant une compatibilité transparente avec les ensembles de données existants.

Conclusion

​YOLOv11 incarne un saut significatif dans le domaine de la détection d’objets en temps réel, s’appuyant sur les forces des modèles YOLO précédents tout en introduisant des améliorations critiques en matière de vitesse, de précision et de polyvalence.​ Ce modèle est bien positionné pour redéfinir les possibilités d’applications dans divers secteurs de la vision par ordinateur.

Références

Ultralytics, “YOLO11 Is Officially Out! What You Need To Know!”, 2024-10-01

Ultralytics, “Releases · ultralytics/assets”, GitHub

Ultralytics, “NEW YOLO11 – Ultralytics YOLO Docs”, 2024-09-27

Ultralytics, “Ultralytics YOLO11 Has Arrived! Redefine What’s Possible in AI!”, 2024-09-27

Reddit, “25 new Ultralytics YOLO11 models released!”, 2024-10-02

Medium, “Introducing YOLO11: The Next Leap in Computer Vision”, 2024-09-27

Medium, “YOLOVision Dropped YOLO11: All That We Know So Far”, 2024-09-29


1 2 3