RT-DETR : Transformateur de Détection en Temps Réel

Qu’est-ce que RT-DETR ?

RT-DETR est une architecture de réseau neuronal conçue pour détecter et identifier des objets dans une image ou une vidéo en temps réel. Il utilise la puissance des transformateurs, qui sont devenus une technologie de pointe dans le domaine de l’intelligence artificielle et de la vision par ordinateur.

RT-DETR (Transformateur de Détection en Temps Réel)

RT-DETR, signifiant Transformateur de Détection en Temps Réel, est un détecteur d’objets de pointe capable d’atteindre une précision élevée tout en fonctionnant à des vitesses en temps réel. Développé par Baidu, il exploite les avancées récentes dans les Transformateurs de Vision (ViT) pour un traitement efficace des caractéristiques multi-échelle.

Fonctionnement de RT-DETR

  1. Transformateurs : À la base de RT-DETR se trouve l’architecture des transformateurs. Contrairement aux réseaux neuronaux convolutifs traditionnels (CNN), les transformateurs utilisent des mécanismes d’attention pour traiter les images. Cela permet de capturer les relations globales entre les pixels, ce qui est essentiel pour une détection précise des objets.
  2. Encodage et Décodage : RT-DETR fonctionne avec un module d’encodage et de décodage. L’encodeur traite l’image d’entrée pour créer une représentation compacte et riche en caractéristiques. Le décodeur utilise ensuite cette représentation pour prédire les objets présents dans l’image, en fournissant des boîtes englobantes et des étiquettes de classe.
  3. Temps Réel : L’un des principaux avantages de RT-DETR est sa capacité à fonctionner en temps réel. Cela signifie qu’il peut traiter des flux vidéo en direct, détectant et identifiant les objets sans retard perceptible.

Avantages de RT-DETR

  • Précision : Grâce aux transformateurs, RT-DETR offre une précision supérieure dans la détection d’objets par rapport aux méthodes traditionnelles basées sur les CNN.
  • Efficacité : L’architecture est optimisée pour une exécution rapide, ce qui est crucial pour les applications en temps réel telles que la surveillance vidéo, les voitures autonomes et les robots interactifs.
  • Flexibilité : RT-DETR peut être adapté à différents types d’images et de vidéos, et peut être entraîné sur divers ensembles de données pour répondre à des besoins spécifiques.
  • Haute précision : Malgré son accent sur la vitesse, RT-DETR maintient une précision élevée dans les tâches de détection d’objets. Les tests de performance montrent qu’il obtient des résultats compétitifs sur le jeu de données COCO.
  • Adaptabilité : RT-DETR offre la possibilité d’ajuster la vitesse d’inférence en fonction de vos besoins. Vous pouvez contrôler le nombre de couches de décodeur utilisées sans avoir à recycler l’ensemble du modèle. Cela le rend adapté à divers scénarios avec des exigences de vitesse différentes.

Applications de RT-DETR

  • Surveillance et Sécurité : Utilisé pour la détection d’intrus et la surveillance des zones sensibles en temps réel.
  • Automobile : Intégré dans les systèmes de conduite autonome pour identifier des objets comme des piétons, des véhicules et des panneaux de signalisation.
  • Robotique : Utilisé dans les robots pour la navigation et l’interaction avec les objets environnants.

En résumé, RT-DETR représente une avancée significative dans le domaine de la détection d’objets, combinant précision et efficacité grâce à l’utilisation des transformateurs. Cela ouvre de nouvelles possibilités pour les applications en temps réel nécessitant une détection d’objets rapide et fiable.

Voici quelques ressources pour en savoir plus (en français) :

  • Documentation sur RT-DETR d’Ultralytics : documentation RT-DETR (inclut une vidéo expliquant le modèle)

YOLOv10 : Une révolution dans la détection d’objets en temps réel

La détection d’objets en temps réel est une tâche cruciale dans de nombreuses applications de vision par ordinateur, telles que la conduite autonome, la surveillance et l’imagerie médicale. YOLOv10, la dernière version de la série de réseaux neuronaux YOLO (You Only Look Once), repousse les limites de la précision et de l’efficacité dans ce domaine. Dans cet article, nous explorons les fonctionnalités et les avantages de YOLOv10, qui le positionnent comme un outil puissant et innovant pour la communauté de la vision par ordinateur.

 

Nouveautés de YOLOv10

YOLOv10 introduit plusieurs innovations techniques pour améliorer tant la précision que la vitesse de traitement. Parmi ces améliorations, on trouve généralement :

  1. Architecture améliorée : YOLOv10 continue d’optimiser son architecture de réseau de neurones, souvent en affinant les couches, les connexions et la manière dont les caractéristiques sont extraites et traitées.
  2. Utilisation de techniques avancées : L’intégration de techniques d’apprentissage profond plus avancées, comme l’attention ou des convolutions améliorées, permet d’accroître la précision tout en maintenant ou en améliorant la vitesse.
  3. Optimisation des performances : Des améliorations en termes de traitement parallèle ou d’utilisation de matériel spécifique peuvent être implémentées pour rendre le modèle plus rapide et plus efficace sur diverses plates-formes.
  4. Meilleure généralisation : Les versions antérieures ont parfois été critiquées pour leur incapacité à généraliser à partir d’ensembles de données limités ou biaisés. YOLOv10 cherche à améliorer cela grâce à une meilleure technique d’entraînement et à une augmentation des données plus sophistiquée.

 

Architecture

YOLOv10 est basé sur une architecture novatrice qui intègre plusieurs innovations clés, notamment :

  1. Bloc de convolution compact : un bloc de convolution qui remplace les couches de convolution traditionnelles.
  2. Downsampling spatial-channel : un module de downsampling qui réduit les dimensions spatiales des cartes de caractéristiques tout en augmentant les dimensions de canal.
  3. Tête de détection v10 : une tête de détection qui prédit les boîtes de délimitation des objets, les classes et les confiances.

Performances et efficacité

YOLOv10 se concentre sur l’amélioration des performances et de l’efficacité, offrant une détection d’objets en temps réel de pointe. Par rapport à ses prédécesseurs, YOLOv10 présente des améliorations significatives en termes de post-traitement et d’architecture de modèle. Les expériences extensives démontrent que YOLOv10 atteint des performances et une efficacité de pointe dans diverses échelles de modèles.

Par exemple, YOLOv10-S est 1,8 fois plus rapide que RT-DETR-R18 tout en offrant des performances similaires sur le jeu de données COCO. De plus, il nécessite 2,8 fois moins de paramètres et de FLOPs. De même, YOLOv10-B présente une latence inférieure de 46 % et 25 % de paramètres en moins par rapport à YOLOv9-C pour des performances identiques.

Variantes de modèle

YOLOv10 propose une gamme de variantes de modèle, chacune adaptée à des exigences d’application spécifiques. Les variantes incluent YOLOv10-N, YOLOv10-S, YOLOv10-M, YOLOv10-B, YOLOv10-L et YOLOv10-X. Chaque variante offre un équilibre différent entre vitesse et précision, permettant aux utilisateurs de choisir le modèle le plus adapté à leurs besoins.

Comparaisons

YOLOv10 surpasse également les versions précédentes de YOLO. Par exemple, YOLOv10-L et YOLOv10-X dépassent YOLOv8-L et YOLOv8-X de 0,3 AP et 0,5 AP, respectivement, tout en réduisant le nombre de paramètres de 1,8 fois et 2,3 fois. Ces améliorations témoignent de l’engagement continu de l’équipe YOLO à améliorer les performances et l’efficacité du modèle.

Cas d’utilisation

YOLOv10 trouve de nombreuses applications dans divers domaines. Il peut être utilisé pour la détection d’objets en temps réel dans des scénarios de conduite autonome, permettant une prise de décision rapide et précise. De plus, il peut être utilisé dans les systèmes de surveillance pour détecter et suivre des objets ou des personnes d’intérêt. De plus, YOLOv10 peut être appliqué à l’imagerie médicale pour identifier des anomalies ou des caractéristiques spécifiques dans les images radiologiques.

Conclusion

YOLOv10 représente une avancée significative dans le domaine de la détection d’objets en temps réel, offrant à la fois des performances et une efficacité de pointe. Sa gamme de variantes de modèle et ses améliorations architecturales en font un outil polyvalent et puissant pour les chercheurs et les professionnels de la vision par ordinateur. Avec son potentiel d’impact dans divers domaines, YOLOv10 continue de faire progresser l’état de l’art dans le domaine de la vision par ordinateur.

Zero-shot object detection

La détection d’objets sans apprentissage préalable (en anglais: zero-shot object detection) est un domaine de la vision par ordinateur qui permet de détecter des objets dans des images sans avoir entraîné le modèle au préalable sur ces objets spécifiques. En termes plus simples, cela permet à un modèle d’identifier et de localiser des objets dans une image même s’il n’a jamais vu ces objets auparavant.

Voici un résumé des points clés :

  • Pas de données d’entraînement requises : Contrairement aux méthodes traditionnelles de détection d’objets qui nécessitent des ensembles de données massifs avec des objets étiquetés, les modèles sans apprentissage supervisé fonctionnent sans aucune donnée d’entraînement visuelle pour une classe d’objet spécifique.
  • Requête textuelle pour la détection : Ces modèles s’appuient sur des descriptions textuelles ou des invites pour comprendre quels objets rechercher dans une image. Par exemple, vous pouvez fournir une invite comme “chat” et le modèle essaiera de trouver tous les chats dans l’image.
  • Concentration sur les objets invisibles : L’idée principale est de détecter des objets sur lesquels le modèle n’a pas été entraîné auparavant. Cela le rend utile dans les scénarios où l’étiquetage de grands ensembles de données n’est pas pratique ou lorsque vous souhaitez identifier une large gamme d’objets sans avoir à entraîner un modèle personnalisé pour chacun.

Voici quelques applications de la détection d’objets sans apprentissage supervisé :

  • Compter les objets dans les entrepôts ou les magasins
  • Gérer la foule lors d’événements
  • Identifier des espèces nouvelles ou rares dans des études écologiques
  • Annotation d’images pour des tâches telles que la recherche d’images

Cependant, il est important de noter que la détection d’objets sans apprentissage supervisé est un domaine en constante évolution. Cette approche présente des limitations :

  • Précision : Étant donné que le modèle n’a pas vu d’objets spécifiques pendant l’entraînement, la précision peut être inférieure à celle des méthodes traditionnelles de détection d’objets.
  • Gamme d’objets limitée : Ces modèles pourraient ne pas être capables de détecter toutes les classes d’objets possibles.

Dans l’ensemble, la détection d’objets sans apprentissage supervisé offre une approche prometteuse pour identifier des objets invisibles dans les images. À mesure que la technologie évolue, on peut s’attendre à des améliorations de la précision et à une applicabilité plus large.

Comment fonctionnent Transformateurs Visuels (ViTs)?

Les Transformateurs Visuels (ViTs) sont une architecture de réseau neuronal révolutionnaire qui a bouleversé le domaine de la vision par ordinateur. Contrairement aux modèles de vision par ordinateur traditionnels qui s’appuient sur des convolutions pour extraire des caractéristiques des images, les ViTs utilisent une architecture basée sur l’attention, inspirée des réseaux de neurones à transformateur introduits par Vaswani et al. (2017).

Fonctionnement des ViTs :

                 1. Tokenisation de l’image :

      • Les images sont d’abord découpées en plusieurs petits morceaux ou “patches”. Chaque patch est traité comme un “mot” dans le contexte du traitement du langage. Cela permet au modèle de traiter l’image de manière séquentielle.
    1. Plongements linéaires :
      • Chaque patch est ensuite aplati et transformé en un vecteur à travers une couche linéaire (embedding layer). Cela convertit les données d’image brutes en une forme que le modèle peut traiter efficacement.
    2. Ajout de codage positionnel :
      • Comme dans les modèles de NLP, un codage positionnel est ajouté aux embeddings pour donner au modèle des informations sur la position relative des patches dans l’image originale. Cela aide le modèle à comprendre comment les patches sont disposés spatialement.
    3. Couches de transformateurs :
      • Les vecteurs de patch, maintenant enrichis d’informations positionnelles, sont passés à travers plusieurs couches de transformateurs. Ces couches utilisent des mécanismes d’auto-attention pour permettre au modèle de pondérer l’importance relative de chaque patch par rapport aux autres lors de la réalisation de tâches spécifiques.
    4. Classification ou autres tâches :
      • En sortie des couches de transformateurs, les données peuvent être utilisées pour diverses tâches, telles que la classification d’images, la détection d’objets, ou même la segmentation d’images. Pour la classification, par exemple, un vecteur final issu des couches de transformateurs est souvent passé à travers une couche dense pour prédire la classe de l’image.

Avantages des ViTs :

  • Apprentissage de longs-courriers : L’architecture basée sur l’attention permet aux ViTs de capturer des dépendances à longue portée entre les éléments de l’image, ce qui est crucial pour des tâches comme la reconnaissance d’objets et la segmentation sémantique.
  • Meilleure généralisation : Les ViTs ont montré une meilleure capacité de généralisation à de nouvelles données par rapport aux modèles basés sur convolutions.
  • Flexibilité : L’architecture des ViTs est modulaire et peut être facilement adaptée à un large éventail de tâches de vision par ordinateur.

Applications des ViTs :

  • Classification d’images : Identifier la classe d’un objet dans une image.
  • Détection d’objets : Localiser et identifier des objets dans une image.
  • Segmentation sémantique : Définir les contours de chaque objet dans une image.
  • Génération d’images : Générer des images à partir de texte ou d’autres images.
  • Traduction d’images : Traduire une image d’un style visuel à un autre.

Les ViTs ont connu un succès fulgurant dans le domaine de la vision par ordinateur et représentent une avancée majeure dans la façon dont les ordinateurs perçoivent et comprennent le monde visuel.

Ressources supplémentaires :

FastSAM: Segmentation d’images ultrarapide pour tous

FastSAM, ou Fast Segment Anything Model, est un modèle de segmentation d’image révolutionnaire qui offre une vitesse 50 fois supérieure à celle de son prédécesseur, SAM, tout en conservant des performances comparables.

Fonctionnement

FastSAM tire sa puissance de deux technologies clés :

  • YOLOv8-seg: un détecteur d’objets performant doté d’une branche dédiée à la segmentation d’instances.
  • Un ensemble de données réduit: l’entraînement de FastSAM utilise seulement 2% du dataset SA-1B utilisé pour SAM, ce qui permet d’accélérer considérablement le processus sans sacrifier la précision.

Applications

FastSAM ouvre la voie à de nombreuses applications en temps réel dans divers domaines, tels que :

  • Vision industrielle: inspection automatisée de produits, détection de défauts, etc.
  • Robotique: navigation autonome, manipulation d’objets, etc.
  • Véhicules autonomes: segmentation précise des obstacles et des participants à la route.
  • Réalité augmentée et virtuelle: création d’environnements immersifs et interactifs.

Avantages

  • Vitesse: 50 fois plus rapide que SAM, idéal pour les applications en temps réel.
  • Précision: performances comparables à SAM, assurant une segmentation précise.
  • Efficacité: utilise moins de données et de ressources pour l’entraînement.
  • Flexibilité: disponible en différentes versions pour répondre à divers besoins.

Conclusion

FastSAM représente une avancée majeure dans le domaine de la segmentation d’image. Sa vitesse fulgurante et sa précision remarquable le rendent incontournable pour une multitude d’applications en temps réel.

Pour aller plus loin:

VisionEye Mapping: Cartographie d’objets précis avec Ultralytics

VisionEye Mapping: Cartographie d’objets précis avec Ultralytics

VisionEye Mapping est une fonctionnalité révolutionnaire de la bibliothèque de détection d’objets Ultralytics . Elle permet aux ordinateurs d’identifier et de localiser des objets précis dans une scène, imitant la précision d’observation de l’œil humain. Cette technologie ouvre de nouvelles possibilités pour une variété d’applications, de la surveillance et de la sécurité à la robotique et à l’industrie automobile.

Fonctionnement de VisionEye Mapping

VisionEye Mapping s’appuie sur deux technologies puissantes:

  • YOLOv8 ou Yolov9: Détecte et localise des objets en temps réel avec une grande précision.
  • VisionEye: Permet de se concentrer sur des objets spécifiques dans une scène, en ignorant les détails non pertinents.

En combinant ces technologies, VisionEye Mapping crée une “carte” des objets pertinents dans une image ou une vidéo. Cette carte peut ensuite être utilisée pour diverses tâches, telles que:

  • Suivi d’objets: Surveiller le mouvement d’objets spécifiques dans une scène.
  • Comptage d’objets: Dénombrer le nombre d’objets d’un type particulier dans une zone donnée.
  • Analyse de scène: Identifier et comprendre les différents éléments d’une scène.

Avantages de VisionEye Mapping

  • Précision accrue: VisionEye permet une identification et une localisation plus précises des objets que les méthodes traditionnelles.
  • Efficacité accrue: En se concentrant sur les objets pertinents, VisionEye peut réduire le temps de traitement et améliorer l’efficacité.
  • Flexibilité: VisionEye peut être utilisé avec une grande variété de caméras et de capteurs.

Applications de VisionEye Mapping

VisionEye Mapping a le potentiel de révolutionner un large éventail d’applications, notamment:

  • Surveillance et sécurité: Suivi des personnes et des véhicules dans les zones publiques, détection d’intrusion et surveillance des foules.
  • Robotique: Guidage des robots dans des environnements complexes, localisation et manipulation d’objets.
  • Industrie automobile: Détection d’obstacles pour les véhicules autonomes, inspection des pièces automobiles.
  • Agriculture: Surveillance des cultures et du bétail, tri des produits agricoles.
  • Domotique: Contrôle des appareils intelligents par des gestes et des mouvements.

Conclusion

VisionEye Mapping est une technologie prometteuse avec le potentiel de transformer la façon dont nous interagissons avec le monde qui nous entoure. Sa précision, son efficacité et sa flexibilité en font un outil précieux pour une variété d’applications. Alors que la technologie continue de se développer, nous pouvons nous attendre à voir VisionEye Mapping jouer un rôle de plus en plus important dans nos vies.

Ressources supplémentaires:

import cv2
from ultralytics import YOLO
from ultralytics.utils.plotting import colors, Annotator

model = YOLO("yolov9e.pt") # on peut uriliser yolov8 ou yolov9
names = model.model.names
cap = cv2.VideoCapture(0)
w, h, fps = (int(cap.get(x)) for x in (cv2.CAP_PROP_FRAME_WIDTH, cv2.CAP_PROP_FRAME_HEIGHT, cv2.CAP_PROP_FPS))

out = cv2.VideoWriter('visioneye-pinpoint1.avi', cv2.VideoWriter_fourcc(*'MJPG'), fps, (w, h))

center_point = (-10, h)

while True:
    ret, im0 = cap.read()
   

    results = model.predict(im0)
    boxes = results[0].boxes.xyxy.cpu()
    clss = results[0].boxes.cls.cpu().tolist()

    annotator = Annotator(im0, line_width=2)

    for box, cls in zip(boxes, clss):
        annotator.box_label(box, label=names[int(cls)], color=colors(int(cls)))
        annotator.visioneye(box, center_point)

    out.write(im0)
    cv2.imwrite("vision.png", im0)
    cv2.imshow("visioneye-pinpoint", im0)

    if cv2.waitKey(1) & 0xFF == ord('q'):
        break

out.release()
cap.release()
cv2.destroyAllWindows()

YOLOv9: Une avancée majeure dans la détection d’objets en temps réel

YOLOv9: Une avancée majeure dans la détection d’objets en temps réel

YOLOv9 est un nouveau modèle de détection d’objets en temps réel qui a été récemment publié et qui s’annonce comme une avancée majeure dans ce domaine. Il surpasse ses prédécesseurs en termes de précision, d’efficacité et de flexibilité, ce qui en fait un outil puissant pour une large gamme d’applications.

Ce modèle introduit des concepts innovants tels que l’Information de Gradient Programmable (PGI) et le Réseau d’Aggrégation de Couches Efficace et Généralisé (GELAN) pour améliorer l’exactitude et l’efficacité de la détection. Le PGI s’attaque au défi de la perte d’informations dans les réseaux profonds en préservant les caractéristiques clés et en garantissant une génération fiable de gradients pour des résultats d’entraînement optimaux. D’autre part, le GELAN propose une architecture de réseau légère qui optimise l’utilisation des paramètres et l’efficacité computationnelle, rendant YOLOv9 adaptable à une large gamme d’applications​ https://docs.ultralytics.com/fr/models/yolov9/#introduction-to-yolov9

YOLOv9 se distingue par la division de sa tête en une branche principale et une branche auxiliaire à plusieurs niveaux, aidant à capturer et à conserver l’information de gradient pendant la phase d’entraînement. Cette conception permet à la branche auxiliaire de soutenir efficacement la branche principale en préservant l’information de gradient essentielle​​. La série du modèle comprend des variantes telles que YOLOv9-s (petit), YOLOv9-m (moyen), YOLOv9-c (compact) et YOLOv9-e (étendu), répondant à divers besoins allant de l’application légère à l’application intensive en performance

Le modèle a montré une performance supérieure sur le jeu de données COCO, équilibrant l’efficacité et la précision à travers ses variantes. La conception de YOLOv9 aide à réduire les paramètres et les besoins computationnels tout en améliorant l’exactitude, maintenant l’héritage de la série de fournir des modèles de détection d’objets performants​​. Plus précisément, YOLOv9 résout le problème de goulot d’étranglement de l’information dans les réseaux neuronaux profonds, où l’empilement séquentiel peut entraîner une perte d’informations importantes, et aborde les inefficacités liées à l’utilisation des paramètres à travers l’architecture GELAN innovante​​.

Comparativement, YOLOv9 offre des avancées significatives dans la conception des modèles, mettant l’accent sur une efficacité accrue sans compromettre la précision, essentielle pour les tâches de détection d’objets en temps réel. Il établit de nouveaux repères en matière de métriques de performance tout en soulignant également l’importance de l’efficacité computationnelle, s’établissant comme un développement clé dans le domaine de la vision par ordinateur​

Points forts de YOLOv9:

  • Précision de pointe: YOLOv9 atteint des résultats de pointe en matière de précision sur des benchmarks standard comme COCO et PASCAL VOC. Il est capable de détecter une large gamme d’objets avec une grande précision, même dans des images complexes et défavorables.
  • Efficacité accrue: YOLOv9 est plus efficace que les modèles précédents, ce qui lui permet de fonctionner plus rapidement sur des appareils moins puissants. Cela le rend idéal pour les applications embarquées et mobiles où la vitesse est essentielle.
  • Flexibilité programmable: YOLOv9 offre une flexibilité unique grâce à l’utilisation de gradients programmables. Cela permet aux utilisateurs de personnaliser le processus d’apprentissage en fonction de leurs besoins spécifiques, ce qui peut améliorer encore la précision et l’efficacité pour des tâches spécifiques.

Applications de YOLOv9:

YOLOv9 peut être utilisé pour une large gamme d’applications de détection d’objets en temps réel, notamment :

  • Surveillance: YOLOv9 peut être utilisé pour surveiller les personnes et les véhicules dans des environnements publics ou privés.
  • Robotique: YOLOv9 peut aider les robots à naviguer dans leur environnement et à interagir avec des objets.
  • Inspection industrielle: YOLOv9 peut être utilisé pour inspecter des produits à la recherche de défauts.
  • Véhicules autonomes: YOLOv9 peut aider les véhicules autonomes à détecter d’autres véhicules, des piétons et des obstacles sur la route.

Conclusion:

YOLOv9 est une avancée majeure dans la détection d’objets en temps réel. Sa précision, son efficacité et sa flexibilité en font un outil puissant pour une large gamme d’applications. Il est probable que YOLOv9 aura un impact significatif sur la façon dont nous utilisons la technologie de détection d’objets dans les années à venir.

Ressources supplémentaires:

Convertir le modèle .pt en onnx

La conversion d’un modèle du format .pt de PyTorch au format ONNX implique quelques étapes, nécessitant généralement de charger le modèle PyTorch puis d’utiliser une fonction ou une méthode pour l’exporter vers ONNX.

Installez la bibliothèque Ultralytics YOLO

Assurez-vous que la bibliothèque Ultralytics YOLO est installée dans votre environnement Python. Cette bibliothèque fournit les outils et méthodes nécessaires pour travailler avec les modèles YOLO. Vous pouvez l’installer en utilisant pip si elle n’est pas déjà installée :

“`
pip install ultralytics

“`

Importer la classe YOLO

Commencez votre script en important la classe YOLO du paquet ultralytics. Cette classe est conçue pour gérer les modèles YOLO, y compris leur chargement et leur exportation.

“`
from ultralytics import YOLO

“`

Charger votre modèle PyTorch personnalisé

Utilisez la classe YOLO pour charger votre modèle entraîné personnalisé. Vous devez spécifier le chemin d’accès à votre fichier de modèle .pt. Ce fichier doit contenir les poids entraînés et l’architecture du modèle. L’exemple utilise “best.pt”, en supposant qu’il s’agit du nom de votre fichier de modèle.

“`
model = YOLO(‘best.pt’) # load a custom trained model

“`

Exporter le modèle au format ONNX

 

Une fois le modèle chargé, vous pouvez l’exporter au format ONNX en utilisant la méthode d’exportation. Spécifiez le format ‘onnx’ dans l’appel de la méthode. Cela créera un fichier ONNX dans le répertoire de travail actuel ou dans le chemin spécifié (si vous en fournissez un).

 

“`
model.export(format=’onnx’)
“`

Vérifier le fichier modèle ONNX

Après avoir exécuté le script, vous devriez trouver un fichier de modèle ONNX dans votre répertoire de travail. Le nom du fichier sera généralement dérivé du nom de votre fichier .pt original, mais avec une extension .onnx.

Détection d’Objets en Temps Réel avec YOLOv8 sur Plusieurs Caméras et OpenCV

Détection d’Objets en Temps Réel avec YOLOv8 sur Plusieurs Caméras et OpenCV

La détection d’objets en temps réel, utilisant le modèle YOLOv8 via la bibliothèque OpenCV. Ce script illustre comment YOLOv8, une évolution du populaire modèle YOLO pour la détection d’objets, peut être appliqué aux flux vidéo de deux caméras simultanément, offrant une solution puissante et flexible pour la surveillance et l’analyse vidéo en temps réel.

import cv2
from ultralytics import YOLO

# Load the YOLOv8 model
model = YOLO(‘yolov8n.pt’)

# Open the video file
video_path = “path/to/your/video/file.mp4”
cap = cv2.VideoCapture(0)

# Loop through the video frames
while cap.isOpened():
# Read a frame from the video
success, frame = cap.read()

if success:
# Run YOLOv8 inference on the frame
results = model(frame)

# Visualize the results on the frame
annotated_frame = results[0].plot()

# Display the annotated frame
cv2.imshow(“YOLOv8 Inference”, annotated_frame)

# Break the loop if ‘q’ is pressed
if cv2.waitKey(1) & 0xFF == ord(“q”):
break
else:
# Break the loop if the end of the video is reached
break

# Release the video capture object and close the display window
cap.release()
cv2.destroyAllWindows()

 

Initialisation et Configuration

Le script commence par importer les bibliothèques nécessaires, notamment

cv2

pour OpenCV, qui est essentiel pour la capture et le traitement des images vidéo, et

YOLO

du module

ultralytics

, qui est spécialement conçu pour charger et utiliser les modèles YOLO, y compris YOLOv8.

Chargement du Modèle YOLOv8

Le modèle YOLOv8 est chargé à partir d’un fichier pré-entraîné (

'yolov8n.pt'

), indiquant une version nano de YOLOv8 qui est optimisée pour une utilisation rapide avec une empreinte mémoire réduite, tout en maintenant une précision raisonnable pour la détection d’objets.

Configuration des Caméras

Deux objets

VideoCapture

sont initialisés pour les caméras aux indices

0

et

2

, correspondant à deux caméras distinctes connectées au système. Le script vérifie si chaque caméra est correctement ouverte, affichant un message d’erreur si une caméra ne peut pas être initialisée.

Boucle de Traitement des Images

Dans une boucle continue, le script lit une image de chaque flux vidéo. Si les deux images sont capturées avec succès, le script applique le modèle YOLOv8 à chaque image pour détecter les objets présents.

Rendu et Affichage des Résultats

Pour chaque image, le script extrait les résultats de la détection et utilise la méthode

plot()

sur le premier objet de résultats pour obtenir une image annotée avec des cadres de délimitation et des étiquettes pour chaque objet détecté. Ces images annotées sont ensuite concaténées horizontalement pour fournir une vue combinée des deux caméras, qui est affichée à l’écran.

Fin de la Session

La boucle se termine lorsque l’utilisateur appuie sur la touche ‘q’, ce qui entraîne la libération des ressources de la caméra et la fermeture des fenêtres d’affichage, clôturant proprement l’application.

Ce script met en évidence la capacité de YOLOv8 à fournir des détections d’objets rapides et précises dans des applications de surveillance en temps réel. L’utilisation de YOLOv8 dans ce contexte illustre non seulement les progrès dans les algorithmes de détection d’objets mais aussi comment ces technologies peuvent être intégrées avec des bibliothèques de traitement d’images comme OpenCV pour créer des systèmes de surveillance sophistiqués capables d’analyser simultanément les flux vidéo de plusieurs sources.

Détection d’Objets en Temps Réel avec YOLOv5 sur Plusieurs Caméras et OpenCV

Détection d’Objets en Temps Réel avec YOLOv5 sur Plusieurs Caméras et OpenCV

Une application pratique de la détection d’objets en temps réel en utilisant le modèle de deep learning YOLOv5 en combinaison avec OpenCV, une bibliothèque populaire pour le traitement d’images et de vidéos. Cette synergie permet de surveiller et d’analyser les flux vidéo de plusieurs caméras simultanément, offrant ainsi une solution robuste pour des applications telles que la surveillance de sécurité, le suivi du trafic ou même des études comportementales en temps réel. Voici une explication détaillée du fonctionnement du script :

 

import cv2
import torch

# Charger le modèle YOLOv5
model = torch.hub.load(‘ultralytics/yolov5’, ‘yolov5x’, pretrained=True)

camera1 = cv2.VideoCapture(0)
camera2 = cv2.VideoCapture(4)

if not camera1.isOpened():
print(‘Erreur …cam1’)

if not camera2.isOpened():
print(‘Erreur.. cam2’)

while True:
ret1, frame1 = camera1.read()
ret2, frame2 = camera2.read()

if ret1 and ret2:
# Appliquer YOLOv5 aux deux images
results1 = model(frame1)
results2 = model(frame2)

# Récupérer les images avec les détections
frame1 = results1.render()[0]
frame2 = results2.render()[0]

# Concaténer les images pour l’affichage
frame = cv2.hconcat([frame1, frame2])
cv2.imshow(“Cameras”, frame)

if cv2.waitKey(1) & 0xFF == ord(‘q’):
break

camera1.release()
camera2.release()
cv2.destroyAllWindows()

 

  1. Importation des bibliothèques nécessaires : Le script commence par importer cv2 (OpenCV) pour la capture vidéo et le traitement d’images, ainsi que torch, une bibliothèque de machine learning qui permet de charger et d’utiliser le modèle YOLOv5.
  2. Chargement du modèle YOLOv5 : Le modèle YOLOv5 est chargé depuis le dépôt ultralytics sur GitHub grâce à la fonction
    torch.hub.load

    , en spécifiant ‘yolov5x’ comme modèle pré-entraîné. ‘yolov5x’ est l’une des versions de YOLOv5, connue pour sa précision élevée, bien qu’elle soit plus gourmande en ressources que ses variantes plus petites.

  3. Initialisation des caméras : Deux objets
    VideoCapture

    sont créés pour les deux caméras.

    cv2.VideoCapture(0)

    et

    cv2.VideoCapture(4)

    sont utilisés pour initialiser la première et la deuxième caméra, respectivement. Les indices des caméras (0 et 4 dans ce cas) dépendent de l’ordre dans lequel les caméras sont reconnues par le système.

  4. Vérification de l’ouverture des caméras : Le script vérifie si chaque caméra a été correctement initialisée. Si une caméra ne peut pas être ouverte, un message d’erreur est affiché.
  5. Boucle de traitement des images : Une boucle
    while True

    est utilisée pour lire les images de chaque caméra en continu.

    camera.read()

    renvoie un booléen qui indique si la lecture a été réussie (

    ret

    ) et l’image capturée (

    frame

    ).

  6. Application de YOLOv5 aux images : Pour chaque image capturée, le modèle YOLOv5 est appliqué via
    model(frame)

    . Cela permet de détecter les objets dans l’image et de renvoyer les résultats, qui incluent les cadres de délimitation, les classes d’objets et les scores de confiance.

  7. Rendu des détections : Les résultats de la détection sont rendus sur les images originales avec
    results.render()

    , qui superpose les cadres de délimitation et les étiquettes d’identification sur les objets détectés.

  8. Affichage des images : Les images traitées de chaque caméra sont concaténées horizontalement avec
    cv2.hconcat

    et affichées dans une fenêtre nommée “Cameras”.

  9. Sortie de la boucle : La boucle peut être interrompue par l’utilisateur en appuyant sur la touche ‘q’, permettant ainsi de fermer proprement les flux vidéo et de détruire toutes les fenêtres OpenCV ouvertes.

Ce script démontre la puissance et la flexibilité de combiner YOLOv5 et OpenCV pour la détection d’objets en temps réel sur plusieurs sources vidéo. L’application de telles technologies ouvre des horizons vastes pour des applications allant de la surveillance de sécurité avancée à des solutions innovantes dans le domaine de la recherche et au-delà.


1 2 3 4