Algorithme de surveillance pour la recherche de personnes par tenue vestimentaire sur vidéosurveillance

janvier 18, 2026

Casos de uso

Introduction: Real-Time Clothing-Based Person Search

La recherche de personnes en temps réel basée sur les vêtements répond à un problème courant dans la surveillance urbaine. Premièrement, identifier des individus dans des images CCTV de faible qualité est difficile. Deuxièmement, les visages sont souvent masqués, flous ou hors champ. Par conséquent, les attributs vestimentaires tels que la couleur, le motif et la texture offrent un indice robuste par rapport à la reconnaissance faciale. De plus, les vêtements ont tendance à rester visibles selon les angles de caméra et au fil du temps. L’objectif de cet article est clair. Il décrit un système de surveillance pratique alimenté par un réseau de neurones convolutionnel. Ensuite, le système extrait des caractéristiques vestimentaires à partir de la vidéo des caméras et les met en correspondance entre plusieurs caméras. Puis, il renvoie des candidats classés et des métadonnées que les opérateurs peuvent utiliser pour retrouver une personne d’intérêt.

En opérationnel, la rapidité compte. Par conséquent, la méthode proposée se concentre sur une faible latence et des modèles compacts pour un déploiement en bordure (edge). De plus, l’approche respecte les frontières des données en maintenant le traitement sur site lorsque cela est nécessaire. Par exemple, visionplatform.ai transforme les caméras et les systèmes VMS existants en opérations assistées par l’IA, et la suite VP Agent ajoute la recherche médico-légale en langage naturel aux systèmes de recherche comme Milestone XProtect. Pour le contexte sur le déploiement pratique dans les hubs de transport, voir notre aperçu de la détection de personnes dans les aéroports pour plus de détails opérationnels : détection de personnes dans les aéroports. En outre, une chaîne axée sur les vêtements complète les systèmes de reconnaissance faciale lorsque les images de visages sont indisponibles ou peu fiables.

Il est important de noter que les indices basés sur les vêtements réduisent la dépendance aux données biométriques faciales. Cela diminue le risque et améliore la capacité à identifier des personnes portant des vêtements distinctifs. Lors d’essais, l’ajout d’attributs vestimentaires a augmenté la précision de ré-identification jusqu’à 20 % lorsque les visages n’étaient pas exploitables (étude). Enfin, ce chapitre fixe les attentes pour le reste de l’article. Il cadre une solution de surveillance en temps réel, explicable et déployable pour les salles de contrôle modernes.

related work: Advances in Clothing Attribute Extraction for Person Re-Identification

Premièrement, les travaux connexes montrent des gains substantiels lorsque les caractéristiques vestimentaires augmentent la ré-identification de personnes. Des études rapportent des améliorations de précision de 15 à 20 % en intégrant des attributs vestimentaires dans les chaînes de reconnaissance visuelle (recherche). Deuxièmement, de nombreuses architectures combinent la reconnaissance d’attributs, des mécanismes d’attention et des CNN à branches multiples pour apprendre des descripteurs vestimentaires discriminants. Troisièmement, des recherches présentées dans des conférences telles que CVPR et l’IEEE Conference on Computer Vision ont exploré des étiquettes d’attributs fines et des modèles basés sur des parties. Par exemple, des réseaux à branches multiples séparent le torse, les jambes et les accessoires afin que des caractéristiques locales puissent être apprises indépendamment. De plus, des blocs d’attention concentrent le calcul sur des zones saillantes où apparaissent des motifs ou des logos.

Plusieurs méthodes utilisent des classifieurs d’attributs parallèlement à un embedding global. De plus, les pipelines spécifiques à la mode empruntent des techniques aux réseaux neuronaux pour la classification de la mode et la détection d’objets. Par ailleurs, les architectures utilisent souvent des backbones convolutionnels profonds avec des pertes auxiliaires qui imposent la cohérence des attributs. Cependant, des lacunes subsistent. La faible résolution et les scènes encombrées nuisent encore aux performances. En particulier, les algorithmes actuels de reconnaissance peinent lorsque le nombre de pixels par personne tombe en dessous d’un seuil. Aussi, les contraintes en temps réel excluent de très grands modèles dans de nombreuses salles de contrôle opérationnelles. En conséquence, il existe un compromis entre précision et latence qui doit être évalué avec un jeu d’entraînement et des données de test réalistes.

Operator reviewing CCTV screens showing clothing variations

AI vision within minutes?

With our no-code platform you can just focus on your data, we’ll do the rest

dataset: Low-Resolution CCTV Video Sources and Labelling Protocol

Choisir le bon jeu de données est essentiel. Trois jeux de données couramment utilisés pour la ré-identification tenant compte des vêtements incluent LIP, CAVIAR et CRxK. Ces ensembles fournissent des étiquettes vestimentaires annotées et prennent en charge les expériences sur la détection de personnes et les indices de mode. Pour un travail pratique, les chercheurs créent souvent un nouveau jeu de données en fusionnant des sources publiques avec la vidéo spécifique au site. Ensuite, l’annotation doit couvrir la couleur, le type et le motif. Les annotateurs indiquent si une personne porte une veste, une robe ou un chapeau, et ils enregistrent les couleurs dominantes et les motifs répétitifs. De plus, les boxes englobantes et les points-clés aident à séparer les régions du torse et des jambes lorsque les vêtements se chevauchent.

Lorsqu’on travaille avec la vidéo de surveillance, la fréquence d’images et la résolution importent. Les caméras de sécurité typiques capturent 10 à 25 images par seconde. De plus, de nombreux systèmes produisent des images de faible résolution, en particulier lorsque les flux sont sous-échantillonnés pour la bande passante. Par conséquent, les annotations font souvent référence à la trame vidéo où la personne est la plus visible. Pour les scènes encombrées, les règles d’annotation priorisent l’instance la plus claire visible d’une personne portant des vêtements distinctifs. En outre, séparez le jeu de données en plis d’entraînement, de validation et de test qui respectent les limites des caméras. Cela évite les fuites de contexte visuel entre les plis. Enfin, lors de la création d’un nouveau jeu de données, il est utile d’inclure plusieurs angles de caméra, des annotations pour les occlusions et des métadonnées telles que la taille estimée. Pour les tâches médico-légales, consultez notre dossier sur la recherche médico-légale dans les aéroports pour voir comment les métadonnées annotées accélèrent les enquêtes : recherche médico-légale dans les aéroports.

Pour quantifier les gains, utilisez les mêmes métriques d’évaluation que les travaux connexes. Évaluez la performance avec la précision top-1 et la moyenne de la précision moyenne (mAP). De plus, rapportez la latence sur du matériel edge représentatif. Pour la reproductibilité, publiez le protocole d’annotation et les scripts avec les données pour entraîner les futurs modèles et permettre à d’autres de diviser le jeu de données de manière cohérente.

Methodology: Convolutional Neural Network for Clothing-Based Search

La méthode proposée utilise un réseau de neurones convolutionnel compact pour extraire des descripteurs vestimentaires. D’abord, un backbone produit des caractéristiques de niveau moyen. Ensuite, une tête à double branche se scinde en un classifieur d’attributs et un descripteur de recherche. De plus, une tête d’attention pèse les patchs locaux pour mettre en évidence les motifs. Le classifieur d’attributs prédit des étiquettes de couleur, le type de vêtement et des catégories de texture simples. Ensuite, la tête de recherche produit un embedding compact utilisé pour mettre en correspondance des personnes entre plusieurs caméras. De plus, le modèle inclut un module léger de re-ranking qui affine les résultats avec la cohérence temporelle.

Les stratégies d’entraînement se concentrent sur des trames à faible résolution et sur la préservation des indices discriminants. Par exemple, affiner le modèle sur des images basse résolution en utilisant des augmentations fortes. De plus, inclure des étapes de traitement d’image qui simulent différents nombres de pixels, le flou de mouvement et les flux en niveaux de gris. La perte d’attribut associe l’entropie croisée pour les étiquettes discrètes à une perte triplet pour améliorer la correspondance basée sur la recherche. En outre, l’intégration de l’estimation de la taille et du sexe renforce la robustesse de la ré-identification lorsque les vêtements sont ambigus. Le modèle mélange des étiquettes supervisées d’attributs et des signaux faibles dérivés de tracklets pour étendre le jeu d’entraînement sans annotation lourde.

Pour respecter les contraintes opérationnelles en temps réel, le réseau élagage des canaux et utilise un entraînement conscient de la quantification. De plus, déployez des kernels optimisés sur des GPU edge pour maintenir une faible latence. Lorsqu’il est intégré à la suite VP Agent, les descripteurs de sortie deviennent des métadonnées recherchables pour la salle de contrôle. Le système permet alors aux opérateurs de poser des requêtes en langage naturel pour localiser une personne portant des vêtements particuliers dans les vidéos des caméras. Enfin, la chaîne prend en charge l’apprentissage incrémental afin que les vêtements et uniformes spécifiques au site puissent être ajoutés rapidement au jeu d’entraînement.

AI vision within minutes?

With our no-code platform you can just focus on your data, we’ll do the rest

surveillance: Real-Time System Performance and Evaluation Metrics

La performance importe plus que la simple précision brute dans des environnements en direct. Premièrement, rapportez la précision top-1 et la moyenne de la précision moyenne. Lors d’essais, la recherche basée sur les vêtements a atteint une précision top-1 proche de 75 % sur des vidéos CCTV multi-caméras, surpassant les méthodes basées uniquement sur la reconnaissance faciale (expérience). Deuxièmement, mesurez la latence de la trame vidéo au résultat de recherche. L’objectif ici était inférieur à 300 millisecondes par trame vidéo sur un GPU edge. De plus, mesurez le débit en images par seconde pour plusieurs flux. Troisièmement, comparez avec des baselines telles que la mise en correspondance d’images faciales et l’identification par démarche. Dans les scènes encombrées, les descripteurs de vêtements surpassent souvent la détection d’objets et les approches faciales pour identifier des personnes lorsque les visages sont occultés.

L’utilisation des ressources doit être suivie. Pour le déploiement en edge, quantifiez la mémoire GPU, la charge CPU et le trafic réseau. Par exemple, l’élagage et la quantification ont réduit la taille du modèle tout en maintenant la précision de recherche dans un écart de 3 points de pourcentage. De plus, évaluez le système sur des caméras CCTV réelles pour estimer l’impact de la qualité vidéo et de la compression. Par ailleurs, incluez des métriques comme la précision de récupération en fonction de K et la continuité de piste pour évaluer la capacité du système à suivre une personne dans le temps. Pour l’intégration pratique en salle de contrôle, la fonctionnalité VP Agent Search transforme ces sorties de recherche en requêtes médico-légales en langage naturel. Pour les cas d’utilisation centrés sur la foule, considérez la solution de détection de densité de foule pour gérer les événements à fort volume : détection de densité de foule dans les aéroports.

Enfin, fournissez un ensemble équilibré de résultats : précision, latence et explicabilité. De plus, fournissez un journal d’audit pour chaque requête de recherche et résultat afin de soutenir la conformité et la revue par les opérateurs.

Edge device processing CCTV streams

security cameras: Implementation Challenges and Ethical Considerations

Le déploiement de la recherche basée sur les vêtements sur des caméras de sécurité soulève des défis techniques et sociaux. Premièrement, les limites de bande passante du réseau peuvent forcer la sous-échantillonnage, ce qui réduit la qualité vidéo et le nombre de pixels par personne. De plus, le placement des capteurs et l’étalonnage influent sur les occlusions et l’éclairage. Par conséquent, planifiez les emplacements des caméras pour maximiser la couverture et réduire les angles morts. Deuxièmement, l’intégration avec les plateformes VMS existantes nécessite des flux de données et des API rigoureux. Pour les solutions sur site, assurez-vous que les métadonnées ne quittent jamais l’environnement sauf si la politique l’autorise. Visionplatform.ai met l’accent sur le traitement sur site pour limiter l’exposition au cloud et pour soutenir la conformité au règlement européen sur l’IA.

La vie privée et l’éthique doivent être abordées dès le départ. Par exemple, la recherche basée sur les vêtements est moins intrusive que certains systèmes biométriques, mais elle peut néanmoins permettre une surveillance de masse. Par conséquent, appliquez des sauvegardes telles que le contrôle d’accès basé sur les rôles, l’audit des requêtes et des limites de conservation. De plus, anonymisez les données vidéo non pertinentes et exigez une supervision humaine pour les actions à haut risque. Par ailleurs, respectez la législation locale sur la vie privée comme le RGPD et documentez le traitement des données dans des évaluations d’impact sur la vie privée. Fournissez de la transparence aux communautés concernées et créez des processus d’appel pour les personnes souhaitant contester un usage abusif.

Les bonnes pratiques opérationnelles réduisent les risques. Premièrement, limitez les périmètres de recherche aux enquêtes autorisées et conservez des journaux des requêtes de personnes d’intérêt. Deuxièmement, utilisez des contrôles techniques pour restreindre qui peut exécuter des recherches basées sur la récupération. Troisièmement, testez les systèmes contre des modes de défaillance, tels que des vêtements adversariaux ou la duplication de motifs, et validez avec des données de test. Enfin, combinez les indices vestimentaires avec d’autres signaux tels que le contrôle d’accès pour réduire les faux positifs et mieux identifier les personnes tout en minimisant la surveillance intrusive.

FAQ

What is clothing-based person search and how does it differ from facial recognition?

La recherche de personnes basée sur les vêtements met en correspondance les personnes par l’information visuelle relative aux vêtements qu’elles portent, comme la couleur, le motif et la texture. Elle diffère de la reconnaissance faciale car elle s’appuie sur les vêtements plutôt que sur des caractéristiques biométriques faciales, et elle peut fonctionner lorsque les visages sont masqués ou de faible qualité.

Can clothing-based search work in low resolution images?

Oui, les chaînes basées sur les vêtements peuvent être affinées pour des images basse résolution en utilisant l’augmentation et la simulation de sous-échantillonnage. Cependant, un très faible nombre de pixels par personne réduit la précision et nécessite une évaluation attentive avec des données de test pertinentes.

How accurate is this approach compared to facial systems?

Des recherches montrent que l’ajout d’attributs vestimentaires peut améliorer la précision d’identification de 15 à 20 % dans les scénarios où les visages sont peu fiables (étude). Des essais sur des séquences multi-caméras ont rapporté des taux de précision top-1 d’environ 75 % pour les systèmes axés sur les vêtements dans des environnements contrôlés.

What datasets support research in clothing-aware re-identification?

Des ressources publiques comme LIP, CAVIAR et CRxK fournissent des données annotées pour les étiquettes vestimentaires et la détection de personnes. Les chercheurs créent également de nouveaux jeux de données en combinant des ensembles publics avec la vidéo spécifique au site afin de couvrir les variations opérationnelles.

Is the system suitable for real-time control rooms?

Oui, lorsque les modèles sont optimisés pour le matériel edge et les contraintes de latence. Le déploiement sur du matériel compatible réduit le temps de traitement, et l’intégration dans des plateformes comme la suite VP Agent permet d’obtenir des sorties recherchables et exploitables pour les opérateurs.

How do you address privacy and legal concerns?

Mettez en œuvre des contrôles d’accès stricts, la journalisation, des limites de conservation et une supervision humaine. De plus, traitez la vidéo sur site lorsque c’est possible, réalisez des évaluations d’impact sur la vie privée et respectez les réglementations locales telles que le RGPD.

Can this method identify a person of interest across multiple cameras?

Oui. L’embedding de recherche est conçu pour mettre en correspondance une personne entre plusieurs caméras, améliorant le suivi lorsque les visages ne sont pas visibles. L’utilisation de métadonnées comme la taille estimée renforce encore la robustesse.

How does data labelling work in crowded scenes?

Les annotateurs marquent l’instance la plus claire visible et étiquettent le type de vêtement, la couleur et le motif. Les protocoles d’annotation privilégient généralement les trames où la personne est le moins occluse et incluent des règles de séparation du jeu de données pour éviter les fuites liées aux caméras.

What are common implementation challenges?

Les défis incluent les limites de bande passante, le placement des caméras, la variation de qualité vidéo et l’intégration avec des VMS hérités. De plus, maintenir la précision du modèle face aux changements d’uniformes ou de mode nécessite un réentraînement périodique avec de nouvelles données annotées.

Where can I learn more about practical deployments?

Pour des exemples opérationnels et des intégrations, consultez nos ressources sur la détection de personnes et la recherche médico-légale dans les aéroports. Ces pages expliquent comment les systèmes de recherche pilotés par l’IA peuvent soutenir les enquêtes et la surveillance quotidienne : détection de personnes dans les aéroports, recherche médico-légale dans les aéroports, et détection de densité de foule dans les aéroports.

next step? plan a
free consultation


Customer portal