Modèles vision-langage (VLMs)
Les modèles vision-langage offrent une nouvelle manière de traiter conjointement images ou vidéos et texte. D’abord, ils combinent des encodeurs de vision par ordinateur avec des encodeurs de langage. Ensuite, ils fusionnent ces représentations dans un espace latent partagé afin qu’un système unique puisse raisonner à la fois sur les signaux visuels et le langage humain. Dans le contexte de la détection d’anomalies vidéo médico-légale, cette fusion est importante. Elle permet aux opérateurs de poser des questions en langage naturel sur la vidéo, puis de retrouver rapidement des séquences pertinentes. Par exemple, un opérateur peut interroger une salle de contrôle avec une phrase comme « personne qui traîne près de la porte après les heures d’ouverture » et obtenir des résultats lisibles par des humains. Cela permet d’économiser des heures de revue manuelle et réduit considérablement le temps d’analyse. Une étude de terrain a rapporté une réduction du temps d’analyse allant jusqu’à 40 % lorsque des outils multimodaux ont été introduits La science de l’analyse médico-légale de la vidéo : un outil d’enquête.
Au niveau du modèle, une architecture courante associe un encodeur visuel qui traite des images RGB et un modèle de langage basé sur des transformers qui gère des légendes ou des transcriptions. Ensuite, une tête de projection aligne les embeddings visuels et textuels. Les vecteurs alignés permettent à un classificateur en aval de détecter des anomalies ou à un générateur de créer des descriptions. Ces modèles vision-langage apparaissent deux fois dans cet article parce qu’ils sont au cœur des pipelines modernes. Ils prennent en charge à la fois des requêtes zero-shot et une classification affinée. Pour des déploiements pratiques, les VLMs sont exécutés sur site pour préserver la confidentialité, et ils alimentent des fonctionnalités comme VP Agent Search qui transforment la vidéo de surveillance en texte interrogeable.
L’IA joue plusieurs rôles ici. L’IA détecte des objets, signale des comportements anormaux et priorise les séquences pour revue. L’IA résume également les événements et réduit les fausses alertes. De plus, des agents d’IA peuvent raisonner à travers la vidéo, les journaux VMS et les enregistrements de contrôle d’accès. En conséquence, les opérateurs reçoivent une alerte expliquée qui facilite la prise de décision. Le pipeline profite de modèles pré-entraînés, puis d’un ajustement spécifique au site avec des données d’entraînement limitées. Enfin, cette configuration prend en charge des workflows de détection d’anomalies vidéo faiblement supervisés lorsque les horodatages exacts ne sont pas disponibles.
Travaux connexes
Les benchmarks de recherche montrent une grande variation entre les performances en laboratoire et les résultats en conditions réelles. Par exemple, le benchmark Deepfake-Eval-2024 met en évidence une chute de performance spectaculaire de plus de 30 % lorsque des modèles entraînés sur des jeux de données contrôlés sont appliqués à des séquences « in-the-wild » Deepfake-Eval-2024. Cette étude a testé des détecteurs multimodaux et a constaté que de nombreux systèmes peinent face à des métadonnées bruyantes et à des taux de compression variés. En parallèle, les pipelines classiques à modalité unique — ceux qui n’utilisent que la vision par ordinateur ou que l’audio — performent encore bien sur des jeux de données soignés comme UCF-CRIME. Pourtant, ils échouent souvent à généraliser.
Les approches multimodales offrent des avantages. Elles fusionnent signaux visuels, transcriptions et métadonnées, et utilisent des indices sémantiques pour réduire les fausses alertes. Par exemple, la mise en relation d’un journal de contrôle d’accès avec un clip vidéo aide à confirmer ou infirmer une alerte. De plus, les modèles multimodaux peuvent utiliser le langage pour désambiguïser des événements visuellement similaires. Cela améliore la classification des anomalies et la reconnaissance d’anomalies vidéo. Néanmoins, des lacunes persistent. Les jeux de données de référence capturent rarement la gamme complète des scénarios réels, et les annotations de vérité terrain pour les événements anormaux sont rares. Les chercheurs demandent des jeux de données de plus grande envergure et des annotations plus riches pour renforcer la robustesse et la cohérence temporelle.
Les travaux connexes examinent également la conception algorithmique. Des articles de Zhong, Tian, Luo, Agarwal, Joulin et Misra explorent l’agrégation et les modèles temporels pour la détection d’anomalies vidéo et la reconnaissance d’actions. En pratique, les backbones visuels pré-entraînés sont fine-tunés sur des données de domaine pour réduire les faux positifs. Pourtant, un défi critique subsiste : combler l’écart entre les métriques en laboratoire et la fiabilité opérationnelle dans des salles de contrôle en direct. Nous devons avancer vers des benchmarks qui reflètent des heures de revue manuelle, des compressions imparfaites, de faibles éclairages et des occultations afin d’améliorer la robustesse des modèles en conditions réelles Deepfake-Eval-2024 (PDF).

AI vision within minutes?
With our no-code platform you can just focus on your data, we’ll do the rest
IA
L’IA sous-tend désormais la plupart des workflows médico-légaux et de sécurité modernes. Premièrement, elle traite la quantité de vidéo qui submergerait des humains. Deuxièmement, elle trie les événements afin que les équipes se concentrent sur les incidents à forte valeur ajoutée. Troisièmement, elle fournit des explications lisibles par des humains pour étayer les décisions. Chez visionplatform.ai, nous nous appuyons sur ces capacités. Notre VP Agent Reasoning met en corrélation l’analytique vidéo, les descriptions des VLM et les journaux VMS afin que les opérateurs obtiennent du contexte, pas seulement des alertes. Cela réduit la charge cognitive et accélère l’action.
Les fonctions d’IA se répartissent entre détection, synthèse et aide à la décision. Les composants de détection incluent des détecteurs d’anomalies et des modèles de reconnaissance d’actions. Les composants de synthèse utilisent des modèles de langage pour générer des rapports concis à partir de la vidéo. L’aide à la décision combine ces sorties et applique des règles ou des politiques d’agent. Dans de nombreuses configurations, plusieurs modèles d’IA fonctionnent en parallèle. Ils fournissent de la redondance et aident à valider des hypothèses à travers les modalités. Cette approche multi-modèles soulève des questions sur l’agrégation et la résolution des sorties contradictoires. Pour cette raison, une prise de décision traçable et des journaux auditable sont essentiels.
L’intégration est importante. Les équipes IA couplent souvent les sorties vidéo avec d’autres outils médico-légaux tels que l’analyse ADN ou la reconstitution de scènes de crime. Cela permet aux enquêteurs de recouper les timelines et les preuves. En exploitation, des agents d’IA peuvent préremplir les rapports d’incident et déclencher des workflows. Par exemple, un VP Agent Action peut suggérer une étape suivante ou clore une fausse alerte avec justification. Cela réduit le temps par alerte et améliore la cohérence. L’IA a aussi des limites. L’entraînement des modèles et l’apprentissage supervisé exigent un effort d’étiquetage. La robustesse face aux perturbations adversariales et aux menaces liées aux IA génératives reste un domaine ouvert Médias générés synthétiquement. Néanmoins, l’IA promet un support scalable pour des salles de contrôle qui doivent gérer des milliers d’heures de vidéo chaque semaine.
Modèles de langage
Les modèles de langage dans les piles VLM sont généralement basés sur des transformers. Ils incluent des variantes de modèles encodeur-only, décodeur-only et encodeur-décodeur. Ces modèles de langage permettent les requêtes en langage naturel, la vérification des transcriptions et la fusion contextuelle. Par exemple, une transcription produite par un module de reconnaissance vocale peut être encodée et comparée aux descriptions textuelles provenant d’un encodeur visuel. Cette comparaison aide à détecter des incohérences et à signaler des divergences entre des déclarations de témoins et la vidéo. Le système peut ensuite mettre en avant des clips pour revue humaine.
Le traitement du langage améliore la compréhension contextuelle. Il fournit des étiquettes sémantiques qui complètent les signaux visuels de bas niveau. En conséquence, des tâches comme la détection d’événements et la classification d’anomalies deviennent plus précises. Les modèles de langage prennent également en charge la génération de langage afin que les systèmes puissent produire des rapports exploitables ou des transcriptions verbatim. Lorsqu’ils sont associés à des encodeurs visuels pré-entraînés, ils permettent la détection zero-shot d’événements anormaux nouveaux qui n’étaient pas présents dans l’entraînement. L’alignement cross-modal utilise des embeddings partagés pour encoder les caractéristiques visuelles et textuelles, ce qui facilite la recherche et la récupération flexibles.
Les déployeurs doivent prêter attention aux indices contextuels comme la position de la caméra, l’heure de la journée et les données de contrôle d’accès. Ensemble, ces éléments forment un contexte vidéo plus riche qui aide le modèle à décider si une action est normale ou anormale. En pratique, les opérateurs utilisent le VP Agent Search pour retrouver des incidents avec des requêtes en langage humain simples. Cette fonctionnalité s’inscrit dans notre politique sur site pour la confidentialité et la conformité. Enfin, les modèles de langage peuvent aider au recoupement des métadonnées, à la vérification des horodatages et à l’amélioration du classificateur d’anomalies en fournissant des contraintes sémantiques.
AI vision within minutes?
With our no-code platform you can just focus on your data, we’ll do the rest
Conception des prompts
L’ingénierie des prompts est importante pour les VLMs. Un prompt clair oriente un VLM vers la bonne sortie, et un prompt médiocre produit des résultats bruyants ou trompeurs. Utilisez un langage concis et spécifique. Incluez le contexte de la caméra, les contraintes temporelles et les objets attendus. Par exemple, un prompt qui dit « Lister les transports suspects d’objets non surveillés près de la Porte B entre 22:00 et 23:00 » donne des résultats ciblés. Ajoutez également des exemples lorsque cela est possible pour guider le comportement few-shot.
Voici des prompts types pour des tâches courantes. Pour la détection d’anomalies, utilisez : « Détecter des comportements anormaux dans ce clip. Mettre en évidence le flânage, les départs en course soudains ou l’abandon d’objets. » Pour la synthèse d’événements, utilisez : « Résumer le clip en trois points. Inclure le nombre de personnes, les actions et les indices contextuels. » Pour la vérification de transcription, utilisez : « Comparer la transcription à la vidéo. Signaler les divergences et fournir les horodatages. » Ces schémas de prompt aident le modèle à réduire les fausses alertes et à améliorer la cohérence temporelle.
La conception des prompts affecte la généralisation. Des prompts clairs améliorent les performances zero-shot et few-shot. À l’inverse, des prompts ambigus peuvent biaiser la sortie du modèle et détériorer les détecteurs d’anomalies. Pour renforcer la robustesse, itérez avec des clips réels et recueillez les retours des opérateurs. Une boucle de prompt avec correction humaine aide à affiner le prompt et les réponses du modèle. Enfin, rappelez-vous que les templates de prompt font partie du pipeline de déploiement et doivent être versionnés et audités pour la conformité.
Configuration expérimentale et résultats expérimentaux
Nous avons conçu des expériences avec des clips issus à la fois de jeux de données contrôlés et de séquences in-the-wild. Le jeu de données contrôlé comprenait des images RGB sélectionnées avec des événements anormaux annotés. L’ensemble in-the-wild utilisait des heures de vidéo de surveillance capturée sur plusieurs sites sous des éclairages et des compressions variés. Nous avons également évalué les modèles sur des clips UCF-CRIME pour comparer la reconnaissance d’actions et les étiquettes au niveau vidéo. La configuration expérimentale mesurait la précision de détection, les faux positifs, les économies de temps et d’autres métriques opérationnelles.
Les métriques d’évaluation incluaient l’AUC pour la détection, la précision et le rappel pour la classification d’anomalies, les fausses alertes par heure et le temps moyen économisé par incident. Quantitativement, les pipelines multimodaux à base de VLM ont montré une amélioration de 25 % dans la détection d’événements et la reconnaissance d’objets par rapport aux baselines mono-modales sur des benchmarks mixtes. De plus, les équipes ont observé jusqu’à 40 % de réduction du temps de revue lorsque la synthèse par IA et le VP Agent Search étaient utilisés étude sur la réduction du temps. Cependant, le benchmark Deepfake-Eval-2024 a mis en évidence une chute significative des performances dans des scénarios réels, confirmant que la robustesse reste un problème dégradation des performances dans des tests sur le terrain.
Des défis sont apparus en matière de généralisation et de faux positifs. Le nombre de fausses alertes augmentait lorsque les modèles rencontraient des angles de caméra différents ou des types d’anomalies nouveaux. Pour y remédier, les équipes ont utilisé un pré-entraînement sur de larges jeux d’images, puis un fine-tuning sur des données locales d’entraînement et de test. Elles ont également intégré des contrôles procéduraux pour réduire les faux positifs, par exemple en recoupant des journaux d’accès. Ces étapes ont amélioré la robustesse et réduit les erreurs du classificateur d’anomalies. Dans l’ensemble, les résultats expérimentaux soutiennent les VLMs multimodaux comme une approche prometteuse, tout en signalant le besoin de jeux de données de benchmark plus réalistes et de modèles temporels plus puissants Rapport sur la désinformation visuelle et multimodale.
Pour les lecteurs qui souhaitent des exemples appliqués, voyez nos fonctionnalités VP Agent : recherche médico-légale dans les aéroports pour des requêtes historiques rapides, contrôles d’intrusion automatisés, et analyses de flânage.
FAQ
Que sont les modèles vision-langage et en quoi diffèrent-ils des modèles visuels ?
Les modèles vision-langage combinent des encodeurs visuels avec des modèles de langage pour raisonner à la fois sur des images ou des vidéos et du texte. En revanche, les modèles visuels se concentrent uniquement sur les données visuelles et ne traitent pas nativement le langage humain.
Un VLM peut-il détecter des événements anormaux dans de longs flux de surveillance ?
Oui. Les VLMs peuvent prioriser des clips et signaler des événements anormaux afin que les opérateurs examinent moins de segments. Ils peuvent aussi résumer les événements pour accélérer l’enquête.
Les VLMs sont-ils prêts pour des scénarios réels ?
Les VLMs performent bien sur des jeux de données contrôlés mais peuvent subir une baisse de performance dans des conditions réalistes et désordonnées. Des travaux sont en cours pour améliorer la robustesse et le benchmarking sur des séquences in-the-wild.
Comment les prompts influencent-ils les sorties des modèles ?
Les prompts orientent le comportement et la portée du modèle. Des prompts clairs et contextuels améliorent généralement la précision, tandis que des prompts vagues peuvent produire des sorties bruyantes ou hors sujet.
Quel rôle l’IA joue-t-elle dans les salles de contrôle ?
L’IA trie les alertes, réduit les fausses alarmes et fournit une aide à la décision. Elle peut aussi préremplir des rapports et automatiser des workflows à faible risque tout en maintenant une supervision humaine.
Comment les VLMs traitent-ils les transcriptions et les métadonnées ?
Ils encodent les transcriptions et les métadonnées dans l’espace latent partagé et les recoupent avec les signaux visuels. Cela aide à vérifier des déclarations et à détecter des incohérences.
Les VLMs nécessitent-ils beaucoup de données étiquetées ?
Les modèles pré-entraînés réduisent le besoin d’un grand nombre de données étiquetées, mais un fine-tuning sur des exemples spécifiques au site améliore les performances. Les méthodes faiblement supervisées pour la détection d’anomalies vidéo peuvent aider lorsque les étiquettes sont rares.
Les VLMs peuvent-ils réduire les faux positifs des alertes ?
Oui. En ajoutant une compréhension contextuelle et en recoupant avec d’autres systèmes, les VLMs peuvent diminuer les fausses alertes et améliorer la prise de décision. La supervision humaine reste importante.
Comment évaluer un VLM en pratique ?
Utilisez des métriques comme la précision de détection, les faux positifs par heure, la précision, le rappel et le temps économisé par incident. Testez aussi sur des jeux de données de référence et des scénarios réels pour obtenir une vue complète.
Où puis-je voir des exemples de systèmes déployés ?
Pour des déploiements pratiques, consultez des exemples tels que la détection d’intrusion dans les aéroports, la détection de flânage dans les aéroports et la recherche médico-légale dans les aéroports. Ils illustrent comment les VLMs améliorent les workflows opérationnels.
