Modelos de lenguaje visual para Milestone XProtect

enero 17, 2026

Platform updates

el modelo de lenguaje visual resume horas de grabación en texto conciso con IA generativa

La tecnología de modelos de lenguaje visual convierte largas líneas de tiempo de vídeo en narrativas de incidentes legibles, y este cambio importa para los equipos reales. Además, estos sistemas combinan el procesamiento de imágenes y lenguaje para crear descripciones similares a las humanas de lo que la cámara captó. Por ejemplo, modelos avanzados generarán un texto que explica acciones, objetos y contexto a partir de minutos u horas de metraje. En consecuencia, los operadores ya no necesitan rebuscar entre vídeos interminables. En su lugar, pueden leer informes breves, buscar en lenguaje natural y centrarse en la respuesta.

Los VLMs actuales emparejan codificadores visuales con grandes modelos de lenguaje, y amplían lo que las plataformas de vigilancia pueden hacer. Por ejemplo, la investigación muestra que los modelos líderes destacan en tareas de percepción mientras siguen mejorando en pruebas de razonamiento (resultados de alta precisión). Además, una revisión exhaustiva pone de manifiesto las fortalezas multimodales que permiten subtitulado de imágenes, preguntas visuales y resumen (revisión de enfoques de VLM). Por lo tanto, integrar un VLM en XProtect elimina un cuello de botella importante: la revisión manual.

En la práctica, la nueva herramienta de resumen de vídeo convierte horas de metraje de cámaras en resúmenes concisos de incidentes. Por ejemplo, los operadores pueden enviar un clip de vídeo corto y recibir un párrafo ejecutivo que enumere el qué, quién, dónde y cuándo. Además, la herramienta de resumen analiza el metraje de la cámara y describe lo que es relevante. Esta capacidad respalda los flujos de trabajo forenses y agiliza las investigaciones al permitir que las personas busquen en el vídeo como si fuera un informe en lugar de un conjunto de archivos.

visionplatform.ai utiliza VLMs on-prem para que los clientes mantengan el control del vídeo y de los modelos. Además, nuestra VP Agent Suite convierte las detecciones de vídeo en descripciones buscables y combina la salida del VLM con razonamiento de agentes para sugerir acciones. Esto reduce el tiempo por alarma y ayuda a los equipos a escalar la monitorización sin mover el vídeo bruto a la nube. Los informes iniciales muestran que el resumen de vídeo podría reducir el tiempo que los operadores pasan en la revisión manual en aproximadamente un 30%, y esto se alinea con la evidencia de la industria de que la IA acelera la detección de incidentes (métricas de Milestone).

Milestone Systems ofrece VLM como servicio para ampliar las capacidades de IA a flujos de trabajo personalizados

Milestone Systems proporciona servicios modulares que permiten a los integradores añadir funciones de visión-lenguaje a despliegues existentes. Además, Milestone ha introducido opciones en la nube y on-prem, y la compañía presenta ambas como formas de ofrecer inteligencia escalable. Por ejemplo, los servicios profesionales de Milestone XProtect en AWS muestran cómo XProtect puede ejecutarse en infraestructura cloud con capacidades de IA añadidas (listado en AWS). Adicionalmente, Milestone Systems es líder mundial en vídeo basado en datos, y su hoja de ruta de plataforma incluye nuevos servicios multimodales.

Milestone ofrece un modelo de lenguaje como servicio y VLM como servicio, y ambos amplían lo que los desarrolladores pueden hacer con XProtect. Asimismo, los puntos de integración incluyen APIs y SDKs que exponen las salidas del VLM a flujos de trabajo, paneles e sistemas de incidentes. En el XProtect Smart Client: los usuarios se benefician de resúmenes clicables, y los desarrolladores pueden crear un complemento impulsado por IA para el XProtect que muestre el texto del VLM directamente en el cliente. Directamente en el XProtect Smart, los equipos pueden leer resúmenes de incidentes, saltar a fragmentos y exportar informes.

Operador revisando un resumen de incidente generado por IA

La nueva herramienta de resumen de vídeo de Milestone para XProtect analiza el metraje de la cámara y describe lo que es importante. Además, el modelo de visión-lenguaje de Milestone puede configurarse para enviar un fragmento de vídeo y un prompt que describa la salida deseada. Entonces, el modelo generará un resumen de texto y una breve línea de tiempo con fotogramas clave. Este flujo de trabajo respalda tanto las investigaciones como la monitorización diaria. Además, las organizaciones pueden adoptar un complemento para el XProtect Smart que habilite esta función dentro de instalaciones XProtect existentes. El nuevo resumen de vídeo de Milestone combina un modelo de visión-lenguaje de alta precisión con conectores operativos, y ofrece acceso por API al vídeo listo para producción a socios y proveedores de servicios.

Para clientes que prefieren la operación on-prem, visionplatform.ai complementa estos servicios ofreciendo componentes VP Agent on-prem que mantienen el vídeo dentro del entorno. Además, visionplatform.ai conserva el control del modelo y los registros de auditoría, lo que apoya el cumplimiento y las preocupaciones respecto a la EU AI Act. Por último, Milestone Systems enfatiza la IA en sus comunicaciones: «Nuestro galardonado software XProtect aprovecha el poder de la IA y los modelos de visión-lenguaje para ofrecer una conciencia situacional y eficiencia operativa inigualables a nuestros clientes en todo el mundo.» (declaración de Milestone).

los profesionales de la gestión de vídeo enfrentan una alta carga de trabajo manual, la IA puede reducir el tiempo de revisión en un 30%

Las salas de control informan sobre sobrecarga de vídeo y revisión manual que consume tiempo como realidades diarias. Además, los operadores gestionan alarmas, registros y procedimientos, y esto ralentiza la toma de decisiones bajo presión. Los datos del sector indican que la IA puede reducir el tiempo de revisión en aproximadamente un 30%, y los informes muestran que el resumen de vídeo podría reducir el tiempo del operador en ese margen en despliegues reales (estudios de caso de Milestone). Por lo tanto, añadir resúmenes concisos y búsqueda en lenguaje natural cambia las cargas de trabajo.

La resumización impulsada por IA condensa largas grabaciones y marca secuencias sospechosas para revisión inmediata. En consecuencia, los operadores ven menos falsos positivos y pasan más tiempo en incidentes verificados. Por ejemplo, Milestone ha informado de hasta un 40% de reducción de falsas alarmas cuando la IA y la verificación contextual están en funcionamiento (reducción de falsas alarmas de Milestone). Además, los benchmarks académicos muestran que los VLM superan el 85% en tareas complejas de percepción visual, lo que respalda una detección fiable a escala (resultados de investigación).

visionplatform.ai se centra en convertir detecciones en decisiones. Por ejemplo, VP Agent Search permite a los equipos ejecutar consultas forenses como «persona merodeando cerca de la puerta fuera de horario» en vídeo grabado y devuelve resultados legibles por humanos. Además, VP Agent Reasoning correlaciona eventos de cámara con control de acceso, procedimientos y contexto histórico para explicar si una alarma es válida. Este enfoque reduce la carga cognitiva del operador y disminuye los pasos por incidente.

Dado que los sistemas de vídeo capturan grandes cantidades de metraje, los equipos necesitan un triage automatizado. Asimismo, los sistemas que combinan descripciones VLM en tiempo real con acciones de agentes pueden cerrar falsas alarmas, crear informes pre‑completados y notificar a los respondedores. En resumen, adoptar inteligencia avanzada de vídeo y VLMs on-prem da a las salas de control las herramientas para escalar la monitorización con el mismo personal, y crea un camino claro desde la detección hasta la acción.

AI vision within minutes?

With our no-code platform you can just focus on your data, we’ll do the rest

el modelo de lenguaje visual en XProtect Smart Client se especializa en análisis de tráfico

Un despliegue práctico de VLM se centra en el tráfico. Específicamente, un modelo especializado para vídeo de tráfico del mundo real puede identificar colisiones, movimientos en sentido contrario y patrones de congestión. Además, el modelo puede ajustarse finamente a los ángulos de cámara locales para que reconozca marcas de carril, tipos de vehículos y ciclistas en diferentes condiciones meteorológicas. El resultado es una herramienta de resumen para vídeo de XProtect que enumera eventos clave, marcas temporales y un breve contexto textual para cada incidente.

Intersección de tráfico urbana anotada

Los flujos de trabajo de tráfico se benefician de resúmenes estructurados. Por ejemplo, una herramienta de resumen para XProtect permite a los usuarios enviar un clip de vídeo corto junto con un prompt que describa el enfoque deseado, y el modelo devuelve una lista de incidentes con marcas temporales. Además, este flujo de trabajo apoya a las fuerzas del orden y a los planificadores urbanos que necesitan extracción rápida de evidencias y análisis de tendencias. La herramienta para vídeo de XProtect® ayuda a los analistas a revisar eventos en horas punta y respalda la toma de decisiones de gestión del tráfico.

El modelo de visión-lenguaje de Milestone usado en estos flujos está especializado para vídeo de tráfico del mundo real y afinado con conjuntos de datos responsablemente curados. Además, el resumen de vídeo para XProtect permite a los usuarios extraer fragmentos que muestran infracciones o casi accidentes, y los equipos pueden exportarlos para seguimiento. Por ejemplo, los planificadores urbanos pueden usar resúmenes agregados para ajustar los tiempos de semáforos, y la policía puede usar los mismos resúmenes para priorizar investigaciones. visionplatform.ai se integra con XProtect para que los resúmenes de incidentes aparezcan dentro del XProtect Smart Client y enlacen de vuelta al segmento grabado completo.

Además, el sistema puede enriquecer los eventos con salidas ANPR/LPR y clasificaciones de vehículos. Para contexto, vea nuestro trabajo de detección y clasificación de vehículos para aeropuertos que demuestra salidas en tiempo real sobre vehículos en movimiento (detección y clasificación de vehículos en aeropuertos). También, los equipos que necesitan búsqueda forense pueden ampliar estos resúmenes con consultas de texto completo a lo largo del tiempo usando VP Agent Search (búsqueda forense en aeropuertos).

Milestone Systems informa hasta un 40% de reducción de falsas alarmas y un 30% de detección de incidentes más rápida

Milestone Systems reporta mejoras operativas significativas cuando se aplica IA a XProtect. Por ejemplo, la nueva herramienta de resumen de vídeo del sistema y la IA integrada supuestamente redujeron las falsas alarmas hasta un 40% y aceleraron la detección de incidentes en alrededor de un 30% en algunos despliegues (métricas de Milestone). Además, estas cifras coinciden con el feedback de campo de que la automatización reduce el tiempo hasta la acción y aumenta la conciencia situacional.

Estas ganancias provienen de combinar salidas VLM con motores de reglas y verificación contextual. Por ejemplo, un evento XProtect existente puede enriquecerse con una descripción del VLM, y luego un agente de IA puede preguntar a sistemas complementarios si una lectura de tarjeta o un sensor de puerta corrobora el evento. Como resultado, el sistema evita enviar alertas en bruto que carecen de contexto, y los operadores reciben situaciones explicadas con acciones recomendadas.

Las integraciones visión‑lenguaje también mejoran los informes y el cumplimiento. En concreto, la inteligencia de vídeo lista para producción integrada en los flujos de trabajo reduce la carga manual de los resúmenes de incidentes. La plataforma puede crear registros de incidentes estructurados, pre‑llenar campos de investigación y exportar paquetes de evidencia. Para clientes que trabajan bajo restricciones regulatorias, mantener el vídeo y los modelos on‑prem o en una nube controlada importa. El enfoque on‑prem de visionplatform.ai respalda esa necesidad y complementa las opciones en la nube de Milestone para clientes que prefieren servicios alojados.

Por último, añadir inteligencia avanzada de vídeo a XProtect respalda objetivos operativos más amplios. Por ejemplo, los equipos aeroportuarios que usan conteo de personas, ANPR y detección de intrusiones encuentran que los resúmenes VLM ayudan a correlacionar eventos operativos con incidentes de seguridad (conteo de personas en aeropuertos). Además, al combinar descripciones visuales con metadatos, los equipos pueden reducir la carga del operador y centrar la atención humana donde más importa.

AI vision within minutes?

With our no-code platform you can just focus on your data, we’ll do the rest

el futuro de la gestión de vídeo dependerá de arquitecturas avanzadas de modelos de lenguaje visual

La investigación en arquitecturas VLM sigue evolucionando, y benchmarks como MaCBench empujan a los modelos hacia un razonamiento científico más sólido y una comprensión multimodal más rica (benchmark MaCBench). Además, la revisión ICLR 2026 sobre investigación visión‑lenguaje‑acción destaca tendencias en modelos de difusión y razonamiento que beneficiarán la vigilancia y la IA operacional (análisis ICLR VLA). Por lo tanto, las futuras integraciones con XProtect probablemente usarán topologías avanzadas de modelos de lenguaje visual para equilibrar velocidad y precisión.

Milestone ha introducido iniciativas que combinan opciones en la nube y en el edge, y el concepto hafnia vision language model muestra cómo los proveedores planean ofrecer despliegues flexibles. Además, conceptos como VLM como servicio y modelo de lenguaje como servicio permitirán a los integradores elegir modelos alojados o on‑prem según las necesidades de cumplimiento. Para clientes que necesitan control total en sitio, visionplatform.ai ofrece capacidades VP Agent on‑prem que mantienen el vídeo local y aun así entregan inteligencia de vídeo lista para producción.

De cara al futuro, las plataformas avanzadas de IA de vídeo soportarán flujos de trabajo de agentes más ricos. Por ejemplo, los agentes razonarán sobre líneas temporales, registros de control de acceso y SOPs para recomendar acciones. Esto convierte las detecciones en decisiones y crea un camino impactante para convertir vídeo en resultados accionables. Además, los desarrolladores podrán añadir funciones avanzadas de inteligencia de vídeo a XProtect mediante APIs y complementos, y el ecosistema de Milestone facilitará añadir estas funciones avanzadas de inteligencia de vídeo a las aplicaciones.

Finalmente, a medida que la precisión de los modelos mejore, la adopción se acelera. Los primeros adoptantes ya ven beneficios medibles, y a medida que los benchmarks y las herramientas maduren, el software de gestión de vídeo XProtect integrará razonamiento multimodal en las operaciones. En resumen, combinar VLMs con una arquitectura VMS robusta definirá la próxima generación de sistemas de vigilancia por vídeo y de IA operacional.

FAQ

What is a vision language model and how does it work with XProtect?

Un modelo de lenguaje visual (VLM) procesa entradas visuales y genera salidas en lenguaje natural que describen lo que aparece en el vídeo. En XProtect, un VLM puede producir resúmenes, subtítulos y descripciones buscables que aparecen en el XProtect Smart Client o vía APIs.

Can VLM summaries really replace manual video review?

Los resúmenes de VLM reducen la cantidad de vídeo que un analista debe ver al resaltar momentos clave y crear informes concisos. Además, estos resúmenes aceleran el triaje y permiten a los operadores centrarse en incidentes verificados en lugar del metraje bruto.

Does Milestone Systems offer VLMs as part of XProtect?

Milestone Systems ha introducido capacidades de VLM y servicios relacionados para XProtect, y la compañía informa de reducciones medibles en falsas alarmas y detección más rápida en despliegues (métricas de Milestone). Además, Milestone proporciona opciones en la nube e integraciones para socios e integradores.

How does visionplatform.ai complement Milestone XProtect?

visionplatform.ai proporciona VLMs on‑prem, razonamiento de agentes y búsqueda forense en lenguaje natural que se integran estrechamente con XProtect. Además, nuestra VP Agent Suite convierte las detecciones en contexto y acciones recomendadas mientras mantiene el vídeo y los modelos bajo control del cliente.

What performance improvements can organizations expect?

Los informes de campo indican hasta un 40% menos de falsas alarmas y aproximadamente un 30% de detección de incidentes más rápida cuando se aplican IA y resúmenes VLM. Además, estudios académicos muestran una fuerte precisión de percepción en los VLM modernos (investigación).

Are VLMs suitable for traffic management?

Sí. Los modelos especializados para vídeo de tráfico del mundo real pueden detectar colisiones, congestión e infracciones, y generan resúmenes con contexto que apoyan a la policía y la planificación urbana. Además, estos resúmenes ayudan a optimizar los tiempos de semáforos y la asignación de recursos.

Can VLMs run on-prem for compliance-sensitive sites?

Pueden. visionplatform.ai y algunas integraciones de Milestone soportan el despliegue on‑prem para mantener la soberanía de los datos, cumplir con la EU AI Act y evitar enviar vídeo bruto a nubes externas. Esto preserva las trazas de auditoría y el control.

How do I integrate VLM summaries into existing XProtect workflows?

Las integraciones normalmente usan las APIs y SDKs de Milestone, o un complemento impulsado por IA para el XProtect que muestra resúmenes dentro del XProtect Smart Client. Los desarrolladores también pueden llamar a servicios VLM vía REST APIs para recuperar resúmenes y vincularlos a incidentes.

What about model training and dataset requirements?

Los VLMs de alta calidad necesitan datos de vídeo diversos y anotados y un ajuste fino cuidadoso para vistas de cámara específicas del sitio; los modelos especializados para vídeo de tráfico del mundo real y afinados con conjuntos de datos responsablemente curados rinden mejor. Además, los proveedores pueden ofrecer modelos preentrenados y herramientas para refinarlos con datos locales.

Where can I learn more about forensic search and vehicle detection integration?

Consulte nuestros recursos sobre búsqueda forense en aeropuertos para búsqueda de vídeo en lenguaje natural y nuestra página de detección y clasificación de vehículos para aprender cómo los resúmenes VLM se combinan con metadatos para investigaciones (búsqueda forense, detección y clasificación de vehículos). Además, nuestra página de conteo de personas muestra cómo los resúmenes pueden apoyar la analítica operativa (conteo de personas).

next step? plan a
free consultation


Customer portal