Hito del Proyecto Hafnia: entrenamiento de modelos de IA con NVIDIA

enero 21, 2026

Platform updates

Fundamentos de IA en el Entrenamiento de Modelos Visuales

El entrenamiento de modelos de IA comienza con los datos. En la IA visual, los datos más valiosos son los vídeos recopilados por cámaras. Los datos de vídeo de alta calidad ayudan a los modelos a aprender movimiento, contexto y comportamiento. Para desarrolladores y planificadores urbanos esto importa, ya que los modelos necesitan variedad del mundo real. El proceso requiere una curación de datos cuidadosa, anotación e iteración. Entrenar modelos de IA visual demanda fotogramas etiquetados, cuadros delimitadores y consistencia temporal para que los sistemas de visión por computador se generalicen en distintas condiciones.

Sin embargo, obtener vídeo conforme para visión por computador plantea desafíos. Marcos legales como el GDPR limitan cómo se puede almacenar y reutilizar el vídeo público. En Europa, la Ley de IA añade otra capa de cumplimiento, por lo que son esenciales canalizaciones preparadas para la regulación. Como resultado, muchos desarrolladores de IA tienen dificultades para conseguir material filmado ético y auditable. Para resolver esta fricción, se han lanzado iniciativas que centralizan bibliotecas de datos con trazabilidad y que aplican privacidad y cumplimiento en toda la cadena.

La precisión de la anotación y la diversidad del conjunto de datos determinan el rendimiento del modelo. Si las etiquetas son inconsistentes, los modelos rinden peor. Si las escenas carecen de diversidad, las salidas de los modelos de lenguaje visual fallan en situaciones urbanas complejas. Por ello, los equipos se centran en secuencias preanotadas e implementan controles de calidad y cumplimiento en cada etapa. Por ejemplo, los flujos de trabajo controlados proporcionan trazabilidad para cada activo de datos de vídeo anotado, de modo que los equipos pueden verificar la procedencia y los registros de auditoría.

Para las organizaciones que construyen sistemas operativos, la diferencia entre detección y explicación es crítica. visionplatform.ai transforma las detecciones en razonamiento al acoplar un modelo de lenguaje local con contexto a nivel de evento, lo que ayuda a los operadores a actuar más rápido. Para los profesionales que buscan desplegar modelos de IA en salas de control, la IA visual debe ofrecer no solo precisión, sino también explicabilidad y flujos de trabajo auditables.

Finalmente, para acelerar el desarrollo de IA los equipos deben equilibrar cómputo, anotación y variedad de conjuntos de datos. Usar GPUs y microservicios en la nube acorta los ciclos de iteración, y usar vídeo curado y obtenido éticamente reduce el riesgo legal. En consecuencia, los equipos pueden entrenar modelos de visión por computador que rinden de forma fiable en entornos urbanos y en escenarios urbanos complejos.

project hafnia: Vision and Goals

Project Hafnia es una iniciativa de 12 meses diseñada para crear una plataforma regulada para datos de vídeo y entrenamiento de modelos. El programa se centra en recopilar datos de vídeo conformes y en construir canalizaciones que soporten el entrenamiento de IA visual a escala. Específicamente, Project Hafnia pretende democratizar el entrenamiento de modelos de IA poniendo a disposición datos de vídeo de alta calidad bajo una licencia de acceso controlado. El esfuerzo apunta a ciudades inteligentes y agencias públicas que necesitan herramientas preparadas para la regulación para el desarrollo de modelos.

Milestone Systems lidera el programa, y la hoja de ruta de Project Hafnia fijó hitos para la recopilación de datos, la anotación, el afinamiento de modelos y el despliegue. La línea temporal pasó de capturas piloto a la creación de una biblioteca de datos a gran escala dentro del año. Para asegurar un manejo conforme con la normativa, el proyecto enfatizó la privacidad por diseño y la documentación auditable. El trabajo ayudó a las ciudades a probar modelos sin comprometer la privacidad de los datos ni generar dependencia de proveedores.

Thomas Jensen dijo, «La inteligencia artificial es una tecnología transformadora, y el acceso a datos de entrenamiento de alta calidad es un desafío clave. Project Hafnia está diseñado para crear la plataforma más inteligente, rápida y responsable del mundo para datos de vídeo y entrenamiento de modelos de IA.» Esta cita enmarca la intención y la urgencia. Como parte de esa intención, el esfuerzo incluyó pilotos de acceso temprano en múltiples ciudades y se propuso cumplir las obligaciones del Reglamento de la UE sobre IA y del RGPD.

Project Hafnia también planea apoyar el afinamiento de modelos de lenguaje visual y VLMs para que los modelos reflejen los valores y las limitaciones europeas. El programa incluye colecciones preanotadas, que permiten a los desarrolladores de visión por computador comenzar con etiquetas de calidad. Así, la plataforma soporta el entrenamiento de modelos de IA visual manteniendo la trazabilidad y la procedencia auditable de cada activo de datos de vídeo anotado.

Para los equipos que quieran explorar capacidades forenses avanzadas, vean ejemplos prácticos como la búsqueda forense en lenguaje natural. El enfoque de visionplatform.ai para la búsqueda forense complementa estos esfuerzos ofreciendo razonamiento local y búsqueda a través de registros VMS, lo que ayuda a operacionalizar los conjuntos de datos creados bajo Project Hafnia.

Vista de sala de control con superposiciones de vídeo y análisis de IA

AI vision within minutes?

With our no-code platform you can just focus on your data, we’ll do the rest

Alianza con NVIDIA y Stack Tecnológico

La colaboración con NVIDIA y Nebius proporcionó una profundidad técnica esencial. Milestone Systems se asoció con NVIDIA para acelerar la canalización de entrenamiento y curación. La plataforma integra el ecosistema de NVIDIA y el NeMo Curator para gestionar activos etiquetados. Específicamente, NVIDIA NeMo Curator en DGX y en instancias en la nube permitió flujos de trabajo rápidos y preparados para la regulación en la curación y versionado de conjuntos de datos. El stack también se conecta con Nebius para la orquestación en la nube y microservicios.

NVIDIA NeMo Curator desempeña un papel central en la curación de conjuntos de datos. Los equipos usan la herramienta para anotar, validar y exportar datos de vídeo conformes para el entrenamiento. La combinación del Curator y las herramientas de IA permite a los ingenieros gestionar datos de vídeo anotados a gran escala mientras aplican privacidad, trazabilidad y controles de calidad. Además, la canalización soporta la creación de una biblioteca de datos que alberga secuencias preanotadas y metadatos para la procedencia.

Las decisiones técnicas de Project Hafnia incluyeron microservicios en contenedores, sistemas de etiquetado trazables y una canalización que soporta el entrenamiento de modelos de lenguaje visual. Esta arquitectura ayuda a los equipos a afinar componentes de VLM y modelos visionarios que vinculan fotogramas de vídeo con descripciones textuales. Para ilustrar el efecto práctico, el proyecto se extendió a Génova como ciudad piloto para validar el stack en entornos urbanos en vivo durante despliegues reales.

Más allá de la curación, la colaboración produjo un blueprint de IA de NVIDIA para vídeo que describe patrones de entrenamiento acelerados por GPU, e introdujo procesos para manejar datos conformes entre jurisdicciones. El enfoque conjunto apoya a los desarrolladores de IA que necesitan una canalización reproducible y documentación de cumplimiento. Para organizaciones centradas en soluciones locales, visionplatform.ai complementa la curación en la nube manteniendo vídeo y modelos en sitio, reduciendo los riesgos transfronterizos.

Finalmente, el stack incluyó soporte para modelos de lenguaje visual y proporcionó herramientas para anotar comportamientos complejos. Esto ayudó a los desarrolladores de visión por computador a iniciar modelos que vinculan eventos con lenguaje, de modo que los operadores reciban salidas significativas y explicables en lugar de detecciones crudas.

Entrenamiento de Modelos de IA Acelerado por GPU

Las GPUs cambian la economía del entrenamiento de modelos. Reducen el tiempo de entrenamiento de días a horas y permiten ejecutar múltiples experimentos en paralelo. Con GPUs los equipos pueden iterar más rápido, explorar hiperparámetros y entregar modelos de mayor calidad. Para cargas de trabajo de vídeo, el paralelismo de las GPUs es especialmente valioso porque los fotogramas de vídeo generan tensores grandes y secuencias temporales.

Entrenar modelos de IA visual en GPUs produce claras ganancias de rendimiento. Por ejemplo, usar sistemas de clase DGX puede reducir considerablemente el tiempo por época. En Project Hafnia, el uso de canalizaciones GPU turboalimentadas ayudó a que los modelos convergieran más rápido, lo que implicó más experimentos por mes. NeMo Curator en NVIDIA DGX y en la nube apoyó el preprocesamiento de datos y la augmentación por lotes, y ayudó a mantener flujos de datos consistentes para el entrenamiento de IA visual.

El procesamiento de vídeo real frente a sintético difiere en la demanda de cómputo. Las secuencias sintéticas requieren renderizado y simulación física inicial, pero reducen la carga de anotación. El vídeo de tráfico real y el procedente de pilotos capturan el ruido del sensor y la complejidad ambiental auténticos. Combinar ambos tipos permite a los equipos encontrar un equilibrio: los datos sintéticos amplían los escenarios mientras que las grabaciones reales aportan realismo y generalización robusta. Por lo tanto, la canalización mezcló conjuntos de datos reales y sintéticos para lograr modelos entrenados para condiciones diversas.

Las eficiencias de coste aparecen cuando las GPUs permiten entrenar más modelos por dólar gastado. Las ganancias a nivel de sistema incluyeron un coste de iteración menor y ciclos de afinamiento más rápidos. Para los equipos que necesitan desplegar modelos de IA en producción, el resultado son implementaciones más rápidas y una mejor gestión del ciclo de vida del modelo. Además, la aceleración por GPU soporta la inferencia local en dispositivos de borde como NVIDIA Jetson, lo que ayuda a las ciudades a desplegar modelos sin enviar vídeo bruto a la nube.

En general, las canalizaciones basadas en GPU, combinadas con datos de vídeo curados y anotados, permiten a los equipos acelerar la IA manteniendo el foco en la calidad y el cumplimiento. Este modelo también soporta la transición del análisis de vídeo puro a operaciones asistidas por IA, donde los modelos hacen más que detectar: explican, verifican y recomiendan acciones.

AI vision within minutes?

With our no-code platform you can just focus on your data, we’ll do the rest

Estudio de Caso de Despliegue en Ciudades Inteligentes

Génova sirvió como el primer despliegue a escala completa para Project Hafnia. La ciudad integró datos de vídeo curados y conformes en sistemas que soportan la gestión del tráfico y la detección urbana. Project Hafnia recopiló secuencias anotadas y luego utilizó modelos entrenados con esos datos para ofrecer información accionable. Por ejemplo, el sistema mejoró la analítica de flujo vehicular y ayudó a los planificadores a identificar puntos críticos de congestión.

A través de los pilotos, los modelos impulsaron analíticas relevantes para las operaciones. Produjeron conteos de ocupación, tasas de flujo y resúmenes de eventos. Este tipo de resultados complementa las funciones avanzadas de búsqueda forense; las salas de control pueden consultar incidentes usando lenguaje natural y luego verificar rápidamente las grabaciones. Para los lectores interesados en ejemplos prácticos de búsqueda forense, visionplatform.ai documenta su proceso de búsqueda forense local que convierte las salidas de los VLM en descripciones buscables y legibles por humanos para más lectura.

El despliegue de Project Hafnia mostró mejoras operativas medibles. Las ciudades experimentaron una verificación de incidentes más rápida y tiempos de respuesta menores. Los modelos entrenados con datos curados produjeron menos falsos positivos que las analíticas heredadas, lo que redujo la carga de trabajo de los operadores. Además, los conjuntos de datos curados ayudaron a crear modelos afinados que se ajustaban a las condiciones locales sin sacrificar la privacidad y el cumplimiento.

Más allá de la seguridad, el despliegue mejoró la planificación. El sistema proporcionó datos para análisis de ocupación mediante mapas de calor e informó decisiones sobre ajustes de carriles y temporización de señales. Para operadores aeroportuarios o de transporte que quieran ideas similares, recursos como la detección y clasificación de vehículos muestran cómo los datos a nivel de objeto respaldan operaciones más amplias ejemplos de detección de vehículos.

Finalmente, el piloto en Génova validó que los datos de vídeo conformes y una curación sólida entregan analíticas urbanas que escalan. El despliegue convenció a otras ciudades de solicitar acceso temprano y considerar pilotos similares. El proyecto, por tanto, creó una plantilla para la adopción responsable de tecnología en entornos urbanos.

Intersección urbana con superposiciones de análisis de tráfico

Gestión del Tráfico y Gobernanza Ética de los Datos

La gestión del tráfico es un caso de uso principal para la IA basada en vídeo. Usando conjuntos de datos curados, los equipos pueden entrenar modelos para soportar el control inteligente del tráfico y la analítica de transporte. Estos modelos impulsan aplicaciones como detección de colas, conteo de vehículos y banderas de anomalías. Cuando se despliegan de forma responsable, ayudan a reducir la congestión y mejorar la seguridad.

La gobernanza ética forma la columna vertebral del intercambio de datos. Project Hafnia adoptó licencias de acceso controlado para que investigadores y desarrolladores de IA pudieran usar datos conformes sin exponer identidades. Este modelo conforme con la normativa soporta la privacidad y el cumplimiento por defecto. La plataforma aplicó técnicas que preservan la privacidad y canalizaciones auditables, lo que hizo que cada conjunto de datos fuera rastreable y auditable.

El acceso controlado también significa que las organizaciones pueden afinar sin que los datos salgan de su jurisdicción. Para los equipos que prefieren soluciones locales, visionplatform.ai mantiene vídeo, modelos y razonamiento dentro del entorno operativo, lo que reduce el riesgo de transferencia internacional de datos. Este enfoque ayuda a los sistemas a cumplir la Ley de IA de la UE mientras permite el afinamiento y despliegue de soluciones de IA en contextos seguros.

Las medidas de privacidad por diseño incluyeron preanotación en la captura, redacción controlada y gestión de metadatos. La arquitectura legal y técnica proporcionó trazabilidad, lo que satisface tanto a auditores como a equipos de contratación. En la práctica, esto permitió a las ciudades desplegar herramientas de gestión del tráfico impulsadas por IA preservando los derechos de los ciudadanos y la privacidad de los datos.

El abastecimiento ético también importa a gran escala. Al usar vídeo anotado y obtenido éticamente y licencias claras, la iniciativa redujo la ambigüedad sobre la reutilización. Como resultado, las ciudades pudieron desplegar modelos sin comprometer la seguridad ni el cumplimiento. La combinación de curación de datos, procesos preparados para la regulación y entrenamiento acelerado por GPU creó una ruta realista para desplegar modelos de IA que mejoran la movilidad urbana, la seguridad pública y la eficiencia operativa.

FAQ

¿Qué es project hafnia?

Project Hafnia es una iniciativa de 12 meses liderada por Milestone Systems para construir una plataforma de datos de vídeo conformes y entrenamiento de modelos. El programa se centra en la curación segura, la anotación y conjuntos de datos accesibles para el desarrollo de IA.

¿Quiénes son los principales socios del proyecto?

Milestone Systems se asoció con NVIDIA y Nebius para ofrecer el stack técnico y la orquestación en la nube. La colaboración combinó herramientas de curación de datos, aceleración por GPU y flujos de trabajo regulatorios.

¿Cómo ayuda NeMo Curator?

NeMo Curator agiliza el etiquetado, la validación y la exportación de conjuntos de datos para las canalizaciones de entrenamiento. Soporta curación trazable y ayuda a producir conjuntos de datos preparados para la regulación que son adecuados para el afinamiento de modelos.

¿Dónde se ha desplegado project hafnia?

Génova fue una ciudad de despliegue temprana que validó la plataforma en un entorno urbano real. Los pilotos demostraron mejoras en la gestión del tráfico y en la analítica operativa.

¿Cómo mejora el entrenamiento la aceleración por GPU?

Las GPUs reducen el tiempo de entrenamiento y permiten más experimentos por ciclo, lo que incrementa la calidad del modelo y reduce el coste por iteración. El resultado permite a los equipos afinar modelos más rápido y desplegar soluciones de IA con mayor rapidez.

¿Pueden las ciudades mantener la privacidad de los datos mientras usan estos modelos?

Sí. Las licencias de acceso controlado, la preanotación y las canalizaciones con privacidad por diseño hacen que los conjuntos de datos sean auditable y conformes. Estos mecanismos soportan despliegues preparados para la regulación sin comprometer la privacidad de los datos.

¿Cómo encajan los modelos de lenguaje visual en el sistema?

Los modelos de lenguaje visual convierten eventos de vídeo en texto descriptivo, habilitando búsquedas en lenguaje natural y flujos de trabajo forenses. Esto mejora la comprensión del operador y soporta el razonamiento automatizado dentro de las salas de control.

¿Qué papel desempeña visionplatform.ai?

visionplatform.ai ofrece un modelo de lenguaje visual y una capa de agentes local que convierte las detecciones en razonamiento y acción. Esto complementa la curación en la nube al mantener vídeo y modelos en sitio, mejorando el cumplimiento y el valor operativo.

¿Cómo se equilibran los datos de vídeo sintéticos y reales?

Los equipos combinan vídeo sintético para ampliar la cobertura de escenarios con material real para capturar el ruido del sensor y el realismo. Esta estrategia híbrida mejora la generalización de los modelos de visión por computador.

¿Cómo puede una organización obtener acceso temprano o aprender más?

Muchos pilotos ofrecieron acceso temprano a ciudades y socios de investigación para validar el enfoque. Las organizaciones interesadas deben consultar a los socios del proyecto y la documentación técnica para planificar despliegues conformes.

next step? plan a
free consultation


Customer portal