Pietra miliare del progetto Hafnia: addestramento di modelli AI su NVIDIA

Gennaio 21, 2026

Platform updates

Fondamenti dell’IA per l’addestramento di modelli visivi

L’addestramento dei modelli di intelligenza artificiale parte dai dati. Nell’IA visiva i dati più preziosi sono i video raccolti dalle telecamere. Video di alta qualità aiutano i modelli a imparare il movimento, il contesto e i comportamenti. Per sviluppatori e urbanisti questo è importante, poiché i modelli necessitano di varietà del mondo reale. Il processo richiede una curatela attenta dei dati, annotazione e iterazione. Addestrare modelli visivi richiede frame etichettati, bounding box e coerenza temporale in modo che i sistemi di visione artificiale si generalizzino attraverso diverse condizioni.

Tuttavia, reperire video conformi per la computer vision pone delle sfide. Quadri normativi come il GDPR limitano come i video pubblici possono essere archiviati e riutilizzati. In Europa l’AI Act aggiunge un ulteriore livello di conformità, quindi sono essenziali pipeline pronte per la regolamentazione. Di conseguenza molti sviluppatori di IA faticano ad ottenere filmati eticamente reperiti e verificabili. Per risolvere questa frizione, iniziative centralizzano librerie di dati con tracciabilità e applicano la privacy e la conformità lungo tutta la pipeline.

La precisione delle annotazioni e la diversità dei dataset determinano le prestazioni dei modelli. Se le etichette sono incoerenti, i modelli rendono meno. Se le scene mancano di diversità, le uscite dei modelli visivo-linguaggio falliscono in situazioni urbane complesse. Perciò i team si concentrano su sequenze pre-annotate e implementano controlli di qualità e conformità in ogni fase. Ad esempio, workflow controllati forniscono tracciabilità per ogni asset video annotato, così i team possono verificare la provenienza e i registri di audit.

Per le organizzazioni che costruiscono sistemi operativi, la differenza tra rilevamento e spiegazione è critica. visionplatform.ai trasforma i rilevamenti in ragionamento accoppiando un modello linguistico on-prem con il contesto a livello di evento, il che aiuta gli operatori ad agire più rapidamente. Per i professionisti che mirano a distribuire modelli di IA nelle sale di controllo, l’IA visiva deve offrire non solo accuratezza ma anche spiegabilità e workflow verificabili.

Infine, per accelerare lo sviluppo dell’IA i team devono bilanciare calcolo, annotazione e varietà dei dataset. L’uso di GPU e microservizi cloud accorcia i cicli di iterazione, e l’uso di video curati ed eticamente reperiti riduce il rischio legale. Di conseguenza i team possono addestrare modelli di computer vision che funzionano in modo affidabile negli ambienti urbani e in scenari urbani complessi.

project hafnia: Visione e obiettivi

Project Hafnia è un’iniziativa di 12 mesi progettata per creare una piattaforma regolamentata per dati video e addestramento di modelli. Il programma si concentra sulla raccolta di video conformi e sulla costruzione di pipeline che supportino l’addestramento di IA visiva su scala. In particolare, project hafnia mira a democratizzare l’addestramento dei modelli di IA rendendo disponibili video di alta qualità sotto una licenza ad accesso controllato. L’iniziativa è rivolta a città intelligenti e agenzie pubbliche che necessitano di strumenti pronti per la regolamentazione per lo sviluppo dei modelli.

Milestone Systems guida il programma, e la roadmap di project hafnia ha fissato traguardi per la raccolta dati, l’annotazione, il fine-tuning dei modelli e la distribuzione. La timeline è passata da catture pilota alla creazione di una libreria dati a piena scala entro l’anno. Per garantire una gestione conforme alle normative, il progetto ha enfatizzato la privacy-by-design e la documentazione auditabile. Il lavoro ha aiutato le città a testare i modelli senza compromettere la privacy dei dati o creare dipendenza dal fornitore.

Thomas Jensen ha detto, “Artificial intelligence is a transformative technology, with access to high-quality training data being a key challenge. Project Hafnia is designed to create the world’s smartest, fastest, and most responsible platform for video data and AI model training.” Questa citazione inquadra l’intento e l’urgenza. Come parte di quell’intento lo sforzo ha incluso piloti con accesso anticipato in più città, e si è prefissato di rispettare gli obblighi dell’AI Act dell’UE e del GDPR.

Project Hafnia prevede inoltre di supportare il fine-tuning di modelli visivo-linguaggio e VLM in modo che i modelli riflettano i valori e i vincoli europei. Il programma include collezioni pre-annotate, che consentono agli sviluppatori di computer vision di partire da etichette di qualità. Così la piattaforma supporta l’addestramento di modelli di IA visiva mantenendo tracciabilità e provenienza verificabile per ogni asset video annotato.

Per i team che vogliono esplorare capacità forensi avanzate, vedere esempi pratici come la ricerca forense in linguaggio naturale. L’approccio di visionplatform.ai alla ricerca forense complementa questi sforzi offrendo ragionamento on-prem e ricerca attraverso i record VMS, il che aiuta a operationalizzare i dataset creati sotto project hafnia. Per saperne di più

Vista di una sala di controllo con sovrapposizioni video di IA

AI vision within minutes?

With our no-code platform you can just focus on your data, we’ll do the rest

Partenariato NVIDIA e stack tecnologico

La collaborazione con nvidia e Nebius ha fornito una profondità tecnica essenziale. Milestone Systems si è associata a nvidia per accelerare la pipeline per l’addestramento e la curatela. La piattaforma integra l’ecosistema di nvidia e il nemo curator per gestire gli asset etichettati. In particolare, nvidia nemo curator su nvidia dgx e istanze cloud ha permesso workflow rapidi e pronti per la regolamentazione per la curatela dei dati e il versioning dei dataset. Lo stack si collega inoltre con Nebius per l’orchestrazione cloud e i microservizi.

NVIDIA NeMo Curator svolge un ruolo centrale nella curatela dei dataset. I team usano lo strumento per annotare, convalidare ed esportare dati video conformi per l’addestramento. La combinazione del curator e degli strumenti AI consente agli ingegneri di gestire grandi volumi di video annotati mentre si applicano privacy, tracciabilità e controlli di qualità. Inoltre la pipeline supporta la creazione di una libreria di dati che ospita sequenze pre-annotate e metadati per la provenienza.

Le scelte tecniche di Project Hafnia includevano microservizi containerizzati, sistemi di etichettatura tracciabile e una pipeline che supporta l’addestramento di modelli visivo-linguaggio. Questa architettura aiuta i team a effettuare il fine-tuning dei componenti dei modelli visivo-linguaggio e dei VLM visionari che collegano i frame video a descrizioni testuali. Per illustrare l’effetto pratico, il progetto si è esteso a Genova come città pilota per convalidare lo stack in ambienti urbani live durante implementazioni reali.

Oltre alla curatela, la partnership ha prodotto un blueprint AI di nvidia per video che descrive pattern di addestramento accelerati da GPU, e ha introdotto processi per gestire dati conformi tra diverse giurisdizioni. L’approccio congiunto supporta gli sviluppatori di IA che necessitano di una pipeline riproducibile e di documentazione di conformità. Per le organizzazioni focalizzate su soluzioni on-prem, visionplatform.ai integra la curatela cloud mantenendo video e modelli locali, riducendo i rischi di attraversamento dei confini.

Infine, lo stack includeva supporto per modelli visivo-linguaggio e forniva strumenti per annotare comportamenti complessi. Questo ha aiutato gli sviluppatori di computer vision a avviare modelli che collegano eventi al linguaggio, così gli operatori ricevono output significativi e spiegabili invece di semplici rilevamenti.

Addestramento di modelli AI accelerato da GPU

Le GPU cambiano l’economia dell’addestramento dei modelli. Riducono il tempo di addestramento da giorni ad ore e permettono a più esperimenti di essere eseguiti in parallelo. Con le GPU i team possono iterare più rapidamente, esplorare iperparametri e fornire modelli di qualità superiore. Per i carichi di lavoro video il parallelismo delle GPU è particolarmente prezioso perché i frame video generano tensori di grandi dimensioni e sequenze temporali.

Addestrare modelli di IA visiva su GPU produce chiari guadagni di throughput. Ad esempio, l’uso di sistemi della classe DGX può ridurre significativamente il tempo per epoca. In Project Hafnia l’uso di pipeline GPU turbohaussate ha aiutato i modelli a convergere più velocemente, il che ha significato più esperimenti al mese. Il nemo curator su nvidia dgx cloud ha supportato il preprocessing dei dati e l’augmentazione batch, e ha aiutato a mantenere flussi di dati consistenti per l’addestramento dell’IA visiva.

Il processamento di video reali rispetto a quelli sintetici differisce nella domanda di calcolo. Le sequenze sintetiche richiedono rendering e simulazione fisica in anticipo, ma riducono il carico di annotazione. I video di traffico reali e i video di traffico dei piloti catturano il vero rumore del sensore e la complessità ambientale. Combinando entrambi i tipi i team possono trovare un equilibrio: i dati sintetici ampliano gli scenari mentre i filmati reali creano realismo e robusta generalizzazione. La pipeline quindi ha miscelato dataset reali e sintetici per ottenere modelli addestrati per condizioni diverse.

Le efficienze di costo emergono quando le GPU forniscono più modelli addestrati per euro speso. I guadagni a livello di sistema includevano un costo di iterazione inferiore e cicli di fine-tuning più rapidi. Per i team che devono distribuire modelli di IA in produzione il risultato sono rollout più veloci e una migliore gestione del ciclo di vita del modello. Inoltre, l’accelerazione GPU supporta l’inferenza on-prem su dispositivi edge come NVIDIA Jetson, il che aiuta le città a distribuire modelli senza inviare video grezzi al cloud.

Nel complesso, le pipeline basate su GPU, combinate con video curati e annotati, permettono ai team di accelerare l’IA mantenendo al centro qualità e conformità. Questo modello supporta anche una transizione dall’analisi video pura a operazioni assistite dall’IA dove i modelli fanno più che rilevare; spiegano, verificano e raccomandano azioni.

AI vision within minutes?

With our no-code platform you can just focus on your data, we’ll do the rest

Case study di distribuzione in città intelligenti

Genova è stata la prima distribuzione a piena scala per project hafnia. La città ha integrato video curati e conformi in sistemi che supportano la gestione del traffico e il sensing urbano. Project Hafnia ha raccolto sequenze annotate, quindi ha usato modelli addestrati su quei dati per fornire insight azionabili. Ad esempio, il sistema ha migliorato l’analisi del flusso veicolare e ha aiutato i pianificatori a identificare i punti di congestione.

Attraverso i piloti, i modelli hanno guidato analisi rilevanti per le operazioni. Hanno prodotto conteggi di occupazione, tassi di flusso e riepiloghi di eventi. Questo tipo di output completa le funzionalità avanzate di ricerca forense; le sale di controllo possono interrogare gli incidenti usando il linguaggio naturale e poi verificare rapidamente le riprese. Per i lettori interessati a esempi pratici di ricerca forense, visionplatform.ai documenta il suo processo di ricerca forense on-prem che trasforma le uscite dei VLM in descrizioni ricercabili e leggibili dall’uomo per saperne di più.

Il rollout di Project Hafnia ha dimostrato miglioramenti operativi misurabili. Le città hanno osservato verifiche degli incidenti più rapide e tempi di risposta inferiori. I modelli addestrati su dati curati hanno generato meno falsi positivi rispetto alle analitiche legacy, riducendo il carico di lavoro degli operatori. Inoltre, i dataset curati hanno aiutato a creare modelli fine-tuned che corrispondevano alle condizioni locali senza sacrificare privacy e conformità.

Oltre alla sicurezza, la distribuzione ha migliorato la pianificazione. Il sistema ha fornito dati per analisi heatmap di occupazione e ha informato decisioni su aggiustamenti di corsie e tempistiche dei segnali. Per operatori aeroportuali o dei trasporti che vogliono insight simili, risorse come il rilevamento e classificazione dei veicoli mostrano come i dati a livello di oggetto supportano operazioni più ampie.

Infine, il pilota di Genova ha convalidato che dati video conformi e una forte curatela forniscono analitiche urbane scalabili. La distribuzione ha convinto altre città a richiedere accesso anticipato e a prendere in considerazione piloti simili. Il progetto ha quindi creato un modello per l’adozione responsabile della tecnologia negli ambienti urbani.

Veduta aerea di un incrocio urbano con sovrapposizioni di analisi del traffico

Gestione del traffico e governance etica dei dati

La gestione del traffico è un caso d’uso primario per l’IA basata su video. Usando dataset curati, i team possono addestrare modelli per supportare il controllo intelligente del traffico e le analitiche di trasporto. Questi modelli alimentano applicazioni come il rilevamento di code, i conteggi dei veicoli e i flag di anomalie. Se distribuiti responsabilmente aiutano a ridurre la congestione e migliorare la sicurezza.

La governance etica forma la spina dorsale della condivisione dei dati. Project Hafnia ha adottato licenze ad accesso controllato in modo che ricercatori e sviluppatori di IA potessero usare dati conformi senza esporre identità. Questo modello conforme alle normative supporta la privacy e la conformità per impostazione predefinita. La piattaforma ha applicato tecniche che preservano la privacy e pipeline verificabili, rendendo ogni dataset tracciabile e auditabile.

L’accesso controllato significa anche che le organizzazioni possono effettuare il fine-tuning senza che i dati lascino la loro giurisdizione. Per i team che preferiscono soluzioni on-prem, visionplatform.ai mantiene video, modelli e ragionamento all’interno dell’ambiente operativo, riducendo il rischio di trasferimento transfrontaliero dei dati. Questo approccio aiuta i sistemi a rispettare l’AI Act dell’UE consentendo al contempo il fine-tuning e la distribuzione di soluzioni IA in contesti sicuri.

Le misure privacy-by-design includevano la pre-annotazione in fase di cattura, la redazione controllata e la gestione dei metadati. L’architettura legale e tecnica ha fornito tracciabilità, che soddisfa sia gli auditor sia i team procurement. In pratica questo ha permesso alle città di distribuire strumenti di gestione del traffico basati su IA preservando i diritti dei cittadini e la privacy dei dati.

La provenienza etica conta anche su larga scala. Usando video eticamente reperiti, annotati e licenze chiare l’iniziativa ha ridotto l’ambiguità sul riutilizzo. Di conseguenza le città potevano distribuire modelli senza compromettere sicurezza o conformità. La combinazione di curatela dei dati, processi pronti per la regolamentazione e addestramento accelerato da GPU ha creato un percorso realistico per distribuire modelli di IA che migliorano la mobilità urbana, la sicurezza pubblica e l’efficienza operativa.

FAQ

Cos’è project hafnia?

Project Hafnia è un’iniziativa di 12 mesi guidata da Milestone Systems per costruire una piattaforma per dati video conformi e addestramento di modelli. Il programma si concentra su curatela sicura, annotazione e dataset accessibili per lo sviluppo dell’IA.

Chi sono i principali partner del progetto?

Milestone Systems si è associata con NVIDIA e Nebius per fornire lo stack tecnico e l’orchestrazione cloud. La collaborazione ha combinato strumenti di curatela dei dati, accelerazione GPU e workflow regolamentari.

In che modo nemo curator aiuta?

Nemo curator semplifica la etichettatura dei dataset, la convalida e l’esportazione per le pipeline di addestramento. Supporta la curatela tracciabile e aiuta a produrre dataset pronti per il fine-tuning e conformi alla normativa.

Dove è stato distribuito project hafnia?

Genova è stata una città di primo impiego che ha convalidato la piattaforma in un ambiente urbano reale. I piloti hanno dimostrato miglioramenti nella gestione del traffico e nelle analitiche operative.

In che modo l’accelerazione GPU migliora l’addestramento?

Le GPU riducono i tempi di addestramento e permettono più esperimenti per ciclo, aumentando la qualità del modello e abbassando il costo per iterazione. Il risultato permette ai team di effettuare il fine-tuning dei modelli più rapidamente e distribuire soluzioni di IA più velocemente.

Le città possono mantenere la privacy dei dati utilizzando questi modelli?

Sì. Licenze ad accesso controllato, pre-annotazione e pipeline privacy-by-design rendono i dataset auditabili e conformi. Questi meccanismi supportano distribuzioni pronte per la regolamentazione senza compromettere la privacy dei dati.

Come si inseriscono i modelli visivo-linguaggio nel sistema?

I modelli visivo-linguaggio convertono gli eventi video in testo descrittivo, abilitando la ricerca in linguaggio naturale e workflow forensi. Questo aumenta la comprensione da parte degli operatori e supporta il ragionamento automatizzato all’interno delle sale di controllo.

Che ruolo svolge visionplatform.ai?

visionplatform.ai offre un modello visivo-linguaggio on-prem e un livello agent che trasforma i rilevamenti in ragionamento e azione. Questo completa la curatela cloud mantenendo video e modelli locali, migliorando conformità e valore operativo.

Come vengono bilanciati i dati sintetici e reali?

I team combinano video sintetici per ampliare la copertura degli scenari con filmati reali per catturare il rumore dei sensori e il realismo. Questa strategia ibrida migliora la generalizzazione dei modelli di computer vision.

Come può un’organizzazione ottenere accesso anticipato o saperne di più?

Molti piloti hanno offerto accesso anticipato a città e partner di ricerca per convalidare l’approccio. Le organizzazioni interessate dovrebbero consultare i partner del progetto e la documentazione tecnica per pianificare distribuzioni conformi.

next step? plan a
free consultation


Customer portal