Kamień milowy projektu Hafnia: szkolenie modeli AI na NVIDIA

21 stycznia, 2026

Platform updates

Podstawy AI w szkoleniu modeli wizualnych

Szkolenie modeli AI zaczyna się od danych. W wizualnej AI najcenniejsze są dane wideo zbierane z kamer. Wysokiej jakości dane wideo pomagają modelom uczyć się ruchu, kontekstu i zachowań. Dla deweloperów i planistów miejskich ma to znaczenie, ponieważ modele potrzebują różnorodności z rzeczywistego świata. Proces wymaga starannej kuracji danych, adnotacji i iteracji. Szkolenie modeli wizualnych wymaga oznaczonych klatek, ramek ograniczających i spójności czasowej, aby systemy komputerowego widzenia uogólniały się na różne warunki.

Jednak pozyskiwanie zgodnych z przepisami materiałów wideo do komputerowego widzenia stwarza wyzwania. Ramy prawne, takie jak RODO, ograniczają sposób przechowywania i ponownego wykorzystywania nagrań z miejsc publicznych. W Europie AI Act dodaje kolejną warstwę zgodności, dlatego niezbędne są procesy gotowe na regulacje. W rezultacie wielu deweloperów AI ma trudności z uzyskaniem etycznie pozyskanych, audytowalnych nagrań. Aby rozwiązać ten problem, inicjatywy centralizują biblioteki danych z możliwością śledzenia pochodzenia i egzekwują prywatność oraz zgodność w całym pipeline.

Dokładność adnotacji i różnorodność zbiorów danych decydują o wydajności modeli. Jeśli etykiety są niespójne, modele będą działać słabo. Jeśli sceny są pozbawione różnorodności, to wyjścia modeli językowo-wizualnych zawodzą w złożonych sytuacjach miejskich. Dlatego zespoły koncentrują się na sekwencjach z wstępnymi adnotacjami i wdrażają kontrole jakości oraz zgodności na każdym etapie. Na przykład kontrolowane workflowy zapewniają śledzenie pochodzenia każdego zasobu wideo z adnotacjami, dzięki czemu zespoły mogą weryfikować pochodzenie i zapisy audytowe.

Dla organizacji budujących systemy operacyjne różnica między wykryciem a wyjaśnieniem jest krytyczna. visionplatform.ai przekształca wykrycia w rozumowanie, łącząc lokalny model językowy z kontekstem na poziomie zdarzeń, co pomaga operatorom działać szybciej. Dla praktyków planujących wdrożyć modele AI w pokojach kontroli, wizualna AI musi dostarczać nie tylko dokładności, ale też wyjaśnialności i audytowalnych procesów.

Wreszcie, aby przyspieszyć rozwój AI, zespoły muszą zrównoważyć zasoby obliczeniowe, adnotacje i różnorodność zestawów danych. Wykorzystanie GPU i mikrousług w chmurze skraca cykle iteracyjne, a użycie kuratowanych, etycznie pozyskanych materiałów wideo zmniejsza ryzyko prawne. W konsekwencji zespoły mogą szkolić modele komputerowego widzenia, które działają niezawodnie w środowiskach miejskich i w złożonych scenariuszach miejskich.

project hafnia: Wizja i cele

Project Hafnia to 12-miesięczna inicjatywa mająca na celu stworzenie platformy regulowanej pod kątem danych wideo i szkolenia modeli. Program koncentruje się na zbieraniu zgodnych materiałów wideo i budowaniu pipeline’ów wspierających skalowalne szkolenie wizualnej AI. W szczególności Project Hafnia ma na celu demokratyzację treningu modeli AI poprzez udostępnienie wysokiej jakości danych wideo na licencji z kontrolowanym dostępem. Wysiłek skierowany jest do inteligentnych miast i agencji publicznych, które potrzebują narzędzi gotowych na regulacje do rozwoju modeli.

Milestone Systems prowadzi program, a harmonogram project hafnia ustalił kamienie milowe dotyczące zbierania danych, adnotacji, dopracowywania modeli i wdrożeń. Oś czasu przeszła od pilotażowych zapisów do stworzenia pełnoskalowej biblioteki danych w ciągu roku. Aby zapewnić obsługę zgodną z przepisami, projekt kładł nacisk na prywatność przez projektowanie i dokumentację nadającą się do audytu. Prace pomogły miastom testować modele bez kompromisów dotyczących prywatności danych czy uzależnienia od dostawców.

Thomas Jensen powiedział: „Sztuczna inteligencja to technologia transformująca, a dostęp do wysokiej jakości danych szkoleniowych jest kluczowym wyzwaniem. Project Hafnia ma na celu stworzenie najbardziej inteligentnej, najszybszej i najbardziej odpowiedzialnej platformy na świecie do danych wideo i szkolenia modeli AI.” Ten cytat określa zamiar i pilność. W ramach tego zamierzenia projekt obejmował pilotażowe programy wczesnego dostępu w wielu miastach i dążył do spełnienia wymogów AI Act UE oraz RODO.

Project Hafnia planuje również wspierać dopracowywanie modeli językowo-wizualnych i VLM-ów, tak aby modele odzwierciedlały wartości i ograniczenia europejskie. Program obejmuje kolekcje z wstępnie oznakowanymi danymi, które pozwalają deweloperom komputerowego widzenia rozpocząć pracę z jakościowymi etykietami. W ten sposób platforma wspiera szkolenie modeli wizualnej AI przy zachowaniu śledzalności i audytowalnego pochodzenia każdego zasobu wideo z adnotacjami.

Dla zespołów, które chcą badać zaawansowane możliwości kryminalistyczne, zobacz praktyczne przykłady, takie jak przeszukanie kryminalistyczne w języku naturalnym. Podejście visionplatform.ai do przeszukiwania kryminalistycznego uzupełnia te wysiłki, oferując lokalne rozumowanie i przeszukiwanie rekordów VMS, co pomaga w operacjonalizacji zestawów danych tworzonych w ramach Project Hafnia. Więcej informacji

Widok centrum kontroli z nakładkami wideo AI

AI vision within minutes?

With our no-code platform you can just focus on your data, we’ll do the rest

Partnerstwo NVIDIA i stos technologiczny

Współpraca z NVIDIA i Nebius zapewniła kluczową głębię techniczną. Milestone Systems nawiązał partnerstwo z NVIDIA, aby przyspieszyć pipeline do szkolenia i kuracji. Platforma integruje ekosystem NVIDIA i Nemo Curator do zarządzania oznaczonymi zasobami. Konkretnie, NVIDIA NeMo Curator na systemach NVIDIA DGX i instancjach chmurowych umożliwił szybkie, gotowe na regulacje workflowy do kuracji danych i wersjonowania zestawów danych. Stos łączy się także z Nebius w zakresie orkiestracji chmury i mikrousług.

NVIDIA NeMo Curator odgrywa centralną rolę w kuracji zestawów danych. Zespoły używają tego narzędzia do adnotacji, walidacji i eksportu zgodnych danych wideo do szkoleń. Połączenie Curatora i narzędzi AI pozwala inżynierom zarządzać dużymi, oznakowanymi danymi wideo, jednocześnie egzekwując prywatność, śledzalność i kontrole jakości. Ponadto pipeline wspiera tworzenie biblioteki danych, która przechowuje wstępnie oznakowane sekwencje i metadane dotyczące pochodzenia.

Wybory techniczne Project Hafnia obejmowały skonteneryzowane mikrousługi, śledzalne systemy etykietowania i pipeline wspierający szkolenie modeli językowo-wizualnych. Taka architektura pomaga zespołom dopracowywać komponenty VLM i wizjonerskie VLM, które łączą klatki wideo z opisami tekstowymi. Aby zilustrować praktyczny efekt, projekt rozszerzył pilotaż do Genui jako miasta testowego, aby zweryfikować stos w rzeczywistych środowiskach miejskich podczas rzeczywistych wdrożeń.

Ponadto partnerstwo wypracowało nvidia ai blueprint dla wideo, który opisuje wzorce szkolenia przyspieszonego przez GPU i wprowadziło procesy obsługi zgodnych danych w różnych jurysdykcjach. Wspólne podejście wspiera deweloperów AI, którzy potrzebują powtarzalnego pipeline’u i dokumentacji zgodności. Dla organizacji skoncentrowanych na rozwiązaniach lokalnych, visionplatform.ai uzupełnia kurację w chmurze, utrzymując wideo i modele lokalnie, co zmniejsza ryzyko przesyłania danych między granicami.

Wreszcie stos zawierał wsparcie dla modeli językowo-wizualnych oraz narzędzia do adnotacji złożonych zachowań. To pomogło deweloperom komputerowego widzenia przyspieszyć tworzenie modeli, które łączą zdarzenia z językiem, dzięki czemu operatorzy otrzymują sensowne, wyjaśnialne wyniki zamiast surowych wykryć.

Szkolenie modeli AI przyspieszone przez GPU

GPU zmieniają ekonomię szkolenia modeli. Skracają czas treningu z dni do godzin i pozwalają na równoległe uruchamianie wielu eksperymentów. Dzięki GPU zespoły mogą iterować szybciej, badać hiperparametry i dostarczać modele wyższej jakości. Dla obciążeń wideo równoległość GPU jest szczególnie cenna, ponieważ klatki wideo tworzą duże tensory i sekwencje czasowe.

Szkolenie modeli wizualnych na GPU przynosi wyraźne zyski przepustowości. Na przykład użycie systemów klasy DGX może znacznie skrócić czas epoki. W Project Hafnia wykorzystanie przyspieszonych pipeline’ów GPU pomagało modelom szybciej zbiegać się, co oznaczało więcej eksperymentów miesięcznie. NeMo Curator na NVIDIA DGX i w chmurze wspierał przetwarzanie danych wstępnych i augmentację batchową oraz pomagał utrzymać spójne strumienie danych do treningu wizualnej AI.

Przetwarzanie rzeczywistych a syntetycznych danych wideo różni się wymaganiami obliczeniowymi. Sekwencje syntetyczne wymagają wstępnego renderowania i symulacji fizyki, ale zmniejszają nakład na adnotacje. Rzeczywiste nagrania ruchu drogowego i nagrania z pilotów oddają prawdziwy szum sensoryczny i złożoność środowiskową. Łączenie obu typów pozwala zespołom znaleźć równowagę: dane syntetyczne rozszerzają scenariusze, a rzeczywiste nagrania wprowadzają realizm i odporność na uogólnienia. Pipeline więc miesza zbiory realne i syntetyczne, aby uzyskać modele szkolone na różnorodne warunki.

Efektywność kosztowa pojawia się, gdy GPU umożliwiają trenowanie większej liczby modeli na wydany dolar. Zyski na poziomie systemu obejmowały niższy koszt iteracji i szybsze cykle dopracowywania. Dla zespołów, które muszą wdrażać modele AI w produkcji, rezultatem są szybsze wdrożenia i lepsze zarządzanie cyklem życia modelu. Dodatkowo przyspieszenie GPU wspiera inferencję lokalną na urządzeniach brzegowych, takich jak NVIDIA Jetson, co pomaga miastom wdrażać modele bez wysyłania surowego wideo do chmury.

Ogólnie rzecz biorąc, pipeline’y oparte na GPU, połączone z kuratowanymi oznakowanymi danymi wideo, pozwalają zespołom przyspieszyć AI, jednocześnie utrzymując jakość i zgodność jako priorytety. Ten model wspiera także przejście od czystej analityki wideo do operacji wspomaganych przez AI, gdzie modele robią więcej niż wykrywają; wyjaśniają, weryfikują i rekomendują działania.

AI vision within minutes?

With our no-code platform you can just focus on your data, we’ll do the rest

Studium przypadku wdrożenia w inteligentnych miastach

Genua posłużyła jako pierwsze pełnoskalowe wdrożenie Project Hafnia. Miasto zintegrowało kuratowane, zgodne dane wideo z systemami wspierającymi zarządzanie ruchem i sensing miejski. Project Hafnia zbierał oznakowane sekwencje, a następnie używał modeli wytrenowanych na tych danych, aby dostarczać użytecznych wskazówek. Na przykład system poprawił analitykę przepływu pojazdów i pomógł planistom zidentyfikować punkty zatłoczenia.

W trakcie pilotaży modele generowały analitykę istotną dla operacji. Dostarczały liczenia zajętości, wskaźników przepływu i podsumowań zdarzeń. Tego typu wyniki uzupełniają zaawansowane funkcje przeszukiwania kryminalistycznego; pokoje kontroli mogą zapytać o incydenty w języku naturalnym, a następnie szybko zweryfikować materiał. Dla czytelników zainteresowanych praktycznymi przykładami przeszukiwania kryminalistycznego, visionplatform.ai dokumentuje swój proces lokalnego przeszukiwania kryminalistycznego, który przekształca wyjścia VLM w przeszukiwalne, czytelne opisy więcej informacji.

Rollout Project Hafnia wykazał wymierne usprawnienia operacyjne. Miasta odnotowały szybszą weryfikację incydentów i krótsze czasy reakcji. Modele szkolone na kuratowanych danych generowały mniej fałszywych alarmów niż analityka legacy, co zmniejszyło obciążenie operatorów. Ponadto kuratowane zbiory danych pomogły stworzyć dopracowane modele dopasowane do lokalnych warunków bez poświęcania prywatności i zgodności.

Ponad kwestie bezpieczeństwa, wdrożenie poprawiło planowanie. System dostarczył danych do analiz mapy cieplnej zajętości i wpływał na decyzje dotyczące korekt pasów ruchu i sygnalizacji. Dla operatorów lotnisk lub transportu, którzy chcą podobnych wglądów, zasoby takie jak wykrywanie i klasyfikacja pojazdów pokazują, jak dane na poziomie obiektów wspierają szersze operacje więcej informacji.

Wreszcie pilotaż w Genui potwierdził, że zgodne dane wideo i silna kuracja dostarczają analitykę miejską, która się skaluje. Wdrożenie przekonało inne miasta do ubiegania się o wczesny dostęp i rozważenia podobnych pilotaży. Projekt stworzył zatem wzorzec odpowiedzialnego przyjmowania technologii w środowiskach miejskich.

Skrzyżowanie miejskie z nakładkami analiz ruchu

Zarządzanie ruchem i etyczne zarządzanie danymi

Zarządzanie ruchem jest głównym przypadkiem użycia dla AI opartego na wideo. Korzystając z kuratowanych zestawów danych, zespoły mogą szkolić modele wspierające inteligentną kontrolę ruchu i analitykę transportową. Modele te napędzają aplikacje takie jak wykrywanie kolejek, liczenie pojazdów i flagowanie anomalii. Przy odpowiedzialnym wdrożeniu pomagają zmniejszyć korki i poprawić bezpieczeństwo.

Etyczne zarządzanie stanowi kręgosłup dzielenia się danymi. Project Hafnia przyjął licencje z kontrolowanym dostępem, aby badacze i deweloperzy AI mogli korzystać ze zgodnych danych bez ujawniania tożsamości. Ten model zgodny z przepisami wspiera prywatność i zgodność domyślnie. Platforma zastosowała techniki zachowujące prywatność i audytowalne pipeline’y, co sprawiło, że każdy zestaw danych jest śledzalny i możliwy do audytu.

Kontrolowany dostęp oznacza również, że organizacje mogą dopracowywać modele bez wyprowadzania danych poza ich jurysdykcję. Dla zespołów preferujących rozwiązania lokalne, visionplatform.ai utrzymuje wideo, modele i warstwę rozumowania wewnątrz środowiska operacyjnego, co zmniejsza ryzyko transgraniczne. Takie podejście pomaga systemom spełniać wymagania AI Act UE, jednocześnie umożliwiając dopracowywanie i wdrażanie rozwiązań AI w bezpiecznych kontekstach.

Środki prywatności przez projektowanie obejmowały wstępną adnotację przy przechwytywaniu, kontrolowane zaciemnianie i zarządzanie metadanymi. Architektura prawna i techniczna zapewniała śledzalność, która zadowalała zarówno audytorów, jak i zespoły zakupowe. W praktyce pozwoliło to miastom wdrażać narzędzia do zarządzania ruchem oparte na AI przy jednoczesnym zachowaniu praw obywateli i prywatności danych.

Etyczne pozyskiwanie danych ma też znaczenie w skali. Poprzez użycie etycznie pozyskanych, oznakowanych danych wideo i jasnych licencji inicjatywa zmniejszyła niejasności dotyczące ponownego użycia. W rezultacie miasta mogły wdrażać modele bez kompromisów w zakresie bezpieczeństwa czy zgodności. Połączenie kuracji danych, procesów gotowych na regulacje i szkolenia przyspieszonego przez GPU stworzyło realistyczną ścieżkę do wdrażania modeli AI, które poprawiają mobilność miejską, bezpieczeństwo publiczne i efektywność operacyjną.

Najczęściej zadawane pytania

Czym jest project hafnia?

Project Hafnia to 12-miesięczna inicjatywa prowadzona przez Milestone Systems, mająca na celu zbudowanie platformy dla zgodnych danych wideo i szkolenia modeli. Program koncentruje się na bezpiecznej kuracji, adnotacjach i dostępnych zestawach danych do rozwoju AI.

Kto jest głównymi partnerami w projekcie?

Milestone Systems współpracuje z NVIDIA i Nebius, aby dostarczyć stos technologiczny i orkiestrację chmury. Współpraca łączy narzędzia do kuracji danych, przyspieszenie GPU i workflowy zgodności.

Jak pomaga NeMo Curator?

NeMo Curator usprawnia etykietowanie zestawów danych, walidację i eksport do pipeline’ów szkoleniowych. Wspiera śledzalną kurację i pomaga tworzyć zestawy danych gotowe do regulacji, odpowiednie do dopracowywania modeli.

Gdzie został wdrożony project hafnia?

Genua była wczesnym miastem wdrożeniowym, które zweryfikowało platformę w rzeczywistym środowisku miejskim. Pilotaże wykazały poprawę w zarządzaniu ruchem i analizie operacyjnej.

Jak przyspieszenie GPU poprawia szkolenie?

GPU skracają czas szkolenia i pozwalają na więcej eksperymentów w jednym cyklu, co zwiększa jakość modeli i obniża koszt iteracji. Efekt pozwala zespołom szybciej dopracowywać modele i szybciej wdrażać rozwiązania AI.

Czy miasta mogą zachować prywatność danych korzystając z tych modeli?

Tak. Licencje z kontrolowanym dostępem, wstępna adnotacja i pipeline’y zaprojektowane pod kątem prywatności sprawiają, że zestawy danych są audytowalne i zgodne z przepisami. Mechanizmy te wspierają wdrożenia gotowe na regulacje bez kompromisów w zakresie prywatności danych.

Jak modele językowo-wizualne wpisują się w system?

Modele językowo-wizualne przekształcają zdarzenia wideo w opisy, umożliwiając wyszukiwanie w języku naturalnym i kryminalistyczne workflowy. To zwiększa zrozumienie operatora i wspiera automatyczne rozumowanie w pokojach kontroli.

Jaką rolę pełni visionplatform.ai?

visionplatform.ai oferuje lokalny model językowo-wizualny i warstwę agentową, która przekształca wykrycia w rozumowanie i działania. To uzupełnia kurację w chmurze, utrzymując wideo i modele lokalnie, co poprawia zgodność i wartość operacyjną.

Jak zrównoważone są dane syntetyczne i rzeczywiste?

Zespoły łączą wideo syntetyczne, aby poszerzyć pokrycie scenariuszy, z rzeczywistymi nagraniami, aby uchwycić szum sensorów i realizm. Ta hybrydowa strategia poprawia uogólnianie modeli komputerowego widzenia.

Jak organizacja może uzyskać wczesny dostęp lub dowiedzieć się więcej?

Wiele pilotaży oferowało wczesny dostęp miastom i partnerom badawczym w celu weryfikacji podejścia. Zainteresowane organizacje powinny skonsultować się z partnerami projektu i dokumentacją techniczną, aby zaplanować zgodne wdrożenia.

next step? plan a
free consultation


Customer portal