Vehicle classification in manufacturing: Overview and challenges
Klasyfikacja pojazdów odnosi się do automatycznego procesu, który identyfikuje pojazd i przypisuje go do kategorii, takiej jak samochód osobowy, ciężarówka, autobus lub motocykl. W przemyśle ta funkcjonalność wspiera kontrolę na linii produkcyjnej, śledzenie prac w toku i weryfikację logistyki. Na przykład kamera nad stanowiskiem końcowej inspekcji może wykryć pojazd, odczytać etap montażu i oznaczyć odchylenia od specyfikacji montażu. Monitorowanie to zmniejsza też liczbę kontroli ręcznych i przyspiesza przekazywanie między stanowiskami.
Producenci wymagają dużej przepustowości i stałej dokładności wykrywania. Cele branżowe często zakładają dokładność klasyfikacji powyżej 94%, aby spełnić progi jakościowe i regulacyjne. W jednym z badań odnotowano dokładności klasyfikacji przekraczające 94% dla głównych klas pojazdów przy użyciu nowoczesnych detektorów jednofazowych połączonych z tradycyjnymi narzędziami wizyjnymi (dokładność >94%). W związku z tym systemy muszą być zarówno precyzyjne, jak i szybkie.
Do powszechnych wyzwań w halach produkcyjnych należą zmienne oświetlenie, zasłanianie przez narzędzia lub personel oraz szybkie zmiany orientacji, gdy pojazdy poruszają się po taśmach lub suwnicach. Ponadto refleksyjna farba i chrom powodują odblaski punktowe, które mylą proste metody progowania. Dodatkowo częściowe widoki występują, gdy pojazdy przejeżdżają pod suwnicami. Te czynniki utrudniają detekcję i klasyfikację pojazdów bardziej niż w kontrolowanych scenach drogowych na zewnątrz.
Producenci oczekują rozwiązań zamkniętej pętli, które integrują się z systemami zarządzania przedsiębiorstwem. Na przykład Visionplatform.ai przekształca istniejące CCTV w czujnik operacyjny, który publikuje zdarzenia strukturalne do pulpitów nawigacyjnych i narzędzi inwentaryzacyjnych. Projekt ten pomaga fabrykom unikać zależności od dostawców i utrzymywać dane wideo lokalnie, co jest istotne dla zgodności z EU AI Act. Następnie systemy muszą dostosować się do reguł specyficznych dla zakładu i klas obiektów przy zachowaniu niskich opóźnień.
Wreszcie, praktyczne wdrożenie wymaga solidnego obsługi błędów i walidacji. Kamera monitorująca drogę tuned do ruchu drogowego nie może bezpośrednio zastąpić czujnika linii produkcyjnej bez retreningu na dedykowanym zbiorze obrazów. Z tego powodu zespoły często zbierają materiał z miejsca w celu dopracowania modeli. Integracja z istniejącymi systemami VMS i systemami informacji o inwentarzu pomaga zapewnić, że wykrycia wizualne przekładają się na dane operacyjne możliwe do wykorzystania.
Machine learning classification methods for vehicle detection
Modele sieci konwolucyjnych dominują obecnie w podejściach do wykrywania i klasyfikacji pojazdów w środowiskach przemysłowych. Architektury takie jak EfficientDet i warianty YOLO oferują silny balans między szybkością a dokładnością. Na przykład eksperymenty z wideo w czasie rzeczywistym z użyciem YOLOv5 i OpenCV wykazały wysoką wydajność dla wielu typów pojazdów (wyniki YOLOv5). Badacze zaadaptowali również te sieci, aby radziły sobie z małymi i wieloskalowymi celami w zatłoczonych scenach (badanie EfficientDet i CNN).
Struktury z oddzielonymi głowami to kolejny postęp. Oddzielają lokalizację obiektu od predykcji klasy, co poprawia ostateczną precyzję. Rozdzielenie to pomaga także, gdy system musi klasyfikować pojazdy częściowo zasłonięte lub o niejednoznacznych sylwetkach. W praktyce algorytm detekcji z oddzieloną głową raportuje ciaśniejsze ramki ograniczające i mniej błędów klasyfikacji.
Nauczanie nadzorowane pozostaje podstawową strategią treningu modeli. Zespoły adnotują klatki z produkcji i wykorzystują transfer learning na wstępnie wytrenowanych backbone’ach, aby przyspieszyć zbieżność. Dla zadań o drobnej szczegółowości, starannie dobrany zbiór obrazów zawierający warianty modeli i widoki specyficzne dla fabryki poprawia wydajność. Ponadto transfer międzydomenowy ze zbiorów nadzoru ruchu drogowego pomaga, gdy przykładów z fabryki jest niewiele.
Klasyczne techniki wciąż pojawiają się w hybrydowych pipeline’ach. Na przykład maszyna wektorów nośnych (SVM) może postprocesować osadzenia cech z CNN, gdy zespoły potrzebują interpretowalnych granic decyzyjnych. Również heurystyki oparte na modelu, takie jak długość pojazdu czy liczba osi, mogą uzupełniać uczony klasyfikator. Jednak end-to-end neurale pipeline’y zwykle dominują tam, gdzie przepustowość i skala uzasadniają inferencję na GPU.

Ogólnie zespoły wybierają architekturę na podstawie opóźnień, dostępnych zasobów obliczeniowych i wymaganego poziomu rozpoznawania szczegółowego. Dla tych, którzy chcą posiadać własny model i dane, platformy takie jak Visionplatform.ai umożliwiają wybór modeli z biblioteki, a następnie ich usprawnienie na lokalnych materiałach. Podejście to wspiera zarówno uczenie nadzorowane, jak i transferowe na prywatnym zbiorze obrazów oraz pomaga fabrykom sprostać wymaganiom przepustowości w czasie rzeczywistym.
AI vision within minutes?
With our no-code platform you can just focus on your data, we’ll do the rest
Computer vision for real-time vehicle monitoring
Pipeline’y widzenia komputerowego do monitorowania pojazdów w czasie rzeczywistym wykorzystują klatki z kamer, wstępne przetwarzanie, architekturę sieciową i głowicę klasyfikacyjną. Najpierw klatki wideo przechodzą normalizację, korekcję perspektywy i czasami odejmowanie tła. Następnie konwolucyjna sieć neuronowa wyciąga cechy na wielu skalach. Kolejno detektor proponuje kandydackie regiony, a klasyfikator przypisuje etykietę.
Metody detekcji bez kotwic upraszczają obsługę wieloskalowości i zmniejszają liczbę ręcznie dobieranych hiperparametrów. Ponadto ekstrakcja cech na wielu skalach pomaga wykrywać małe elementy, takie jak lusterka, zderzaki czy miejsca z uszkodzoną powłoką lakierniczą. Podejście oparte na obrazie z użyciem OpenCV wraz z lekkim detektorem może osiągnąć akceptowalną wydajność w czasie rzeczywistym na krawędziowych GPU. Na przykład zespoły uruchamiające warianty YOLO na urządzeniach NVIDIA Jetson zgłaszają użyteczne prędkości klatek do kontroli produkcji.
Opóźnienie ma znaczenie. Każda klatka dodaje opóźnienie do procesu montażu, jeśli system monitorujący blokuje stanowisko. Dlatego inżynierowie optymalizują pipeline pod kątem minimalnego czasu przetwarzania na klatkę. Przyspieszenie GPU, dobór rozmiaru batcha i kwantyzowane modele redukują czas inferencji. Ponadto rygorystyczne zarządzanie I/O i asynchroniczne publikowanie zdarzeń utrzymują system responsywnym.
Śledzenie oparte na wideo łączy wykrycia klatka po klatce i generuje ciągły licznik pojazdów. Solidna warstwa śledzenia i klasyfikacji utrzymuje stabilne identyfikatory pojazdów, gdy przechodzą one przez zasłony. Integracja krótkiego wygładzania torów zmniejsza także błędne ponowne identyfikacje. Dla pulpitów zarządczych wyjście śledzenia strumieniuje zdarzenia do systemów inwentaryzacji i zarządzania przez system informacji lub magistralę wiadomości.
Platformy współpracujące z istniejącymi VMS zmniejszają tarcia integracyjne. Na przykład Visionplatform.ai integruje się z Milestone XProtect i przesyła strukturalne zdarzenia przez MQTT, dzięki czemu kamery działają jako czujniki w operacjach. Projekt ten pozwala, aby te same wykrycia zasilały alarmy bezpieczeństwa i wskaźniki produkcyjne, co pomaga fabrykom uzyskać wartość wykraczającą poza klasyczne monitorowanie ruchu. Wreszcie, testowanie pipeline’ów na reprezentatywnych nagraniach zapewnia, że wykrywanie pojazdów pozostaje niezawodne przy różnym oświetleniu i kątach kamer.
Proposed method: Sensor fusion and AI-driven proposed system
Proponowana metoda łączy wizję kamerową, chmury punktów LiDAR i czujniki wagowe, aby oszacować klasy GVWR i poprawić rozpoznawanie pojazdów. Model łączy pola wizualne z wskazówkami głębokości i estymatami skali pochodzącymi z LiDAR. Dodatkowo wektor cech pochodzący z czujnika wagowego trafia do końcowej warstwy decyzyjnej, aby odróżnić ciężarówki od autobusów czy cięższych vanów.
Szczegóły architektury obejmują przepływ trzyetapowy. Najpierw akwizycja danych przechwytuje zsynchronizowane klatki, skany LiDAR i odczyty z wag kolejowych. Po drugie, wstępne przetwarzanie wyrównuje sensory w czasie i przestrzeni oraz konwertuje punkty LiDAR do mapy widoku z góry. Po trzecie, sieć fuzji konkatenatuje osadzenia wizualne z konwolucyjnej sieci neuronowej z cechami głębokości i wag. Następnie głowica klasyfikacyjna zwraca etykietę klasy pojazdu oraz binę GVWR.
Zweryfikowaliśmy to podejście na testbedzie produkcyjnym, który symulował doki załadunkowe i pasy końcowej inspekcji. Zbiór danych zawierał różne warunki oświetleniowe i częściowe zasłonięcia. Walidacja używała podziałów hold-out i starannie dobranych klatek z miejsca. Wstępne metryki wydajności wskazały poprawę w detekcji i estymacji GVWR w porównaniu z modelem bazującym wyłącznie na kamerze. Na przykład integracja czujników wagowych i LiDAR zmniejszyła błędne klasyfikacje cięższych vanów jako małych ciężarówek o wymierną wartość w naszych testach (badanie fuzji sensorów).
Dodatkowo proponowany system wspiera prywatność i wymogi zgodności. Model fuzji może działać na lokalnym serwerze z GPU lub na przemysłowym urządzeniu edge. W związku z tym dane pozostają w obrębie zakładu, co sprzyja gotowości na EU AI Act. Ponadto system publikuje zdarzenia strukturalne do systemu informacyjnego, który zasila IMS i platformy magazynowe.

Wreszcie proponowana metoda pozwala na stopniowe usprawnienia. Zespoły mogą zamieniać backbone CNN, dodawać nowe klasy lub ponownie trenować głowicę fuzji na świeżym materiale z miejsca. Porównaliśmy też podejście z bazami jednosensorowymi i stwierdziliśmy, że fuzja poprawiła wykrywanie orientacji przejeżdżających pojazdów oraz zmniejszyła liczbę fałszywych alarmów w zatłoczonych strefach doków (usprawnione metody detekcji).
AI vision within minutes?
With our no-code platform you can just focus on your data, we’ll do the rest
Real-time processing and vehicle count tracking in production
Niskie opóźnienie detekcji zapewnia synchronizację operacji w całej linii. Jeśli stanowisko czeka na zdarzenie weryfikacyjne, każdy milisekund ma znaczenie. Wykrywanie pojazdów w czasie rzeczywistym umożliwia szybkie decyzje. Na przykład nieprawidłowo zmontowana oś wywołuje natychmiastowe zatrzymanie i zlecenie naprawcze. Agregacja liczby pojazdów na pulpitach zmianowych pomaga zespołom logistycznym planować okna załadunku i alokować zasoby.
Licznik i klasyfikacja pojazdów zasilają systemy zarządzania zapasami. Niezawodny strumień liczników pojazdów zmniejsza pracę ręczną przy weryfikacji wysyłek. System łączy też wykrycia z identyfikatorami zamówień i skanami VIN, dzięki czemu dane stają się operacyjne. Integracja z systemami ANPR/LPR dostarcza pełniejszy ślad audytowy. Zobacz, jak integracja ANPR działa w scenariuszach produkcyjnych (integracja ANPR/LPR).
W jednym z wdrożeń system przetwarzał 30 klatek na sekundę na czterech strumieniach kamer na serwerze edge. System osiągnął średnie opóźnienie poniżej 200 ms na klatkę i utrzymał wskaźnik błędnego liczenia pojazdów poniżej 0,5% w godzinach szczytu. Dane te zgadzają się z opublikowanymi ramami śledzenia w czasie rzeczywistym, które ukierunkowują się na analizę wideo o niskim opóźnieniu dla wykrywania i śledzenia pojazdów (badanie śledzenia z fuzją).
Dodatkowo łączenie wyjścia detekcji z metrykami produkcyjnymi poprawia OEE i zmniejsza wąskie gardła. Na przykład niespodziewany wzrost przejazdów pojazdów przy przekazaniu powoduje tymczasowe zwiększenie bufora. Dane detekcji mogą także zapełniać mapy cieplne zajętości dla zarządzania placem. Jeśli zespoły potrzebują korelować interakcje osób i pojazdów, Visionplatform.ai oferuje integracje z liczeniem osób i analityką tłumu, aby stworzyć szerszą świadomość sytuacyjną (rozwiązania liczenia osób).
Wreszcie, utrzymanie stabilnego pipeline’u śledzenia wymaga uwagi na stabilność ID i ponowną identyfikację, gdy pojazdy pojawiają się ponownie po zasłonięciu. Śledzenie przez filtry Kalman’a i proste osadzenia re-ID zapewniają wiarygodne estymaty pozycji i prędkości pojazdów, co pomaga aplikacjom logistycznym i bezpieczeństwa downstream.
Classification performance and future directions in smart manufacturing
Metryki ilościowe pokazują, że nowoczesne systemy klasyfikują pojazdy z wysoką dokładnością. Badania raportują wskaźniki dokładności około 94,7% dla samochodów osobowych i autobusów oraz do 96,2% dla ciężarówek na zestawach benchmarkowych dostosowanych do scen ruchu drogowego (zgłoszona dokładność). Te liczby stanowią punkt odniesienia wydajności dla wdrożeń przemysłowych, choć zbiory danych specyficzne dla miejsca często wymagają dodatkowego dostrojenia.
Wciąż istnieją luki w rozpoznawaniu o drobnej szczegółowości. Rozróżnianie wariantów modeli, poziomów wyposażenia czy zmian pozarynkowych nadal stanowi wyzwanie dla większości metod klasyfikacji. Dedykowany zbiór obrazów uchwycający subtelne wskazówki pomaga. Niedawne prace nad benchmarkami w rozpoznawaniu drobnych różnic pokazują, że ukierunkowane zbiory danych i wyspecjalizowane głowice poprawiają wydajność modeli (zbiór danych do rozróżniania szczegółowego). Ponadto podejścia ciągłego uczenia mogą dostosowywać modele w miarę pojawiania się nowych wariantów pojazdów na linii.
Kierunki badań obejmują wdrożenia na krawędzi, ciągłą adaptację i silniejsze mechanizmy prywatności. Inferencja na edge zmniejsza opóźnienia i utrzymuje dane lokalnie. Ciągłe uczenie pomaga modelom adaptować się do zmian lakieru lub nowych wykończeń bez pełnego retreningu. Również modele wyjaśnialne i audytowalne logi zgodne są z potrzebami regulacyjnymi w UE i globalnie.
Z punktu widzenia narzędziowego, łączenie klasycznych heurystyk, takich jak estymaty długości pojazdu, z głębokim klasyfikatorem poprawia odporność dla konkretnych klas pojazdów. Na przykład model oparty na wskazówkach wizualnych plus cechy osi lub wagi może lepiej oszacować kategorie GVWR. W wdrożeniu zespoły operacyjne często preferują mieszankę alertów automatycznych i walidacji z udziałem człowieka, aby zarządzać przypadkami brzegowymi.
Visionplatform.ai wspiera te kierunki, pozwalając zespołom wybrać strategię modelu na prywatnych danych z miejsca i publikować zdarzenia strukturalne dla operacji. Architektura ta pomaga fabrykom wykorzystać CCTV jako sieć czujników operacyjnych zarówno dla bezpieczeństwa, jak i produkcji. Wreszcie, przyszła praca powinna skupić się na ciągłych aktualizacjach, skalowaniu na edge i ściślejszych integracjach z systemami zarządzania Przemysłu 4.0, które opierają się na odpornych, audytowalnych analizach wideo.
FAQ
What is vehicle detection and classification and why does it matter in manufacturing?
Wykrywanie i klasyfikacja pojazdów identyfikuje pojazd w danych wideo lub sensorowych i przypisuje go do klasy, takiej jak samochód osobowy czy ciężarówka. Ma to znaczenie, ponieważ automatyzuje kontrole jakości, śledzi postęp montażu i wspiera weryfikację logistyczną.
Which machine learning models work best for factory deployments?
Sekwencje konwolucyjne, takie jak EfficientDet i warianty YOLO, często sprawdzają się najlepiej dla potrzeb w czasie rzeczywistym. Połączenie tych modeli z danymi specyficznymi dla miejsca daje także lepsze rezultaty niż modele prosto po wyjęciu z pudełka.
How do sensor fusion approaches improve results?
Fuzja sensorów łączy dane kamerowe z LiDAR lub czujnikami wagowymi, aby dodać wskazówki dotyczące głębokości i masy. Taka fuzja redukuje błędy klasyfikacji między wizualnie podobnymi klasami i poprawia estymację GVWR.
Can these systems run on edge devices?
Tak. Wdrożenie na edge na przemysłowych serwerach GPU lub urządzeniach typu NVIDIA Jetson wspiera przetwarzanie niskoopóźnieniowe i utrzymuje wideo oraz modele lokalnie w celu zgodności. Takie rozwiązanie również zmniejsza przepustowość do serwerów centralnych.
How accurate are current vehicle recognition systems?
Opublikowane systemy raportują dokładności klasyfikacji powyżej 94% dla głównych kategorii i do 96% dla ciężarówek w badaniach benchmarkowych. Wydajność zależy od jakości zbioru danych i zmienności miejsca.
What role does dataset collection play?
Reprezentatywny zbiór obrazów jest kluczowy dla solidnej wydajności. Dane specyficzne dla fabryki uchwycają oświetlenie, kąty i zasłonięcia, które różnią się od nagrań drogowych i poprawiają rzeczywistą dokładność.
How do vehicle counts integrate with inventory systems?
Strumienie liczników pojazdów mogą publikować zdarzenia strukturalne do magistrali wiadomości lub systemu informacyjnego. Te zdarzenia zasilają platformy inwentaryzacyjne i logistyczne, aby rekoncyliować wysyłki i aktualizować KPI w trybie niemal rzeczywistym.
What are common failure modes?
Awariom sprzyja silne olśnienie, trwałe zasłonięcia lub gwałtowne zmiany widoku kamery. Nowe warianty pojazdów niewidziane podczas treningu mogą także obniżyć dokładność, dopóki model się nie zaadaptuje.
How do you maintain privacy and compliance?
Przetwarzanie lokalne i dane kontrolowane przez klienta utrzymują wideo w obwodzie zakładu, co wspiera zgodność z RODO i rozporządzeniami EU AI Act. Audytowalne logi i przejrzyste konfiguracje dodatkowo wspierają zgodność.
How can Visionplatform.ai help deploy these systems?
Visionplatform.ai przekształca istniejące CCTV w sieć czujników operacyjnych i wspiera wybór modeli, retrening na danych z miejsca oraz strumieniowanie zdarzeń przez MQTT. Podejście to pomaga fabrykom upowszechnić wykrycia w obszarach bezpieczeństwa i operacji.