Wprowadzenie: Wyszukiwanie osób w czasie rzeczywistym na podstawie ubioru
Wyszukiwanie osób w czasie rzeczywistym na podstawie ubioru odpowiada na powszechny problem w monitoringu miejskim. Po pierwsze, identyfikacja osób na niskiej jakości nagraniach z CCTV jest trudna. Po drugie, twarze są często zasłonięte, rozmyte lub poza kadrem. Dlatego atrybuty ubioru, takie jak kolor, wzór i tekstura, oferują bardziej odporne wskazówki w porównaniu z rozpoznawaniem twarzy. Ponadto ubranie zwykle pozostaje widoczne w różnych kątach kamery i w czasie. Celem tego artykułu jest przedstawienie praktycznego systemu nadzoru opartego na sieciach splotowych. Następnie system wyodrębnia cechy ubioru z materiału wideo z kamer i dopasowuje je między wieloma kamerami. Potem zwraca uporządkowane listy kandydatów oraz metadane, które operatorzy mogą wykorzystać do odnalezienia osoby zainteresowania.
W środowiskach operacyjnych szybkość ma znaczenie. W związku z tym proponowana metoda koncentruje się na niskich opóźnieniach i kompaktowych modelach do wdrożeń brzegowych. Dodatkowo podejście szanuje granice danych, utrzymując przetwarzanie lokalnie tam, gdzie jest to wymagane. Na przykład visionplatform.ai zamienia istniejące kamery i systemy VMS w wspomagane przez AI operacje, a VP Agent Suite dodaje wyszukiwanie kryminalistyczne w języku naturalnym do systemów wyszukiwania takich jak Milestone XProtect. Dla kontekstu dotyczącego praktycznego wdrożenia w węzłach transportowych zobacz nasze opracowanie o wykrywaniu osób na lotniskach po więcej szczegółów operacyjnych: wykrywanie osób na lotniskach. Ponadto pipeline ukierunkowany na ubranie uzupełnia systemy rozpoznawania twarzy, gdy obrazy twarzy są niedostępne lub niewiarygodne.
Co ważne, wskazówki oparte na ubraniu zmniejszają zależność od biometrycznych danych twarzy. To obniża ryzyko i poprawia zdolność identyfikacji osób noszących charakterystyczne stroje. W testach dodanie atrybutów ubioru zwiększyło dokładność re-identyfikacji nawet o 20% w sytuacjach, gdy twarze były nieużyteczne (badanie). Wreszcie, rozdział ustawia oczekiwania wobec reszty artykułu. Ramuje on rozwiązanie nadzorcze działające w czasie rzeczywistym, wyjaśnialne i możliwe do wdrożenia w nowoczesnych centrach kontroli.
Prace związane: Postępy w ekstrakcji atrybutów ubioru dla re-identyfikacji osób
Po pierwsze, prace związane pokazują znaczące korzyści, gdy cechy ubioru wspomagają re-ID osób. Badania zgłaszają poprawę dokładności o 15–20% poprzez integrację atrybutów ubioru w potokach rozpoznawania wizualnego (badania). Po drugie, wiele architektur łączy rozpoznawanie atrybutów, mechanizmy uwagi oraz wielogałęziowe CNN, aby nauczyć dyskryminacyjnych deskryptorów ubioru. Po trzecie, badania prezentowane na konferencjach takich jak CVPR i konferencjach IEEE dotyczących widzenia komputerowego badały drobnoziarniste etykiety atrybutów i modele oparte na częściach. Na przykład sieci wielogałęziowe oddzielają tułów, nogi i dodatki, aby lokalne cechy mogły być uczone niezależnie. Ponadto bloki uwagi skupiają obliczenia na istotnych fragmentach, gdzie pojawiają się wzory lub logotypy.
Kilka metod używa klasyfikatorów atrybutów obok globalnego osadzenia. Dodatkowo pipeline’y specyficzne dla mody zapożyczają techniki z sieci neuronowych do klasyfikacji ubrań i wykrywania obiektów. Co więcej, architektury często wykorzystują głębokie konwolucyjne trzonowe sieci z pomocniczymi stratami, które wymuszają spójność atrybutów. Jednak pozostają luki. Niska rozdzielczość i zatłoczone sceny nadal pogarszają wydajność. W szczególności obecne algorytmy rozpoznawania mają trudności, gdy liczba pikseli przypadająca na osobę spada poniżej pewnego progu. Również ograniczenia czasu rzeczywistego wykluczają bardzo duże modele w wielu salach kontrolnych. W rezultacie istnieje kompromis między dokładnością a opóźnieniem, który należy ocenić przy realnym zbiorze treningowym i danych testowych.

AI vision within minutes?
With our no-code platform you can just focus on your data, we’ll do the rest
Zestaw danych: Niskiej rozdzielczości źródła wideo CCTV i protokół oznaczania
Wybór odpowiedniego zestawu danych jest kluczowy. Trzy zbiory powszechnie używane do re-ID uwzględniającego ubrania to LIP, CAVIAR i CRxK. Zbiory te dostarczają oznaczonych etykiet ubioru i wspierają eksperymenty nad wykrywaniem osób oraz wskazówkami modowymi. W praktyce badacze często budują nowy zestaw danych, łącząc źródła publiczne z materiałem z kamer specyficznych dla lokalizacji. Następnie oznaczanie powinno obejmować kolor, typ i wzór. Anotatorzy zaznaczają, czy osoba ma na sobie kurtkę, sukienkę lub kapelusz, oraz zapisują dominujące kolory i powtarzające się wzory. Również ramki ograniczające i punkty kluczowe pomagają oddzielić obszary tułowia i nóg, gdy elementy ubioru nachodzą na siebie.
Pracując z materiałem z monitoringu, klatkaż i rozdzielczość mają znaczenie. Typowe kamery bezpieczeństwa rejestrują 10–25 klatek na sekundę. Ponadto wiele systemów generuje obrazy niskiej rozdzielczości, szczególnie gdy strumienie są zmniejszane dla oszczędności pasma. Dlatego etykiety często odnoszą się do klatki wideo, w której osoba jest najlepiej widoczna. W zatłoczonych scenach zasady oznaczania priorytetyzują najjaśniej widoczny przypadek osoby noszącej charakterystyczne ubranie. Ponadto podziel zbiór danych na zbiory treningowe, walidacyjne i testowe, które respektują granice kamer. To zapobiega wyciekowi kontekstu wizualnego między podziałami. Wreszcie, tworząc nowy zbiór danych, warto uwzględnić wiele kątów kamer, adnotacje dotyczące zasłonięć oraz metadane takie jak szacowany wzrost. Do zadań kryminalistycznych zobacz nasz materiał o przeszukaniu kryminalistycznym na lotniskach, aby dowiedzieć się, jak adnotowane metadane przyspieszają dochodzenia: przeszukanie kryminalistyczne na lotniskach.
Aby zmierzyć korzyści, użyj tych samych metryk ewaluacyjnych co prace powiązane. Oceń wydajność za pomocą dokładności top-1 i średniej precyzji (mAP). Również raportuj opóźnienie na reprezentatywnym sprzęcie brzegowym. Dla odtworzalności opublikuj protokół oznaczania i skrypty razem z danymi do trenowania przyszłych modeli oraz aby umożliwić innym spójne podziały zbioru danych.
Metodologia: Konwolucyjna sieć neuronowa do wyszukiwania na podstawie ubioru
Proponowana metoda wykorzystuje kompaktową konwolucyjną sieć neuronową do wyodrębniania deskryptorów ubioru. Najpierw trzon (backbone) generuje cechy średniego poziomu. Następnie głowica dzieli się na dwie gałęzie: klasyfikator atrybutów i deskryptor do wyszukiwania. Dodatkowo głowica uwagi waży lokalne fragmenty, aby uwypuklić wzory. Klasyfikator atrybutów przewiduje etykiety kolorów, typy ubrań i proste kategorie tekstury. Głowica wyszukiwania produkuje zwarte osadzenie wykorzystywane do dopasowywania osób między kamerami. Ponadto model zawiera lekkie moduły ponownego rangowania, które doprecyzowują wyniki z wykorzystaniem spójności czasowej.
Strategie treningowe koncentrują się na klatkach niskiej rozdzielczości i zachowaniu cech dyskryminacyjnych. Na przykład dostraja się model na obrazach o niskiej rozdzielczości z wykorzystaniem silnej augmentacji. Również uwzględnia się kroki przetwarzania obrazu symulujące różną liczbę pikseli, rozmycie ruchu i strumienie w skali szarości. Funkcja straty atrybutów łączy cross-entropy dla etykiet dyskretnych z triplet loss, aby poprawić dopasowanie oparte na wyszukiwaniu. Ponadto integracja estymacji wzrostu i płci zwiększa odporność re-ID, gdy ubiór jest niejednoznaczny. Model miesza nadzorowane etykiety atrybutów z sygnałami słabymi pochodzącymi ze śledzeń (trackletów), aby rozszerzyć zbiór treningowy bez dużej ilości adnotacji.
Dla operacyjnych ograniczeń czasu rzeczywistego sieć przycina kanały i stosuje trening uwzględniający kwantyzację. Ponadto wdrażane są zoptymalizowane jądra na GPU brzegowych, aby utrzymać niskie opóźnienia. Po zintegrowaniu z VP Agent Suite wyjściowe deskryptory stają się przeszukiwalnymi metadanymi dla sali kontroli. System pozwala operatorom zadawać zapytania w języku naturalnym, aby zlokalizować osobę noszącą określone ubrania w nagraniach z kamer. Na koniec pipeline wspiera uczenie przyrostowe, dzięki czemu specyficzne dla miejsca stroje i mundury można szybko dodać do zestawu treningowego.
AI vision within minutes?
With our no-code platform you can just focus on your data, we’ll do the rest
Monitoring: Wydajność systemu w czasie rzeczywistym i metryki ewaluacyjne
W środowiskach na żywo liczy się wydajność bardziej niż surowa dokładność. Po pierwsze, raportuj dokładność top-1 i średnią precyzję (mAP). W testach wyszukiwanie oparte na ubraniu osiągnęło dokładność top-1 bliską 75% na materiałach wielokamerowych CCTV, przewyższając metody oparte wyłącznie na rozpoznawaniu twarzy (eksperyment). Po drugie, mierz opóźnienie od klatki wideo do wyniku wyszukiwania. Celowano tutaj w mniej niż 300 milisekund na klatkę na brzegowym GPU. Również mierz przepustowość w klatkach na sekundę dla wielu strumieni. Po trzecie, porównuj z bazami takimi jak dopasowywanie obrazów twarzy i identyfikacja chodu. W zatłoczonych scenach deskryptory ubioru często przewyższają wykrywanie obiektów i podejścia oparte na twarzach w identyfikowaniu osób, gdy twarze są zasłonięte.
Należy śledzić zużycie zasobów. Dla wdrożeń brzegowych określ zużycie pamięci GPU, obciążenie CPU i ruch sieciowy. Na przykład przycinanie i kwantyzacja zmniejszyły rozmiar modelu, zachowując jednocześnie dokładność wyszukiwania w granicach 3 punktów procentowych. Również oceniaj system na rzeczywistych kamerach CCTV, aby oszacować wpływ jakości wideo i kompresji. Co więcej, uwzględnij metryki takie jak precision@K oparte na wyszukiwaniu oraz ciągłość śledzenia, aby ocenić, jak dobrze system śledzi osobę w czasie. Dla praktycznej integracji w sali kontroli funkcja VP Agent Search przekształca te wyniki wyszukiwania w zapytania kryminalistyczne w języku naturalnym. Dla przypadków użycia skupionych na tłumie rozważ rozwiązanie wykrywania gęstości tłumu: wykrywanie gęstości tłumu na lotniskach.
Na koniec przedstaw zrównoważony zestaw wyników: dokładność, opóźnienie i wyjaśnialność. Ponadto zapewnij dziennik audytu dla każdego żądania wyszukiwania i wyniku, aby wspierać zgodność i przegląd operatora.

Kamery bezpieczeństwa: Wyzwania wdrożeniowe i kwestie etyczne
Wdrożenie wyszukiwania opartego na ubraniach w kamerach bezpieczeństwa niesie ze sobą wyzwania techniczne i społeczne. Po pierwsze, limit pasma sieciowego może wymuszać downsampling, co obniża jakość wideo i liczbę pikseli przypadającą na osobę. Również rozmieszczenie i kalibracja czujników wpływają na zasłonięcia i oświetlenie. Dlatego planuj lokalizacje kamer tak, aby maksymalizować pokrycie i redukować martwe pola. Po drugie, integracja z istniejącymi platformami VMS wymaga starannego zaplanowania przepływów danych i API. Dla rozwiązań lokalnych upewnij się, że metadane nigdy nie opuszczają środowiska, chyba że polityka na to zezwala. Visionplatform.ai podkreśla przetwarzanie lokalne, aby ograniczyć ekspozycję do chmury i wspierać zgodność z rozporządzeniem UE dotyczącym AI.
Prywatność i etyka muszą być adresowane na wczesnym etapie. Na przykład wyszukiwanie oparte na ubraniu jest mniej inwazyjne niż niektóre systemy biometryczne, ale nadal może umożliwiać masowy nadzór. W związku z tym stosuj zabezpieczenia, takie jak kontrola dostępu oparta na rolach, audyt zapytań i limity przechowywania. Również anonimizuj nieistotne dane wideo i wymagaj nadzoru człowieka dla działań wysokiego ryzyka. Ponadto przestrzegaj lokalnego prawa prywatności, takiego jak RODO, i dokumentuj przetwarzanie danych w ocenach wpływu na prywatność. Zapewnij przejrzystość wobec zainteresowanych społeczności i stwórz procedury odwoławcze dla osób, które chcą zakwestionować nadużycie.
Praktyki operacyjne zmniejszają ryzyko. Po pierwsze, ogranicz zakres wyszukiwań do uprawnionych dochodzeń i prowadź rejestry zapytań o osoby zainteresowania. Po drugie, używaj kontroli technicznych, aby ograniczyć, kto może uruchamiać wyszukiwania oparte na odzyskiwaniu. Po trzecie, testuj systemy pod kątem trybów awarii, takich jak adwersarialne ubrania lub duplikacja wzorów, i waliduj je przy użyciu danych testowych. Wreszcie, łącz wskazówki oparte na ubraniu z innymi sygnałami, takimi jak kontrola dostępu, aby zmniejszyć liczbę fałszywych trafień i lepiej identyfikować osoby przy jednoczesnym minimalizowaniu inwazyjnego monitoringu.
Najczęściej zadawane pytania
Co to jest wyszukiwanie osób na podstawie ubioru i czym różni się od rozpoznawania twarzy?
Wyszukiwanie osób na podstawie ubioru dopasowuje osoby za pomocą informacji wizualnych o ubraniach, takich jak kolor, wzór i tekstura. Różni się od rozpoznawania twarzy tym, że opiera się na odzieży zamiast biometrycznych cech twarzy i może działać, gdy twarze są zasłonięte lub niskiej jakości.
Czy wyszukiwanie oparte na ubraniu może działać na obrazach niskiej rozdzielczości?
Tak, pipeline’y oparte na ubraniu można dostroić do obrazów niskiej rozdzielczości przy użyciu augmentacji i symulowanego downsamplingu. Jednak bardzo niska liczba pikseli przypadających na osobę obniża dokładność i wymaga starannej oceny na odpowiednich danych testowych.
Jak dokładne jest to podejście w porównaniu z systemami twarzowymi?
Badania pokazują, że dodanie atrybutów ubioru może poprawić dokładność identyfikacji o 15–20% w scenariuszach, gdzie twarze są zawodnie rozpoznawalne (badanie). Testy na materiałach wielokamerowych zgłosiły wskaźniki top-1 na poziomie około 75% dla systemów skupionych na ubraniu w kontrolowanych warunkach.
Jakie zbiory danych wspierają badania nad re-identyfikacją uwzględniającą ubrania?
Zasoby publiczne takie jak LIP, CAVIAR i CRxK dostarczają oznaczonych danych dla etykiet ubioru i wykrywania osób. Badacze także tworzą nowe zbiory, łącząc zbiory publiczne z materiałem specyficznym dla lokalizacji, aby objąć wariacje operacyjne.
Czy system nadaje się do sali kontroli działającej w czasie rzeczywistym?
Tak, gdy modele są zoptymalizowane pod kątem sprzętu brzegowego i ograniczeń opóźnień. Wdrożenie na kompatybilnym sprzęcie zmniejsza czas przetwarzania, a integracja z platformami takimi jak VP Agent Suite umożliwia wyszukiwalne i użyteczne wyniki dla operatorów.
Jak adresować kwestie prywatności i zgodności prawnej?
Wprowadź rygorystyczne kontrole dostępu, logowanie, limity przechowywania i nadzór człowieka. Ponadto przetwarzaj wideo lokalnie, gdy to możliwe, przeprowadzaj oceny wpływu na prywatność i przestrzegaj lokalnych przepisów, takich jak RODO.
Czy ta metoda może zidentyfikować osobę zainteresowania w wielu kamerach?
Tak. Osadzenie wykorzystywane do odzyskiwania jest zaprojektowane tak, aby dopasowywać osobę między wieloma kamerami, poprawiając śledzenie, gdy twarze są niewidoczne. Wykorzystanie metadanych, takich jak szacowany wzrost, dodatkowo zwiększa odporność.
Jak wygląda oznaczanie danych w zatłoczonych scenach?
Anotatorzy zaznaczają najjaśniej widoczny przypadek i oznaczają typ ubioru, kolor i wzór. Protokoły oznaczania zwykle priorytetyzują klatki, w których osoba jest najmniej zasłonięta i zawierają zasady podziału zbioru, aby uniknąć wycieku kontekstu związanego z kamerami.
Jakie są częste wyzwania wdrożeniowe?
Wyzwania obejmują ograniczenia pasma, rozmieszczenie kamer, zmienność jakości wideo oraz integrację z istniejącymi systemami VMS. Ponadto utrzymanie dokładności modelu w obliczu zmieniających się mundurów lub mody wymaga okresowego doskonalenia i ponownego szkolenia z nowymi oznaczonymi danymi.
Gdzie mogę dowiedzieć się więcej o praktycznych wdrożeniach?
Dla przykładów operacyjnych i integracji zobacz nasze zasoby dotyczące wykrywania osób i przeszukania kryminalistycznego na lotniskach. Te strony wyjaśniają, jak systemy wyszukiwania wspierane przez AI mogą wspierać dochodzenia i codzienne monitorowanie: wykrywanie osób na lotniskach, przeszukanie kryminalistyczne na lotniskach, oraz wykrywanie gęstości tłumu na lotniskach.