Dokładność sztucznej inteligencji AI

Autor: Marcin Szponder

Dodano: 13 marca 2023
Zawieszenie działalności wydłuży termin do uznania auta za używane

Niniejszy artykuł kontynuuje omówienie raportu Komisji Europejskiej, który został wydany w roku 2021 i ma na celu pogłębienie dyskusji na temat podstawowych aspektów, które należy wziąć pod uwagę, przy tworzeniu godnych zaufania systemów sztucznej inteligencji (AI) w obszarze pojazdów autonomicznych (AV). 

5.2.3 Dokładność

W podpunkcie 5.2.3  omawiany dokument wskazuje, że poziom dokładności systemów sztucznej inteligencji AV można określić na podstawie wielu metryk ustawionych na co najmniej trzech różnych poziomach.

  • Po pierwsze, z perspektywy ogólnych osiągów pojazdu. W tym celu zwykle bierze się pod uwagę związek między przebytą odległością a awariami. Na przykład wskaźnik awarii na kilometr/milę, wyrażony w liczbach awarii na jednostkę odległości. Jednym z powszechnych podejść jest też rozważenie liczby ręcznych wyłączeń lub interwencji potrzebnych podczas autonomicznej jazdy. Innym oczywistym podejściem byłoby uznanie awarii za przyczynę wypadku, tj. wskaźnik wypadkowości wyrażony w wypadkach na jednostkę odległości.
  • Po drugie, można zdefiniować różne metryki i poziomy dokładności dla każdej warstwy. Dotychczas dokładność lokalizacji była tradycyjnie mierzona za pomocą metryk, takich jak bezwzględne i względne błędy przemieszczeń/pozycji, w tym błędy translacyjne (w metrach lub w procentach) i obrotowe (w stopniach i stopniach na metr). Następnie zaproponowano bardziej wyrafinowane metryki do oceny jakości oszacowanych trajektorii.
  • Precyzja dynamicznego rozumienia sceny zakłada zróżnicowanie sposobów pomiaru w zależności od specyfiki danego zadania. Gdy wykrycie obiektu zapewnia prawdopodobieństwo, decyzję można podjąć na podstawie pewnych progów, które określają równowagę między trafieniami i chybieniem. W tym celu często stosuje się krzywe, które wizualnie wiążą dwie z tych metryk, takie jak krzywa charakterystyki operacyjnej odbiornika (ROC) lub krzywa precyzji przywołania. Kształt krzywych implikuje niezbędny kompromis między każdą parą metryk, czego przykładem są dwa różne punkty robocze, systemy bezpieczeństwa (np. systemy wspomagania hamowania awaryjnego). Może także prowadzić do niewykrywania znacznego odsetka pieszych, co może prowadzić do kolizji.

Oceniając trafność technik planowania ruchu musimy wziąć pod uwagę, że planowanie ruchu wiąże się również z podejmowaniem decyzji, zatem zaplanowane trajektorie są bezpieczne i wygodne, ale muszą też być zgodne z zasadami ruchu drogowego. Potrafimy przy tym określić mierniki skuteczności wykonania zadań, polegające na dotarciu do lokalizacji celu w określonym czasie.  Metryki bezpieczeństwa są często rozważane przy użyciu zastępczych lub proksymalnych metryk bezpieczeństwa i biorąc pod uwagę inne czynniki, w tym odległość euklidesową, prędkość względną i przyspieszenie, metryki ścieżki, czas i odległość do kolizji oraz unikanie kolizji. Rozważa się również wykonalność planowanej trajektorii w oparciu o dynamikę pojazdu w różnych scenariuszach. Mierniki komfortu rejestrują jego poziom podczas realizacji planowanych trajektorii, w tym prędkości, przyspieszenia i szarpnięcia. Wskaźniki zgodności ruchu obejmują naruszenia pasów i dróg oraz inne naruszenia przepisów, takie jak ograniczenia prędkości lub przejazd na czerwonym świetle. Ponadto przy ocenie dokładności planowanych trajektorii należy wziąć pod uwagę dodatkowe cechy jakościowe, takie jak porównywanie ich z trajektoriami kierowcy. Raport stwierdza, że warstwa kontrolna zapewnia, że ruch wzdłużny i boczny pojazdu podąża za trajektorią lub ścieżką odniesienia (w tym z prędkością odniesienia), dostarczając wymagane sygnały sterujące i przyspieszające/hamujące. Najpopularniejszą zaś miarą ilościową do oceny pracy sterownika jest błąd śledzenia, czyli różnica między zaplanowaną ścieżką a rzeczywistą pozycją pojazdu, w tym błędy poprzeczne, wzdłużne i błędy orientacji (lub odchylenia). Są to zwykle błędy średniokwadratowe mierzone na ścieżkach o różnych krzywiznach.

W dalszej treści raportu czytamy, że stabilność i złożoność czasowa sterowników to również podstawowe kwestie, które należy wziąć pod uwagę przy ocenie ich wydajności i odporności. Jeśli chodzi o warstwę interakcji z użytkownikiem, nie ma jeszcze jasnej taksonomii metryk, która uwzględnia wszystkie możliwe interakcje, w tym z wewnętrznymi (HVI) i zewnętrznymi (eHVI) użytkownikami AV. Tradycyjnie metryki związane z interakcją człowiek-maszyna są specyficzne dla domeny i aplikacji i obejmują trzy główne obszary.

  • Po pierwsze, miary związane z ludzkim zachowaniem, w tym miary subiektywne, takie jak:
    •  fizyczne i psychiczne obciążenie pracą i dyskomfort,
    • stan emocjonalny,
    • pewność siebie,
    • zmęczenie czy
    • świadomość sytuacyjna.
  • Po drugie, metryki skupiające się na zachowaniu systemu autonomicznego lub zrobotyzowanego, które w tym przypadku są metrykami opisanymi powyżej.
  • Wreszcie, metryki komunikacji, interakcji i współpracy między ludźmi a systemem autonomicznym, który jest również określany jako zespół człowiek-maszyna. Np. platforma autonomiczna – świadomość człowieka, która ocenia stopień, w jakim system jest świadomy wszystkich zmiennych związanych z człowiekiem (w tym przypadku głównie z kierowcą i/lub pasażerami, ale także z zewnętrznymi użytkownikami dróg). W konkretnym kontekście interakcji użytkownika z AV, jedynym obszarem, w którym znajdujemy nieco bardziej solidną bazę metryczną, jest zarządzanie prośbami o interwencję lub sytuacjami żądania przejęcia (TOR). Najczęściej stosowanym parametrem jest czas reakcji. Ponadto niektóre wskaźniki HMI są już wykorzystywane w protokołach testowych Euro NCAP dla systemów autonomicznego hamowania awaryjnego (AEB), w tym systemów ostrzegania o kolizji i odwracalnego wstępnego napinania pasa w fazie przedzderzeniowej. Ogólnie rzecz biorąc, można jednak stwierdzić, że potrzebna jest taksonomia nowych wskaźników do oceny wydajności różnych systemów w zakresie interakcji między AV a użytkownikami (kierowcy rezerwowi, pasażerowie i zewnętrzni użytkownicy dróg). Trzeci i ostatni poziom, na podstawie którego można określić dokładność systemów sztucznej inteligencji w odniesieniu do AV, dotyczy mierników stosowanych w testach certyfikacji bezpieczeństwa, takich jak te opisane wcześniej, w podsekcji  5.2.2. Wskaźniki te są specyficzne dla każdego przypadku użycia lub środowiska ruchu (np. ruch na autostradzie, ruchu miejskim, ruchu międzymiastowym itp.) i scenariusza testowego (np. źle widoczny pieszy przechodzący przez ulicę, hamowanie awaryjne przed końcem korka itp.). Na przykład, jeśli przeanalizować protokoły oceny określone przez Euro NCAP dla systemów AEB Car-to-Car (Euro NCAP, 2021) lub AEB VRU (Euro NCAP, 2020), okaże się, że do oceny wydajności tych systemów koniecznych jest wiele zmiennych i wskaźników. I że są one specyficzne dla każdego scenariusza. Mierzone są między innymi: czas do kolizji, czasy aktywacji AEB, protokoły prędkości, wreszcie skutki nieuniknionej kolizji. Dzięki ilościowemu i jakościowemu systemowi punktów zapewnianemu zgodnie z wydajnością systemów w każdym przeprowadzonym teście, dostarczana jest końcowa ocena lub wynik, który podsumowuje ogólną dokładność systemu.

Przypomnijmy, że Euro NCAP (europejski program oceny nowych samochodów) to inicjatywa europejskich ministerstw transportu, automobilklubów i stowarzyszeń ubezpieczeniowych z siedzibą w Brukseli. Organizacja przeprowadza testy zderzeniowe z nowymi typami samochodów, a następnie ocenia ich bezpieczeństwo na podstawie dostępnych systemów bezpieczeństwa. Testy nie są wymagane przez prawo, mają jedynie na celu poinformowanie konsumentów. Porównywalne są tylko oceny z tego samego rocznika. Od lutego 2009 r. ogólne bezpieczeństwo pojazdu może uzyskać maksymalnie do pięciu gwiazdek; wcześniej każdy pojazd otrzymał do pięciu gwiazdek w kilku kategoriach. Euro NCAP jest członkiem Global NCAP, globalnego stowarzyszenia bezpieczeństwa pojazdów. Euro NCAP zostało utworzone przez Transport Research Laboratory (TRL) pod koniec 1996 roku dla brytyjskiego Departamentu Transportu. W następnych latach do programu dołączyły inne instytucje europejskie. International Consumer Research & Testing (ICRT) jako organizacja nadrzędna zajmująca się administrowaniem wspólnie prowadzonymi porównawczymi testami produktów, badaniami rynku i produktów jest członkiem Euro-NCAP, podobnie jak kluby samochodowe ADAC i ACI.

Pierwsze recenzje zostały opublikowane na początku 1997 roku. W tym czasie Volvo S40 otrzymało najwyższą ocenę 4 gwiazdek, podczas gdy większość innych pojazdów, takich jak Ford Fiesta, otrzymała 3 gwiazdki czy Mercedes-Benz C-Class otrzymała 2 gwiazdki. Od tego czasu nastąpiła znaczna poprawa poziomu bezpieczeństwa. Na przykład Renault Laguna zdobyło tylko 2 gwiazdki w 1997 roku, następca otrzymał 5 gwiazdek w 2001 roku, w tym samym czasie co Saab 9-5 jako pierwszy samochód w historii. 5 gwiazdek to aktualnie standard ochrony pasażerów. Najnowsze ustalenia dotyczące wypadków i ich przyczyn są stale uwzględniane w nowych wymaganiach dotyczących warunków testowych. Z biegiem czasu do programu testów dodano dodatkowe testy, a kryteria oceny zostały zaostrzone. Chociaż w ciągu pierwszych kilku lat oceniano tylko wyniki testów zderzeniowych, ocena systemów bezpieczeństwa czynnego jest coraz częściej uwzględniana w ogólnej ocenie.

Przypomnijmy też, że autonomiczne hamowanie awaryjne (AEB) definiuje się jako system, który stale śledzi drogę przed pojazdem i automatycznie zatrzymuje pojazd, jeśli kierowca nie podejmie działań. Technologia ta została po raz pierwszy wprowadzona w 2009 roku, aby zapobiec wypadkom samochodowym lub przynajmniej zmniejszyć wagę skutków nieuniknionych wypadków. Jak można się domyślić po nazwie, AEB działa autonomicznie, bez udziału kierowcy. System może również zwiększyć siłę hamowania, jeśli naciśnięty zostanie hamulec, ale słabiej niż pojazd potrzebuje, aby uniknąć kolizji. Każdy system AEB monitoruje pojazdy i przez większość czasu pieszych i inne przeszkody. Celem systemu AEB jest zapobieganie lub łagodzenie poważnych wypadków poprzez hamowanie, gdy pojawiają się nagłe zagrożenia lub gdy kierowca nie podejmuje odpowiednich działań wystarczająco szybko.  Wiele systemów AEB wykorzystuje kombinację technologii radarowych i kamer, które są montowane z przodu pojazdu lub wewnątrz przedniej szyby. Zwykle te radary i kamery monitorują przeszkody, które mogą prowadzić do wypadku. Jeśli wykryją taki niebezpieczny obiekt, a system nie otrzyma żadnej informacji zwrotnej od kierowcy, automatycznie uruchomi system AEB. Podczas gdy większość producentów samochodów oferuje systemy AEB, które mają podobne funkcje, każdy system może się nieznacznie różnić pod względem nazwy, wymagań dotyczących prędkości itp. Chociażby system może wykorzystywać czujnik radarowy zainstalowany z przodu pojazdu. Jeśli rozpozna on potencjalną przeszkodę, system nakaże hamulcom samoczynne uruchomienie w celu zmniejszenia nasilenia kolizji. Krótko mówiąc, AEB zapewnia „kolejną parę oczu”, która pomaga monitorować obiekty przed sobą, a także utrzymuje „dodatkowe stopy na hamulcach”, aby uniknąć potencjalnej kolizji. Dzięki wykrywaniu i automatycznemu włączaniu hamulców, technologia zapewnia dodatkową pewność bezpiecznej jazdy. Zarazem jednak system AEB jest rodzajem technologii uzupełniającej i w żadnym wypadku nie zastępuje potrzeby obserwowania drogi. Kiedy Euro NCAP po raz pierwszy rozpoczęło testowanie systemów AEB w 2014 r., testy zostały podzielone między dwie funkcje, z punktami przyznawanymi za ochronę dorosłych pasażerów dla systemów o niskiej prędkości (AEB City) oraz w Safety Assist dla tych, które są skuteczne przy prędkościach autostradowych (AEB Interurban ). Z biegiem czasu rozróżnienie między tymi dwiema funkcjami stało się mniej jasne. Technologia czujników rozwinęła się na tyle, że jeden zestaw czujników może być używany dla wszystkich prędkości, a systemy oferują funkcjonalność w całym zakresie prędkości. W związku z tym od 2020 r.

Z kolei w celu wykrywania pieszych, Euro NCAP testuje trzy scenariusze wypadków, w których pieszy przechodzi bezpośrednio przed ścieżką badanego pojazdu, jeden, w którym pieszy idzie w tym samym kierunku co pojazd, jeden, w którym pieszy przechodzi przez jezdnię w którą skręca samochód testowy i w którym pieszy znajduje się za samochodem cofającym. Wszystkie te scenariusze przedstawiają sytuacje, które mogłyby spowodować śmiertelne obrażenia pieszego, gdyby samochód nie interweniował w celu zapobieżenia lub złagodzenia kolizji. Scenariusze przejazdu to: osoba dorosła biegnąca od strony kierowcy pojazdu; osoba dorosła idąca od strony pasażera (dla tego scenariusza wykonywane są dwa testy); oraz dziecko wybiegające spomiędzy samochodów zaparkowanych po stronie pasażera. W scenariuszu wzdłużnym wykonuje się dwa testy: jeden z pieszym zrównanym ze środkiem pojazdu, drugi z pieszym przesuniętym w jedną stronę. Scenariusz podłużny i jeden ze scenariuszy przejścia powtarzają się w warunkach słabego oświetlenia, ponieważ jest to sytuacja, w której dochodzi do wielu wypadków z pieszymi. Wykorzystywane są dwa scenariusze, w których pieszy przechodzi przez drogę, na którą skręca samochód. Wielu pieszych, zwłaszcza dzieci, zostaje rannych lub ginie przez pojazdy wjeżdżające na nich tyłem. Test Euro NCAP odtwarza taką sytuację dla różnych prędkości pojazdu i docelowych.

Dodajmy także, że podobnie jak poduszka powietrzna, napinacz pasa jest jednym z tak zwanych systemów bezpieczeństwa biernego w pojeździe. Jego zadaniem jest napinanie pasów bezpieczeństwa w razie wypadku, tak aby pasażer pojazdu wcześniej uczestniczył w całkowitym wyhamowaniu pojazdu. W tym celu pasek napina się nawet o 15 cm w ciągu ok. 10-15 milisekund. Jest to szczególnie przydatne, gdy gruba odzież uniemożliwia ciasne przyleganie paska do ciała. Napinacz pasa może być zintegrowany ze zwijaczem pasa, poniżej klamry pasa i/lub w punkcie mocowania pasa. Do dostarczania energii służy albo napięta sprężyna, albo mały ładunek wybuchowy. Przy prawidłowym użytkowaniu obecne napinacze paska wywierają około 2 kN siły na bark, gdy pasek jest już napięty. Przy prawidłowym stosowaniu prowadzi to do obrażeń tylko w wyjątkowych przypadkach. Tak zwany ogranicznik siły pasa został opracowany po to, aby zapobiec nadmiernemu wzrostowi sił po naciągnięciu pasa, gdy pasażer porusza się do przodu. Sterownik poduszek powietrznych uruchamia napinacz pasa, gdy otrzymuje informację o kolizji z czujników. Próg zadziałania może być niższy niż próg poduszki powietrznej, na przykład przy niskich prędkościach. Może to spowodować zadziałanie napinacza paska, ale nie poduszki powietrznej. W nowoczesnych samochodach czujniki sprawdzają też, czy ktoś siedzi na fotelu i czy pas jest zapięty. Jeśli tak nie jest, nie ma wyzwalania.

Istnieje kilka rodzajów napinaczy paska. Napinacze obrotowe są stosunkowo powszechne. Jednostka sterująca wyzwala w zwijaczu pas pirotechniczny ładunek miotający, którego ciśnienie gazu przyspiesza kulki stalowe w zwijaczu. Przekazują one swoją energię kinetyczną na koło zębate na wale zwijacza pasa. Obrót koła zębatego dodatkowo wciąga pas, który następnie dociska się do pasażera. W wersji z klamrą pasa bezpieczeństwa ciśnienie gazu miotającego jest uwalniane do tłoka pod siedzeniem, który gwałtownie ciągnie klamrę pasa do tyłu i w dół za pomocą stalowej linki, napinając w ten sposób pas. Inne funkcjonalności to np. napinacz liny, napinacz rur i napinacz Wankla (silnik z tłokiem obrotowym, podobny do silnika Wankla). Zamiast ładunku pirotechnicznego, napięta sprężyna może również generować niezbędną siłę. Nowoczesną, ale stosunkowo kosztowną konstrukcją jest odwracalny napinacz paska. Oprócz pirotechnicznego napinacza pasa zastosowano napęd elektryczny, który może napinać pas z mniejszą siłą (np. 100-200 N). Ponieważ może być używany wielokrotnie, odwracalny napinacz pasa bezpieczeństwa może być używany w niebezpiecznej sytuacji bez konieczności wypadku.

Dodajmy, że błąd średniokwadratowy, znany również jako oczekiwany błąd kwadratowy lub średni błąd kwadratowy, jest terminem używanym w statystyce matematycznej. W teorii estymacji wskazuje, jak bardzo estymator punktowy rozprasza się wokół wartości, która ma zostać oszacowana. To sprawia, że jest to główne kryterium jakości dla estymatorów. W analizie regresji jest to interpretowane jako kwadrat oczekiwanej odległości, jaką estymator ma od wartości prawdziwej.

W klasycznym przypadku małe odchylenie średniokwadratowe oznacza, że zarówno zniekształcenie, jak i wariancja estymatora są małe. Z estymatorem jesteś średnio blisko funkcjonału, który ma być estymowany (mniejsze zniekształcenia) i jednocześnie wiesz, że oszacowane wartości są mało rozproszone (mała wariancja) i bardzo prawdopodobne jest, że będą bliskie ich wartości oczekiwanej. Dzięki temu możliwe jest zatem porównywanie ze sobą metod estymacji. Chodzi o to, że korzystne może być preferowanie nieco tendencyjnego estymatora, który ma znacznie mniejszą wariancję. Metoda estymacji z mniejszym MSE jest ogólnie uważana za lepszą.

Problem polega natomiast na tym, że błąd generalnie zależy od nieznanego parametru populacji, który ma być oszacowany. Jeśli interpretować teorię estymacji jako statystyczny problem decyzyjny, to każdy estymator punktowy jest funkcją decyzyjną. Odchylenie funkcji decyzyjnej od wartości do oszacowania jest następnie ważone funkcją straty. Wskazuje to zakres „szkody” spowodowanej oszacowaniem. Funkcja straty jest następnie łączona z funkcją decyzyjną w celu utworzenia funkcji ryzyka, która daje średnią szkodę przy użyciu określonej funkcji decyzyjnej.

Przypomnijmy też, że wspomniana wyżej odległość euklidesowa między dwoma punktami w przestrzeni euklidesowej to w matematyce długość odcinka linii między dwoma punktami. Można ją obliczyć ze współrzędnych kartezjańskich punktów przy użyciu twierdzenia Pitagorasa, dlatego czasami nazywana jest odległością pitagorejską. Nazwy te pochodzą od starożytnych greckich matematyków Euklidesa i Pitagorasa, chociaż Euklides nie przedstawiał odległości jako liczb, a związku z twierdzeniem Pitagorasa z obliczaniem odległości dokonano dopiero w XVIII wieku. Odległość między dwoma obiektami, które nie są punktami, jest zwykle definiowana jako najmniejsza odległość między parami punktów od tych dwóch obiektów. Formuły są znane z obliczania odległości między różnymi typami obiektów, takich jak odległość od punktu do linii. W zaawansowanej matematyce pojęcie odległości zostało uogólnione na abstrakcyjne przestrzenie metryczne i badano odległości inne niż euklidesowe. W niektórych zastosowaniach w statystyce i optymalizacji kwadrat odległości euklidesowej jest używany zamiast samej odległości.

Autor: Marcin Szponder

Autor: Marcin Szponder

Ekspert w obszarze regulacyjnym związany z branżą naftową, a także z Polskim Komitetem Normalizacyjnym