Nowe rozumienie normalizacji partii

Normalizacja partii (BN) została wprowadzona przez [1] już w 2015 roku. Od tego czasu jest stosowana w modelach dogłębnego uczenia się w celu poprawy szkolenia i odporności wyboru częstotliwości uczenia się oraz inicjalizacji parametrów.

BN został zaprojektowany w celu zmniejszenia wewnętrznego przesunięcia współzmiennej (ICS) danych wejściowych każdej warstwy poprzez znormalizowanie pierwszych dwóch momentów - średniej i wariancji. Jednocześnie nie wpływa to na zdolność sieci do uzyskania pożądanego rozkładu aktywacji przy użyciu pary możliwych do nauczenia parametrów (gamma i beta).

Niedawny artykuł [2] rzuca nowe światło na BN i wzrost wydajności uzyskany dzięki zastosowaniu techniki normalizacji. Na podstawie eksperymentów raportuje:

  • ICS nie jest dobrym predyktorem wydajności treningu
  • Wzrost wydajności uzyskany przy użyciu BN nie wynika ze zmniejszenia ICS
  • BN zapewnia raczej efekt wygładzania w krajobrazie optymalizacji, co poprawia odporność modeli na hiperparametry, takie jak szybkość uczenia się.

Eksperyment 1

Rysunek 1 poniżej (zaczerpnięty z [2]) pokazuje trzy zestawy szkolenia sieci VGG. Pierwsza sieć jest szkolona bez BN, druga z BN; wreszcie do trzeciej sieci wprowadza się niestabilność dystrybucji po każdym wykorzystanym BN, dodając zmienny w czasie, niezerowy średni i niejednolity szum wariancji. Hałas zasadniczo powoduje wysoki poziom ICS, prawdopodobnie wyższy niż ustawienie standardowe.

Rycina 1 [2], wyniki eksperymentu 1

Wyniki pokazują, że nawet przy zwiększonym ICS przez dodanie szumu nadal uzyskuje się wzrost wydajności (różowa linia). Wskazuje to na zmniejszenie ICS, które nie jest czynnikiem powodującym poprawę wydajności.

Eksperyment 2

Dla każdej warstwy sieci neuronowej ICS rejestruje samą zmianę problemu optymalizacji spowodowaną zmianą danych wejściowych do każdej warstwy, gdy parametry poprzednich warstw są aktualizowane przy użyciu spadku gradientu. W reakcji na to „przesunięcie” każda warstwa musi dostosować swoje parametry, często powodując zanikanie lub eksplozję gradientów [1].

Ten pomysł zmiany w krajobrazie optymalizacji znalazłby również odzwierciedlenie w zmianach gradientów parametrów warstwy. Większa zmiana gradientu odzwierciedlałaby większą zmianę w krajobrazie optymalizacji. [2] wychwytuje to, mierząc różnicę między gradientami każdej warstwy przed (G) i po aktualizacjach wszystkich poprzednich warstw (G '). Mniejsza wartość różnicy 12 oznaczałaby mniejszy ICS, ponieważ krajobraz pozostaje podobny.

Rycina 2 [2], wyniki eksperymentu 2

[2] dalej bada związek między ICS i BN, wykreślając różnicę l2 (i kąt cosinusu) dwóch gradientów, jak pokazano na rycinie 2. Z powyższego rysunku można zobaczyć, że użycie BN nie oznacza zmniejszenia ICS.

Co zatem robi normalizacja wsadowa?

Krajobraz optymalizacji sieci neuronowej może składać się z wielu płaskich regionów i ostrych załamań, które sprawiają, że problem nie jest wypukły. Takie obszary prowadzą do zanikania gradientu (obszary płaskie) lub eksplozji gradientu (ostre zbocza). Zwiększa to wrażliwość na szybkość uczenia się i inicjalizację parametrów, przez co optymalizacja jest niestabilna.

[2] odnosi się do wyższej Lipschitzness gradientów za pomocą BN, co skutecznie oznacza wyższą gładkość krajobrazu optymalizacyjnego. Można to zaobserwować na rycinie 3, na której wykresy obliczają gradient straty na etapie treningu i mierzą, w jaki sposób zmiana zmienia się wzdłuż tego kierunku gradientu.

Rycina 3 [2]

Z rysunku 3 BN daje gładszy profil. To sprawia, że ​​gradient jest bardziej przewidywalny, co oznacza, że ​​na każdym etapie bardziej prawdopodobne jest, że gradient pozostanie podobny dla kolejnych kroków w przyszłości. Taka przewidywalność pozwala na podejmowanie większych kroków w kierunku gradientu bez utraty stabilności.

Wreszcie [2] stwierdza również, że efekt wygładzający BN może być przyczyną lepszego uogólnienia sieci. Jest tak, ponieważ BN popycha optymalizację w kierunku płaskich minimów.

Bibliografia:
[1] Ioffe S, Szegedy C. Normalizacja partii: Przyspieszenie uczenia w sieci głębokiej poprzez ograniczenie wewnętrznej zmiany współzmiennej. nadruk arXiv arXiv: 1502.03167. 11 lutego 2015 r.
[2] Santurkar S, Tsipras D, Ilyas A, Madry A. W jaki sposób normalizacja partii pomaga zoptymalizować? (Nie, nie chodzi o wewnętrzne przesunięcie współzmiennej). nadruk arXiv arXiv: 1805.11604. 2018 maja 29.