Uczenie się zapamiętywania: ramy oparte na plastyczności synaptycznej dla ustawicznego uczenia się

Oleksiy Ostapenko, Tassilo Klein, Moin Nabi (ML Research)

Ludzie mają niezwykłą zdolność do ciągłego uczenia się przez całe życie. Umiejętność zastosowania wcześniej zdobytej wiedzy w nowych sytuacjach, środowiskach i zadaniach stanowi kluczową cechę ludzkiej inteligencji. Na poziomie biologicznym jest to zwykle przypisywane zdolności do selektywnego przechowywania i zarządzania pamięcią przez wystarczająco długi okres czasu w połączeniach neuronowych zwanych synapsami. W przeciwieństwie do mózgów biologicznych konwencjonalne sztuczne sieci neuronowe (ANN) nie mają zdolności kontrolowania siły połączeń synaptycznych między neuronami. Prowadzi to do bardzo krótkich okresów istnienia pamięci w ANN - efekt znany jako katastrofalne zapominanie.

W ostatnim dziesięcioleciu większość badań w dziedzinie sztucznej inteligencji (AI) była ukierunkowana na przekroczenie wydajności na poziomie człowieka w izolowanych, jasno określonych zadaniach, takich jak granie w gry komputerowe, sortowanie wiadomości e-mail ze spamem, klasyfikowanie kotów od psów i rozpoznawanie mowy, po prostu żeby wymienić tylko kilka. W rezultacie większość otaczającej nas sztucznej inteligencji w naszym codziennym życiu można nazwać sztuczną wąską inteligencją lub słabą sztuczną inteligencją. Natomiast silna sztuczna inteligencja odnosi się do sztucznej inteligencji podobnej do człowieka, która może wykonywać dowolne inteligentne zadania, będąc w stanie ciągle się uczyć, zapominać wybiórczo, szybko dostosowując się do nowych zadań i korzystając z wcześniejszych doświadczeń. Te właściwości dopiero niedawno zaczęły zwracać uwagę badaczy AI.

Dlaczego ciągłe uczenie się? Klucz do ciągle zmieniających się scenariuszy

Zapominanie i brakujący transfer wiedzy stanowią jedno z głównych wyzwań na drodze od słabej AI do silnej AI. W przeciwieństwie do ludzi, którzy zapominają wybiórczo, maszyny zapominają katastrofalnie. W związku z tym, podczas gdy „dziecko uczy się czołgać, chodzić, a następnie biegać” (~ Dave Waters), AI całkowicie zapomni się czołgać, gdy nauczy się chodzić, i zapomni chodzić, gdy nauczy się biegać. Zanim przejrzymy możliwe rozwiązania problemu ciągłego uczenia się przez całe życie, rozważmy prosty przykład wyszukiwania w katalogu odzieży opartym na sztucznej inteligencji.

Model uczenia maszynowego wyszkolony na zbiorze danych zawierającym elementy odzieży z sezonu (A) sprawdziłby się bardzo dobrze podczas wyszukiwania produktów tego sezonu (A). Jednak gdy sezon się zmieni, trendy w modzie również mogą się zmienić. Gdy trendy w modzie ulegną zmianie, do katalogu mogą zostać dodane nowe kategorie produktów, modele i style (np. Szpilki zamiast trampek, długie kurtki zamiast krótkich kurtek itp.). Model wyszkolony na podstawie danych z pierwszego sezonu (A) nie sprawdziłby się dobrze podczas wyszukiwania elementów dodanych w nowym sezonie. W rzeczywistości po prostu szkolenie naszego modelu na danych z nowego sezonu doprowadziłoby do katastrofalnego zapomnienia o możliwości wyszukiwania pozycji z poprzedniego sezonu.

Powszechny sposób rozwiązywania zapomnienia?

Jedna z najwcześniejszych technik łagodzenia katastroficznego zapominania w ANN jest znana jako powtórka doświadczenia lub „próba”. Kontynuując nasz przykład wyszukiwania w katalogu, w celu zachowania informacji wyuczonych w pierwszym sezonie, model uczenia maszynowego jest po prostu ponownie szkolony od zera na mieszance danych z obu sezonów, tj. Wcześniej zdobyta wiedza jest odtwarzana do modelu wyszkolonego na dane nowego sezonu. Ogólnie rzecz biorąc, ponowne przeszkolenie modelu za każdym razem, gdy „przesuwa się” dystrybucja danych, spowodowałoby gwałtowne koszty przechowywania danych i wysiłek potrzebny do utrzymania inteligentnych systemów, nie mówiąc już o radykalnym zmniejszeniu skalowalności systemu. Wreszcie, przechowywanie nieprzetworzonych danych z poprzednich zadań może w dużym stopniu naruszać wymagania dotyczące prywatności danych w rzeczywistej aplikacji.

W tym kontekście wielu badaczy skupiło się na symulacji plastyczności neuronalnej w ANN, a tym samym na zmniejszeniu potrzeby przechowywania surowych danych (1,2,3,4,5,6). Zwykle odbywa się to w tak zwanej konfiguracji „przyrostowej zadania”, w której każda nowo dodana porcja danych jest traktowana jako osobne zadanie i zakłada się, że informacje o etykiecie zadania są dostępne w czasie testu. Wracając do przykładu wyszukiwania w katalogu, wymagałoby to dołączenia informacji o etykiecie sezonu (etykiecie zadania) do każdego zapytania; stąd klasyfikacja danego elementu odzieży wymagałaby a priori informacji o sezonie, do którego należy (etykieta zadania). Posiadanie takiej „etykiety zadania” automatycznie zredukowałoby dane wyjściowe modelu do klas należących do założonego zadania. Tak więc w naszym powyższym przykładzie ograniczyłoby to model do konkretnego sezonu. Te założenia rzadko można spełnić w rzeczywistych aplikacjach.

Oddzielna linia prac dotyczy scenariusza bardziej realistycznego. W tym scenariuszu „przyrostowym klas” wyniki klasyfikacji modelu są stale rozszerzane w miarę uczenia się nowych klas. W tym kontekście powszechną strategią jest wprowadzenie tak zwanego generatywnego komponentu pamięci (np. 7,8,9). Tutaj zamiast przechowywania surowych danych trenowany jest model generatywny, taki jak GAN lub VAE (patrz poprzedni wpis na blogu), aby generować doświadczenie do odtworzenia. Dlatego w przykładzie z katalogu przedmioty (z odpowiednią klasą) z pierwszego sezonu zostałyby wygenerowane i odtworzone w modelu.

Istniejące podejścia do pamięci generatywnej polegają głównie na idei głębokiej powtórki generatywnej, w której model generatywny jest powtarzalnie przekwalifikowywany na podstawie aktualnie dostępnych danych rzeczywistych (nowy sezon) i odcinków powtórkowych zsyntetyzowanych przez poprzedni generator (poprzedni sezon). Jednak oprócz tego, że są bardzo nieefektywne w treningu, podejścia te są bardzo podatne na efekt znany jako „dryfowanie semantyczne”. „Dryf semantyczny” odnosi się do jakości obrazów generowanych przy każdym powtórzeniu pamięci w zależności od wcześniej wygenerowanych obrazów, powodując podatność na propagację błędów, a tym samym powodując utratę jakości i zapominanie.

Proponowane rozwiązanie - uczenie się plastyczności w generatywnej sieci pamięci

Do tej pory dowiedzieliśmy się, że powtórka z doświadczenia jest prostą i przydatną strategią pozwalającą przezwyciężyć zapominanie w ogóle, a zwłaszcza w trudnej sytuacji „przyrostowej”. Jednak ta strategia ma zastosowanie tylko wtedy, gdy odcinki odtwarzania nie są przechowywane jako surowe dane, ale w formie odpowiednich i wydajnie przechowywanych wzorców pamięci.

Aby temu zaradzić, w naszej najnowszej pracy zaproponowaliśmy metodę o nazwie Dynamic Generative Memory (DGM) - kompleksową, możliwą do wyszkolenia platformę ciągłego uczenia się, która symuluje plastyczność synaptyczną z uczącymi się maskami twardej uwagi stosowanymi do parametrów sieci generatywnej (GAN) . Maskowanie z silną uwagą identyfikuje segmenty sieci, które są niezbędne do zapamiętywania aktualnie poznanych informacji i zapobiega ich aktualizacjom podczas przyszłej nauki. Sieć jest dodatkowo zachęcana do ponownego wykorzystywania wcześniej zdobytej wiedzy, która była przechowywana w takich „zarezerwowanych” segmentach sieci, umożliwiając pozytywny transfer wiedzy. Dlatego w naszym przykładzie katalogu produktów wiedza o elementach katalogu z poprzedniego sezonu może być skutecznie ponownie wykorzystana podczas poznawania przedmiotów z nowego sezonu. Podsumowując, DGM może uczyć się o nowych zadaniach bez potrzeby odtwarzania starej wiedzy, co poprawia efektywność szkolenia i staje się bardziej niezawodny w obliczu katastrofalnego zapominania.

W związku z tym DGM może generować pouczające i różnorodne próbki wcześniej poznanych kategorii na każdym etapie ciągłego uczenia się, jak pokazano na poniższym obrazku. Ponowne odtworzenie tych próbek w modelu rozwiązywania zadań (D) daje model, który może zachować wysoką wydajność klasyfikacji we wszystkich klasach, które były obserwowane podczas ciągłego procesu uczenia się.

Skalowalność

Biorąc pod uwagę ograniczony rozmiar sieci, nieuniknione jest, że przy rosnącej liczbie zadań do nauczenia pojemność modelu jest w pewnym momencie wyczerpana. Problem ten nasila się podczas symulacji plastyczności neuronalnej z maskowaniem twardej uwagi na poziomie parametru. Aby zagwarantować wystarczającą pojemność i stałą moc ekspresyjną sieci bazowej, DGM utrzymuje stałą liczbę „wolnych” parametrów (tj. Raz, które można skutecznie zaktualizować) na stałym poziomie, rozszerzając sieć o dokładnie taką liczbę parametrów, jaką zarezerwowano dla poprzedniej zadanie. Kluczową ideą tutaj jest to, że przy danym pozytywnym przekazywaniu wiedzy do przodu (tj. Wielokrotnego użytku parametrów) liczba rezerwacji parametrów dla nowych zadań powinna z czasem maleć, a wzrost sieci powinien w pewnym momencie zostać nasycony.

Szczegółowe informacje techniczne na temat metody DGM można znaleźć w pełnym dokumencie na temat arXiv.

Mimo że wciąż daleko mu do rozwiązania problemu katastroficznego zapominania, i pomimo kilku ograniczeń, DGM wykazuje skuteczny rozwój sieci i odporność na katastrofalne zapominanie w trudnej konfiguracji „przyrostowej klasy”. Wierzymy, że przedstawione badania mogą pomóc nam w lepszym zrozumieniu ciągłego uczenia się - niezbędnej umiejętności na drodze do osiągnięcia silnej sztucznej inteligencji, która jest w stanie uczyć się (i zapominać) adaptacyjnie i stopniowo z czasem.

Nasza praca nad kształceniem ustawicznym jest prezentowana na CVPR 2019.

O autorze: Oleksiy Ostapenko, Associate Engineer Engineer w zespole badawczym SAP do uczenia maszynowego, pracuje nad wyzwaniami związanymi z ciągłym uczeniem się przez całe życie omówione w tym poście w swoim artykule, który zostanie zaprezentowany na tegorocznym CVPR.