Gorzelnia AI (część 1): badania AI nad lotem z lotu ptaka

Różne obiektywy do widzenia przez AI; motywacje i wprowadzenie do naszej aplikacji internetowej

Uwaga: jeśli chcesz mieć roboty w domu i chciałbyś, aby stało się to wcześniej niż później, wypełnij naszą bardzo krótką ankietę. Twoje odpowiedzi pomagają pokierować naszymi symulowanymi badaniami środowiska i projektami robotyki

Daj 3 minuty swojego czasu: https://forms.gle/hPiP1p3sJ734Hzk19
Uprzejmie dziękuję!

W MTank dążymy do osiągnięcia dwóch celów. (1) Model i destylacja wiedzy w ramach AI. (2) Postęp w tworzeniu naprawdę inteligentnych maszyn. W ramach tych wysiłków publikujemy artykuły o naszej pracy, aby ludzie mogli się z nich cieszyć i uczyć. Jeśli podoba Ci się nasza praca, pokaż swoje wsparcie, śledząc, udostępniając i klaszcząc w tyłek. Z góry dziękuję!

  • Część 1: Widok badań AI z lotu ptaka
  • Część 2: Destylacja przez osadzanie

Co to jest i dlaczego to zrobiłeś?

Witamy w naszej pierwszej części AI Distillery Project, w której nasz zespół MTank, sfrustrowany ilością badań nad AI na całym świecie, próbuje zhakować rozwiązanie naszego stosu nieprzeczytanych papierów, które rosną codziennie. W naszym poprzednim blogu z wizją żartobliwie i dokładnie opisaliśmy objętość globalnych publikacji naukowych dotyczących AI jako wąż ognia - o niewiarygodnie dużej objętości, ale medium, które uniemożliwia prawidłowe zaspokojenie pragnienia. Postanowiliśmy więc spróbować swoich sił w akwadukcji, które zmuszają do odświeżenia wiedzy na temat sztucznej inteligencji i różnych powiązanych dziedzin.

Dlaczego pytasz? Po pierwsze, pomyśleliśmy, że to interesujący problem. Po drugie, słyszeliśmy (i dopasowywali) torturowane zawodzenia badaczy zrozpaczonych ich niezdolnością nadążania za postępem, nawet w najbardziej ezoterycznych podobszarach AI. Często badacz musi podzielić swój czas między czytanie, kodowanie, administrowanie, nauczanie itp. A czasami, gdy trzeba napisać artykuł przed upływem terminu, autorzy z poczuciem winy przyznają, że nie czytają żadnych nowych artykułów przez prawdopodobnie miesiące czas, w którym przygotowują się do złożenia.

W dużej mierze wiedza naukowa jest rozpowszechniana w jednym głównym formacie: artykułach naukowych. Niedawno publiczne repozytoria internetowe, które umożliwiają cytowanie, takie jak ArXiv, stały się powszechnie stosowaną metodą szybkiego publikowania treści naukowych (patrz tweet Yanna LeCuna). Artykuły nadal mają pierwszeństwo pod względem sposobu przekazywania wiedzy w nauce, paradygmatu, który jeszcze się znacząco zmieni. Artykuły te są akceptowane na czasopisma i konferencje lub po prostu cieszą się popularnością w samych mediach społecznościowych. Obecnie ArXiv jest miejscem, w którym większość największych artykułów w AI pojawia się na długo przed recenzją.
W jednym zdaniu naszym celem jest:
Automatycznie modeluj i rozszerzaj wiedzę w ramach sztucznej inteligencji

Cel ten jest duży, niejasny i idealny do prac, które chcielibyśmy zrealizować w ciągu najbliższych kilku lat. Obejmuje to oczywiście pracę, którą wykonaliśmy ręcznie w poprzednich dwóch publikacjach ankietowych: Rok w wizji komputerowej i metody multimodalne. Publikacje, które podczas pisania zmusiły nas do próby dodania najlepszych i najnowszych artykułów (SOTA) w ramach tych subpól, dopóki nie zdaliśmy sobie sprawy, jak daremne.

Nadciągający potwór postępu AI jest nieubłagany w swoim pchnięciu do przodu, gdy desperacko próbowaliśmy strawić, określić ilościowo i napisać o jego przygodach. Jednak w przypadku AI Distillery naszym celem jest rozszerzenie naszego podejścia i podjęcie badań z innej perspektywy - automatycznie zwracamy uwagę na to słowo.

Może czas zastosować AI do AI i zautomatyzować kurację i podsumowanie wiedzy w tej dziedzinie? Wiemy, że istnieje wiele wspaniałych zasobów poświęconych badaniom AI, na przykład distill.pub, ale kompilacja, edycja i proces tworzenia takich zasobów jest bardzo czasochłonny. Czy istnieje inny sposób na tworzenie spostrzeżeń niemal pasywnie?
Dziedzina nauki o sieci poświęcona jest badaniu i znajdowaniu relacji w dużych sieciach cytowań. Arxiv-sanity, jedna z naszych największych inspiracji, ogromnie pomaga ludziom w końcu znaleźć papiery, których szukają, lub polecić papiery, które mogą im się podobać. To sprawdzian zdolności wyszukiwania i automatyzacji.

Ale interesuje nas gra meta-badawcza - co same nasze badania mogą powiedzieć o badaniach nad AI? Dokąd zmierza ten cały uniwersytet, start-up i przemysł? Jakie pola współpracują najbardziej? Co jest teraz na topie, a co będzie wkrótce na topie z badań?

Nie wiemy jeszcze, ale idźmy dalej i może się dowiemy razem.

Problem z perspektywy wyszukiwania informacji (IR)

Różne sytuacje wymagają różnych metod wyszukiwania informacji. Przeprowadzanie poszukiwań eksploracyjnych jest trudne w standardowych systemach IR, ponieważ terminologia może się różnić nawet w ściśle powiązanych obszarach (analizy sieci vs sieci neuronowe z grafem). Jak znaleźć podobne frazy, nie wiedząc, czego szukasz? Jak znaleźć dokumenty powiązane z Twoim nowym pomysłem w lesie dokumentów GAN?

Nowoczesne przetwarzanie w języku naturalnym dostarczyło narzędzi do prowadzenia tego rodzaju poszukiwań eksploracyjnych, wystarczy zastosować je do danych z cennych źródeł, takich jak ArXiv. W związku z tym staramy się dostarczać najistotniejsze, znaczące informacje tak szybko i tak dokładnie, jak to możliwe. W ten sposób badacze i praktycy zostaną zwolnieni z uciążliwej „inżynierii zapytań”, aby znaleźć potrzebne im informacje z dużej puli dokumentów.

Tworzenie zestawu danych

Liczba dokumentów dodawanych do ArXiv miesięcznie od 2014 r. W 2018 r. W powyższych obszarach wydano ponad 1000 dokumentów na ArXiv miesięcznie. Co miesiąc oprócz stycznia. W listopadzie ukazało się ponad 2000 artykułów.

Jako punkt wyjścia do naszego wzniosłego celu wykorzystaliśmy bazę kodu arxiv-sanity (stworzoną przez Andreja Karpathy'ego), aby zebrać około 50 000 dokumentów z interfejsu API ArXiv wydanego od 2014 r. I które były w dziedzinie cs. [CV | CL | LG | AI | NE] lub stat.ML. Uznanie dla obu tych systemów, ponieważ tak niesamowite zasoby typu open source doprowadzają nas do punktu, w którym każdy może uzyskać dostęp do tej wiedzy. W rezultacie powstało jednak co najmniej jedno zjawisko zewnętrzne:

Jak znaleźć to, czego potrzebujemy, skoro jest tak wiele [cholernych] dokumentów?

Być może istnieje sposób na wizualizację dokumentów, starych i nowych, w kontekście badań wokół nich. To jest nie tylko samo subpole, ale różne gniazda, w których żyje. Eksploracja staje się łatwiejsza, odkrycie i nawigacja są niezwykle pomocne, najpierw wiedząc, gdzie w przestrzeni dokumentów i wiedzy się znajdujesz i co jest wokół ciebie.

Oczyszczanie korpusu tekstowego

Około 50000 artykułów podzielono za pomocą pdf2text. Usunęliśmy stopery (np. „A”, „the”, „of”) i tokeny, które pojawiają się mniej niż określoną liczbę razy (np. 5 lub 30 - różne dla każdej metody). Wspólne bigramy („deep_learning”) i trygramy („convolutional_neural_networks”) są tym, od czego chcielibyśmy nauczyć się osadzania, ale istnieje problem z powodu wybuchu kombinatorycznego podczas tworzenia n-gramów.

Mówiąc prościej, chcielibyśmy uniknąć uczenia się osadzania bi-gramów, takich jak „and_the” i „this_paper”, których jest tysiące. Ponieważ nawet prościej, nie dostarczają żadnej wartości w kontekście badań nad AI. Generalnie reprezentują język ojczysty.
Zamiast tego ręcznie zdefiniowaliśmy ważny zestaw pojęć z większego zestawu najczęstszych n-gramów - „rekurencyjnych sieci neuronowych”, „obsługi wektorowej maszyny” itp. Jako pierwsze podejście znajdujemy te pojęcia w tekście i zastępujemy je z tokenami koncepcji (convolutional_neural_networks, support_vector_machine).

AI Distillery: aplikacja internetowa do badania badań nad AI

Stworzyliśmy aplikację internetową, dostępną na stronie ai-distillery.io, w której pokażemy większość naszych wyników, narzędzi, widżetów, spostrzeżeń, wykresów i innych. Za pomocą aplikacji internetowej można zbadać niektóre z naszych wyszkolonych modeli na zebranych przez nas zestawach danych, a także umożliwić każdemu zbadanie pokrewnych pojęć, znaleźć podobne artykuły lub uzyskać przegląd każdego z nich wraz z trendami i śledzić ich postępy w czasie. W sumie dostępnych jest obecnie 6 stron i planujemy to znacznie zaktualizować w nadchodzących miesiącach. To są:

Wyszukiwanie papieru (destylarnia AI)

Wyszukiwanie papieru: funkcjonalne podobnie do arxiv-sanity-preserver, ale używamy biblioteki wyszukiwania Whoosh, aby uzyskać większą elastyczność i skalowalność. Rzuć zapytanie i znajdź najbardziej odpowiednie dokumenty do tego zapytania.

Paper Bliskość (destylarnia AI)

Słowo Osadzanie Bliskość: znajdź semantycznie podobne słowa, np. „CNN” jest zbliżone do „convnet”, a „RNN” jest zbliżone do „LSTM”

Bliskość osadzania papieru: znajdź podobne papiery, np. Papier „AlexNet” może być zbliżony do papieru „GoogLeNet” lub bardziej ogólnie, papiery w tym samym polu będą zwykle bliższe niż papiery z oddzielnych pól.

Osadzanie wizualizacji (destylarnia AI)

Wizualizacja osadzania słów: Wykres 2D T-SNE pokazujący, które słowa są blisko siebie w przestrzeni osadzania za pomocą metod osadzania słów: Word2vec i fastText

Wizualizacja osadzania papieru: Kolejny wykres T-SNE, ale do wizualizacji samej przestrzeni osadzania papieru oraz za pomocą naszych dwóch wybranych metod osadzania: LSA i doc2vec.

Wykresy i dodatkowe informacje: wykresy i informacje, które uważamy za interesujące i które stworzyliśmy podczas naszej podróży, np. najlepsi autorzy, najlepsze artykuły, liczba artykułów wydanych miesięcznie itp.
Przykład niektórych wykresów i spostrzeżeń, które nasz system może automatycznie wygenerować z papierowego korpusu ArXiv. Obecność „GAN” w artykułach w czasie, najczęściej publikowany temat, najczęściej cytowani autorzy itp.

Podsumowanie

Używamy naszych najlepszych broni, aby oswoić bestię z postępami AI, tj. Flask, ReactJS, D3.js, ChartJS i Whoosh. Mieliśmy zabawną podróż z Heroku (za mało pamięci RAM) na Google Compute Engine (za drogi dla zbyt małej pamięci RAM), zanim wreszcie udostępniliśmy aktualną wersję aplikacji za pomocą Hertznera.

Rozpoczęliśmy AI Distillery od dwóch metod „osadzania papieru”, Latent Semantic Analysis (LSA) i doc2vec - oraz dwóch algorytmów osadzania słów, word2vec i fastText. W kolejnej odsłonie przeprowadzimy czytelników przez te osadzenia, a także każdą z utworzonych przez nas stron. Na razie zachęcamy do odwiedzenia strony (ai-distillery.io). Nasz kod eksperymentu można znaleźć w repozytorium AI Distillery GitHub, w którym wykorzystaliśmy frameworki takie jak gensim, sklearn i spacy, aby wykonać niektóre z powyższych czynności.

Jak zawsze dzięki za poświęcenie czasu na przeczytanie naszej pracy. I proszę polub, klaskaj i dziel się pracą MTank z każdym, kto Twoim zdaniem może to polubić. Wasze wsparcie motywuje nas wszystkich do próbowania nowych rzeczy i wnoszenia naszych dwóch centów do społeczności AI. W takim przypadku nie oklaskiwaj, jeśli podoba Ci się to, co robimy!

Jeśli chcesz współpracować z nami w naszej szalonej podróży, dzięki której postęp AI jest bardziej przejrzysty, lub masz jakieś uwagi dotyczące jakiejkolwiek części naszych badań lub aplikacji internetowej, jesteśmy otwarci na sugestie, więc zachęcamy do skontaktowania się w sekcji komentarzy lub przez e-mail (info@themtank.com). Wypatruj drugiej części tej serii, która już wkrótce się pojawi, oraz początku nowej serii blogów, o której wspominaliśmy na naszym blogu wizyjnym (Od filiżanek do świadomości).