Krótka historia ASR: automatyczne rozpoznawanie mowy

To pierwszy post z serii na temat automatycznego rozpoznawania mowy, podstawowej technologii, która umożliwia Descript. Będziemy badać obecny stan branży, dokąd zmierza - i, w tej części, gdzie była.

Descript ma zaszczyt być częścią nowej generacji kreatywnego oprogramowania, które jest możliwe dzięki najnowszym osiągnięciom w automatycznym rozpoznawaniu mowy (ASR). To ekscytujący czas: technologia niedawno przekroczyła próg, w wyniku którego handluje swoją wieloletnią obietnicą niezwykłej użyteczności, a staje się coraz lepsza.

Ten moment już dawno nadszedł. Technologia rozpoznawania mowy rozwija się od ponad pół wieku, przechodząc przez kilka okresów intensywnych obietnic - i rozczarowań. Co się zmieniło, aby ASR był opłacalny w zastosowaniach komercyjnych? A co dokładnie te systemy mogły osiągnąć, na długo zanim ktokolwiek z nas usłyszał o Siri?

Historia rozpoznawania mowy dotyczy zarówno zastosowania różnych podejść, jak i rozwoju surowej technologii, chociaż są one nierozerwalnie powiązane. W ciągu dziesięcioleci badacze wymyślali niezliczone sposoby na sekcję języka: za pomocą dźwięków, struktury - i statystyk.

Początki

Zainteresowanie ludzkości rozpoznawaniem i syntezowaniem mowy sięga setek lat (przynajmniej!) - ale dopiero w połowie XX wieku nasi przodkowie zbudowali coś rozpoznawalnego jako ASR.

1961 - IBM Shoebox

Jednym z najwcześniejszych projektów był „rozpoznawanie cyfr” o nazwie Audrey, stworzony przez badaczy z Bell Laboratories w 1952 r. Audrey mogła rozpoznać wypowiadane cyfry, szukając odcisków palców audio zwanych formantami - destylowanymi esencjami dźwięków.

W latach 60. IBM opracował Shoebox - system, który rozpoznaje cyfry i polecenia arytmetyczne, takie jak „plus” i „total”. Co więcej, Shoebox może przekazać problem matematyczny do maszyny dodającej, która obliczy i wydrukuje odpowiedź².

Tymczasem naukowcy w Japonii zbudowali sprzęt, który mógłby rozpoznawać części mowy, takie jak samogłoski; inne systemy mogą oceniać strukturę mowy, aby dowiedzieć się, gdzie słowo może się kończyć. A zespół z University College w Anglii mógł rozpoznać 4 samogłoski i 9 spółgłosek, analizując fonemy, dyskretne dźwięki danego języka¹.

Ale podczas gdy pole robiło kolejne kroki do przodu, niekoniecznie było jasne, dokąd zmierza ścieżka. A potem: katastrofa.

Październik 1969 - The Journal of Acoustical Society of America

Piercing Freeze

Punktem zwrotnym był list napisany przez Johna R. Pierce'a w 1969 roku.

Pierce już dawno stał się inżynierem o międzynarodowej renomie; między innymi stworzył słowo tranzystor (obecnie wszechobecne w inżynierii) i pomógł wystrzelić Echo I, pierwszego w historii satelity komunikacyjnego. W 1969 roku był dyrektorem Bell Labs, który zainwestował wiele w rozwój rozpoznawania mowy.

W liście otwartym3 opublikowanym w The Journal of Acoustical Society of America Pierce przedstawił swoje obawy. Powołując się na „bujne” środowisko finansowania po II wojnie światowej i Sputniku oraz brak jego odpowiedzialności, Pierce upomniał tę dziedzinę za brak dyscypliny naukowej, twierdząc, że trwa zbyt wiele dzikich eksperymentów:

„Wszyscy wierzymy, że nauka mowy jest możliwa, pomimo niedoboru ludzi, którzy zachowują się jak naukowcy, i wyników, które wyglądają jak nauka.” - J.R. Pierce, 1969

Pierce położył pieniądze swojego pracodawcy tam, gdzie miał usta: odrzucił programy ASR Bella, które zostaną przywrócone dopiero po rezygnacji w 1971 roku.

Postęp trwa

Na szczęście w innych krajach był większy optymizm. Na początku lat siedemdziesiątych ARPA Departamentu Obrony USA (agencja znana teraz jako DARPA) sfinansowała pięcioletni program o nazwie Speech Understanding Research. Doprowadziło to do powstania kilku nowych systemów ASR, z których najbardziej udanym była Harpia Uniwersytetu Carnegie Mellon, która do 1976 r. Mogła rozpoznać nieco ponad 1000 słów.

W międzyczasie wysiłki IBM i AT&T Bell Laboratories popchnęły technologię w kierunku możliwych zastosowań komercyjnych. IBM nadał priorytet transkrypcji mowy w kontekście korespondencji biurowej, a Bell był zaniepokojony scenariuszami „dowodzenia i kontroli”: prekursorami wybierania głosowego i automatycznych drzew telefonicznych, które znamy dzisiaj¹.

Pomimo tych postępów, do końca lat 70. ASR był jeszcze daleki od opłacalności w przypadku bardzo specyficznych przypadków użycia.

To też boli moją głowę.

Lata 80.: Markovs i więcej

Kluczowym punktem zwrotnym była popularyzacja modeli Hidden Markov (HMM) w połowie lat osiemdziesiątych. Podejście to oznaczało znaczące przejście „od prostych metod rozpoznawania wzorców, opartych na szablonach i miary odległości spektralnej, do statystycznej metody przetwarzania mowy” ⁴ - co przełożyło się na skok dokładności.

Znaczna część ulepszeń w systemach rozpoznawania mowy od późnych lat 60. XX wieku wynika z potęgi tego podejścia statystycznego w połączeniu z postępem technologii komputerowej niezbędnym do wdrożenia HMM.

HMM zdobyli branżę szturmem - ale nie odnieśli sukcesu z dnia na dzień. Jim Baker po raz pierwszy zastosował je do rozpoznawania mowy na początku lat 70. na CMU, a same modele zostały opisane przez Leonarda E. Bauma w latach 60. Dopiero w 1980 r., Kiedy Jack Ferguson wygłosił zestaw pouczających wykładów w Institute for Defense Analyzes, technika zaczęła się szerzej rozpowszechniać⁴.

Sukces HMM potwierdził pracę Fredericka Jelinka w IBM Watson Research Center, który od wczesnych lat 70. zalecał stosowanie modeli statystycznych do interpretacji mowy, zamiast próbować zmusić komputery do naśladowania sposobu, w jaki ludzie trawią język: poprzez znaczenie, składnia i gramatyka (wówczas powszechne podejście). Jak później ujął Jelinek: „Samoloty nie machają skrzydłami.” ”

Te podejścia oparte na danych ułatwiły również postęp, który miał tyle samo wspólnego ze współpracą i odpowiedzialnością w branży, co poszczególne momenty eureki. Wraz ze wzrostem popularności modeli statystycznych pole ASR zaczęło łączyć się wokół zestawu testów, które zapewniłyby znormalizowany poziom odniesienia do porównania. Sprzyjało temu również udostępnianie wspólnych zestawów danych: dużych ciał danych, które naukowcy mogliby wykorzystać do szkolenia i testowania swoich modeli.

Innymi słowy: w końcu istniał (niedoskonały) sposób mierzenia i porównywania sukcesu.

Listopad 1990, Infoworld

Dostępność konsumencka - lata 90

Na dobre i na złe, lata 90. wprowadziły konsumentów do automatycznego rozpoznawania mowy w formie, którą rozpoznalibyśmy dzisiaj. Dragon Dictate został wydany w 1990 roku za oszałamiające 9 000 $, reklamując słownik 80 000 słów i takich funkcji, jak przetwarzanie języka naturalnego (patrz artykuł Infoworld powyżej).

Narzędzia te były czasochłonne (artykuł twierdzi inaczej, ale Dragon stał się znany z tego, że zachęcał użytkowników do „trenowania” oprogramowania do dyktowania własnego głosu). Wymagało to, aby użytkownicy mówili na palach: Dragon mógł początkowo rozpoznawać tylko 30–40 słów na minutę; ludzie zazwyczaj rozmawiają cztery razy szybciej.

Ale działało wystarczająco dobrze, aby Dragon mógł rozwinąć się w firmę zatrudniającą setki pracowników i klientów z zakresu opieki zdrowotnej, prawa i nie tylko. W 1997 r. Firma wprowadziła Dragon NaturallySpeaking, który mógł rejestrować słowa w bardziej płynnym tempie - a przy cenie 150 USD znacznie niższej cenie⁸.

Mimo to mogło być tyle narzekań, co pisków zachwytu: do tego stopnia, że ​​dziś wokół ASR istnieje sceptycyzm konsumentów, część uznania należy przypisać nadmiernie entuzjastycznemu marketingowi tych wczesnych produktów. Ale bez wysiłków pionierów branży Jamesa i Janet Baker (którzy założyli Dragon Systems w 1982 r.), Produkcja ASR mogła potrwać znacznie dłużej.

Listopad 1993, IEEE Communications Magazine

Rozpoznawanie mowy dokąd - Sequel

25 lat po opublikowaniu artykułu J.R. Pierce'a IEEE opublikowało kontynuację zatytułowaną Whither Speech Recognition: the Next 25 Years⁵, autorstwa dwóch starszych pracowników Bell Laboratories (tej samej instytucji, w której pracował Pierce).

Ten ostatni artykuł analizuje stan przemysłu około 1993 roku, kiedy artykuł został opublikowany - i służy jako rodzaj obalenia pesymizmu oryginału. Wśród jego na wynos:

  • Kluczową kwestią w liście Pierce'a było założenie, że aby rozpoznawanie mowy stało się przydatne, komputery będą musiały zrozumieć, co oznaczają słowa. Biorąc pod uwagę ówczesną technologię, było to całkowicie niemożliwe.
  • W pewnym sensie Pierce miał rację: do 1993 r. Komputery słabo rozumiały język - aw 2018 r. Nadal notorycznie źle rozpoznają znaczenie.
  • Błąd Pierce'a polegał na tym, że nie przewidział niezliczonych sposobów rozpoznawania mowy, które mogą być przydatne, nawet gdy komputer nie wie, co naprawdę oznaczają te słowa.

Kontynuacja Whither kończy się prognozą, przewidującą, gdzie ASR zmierza w latach po 1993 roku. Sekcja jest ułożona w bezczelne żywopłoty („Z pewnością przewidujemy, że co najmniej jedna z tych ośmiu prognoz okaże się nieprawidłowa”) - ale i tak jest intrygujące. Wśród ich ośmiu prognoz:

  • „Do 2000 roku więcej osób otrzyma zdalne informacje za pomocą dialogów głosowych niż przez wpisywanie poleceń na klawiaturze komputera w celu uzyskania dostępu do zdalnych baz danych.”
  • „Ludzie nauczą się zmieniać swoje nawyki mowy, aby korzystać z urządzeń rozpoznających mowę, podobnie jak zmienili swoje zachowanie mówienia, aby pozostawić wiadomości na automatycznych sekretarkach. Mimo że nauczą się korzystać z tej technologii, ludzie zawsze będą narzekać na rozpoznawanie mowy. ”

The Dark Horse

W najbliższej części tej serii zajmiemy się nowszymi rozwiązaniami i obecnym stanem automatycznego rozpoznawania mowy. Ostrzeżenie przed spoilerem: sieci neuronowe odegrały główną rolę.

Ale sieci neuronowe są tak stare, jak większość opisanych tutaj podejść - zostały wprowadzone w latach 50. XX wieku! Dopiero moc obliczeniowa współczesnej epoki (wraz ze znacznie większymi zestawami danych) zmieniła krajobraz.

Ale wyprzedzamy siebie. Bądź na bieżąco z naszym kolejnym postem na temat automatycznego rozpoznawania mowy, postępując zgodnie z opisem na Medium, Twitterze lub Facebooku.

Oś czasu przez Juang i Rabiner¹

Uwaga: Historia ASR jest wypełniona większą liczbą autorów i innowacji, niż możemy szczegółowo opisać w tym utworze; omówiliśmy kilka ważnych kamieni milowych i umieściliśmy poniżej linki do dalszego czytania. Jeśli coś przeoczyliśmy, daj nam znać!

Dalsza lektura

Oto zasoby, które były pomocne w napisaniu tego utworu, z których niektóre są bardziej szczegółowe:

  1. Automatyczne rozpoznawanie mowy - krótka historia rozwoju technologii. B.H. Juang i Lawrence R. Rabiner. Jeśli interesuje Cię szersza historia ASR, jest to świetny zasób.
  2. Shoebox - IBM History Exhibitions

3. Gdzie rozpoznawanie mowy? - J.R. Pierce

4. Z pierwszej ręki: ukryty model Markowa - Lawrence R. Rabiner

5. Gdziekolwiek mowa: kolejne 25 lat - D.B. Roe & J.G. Wilpon

6. Oś czasu rozpoznawania mowy i głosu - Wikipedia

7. Rozpoznawanie mowy - Wikipedia

8. Fortune artykuł o Dragon Naturally Speaking, 1998 - Shaifali Puri

9. Frederick Jelinek, który dał maszynom klucz do ludzkiej mowy, umiera w wieku 77 lat - Steve Lohr

10. Pięćdziesiąt lat postępu w rozpoznawaniu mowy i mówców - Sadaoki Furui

Podziękowania dla Arlo Faria i Adama Janina z Remeeting, którzy przedstawili cenny kontekst historyczny.