NLP w Amazon – porozmawiaj z Alexą

Na wstępie bardzo dziękuję za informacje zwrotne po ostatnim odcinku, w którym zacząłem od tego, jak dalej rozwijamy Biznes Myśli. Ta informacja jest bardzo cenna. Jeżeli nie miałeś jeszcze czasu tego zrobić, to bardzo Cię proszę, poświęć 5 minut i podziel się swoją opinią, bo dzięki temu ten podcast może być jeszcze bardziej wartościowy dla Ciebie. A dziś dowiesz się, co słychać u Alexy, czyli jak rozwija się aktualnie obszar NLP w Amazon.

Moim dzisiejszym gościem jest Staszek, który zajmuje się tematem asystenta głosowego. Zapraszam do rozmowy.

Cześć Staszku. Przedstaw się: jak się nazywasz, gdzie mieszkasz i czym się zajmujesz?

Dzień dobry, nazywam się Staszek Paśko. Jestem programistą, pracuję na stanowisku Senior Principal Software Engineer w Amazonie w gdańskim biurze rozwoju technologii, a w zasadzie w gdańskim biurze Alexy, ponieważ w Amazonie pracuję właśnie nad Alexą. Mieszkam w Gdańsku, a w ramach pracy nad Alexą zajmuję się tzw. oddziałem Alexa Speech.

Alexa Speech to jest ta część Alexy, która dostarcza wszystkie funkcje rozpoznawania i syntezy mowy. Zamieniamy mowę na coś rozumianego przez komputer. Ja potem zamieniam to, co komputer chciałby powiedzieć, na coś zrozumiałego przez człowieka. To jest funkcjonalny opis, natomiast oznacza tak naprawdę dużo systemów, które wykorzystują machine learning do zarówno rozpoznawania jak i syntezy.

Zespoły, tutaj w Gdańsku, w Stanach, jak i w innych miejscach, zajmują się tymi algorytmami, researchem, machine learningiem, serwisami (zarówno tymi w chmurze, jak i usługami bezpośrednio na urządzeniach, które Amazon tworzy i które mają Alexę wbudowaną).

Bardzo się cieszę, że udało Ci się znaleźć czas na tę rozmowę, bo z jednej strony fajnie, że porozmawiamy o Alexa i jej rozwoju, ale przede wszystkim chciałbym porozmawiać o Twoim doświadczeniu. Jak się myśli o algorytmach związanych z mową, syntezą mowy, jej rozpoznawaniem, to w Polsce jesteś w czołówce specjalistów w tej dziedzinie.

Zanim przejdziemy do szczegółów, powiedz, jaką ostatnio fajną książkę przeczytałeś? Dlaczego akurat ją warto przeczytać?

Książka polecana przez gościa odcinka "NLP w Amazon"

Myślę, że najfajniejszą książką, którą ostatnio przeczytałem, jest „Rekursja” od Blake’a Croucha. W zasadzie po polsku to się powinno nazywać „rekurencja”, ale tłumacz przełożył ją inaczej. To jest książka o pamięci, trochę science-fiction, trochę kryminał, trochę o pamięci, trochę o technologii. Polecam przeczytanie jej, nie tylko dlatego że jest to książka, w której akcja zmienia kierunek i nie wiadomo, jak się skończy, ale również wywraca sposób myślenia o całym tym problemie, nad którym książka się skupia wielokrotnie.

Jest to nieustanne, ale bardzo pozytywne. Z jednej strony bardzo zagmatwana książka, a z drugiej bardzo ciekawe, świeże spojrzenie na tematykę związaną z podstawowymi zagadnieniami, którymi się science-fiction zajmuje, jak podróż w czasie, sztuczna inteligencja czy komputery kwantowe. To wszystko występuje w stopniu większym lub mniejszym. Ciekawym jest, jak to wszystko zostało wplecione w chandlerowski kryminał. Naprawdę warte przeczytania. Dostała jakąś nagrodę w zeszłym roku.

Dzisiaj będziemy rozmawiać o asystentach głosowych. Pewnie większość osób w miarę kojarzy, co to jest, ale chciałbym, abyśmy uspójnili wiedzę. Zacznijmy od początku – czym jest asystent głosowy? Po co on jest tworzony? Jakie tutaj problemy próbujemy rozwiązać albo jakie wartości potencjalne chcemy dostarczyć?

Tutaj bym miał dwie odpowiedzi. Takie kolokwialne, czy też typowe rozumienie asystenta głosowego to jest aplikacja, usługa czy serwis, pozwalający za pomocą głosu na rozmawianie z programem komputerowym, który emuluje ludzkiego asystenta, czyli spełnia różnego rodzaju zadania, które ludzki asystent mógłby wykonać za Ciebie. Stąd się narodziła ta terminologia.

Mamy asystenta głosowego na urządzeniach przenośnych typu iPhone Siri czy też Google Asystent na androidowych urządzeniach. Głównym ich celem było umożliwienie dostępu i łatwiejsze zarządzanie kontaktami, spotkaniami, mailami oraz wyszukiwanie informacji w Internecie.

W tym momencie pojawia się Alexa, która stara się być czymś więcej niż tylko i wyłącznie asystentem głosowym. Terminologia, której my używamy, to jest serwis głosowy. Różnica w zasadzie polega na tym, że po pierwsze – Alexa nie ogranicza się do samej kwestii asystenta głosowego.

Asystenta swojego własnego, pewnie nie poprosiłbyś o to, żeby Ci zaczął odgrywać jakąś muzyczkę albo zaczął opowiadać dowcipy. Alexa skupia się na tym, żeby dostarczać prosty sposób komunikacji głosowej z otaczającą nas technologią. Zasadniczo każda dziedzina, którą mógłbyś sobie wyobrazić, działanie, które mógłbyś wykonać na komputerze czy też wchodząc w interakcję z otaczającą Cię technologią, pozwala zautomatyzować za pomocą głosu czy też operować za pomocą głosu.

Przykładowo: mam w domu lampkę, którą mogę włączyć za pomocą naciśnięcia guziczka, ale jednocześnie mam jakąś bezprzewodową czy przewodową kontrolę nad tą lampką i mogę sterować nią teraz również za pomocą głosu. Jeżeli chcę posłuchać muzyki, to mogę to zrobić, mówiąc, jaką muzykę chciałbym, aby Alexa w tym momencie odtworzyła i to automatycznie się dzieje.

Ponad to wszystko, Alexa umożliwia innym ludziom tworzenie funkcji głosowych i dodawanie tych funkcji do Alexy, czyli tzw. Alexa Skills, co pozwala np. na budowanie interaktywnych gier głosowych, czy też budowanie interfejsów do różnego rodzaju istniejących serwisów sieciowych i innych.

Mogę sobie zamówić taksówkę czy pizzę. Mogę też spróbować zapytać o takie rzeczy, które zapytałbym zwykłego asystenta głosowego na telefonie, natomiast jest to troszeczkę więcej. Asystent Google, Asystent Siri też dostarczają teraz podobne funkcjonalności, natomiast one cały czas noszą nazwę asystentów, ale to jest trochę więcej niż asystent.

Zmienia się interfejs. Z jednej strony wcześniej, jak pojawiły się komputery, to trzeba było wpisywać wszystko, potem pojawiła się myszka. Trzeba było dotykać przycisków, a tutaj to przechodzi w kierunku, że można rozmawiać po ludzku, nie trzeba mieć klawiatury albo przycisków, aby osiągnąć zamierzony efekt.

Brzmi to jak dość duża zmiana interfejsu i tak naprawdę myślę, że nawet starsze osoby, które w tym momencie mają trudności z komputerem, bo nie wiedzą, który przycisk nacisnąć, to prawdopodobnie już nie mają takich trudności, jeżeli chodzi o to, żeby np. porozmawiać (to jest jedna rzecz, która pewnie łatwiej przychodzi). Czy to oznacza, że taka zmiana interfejsów wpłynie na nasz świat? Jakie zmiany tak naprawdę to przyniesie? Jak świat będzie wyglądał z takimi asystentami głosowymi?

Dla mnie takim momentem, w którym stwierdziłem, że chcę pracować dla Amazona nad Alexą, było właśnie zobaczenie, że to diametralnie zmienia sposób interakcji z technologią i że to działa. W roku 2015 w powszechnej świadomości technologie rozpoznawania mowy na komputerze jeszcze się nie wydarzyły, tzn. można było sobie zainstalować jakiś program do dyktacji i on polegał na tym, że mówię do komputera, a potem spędzam kilka godzin poprawiając to, co komputer myślał, że ja powiedziałem i to było narzędzie do tego celu.

Drugim takim obszarem, powszechnym w zastosowaniu, były automatyzowane procesy obsługi call center. Znasz to na pewno – dzwonisz do lekarza i on Ci mówi:

– Powiedz 1, jeśli chcesz rozmawiać z danym oddziałem.

– 1 – odpowiadasz.

– Czy powiedziałeś 9?

Tak to mniej więcej wyglądało 5 lat temu. W tym momencie pojawia się Alexa i wtedy cały odbiór tego urządzenia (zanim ono wyszło) było takie, że Amazon robi głośnik, do którego będzie można rozmawiać i będzie można słuchać muzyki.

Pojechałem na rozmowę do Amazona, zanim Alexa się tak publicznie rozwinęła i zobaczyłem ją w działaniu u jednego znajomego, który miał taką wersję dla wcześniej zaproszonych użytkowników. To było dla mnie niesamowite, że gra muzyka i można ją głosem zatrzymać. Dla mnie była to fundamentalna zmiana technologiczna, ale też właśnie otwierająca duże możliwości. Jak się później okazało, ludzie zaczęli wykorzystywać Alexę do rzeczy, które na początku recenzentom nie przyszły do głowy.

Alexa teraz jest tożsama z jej umiejętnościami Smart Home, czyli sterowaniem wszystkim dookoła – światłami, zamkami, roletami. Takiej funkcjonalności w ogóle nie było, zanim Alexa się pojawiła. Ta funkcjonalność na pewno zmienia rynek, ponieważ urządzeń do Smart Home jest teraz zatrzęsienie i ludzie kupują je również dlatego, że mogą nimi sterować za pomocą głosu, a nie przegryzając się przez bardzo skomplikowane interfejsy na telefonie komórkowym czy dedykowanych urządzeniach typu centra sterowania domem. To nie jest przyjazne rozwiązanie dla takiego standardowego użytkowania.

Dochodzimy do tego, jaki to ma plan na przyszłość. Jak popatrzymy na to, jak młodsze pokolenie współgra z technologią, to w pewnym momencie ja zaobserwowałem, że oni zakładają, że każdy ekran, który istnieje, można go dotknąć. To jest takie przyzwyczajenie i dla mnie to jest coś zupełnie nieoczywistego, bo po pierwsze – u moich dzieci komputera nie było na co dzień, a po drugie ekrany dotykowe pojawiły się kilkanaście lat temu, to to nie zakłada automatycznie, że coś takiego będzie wszędzie.

Natomiast widać, że jest to na tyle powszechna technologia, że pewnie kiedyś będzie wszędzie. To samo teraz widać też z głosem. Widząc wśród tych ludzi, którzy od dłuższego czasu już te urządzenia mają, to widać, że młodzież, która z tego korzysta, potrafi zakładać, że Alexa wszystko potrafi zrobić i gdziekolwiek nie jest, można do niej coś powiedzieć i coś się wydarzy. Czyli np. przychodzisz do cioci, która nigdy o Alexie nie słyszała i chcesz włączyć światło, to mówisz:

– Alexa, włącz światło.

Ja pewnie bym nigdy czegoś takiego nie zrobił, ale widać, że ludzie zaczynają utożsamiać technologię z tym aspektem sterowania głosem. Przebija się to nie tylko do kultury popularnej (Alexa występuje w różnych filmach, serialach i widać, że ma kulturowe przebicie), ale także do powszechnej świadomości, że jest to wszędzie, wszyscy to mają i wszyscy z tego korzystają. Tworzy to kolejne przyzwyczajenia, które napędzają zmiany kulturowe, bardziej socjologiczne niż tylko technologiczne.

Czuć te zmiany, zwłaszcza jeśli chodzi o dotyk. Też mam dzieci i widzę, jak one wszystko próbują dotknąć palcem.

To, co mówiłeś o sterowaniu głosem, faktycznie może być zabawne, jak młodsze pokolenie nie będzie sobie w stanie wyobrazić, że może być inaczej. Jak teraz ciężko sobie wyobrazić życie bez komórki, to za X lat pewnie większość osób będzie w stanie z trudem się odnaleźć, gdy nie będzie mogła kogoś zawołać na pomoc (asystenta).

To jest dość ważne, jeżeli chodzi o zmiany dotyczące asystentów głosowych i kontaktu z biznesem. Co tak naprawdę zmieni się w kontekście biznesu? Które branże mogą wyglądać zupełnie inaczej? Jakie możliwości mogą się pojawić, których w tej chwili nie ma? Kiedy te zmiany mogą się pojawić i w których krajach?

Na pewno technologia głosowa pojawia się powoli w zastosowaniach biznesowych. W kontekście asystentów, czy Alexy w szczególności, pojawiły się takie wdrożenia jak pokoje hotelowe wyposażone w Alexę. W Las Vegas bodajże są 2 hotele, które mają Alexę w każdym pokoju i one, poza rzeczami, których się spodziewamy (wyłączenie, włączenie światła, sterowanie roletami), mają też integrację typową hotelową, czyli można np. poprosić o zamówienie obiadu bezpośrednio do pokoju przez Alexę.

Drugi obszar, gdzie widać wejście Alexy, bardziej współgrający z biznesem, to są np. samochody, gdzie asystenci powoli (nie tylko Alexa) zastępują systemy sterowania głosowego, które nie cieszyły się nigdy specjalną popularnością, ze względu na to, że te systemy wymagały bardzo sztywnego sposobu wyrażania się. Tutaj zaleta Alexy i tych nowych technologii jest taka, że do Alexy mówię w miarę naturalnie.

Nie muszę się zastanawiać, w jaki sposób mam wprowadzić komunikat, żeby Alexa mnie zrozumiała. Ona zrozumie, najwyżej zapyta o dodatkowy kontekst, jeżeli ja jej czegoś nie powiem. To jest zarówno unikalna umiejętność asystentów głosowych, jak i duży skok jakościowy w stosunku do starego typu interfejsów głosowych w samochodach. Skok na tyle duży, że widać, że wszystkie branże samochodowe zapowiadają, już integrują albo już mają jakąś wersję asystenta głosowego w swoich przynajmniej tych lepszych samochodach dostępnych w salonach.

Od strony technologicznej będzie na pewno coraz więcej takich rzeczy. Tutaj główną zaletą tego głosowego interfejsu jest to, że w przypadku interakcji wizualnej z komputerem (w samochodzie ona jest trudna), żeby znaleźć jakąś funkcję, którą chciałbym uruchomić, muszę się przekopać przez menu, tzn. musi być po pierwsze projektant tego interfejsu wizualnego, musi włożyć dużo wysiłku w to, żeby zaprezentować ścieżki przez interfejs, które jako człowiek będę w stanie zrozumieć.

Po drugie jako użytkownik, muszę włożyć ten wysiłek, żeby za każdym razem przejść przez tę ścieżkę, żeby znaleźć poszukiwaną funkcję. Interfejs głosowy przesuwa tę granicę w taki sposób, że trochę więcej być może ma projektant interfejsu, który musi wymyślić sposoby dotarcia do wszystkich funkcji jego programu za pomocą głosu, ale modelowanie konwersacji jest troszeczkę bardziej naturalne niż modelowanie takiego obcego interfejsu, jakim jest interfejs komputerowy.

Mieliśmy więcej czasu jako ludzie, żeby rozwinąć umiejętności komunikowania się niż żeby rozwinąć hierarchiczne interfejsy graficzne. To komputer musi zrozumieć, co ja tak naprawdę chcę i najwyżej dopytać się, a nie ja muszę zrozumieć, co komputer mi chce pokazać. To jest troszeczkę broń obosieczna w niektórych sytuacjach, np. jak mówimy o takich funkcjach jak wyszukiwanie informacji, to prezentacja wizualna, szczególnie gdzie możesz pokazać dużo obrazków, często jest nie do przekazania w formie głosowej.

Tutaj nie wszystko komputer będzie mógł w stanie bardziej efektywnie zrobić. Jednak jeśli pomyślimy o czymś takim jak sterowanie różnymi funkcjami samochodu, telefonu, rzeczami w domu, to wchodzimy w potencjalne zastosowania przemysłowe – sterowanie urządzeniami w hali przemysłowej, w której musisz włączyć lub wyłączyć jakieś przełączniki. To są takie rzeczy, gdzie komputer jest w stanie znacznie łatwiej zaprojektować taki interfejs, jeśli po prostu mogę powiedzieć, co chcę zrobić, niż jeżeli mam się uczyć tego, w jaki sposób komputer przekazuje informacje.

Tego będzie pewnie coraz więcej, na pewno widzimy już nie Alexę i nie asystentów, ale jest duży boom dookoła chatbotów, zarówno tekstowych jak i głosowych, czyli gdy na stronie pojawia Ci się taki bąbelek, że może chciałbyś z nami porozmawiać, to w 99% przypadków nie chce z Tobą porozmawiać człowiek tylko bot. Jak zaczniesz do niego mówić, czy to za pomocą klawiatury, czy swojego głosu, to rozumieć Cię będzie również nie człowiek, który siedzi po drugiej stronie z mikrofonem, tylko komputer, który przejmuje rolę pierwszej linii wsparcia, zarówno online jak i poprzez telefon.

Jak dzwonisz teraz do centrów pomocy różnych firm, to już nie dostajesz komunikatów w stylu „powiedz 1”, ale mimo wszystko rozmawiasz z komputerem. Taki skok technologiczny widać troszeczkę w takich miejscach, w których powoli zastępujemy starsze technologie, nowszymi. Tutaj to jest oczywiste, natomiast wprowadzane są również ułatwienia, które pozwalają firmie np. obsłużyć proste zapytania bezpośrednio przez technologię, chatbota działającego czy to na technologii AWS, Google czy Microsoftu. Wszystkie platformy mają swoje funkcje do budowania tego typu rozwiązań.

Osoby, które wcześniej się zajmowały projektowaniem, designem, skupiały się głównie na części obrazkowej, graficznej, a teraz idzie to bardziej w kierunku głosu, żeby zaprojektować troszkę inne interfejsy. Z punktu widzenia osób tworzących biznes myślę, że tutaj dość głośno słychać, że sprzedaż może się bardzo mocno zmienić.

W tej chwili sprzedaż jest oparta na ludziach (ludzie wprost dzwonią i rozmawiają) albo jest bardziej statyczna (informacja na stronie, ewentualnie jakieś delikatne interakcje). Może tak się stać, że sprzedaż przesunie się bardziej w kierunku interakcji głosowej. Wspomniałeś o chatbotach, które teraz faktycznie idą do przodu i mogą być tekstowe lub głosowe.

Dla osób, które patrzą na możliwości i okazje, czy to jest tak, że w Polsce za 10 lat, jeżeli nie będziesz potrafić odnaleźć się na rynku głosowym, to jest podobnie jak teraz, gdy nie masz strony internetowej? Czy trochę przesadzam?

Trudno powiedzieć. Myślę, że będzie coraz więcej biznesów obecnych w różnego rodzaju systemach głosowych. Podejrzewam, że rzeczywiście, jeśli mówimy o perspektywie 5-10 lat, to przynajmniej dla takich rozpoznawalnych marek myślę, że będzie takie oczekiwanie, że one będą w jakiś sposób dostępne, zintegrowane w formie głosowej.

Czy będzie to równie popularne jak w tej chwili strony internetowe? Strony internetowe nigdzie się nie wybierają i mówimy o stronach, które mają kilkadziesiąt lat historii w tej chwili, więc zanim stały się na tyle popularne, żeby każda firma musiała mieć stronę internetową, bo inaczej nie były obecne w tym nurcie technologicznym, trochę czasu minęło, żeby ten nurt się spopularyzował.

Natomiast jeżeli teraz założymy, że za te kilka lat np. większość Amerykanów będzie miała już jakiegoś asystenta głosowego w domu, to dla niektórych biznesów w tej chwili głos to jest być albo nie być. W tej chwili nie ma producentów systemów sterowania Smart Home, którzy by nie mieli systemu głosowego. To po prostu jest jedno i to samo. Nie można istnieć na tym rynku, nie mając takiej funkcjonalności.

To jest ciekawy przykład, bo to nie chodzi tylko o to, że są biznesy, które się przekształcą, ale również chodzi o to, że pojawią się nowe biznesy, które inaczej nie mają sensu – one albo mają tę funkcjonalność, albo nie. Faktycznie ciężko jest prognozować jak to się rozwinie za 10 lat, chociaż widać, że technologia się rozpędza.

Może zostawmy tutaj wskazówkę, że warto obserwować chociażby rynek Stanów Zjednoczonych, bo on zawsze jest trochę do przodu, jeżeli chodzi o sprzedaż i wdrożenie innowacji, chociaż nie wszędzie, ale akurat jeżeli chodzi o asystentów głosowych, to tutaj Stany ewidentnie wyprzedzają. To też wynika m.in. z tego, że język angielski jest łatwiejszy i sprzedaż jest bardziej rozwinięta.

To jest ciekawe stwierdzenie. Nie jestem pewien, czy język angielski jest najłatwiejszy ze wszystkich języków, jeśli chodzi o jego rozumienie. Na pewno jest dosyć prostym językiem, jeżeli chodzi o tę drugą stronę, czyli syntezę mowy. Jeśli chodzi o rozumienie, to tutaj nie jest specjalnie łatwy, nie jest specjalnie trudny. Język angielski ma niestety dużo homofonów i homografów – słów, których znaczenie chcąc zrozumieć, musimy je wydedukować z kontekstów.

Nie jest to może aż taki problem koncepcyjny, jak w języku japońskim, ale mimo wszystko ciężar rozpoznania tego, co użytkownik tak naprawdę powiedział, przesuwa się ze strony samego rozpoznawania zgłosek do warstwy semantycznej w porównaniu do niektórych innych języków. Na przykład w języku polskim łatwiej jest zrobić prawidłowe rozpoznawanie transkrypcji, co nieszczególnie pozwala później zrobienie dobrego systemu rozumienia tego, co tak naprawdę użytkownik powiedział, ponieważ gramatycznie nasz język jest dosyć skomplikowany, ale sama transkrypcja ma mniej zagadkowych elementów niż w języku angielskim.

To ciekawe. Jeżeli chodzi o rozpowszechnienie technologii głosowej, czy tu przypadkiem też nie pojawia się aspekt psychologiczny związany z tym, że osoby, które są mniej przyzwyczajone do tych technologii, po prostu będą mniej tego używać? Osoby młodsze, które od dziecka będą bawić się z asystentami, za 10 lat będą decydentami. Może to być taki rozwój, że najpierw będzie to mniej zauważalne, a potem nastąpi gwałtowny przeskok. Czy to jest realny scenariusz?

Myślę, że to jest długoterminowy scenariusz, a zmiany dzieją się nawet szybciej. Nie trzeba czekać, aż to pokolenie dorośnie, żeby zaobserwować globalną integrację, globalne użycie tego typu technologii. To ilość użytkowników tego typu urządzeń świadczy o tym, że to jest naprawdę bardzo szybki trend. Ta technologia szybko się spopularyzowała i teraz dociera do mniej technologicznych ludzi.

To nie jest tak, że asystenci głosowi są używani tylko i wyłącznie przez techno-elitę, która zawsze jest tym docelowym odbiorcą wszystkich nowinek technologicznych, tylko to jest element życia codziennego dla bardzo dużej grupy odbiorców i dociera teraz do coraz szerszego grona ludzi, dla których często jest to pierwsze urządzenie technologiczne, którego używają.

Wspomniałeś w pewnym momencie o ludziach starszych. Mamy takie komunikaty od naszych klientów, którzy są nam wdzięczni, ponieważ poprzez Alexę uzyskują pewną samodzielność. Mówię o osobach, które mają poważne niepełnosprawności, ale również o ludziach starszych, którzy nie obsługują np. tak skomplikowanego dla nich urządzenia jak telefon komórkowy dobrze, natomiast z Alexą są w stanie się dogadać.

Są w stanie np. łatwo zadzwonić do kogoś za pomocą Alexy, mówiąc po prostu, że chcą zadzwonić do swoich dzieci. W przypadku osób, które mają ograniczenia w poruszaniu się ruchowo czy ze względu na chorobę są unieruchomieni, Alexa pozwala ograniczyć tę zależność od innych osób, co jest budujące, bo ci ludzie czują, że sami mogą coś zrobić. Nie są skazani na to, żeby ktoś zawsze nad nimi stał. To jest ciekawe, że dla takiej grupy odbiorców, która dotychczas z tych nowinek technologicznych nie korzystała, akurat głosowe funkcje są nie tylko akceptowane, co wyjątkowo użyteczne.

To jest bardzo fajny przypadek, kiedy technologia pomaga człowiekowi odnaleźć się na skutek pewnych trudności życiowych lub wieku – różnie to bywa w życiu. Czasami starsza osoba nie ma z kim porozmawiać, a tu pojawia się nie człowiek, ale coś, co przypomina w pewnym sensie człowieka, głos brzmi nawet czasem podobnie.

Nie ważne w jaki sposób, ale jeśli to sprawia poczucie większego sensu, że można zadbać o kogoś w ten czy inny sposób albo porozmawiać, to to jest fajne.

Na początku wspomniałeś o tym, że jak dołączyłeś do Amazona, to wcześniej były gorsze doświadczenia, np. jak próbowałeś się dodzwonić się do lekarza, to automat pytał, czy powiedziałeś 9, a Ty powiedziałeś 1. Teraz jest lepiej. W jaki sposób mierzycie postęp?

Jest wiele standardowych testów czy zestawów testów, które są używane w przypadku porównywania mechanizmów, rozpoznawania mowy. Metryką samego rozpoznawania mowy jest zwykle word error rate. To jest współczynnik błędu, ile słów było powiedzianych błędnie, czyli jeśli powiedziałem 100 słów, jedno maszyna rozpoznała źle, to mamy word error rate na poziomie 1%.

Gdzie jesteśmy? Gdzie byliśmy?

W latach 80-tych, 90-tych, gdy rozpoznawanie mowy się zaczęło jako uogólnione systemy, które potrafiły trochę więcej zrobić niż tylko rozpoznawać kilka poszczególnych cyfr, powstał test do takiego zastosowania, który się nazywa switch port. To jest benchmark, który ma za zadanie rozpoznawanie tego typu prostych wejść.

W latach 1993-1995 pierwsze systemy, które zostały poddane temu testowi, word error rate mieliśmy na poziomie 80%. Na samym początku nastąpił gigantyczny postęp, z 80% zeszliśmy do 40% pod koniec lat 90-tych i na początku lat 2000 doszliśmy do poziomu 20%, czyli co 20 słowo jest rozpoznawane źle. Potem wystąpiło lekkie wypłaszczenie. Przez jakieś 12-14 lat niewiele się działo.

Dopiero w roku 2013 nastąpiło kolejne podejście do rozpoznawania mowy, w ramach którego zaczęto używać sieci neuronowych do pójścia o krok dalej w stosunku do wcześniejszych statystycznych mechanizmów i osiągnięto poziomy rzędu 12-15%. W roku 2015 zaczęło się naprawdę dziać. Został wtedy opublikowany pierwszy mechanizm, który łączył sieci akustyczne z bardziej skomplikowaną, nierekurencyjną siecią neuronową. Ona osiągała na poziomie 10-11%, co już wtedy było rewolucyjne, bo 90% to jest taka magiczna liczba dla systemów komputerowych, gdzie to zaczyna działać.

Należy pamiętać, że ludzki performance jest na poziomie 5%. Do tych 5% doszliśmy w ciągu 2 lat, czyli w 2017 r. maszyny dotarły do poziomu ludzkiego. Natomiast obecnie są na poziomie 2-3%, czyli teoretycznie 2 razy lepiej niż ludzie. W ciągu tych ostatnich 5 lat znowu kilkukrotnie zaniżaliśmy tę miarę, a należy pamiętać o tym, że normalnie takie krzywe nie wyglądają tak, że coraz szybciej spadają w dół. To nagłe przyspieszenie od roku 2015 do teraz jest astronomiczne do takiego poziomu, że od roku, dwóch, niektórzy naukowcy uważają ten problem prostego rozpoznawania mowy za faktycznie rozwiązanie, tzn. nie ma już czego tam poprawiać, to już jest lepsze niż człowiek.

Teraz dochodzą oczywiście inne zestawy testów, bo switch port jest zbyt prosty, żeby o nim mówić. Są takie testy, które mierzą skuteczność zapisu np. rozmowy konferencyjnej. Tam też są jakieś ograniczenia, co tak naprawdę ten system ma robić i tutaj mniej więcej w roku 2012-2013 byliśmy na poziomie 20%.

Dojechaliśmy w tej chwili do poziomu 7%. Człowiek jest na poziomie 7%, czyli w tym teście dotarliśmy do poziomu człowieka. Znowu ten skok był taki, że przez kilkadziesiąt lat praktycznie nic się nie działo, a potem nagle w ciągu ostatnich 5 lat jest zjazd do poziomu niemal ludzkiego lub lepszego niż ludzki.

Jeżeli system kompletnie nie ma pojęcia, co mógłbym powiedzieć i z jakiej tematyki jest rozmowa, to tym systemom jest jeszcze daleko do ludzkiej mowy, więc tutaj jest jeszcze dużo przed nami. Jednocześnie wszystko wskazuje na to, że tempo nie ustaje. Są coraz to nowsze technologie, techniki machine learningowe, rozumienia lepszego języka i lepszego rozumienia zarówno akustycznego jak i językowego, tego, co człowiek powiedział. Dające nadzieję na to, że również ten dialogowy system będzie w stanie zostać rozwiązany.

To, co powiedziałeś, to jest ASR (Automatic Speech Recognition), kiedy na podstawie mowy rozpoznajemy tekst. To jest właśnie pierwszy element w tym łańcuszku. Jest tam jeszcze element na końcu – Text to Speech, czyli wtedy, kiedy na podstawie tekstu maszyna próbuje mowę syntezować. W jaki sposób tutaj mierzymy postęp? Jak wygląda ten przyrost?

Testem, który jest stosowany w przypadku porównywania jakości głosu, jest satysfakcja klienta w pewnym sensie czy też naturalność. To, w jaki sposób my oceniamy naturalność syntezy mowy, jest taka, że używamy testu Mushra. To jest system ewaluacji statystycznej, w której osobie, która wykonuje ewaluację, odtwarzane są w losowej kolejności różnego rodzaju próbki dźwięku.

Na podstawie reakcji wnioskujemy o tym, które są lepiej akceptowalne, czy też preferowane przez użytkownika. To jest też dosyć ciekawa historia, bo te testy w latach 90-tych były dosyć daleko od tego, co człowiek był w stanie zaakceptować jako naturalną mowę.

Natomiast ta rewolucja zaczęła się, zanim się zaczęła rewolucja związana z sieciami neuronowymi, ponieważ zwiększenie możliwości obliczeniowych komputerów spowodowało, że można było zbudować systemy tzw. unit selection, czyli takie, w których maszyna składa tekst z drobniutkich kawałeczków, każdy z nich jest głoską lub kombinacją dwóch głosek i sklejając odpowiednie głoski ze sobą budujemy płynną mowę.

Jakość tego systemu zależy od tego, ile jest różnych kawałeczków dla danej głoski (np. „to”), może mieć w bazie 10 takich nagrań, może mieć jedno, kilkadziesiąt tysięcy takich nagrań dla jednej tej pary głosek. Dzięki temu, że mieliśmy nagle bardzo szybki przyrost sprawności komputerów od roku 2000, to te systemy nagle dobiegły do poziomu, w którym były kilka punktów procentowych poniżej ludzkiego speakera. W wyniku testów zawsze punktem odniesienia jest człowiek, czyli mamy rzeczywiste, ludzkie nagranie kontra nagranie syntetyzowane przez maszynę.

Jeżeli dla człowieka typową oceną w jakimś teście będzie 4,5/5, to te systemy unit selection uzyskiwały wyniki na poziomie 4, czyli 10% różnicy. Teraz sieci neuronowe dotarły również do tego zakątka. 2 lata temu pojawił się pierwszy system zrobiony przez Google – Tacotron, który wykorzystywał sieci neuronowe do generowania dźwięku. Podobnie jak w przypadku speech recognition tutaj historia potoczyła się bardzo szybko, bo teraz już wszystkie duże centra technologiczne mają swój system oparty o sieci neuronowe, również Alexa.

W takich testach, w których porównujemy teksty, które typowo Alexa czy też inny asystent odpowiadałby w reakcji na zapytania, wyniki są na poziomie ludzkiej mowy. Natomiast to nie jest cały obrazek, ponieważ ludzka mowa to nie jest tylko naturalność dla neutralnego tekstu, ale to też jest emocjonalność, reakcja na to, w jaki sposób druga strona mówi, czyli empatia. To też jest zrozumienie tekstu, ponieważ Alexa na przykład potrafi czytać książki, wiadomości.

Stworzyliśmy specjalną odmianę głosu, która lepiej sobie z tym radzi, ale jeszcze nie jesteśmy dokładnie tam, gdzie chcielibyśmy być. W przypadkach bardziej skomplikowanych czyli taka umowa dialogowa jeszcze nikt nie jest blisko tego, żeby rzeczywiście być w stanie na bieżąco reagować na to, co druga strona mówi, dostosowywać się do tego. Wciąż pracujemy nad tym, aby to było bardziej naturalne.

A propos naturalności – sam język powinien brzmieć jak ludzki, a nie właśnie zestawienie różnych słów, których człowiek używa, jak myśli bądź się zastanawia typu „aaa…”, „mmm…”, „hmmm…”. Zawodowy spiker walczy z tym, ale człowiek generalnie rzecz biorąc takie rzeczy mówi jak myśli, bo się zawiesza.

To jest dosyć ciekawy problem, czy należy wstawiać tego typu przerywnik, czy nie. My na przykład odkryliśmy w tym momencie, że głos Alexy nie zawierał oddechów. Okazało się, że dogranie tego i syntetyzowanie głosu tak, żeby te oddechy były słyszalne, zauważalnie poprawiło percepcję tego głosu. W dodatku bez inwestycji dużej technologicznej.

Tutaj masz na pewno rację, że niektóre dysfluencje warto robić, ponieważ to bardzo naturalne. Z drugiej strony Google przeprowadził eksperyment z dupleksem, specjalnie wstawiali tego typu zawahania się i to nie zostało bardzo ciepło przyjęte, bo tutaj z kolei wystąpił ten problem, że niby wiemy, że rozmawiamy z komputerem, ale on zaczyna niepokojąco blisko brzmieć jak człowiek. Z jednej strony nie brzmi jeszcze zupełnie jak człowiek, więc nie jesteśmy w 100% przekonani, że rozmawiamy z człowiekiem, ale jest to blisko, więc widzimy, że komputer stara się udawać człowieka.

W tym momencie zaczynamy odczuwać dyskomfort psychiczny, że coś jest nie tak. Uncanny valley to jest termin określający dokładnie to zjawisko. W jaki sposób stworzyć tę naturalność jednocześnie nie czyniąc jej drażniącą dla klienta – to jest ciekawe zagadnienie. Trochę mniej machine learningowe, bardziej z human-computer interfaces czy budowania efektywnych interfejsów głosowych, ale nad tym również pracujemy.

Jest dużo psychologii w tych tematach. Człowiek jest istotą, która nie tylko myśli racjonalnie, ale to chyba przede wszystkim irracjonalna istota, która czasem potrafi robić rzeczy, które ciężko wyjaśnić logicznie. Po prostu są emocje, ktoś ma ich więcej, ktoś ma ich mniej, ale czasem nawet nie zdajemy sobie sprawy, czemu tak jest.

Czasem daje się to naukowo zbadać i wyjaśnić pewne rzeczy, ale sporo o sobie nie wiemy. Historia o Google Duplex skłania do zadania szeregu pytań, aż prosi się, aby zapytać, czy faktycznie technologia w prawdziwym życiu może zastąpić człowieka i dogadać się z dogadać z restauracją, albo kupić bilet w kinie. Czy jedynie jest to pokaz najnowszych osiągnięć – state of the art dziedziny.

Tak, ten funkcjonalny aspekt jest na pewno bardzo ciekawy. W jaki sposób maszyna może zainicjować rozmowę z człowiekiem, czyli ja nie mówię do komputera, tylko komputer do mnie dzwoni, coś chce zrobić. To tworzy ciekawe, funkcjonalne możliwości, ale z drugiej strony sposób realizacji czy też emulowanie człowieka do takiego stopnia, że staramy się wstawiać jakieś przerywniki, żeby zmylić użytkownika w pewnym sensie, to to już jest inny aspekt. Trzeba być ostrożnym i badać, wszystko trzeba przeliczyć.

Jeśli chodzi o integrację Alexy w świecie online, to jak już powiedziałeś, jest mnóstwo różnych zastosowań, a teraz porozmawiajmy o świecie offline, czyli sytuacji kiedy nie mamy wprost połączenia z Internetem, bo takich sytuacji jeszcze nadal mamy dość dużo. Jakie są przypadki takiego użycia? Jakie są problemy w świecie offline?

Grupa, w której pracuję, jest skupiona dokładnie na tej tematyce obecnie. Gdy zaczynałem pracę w Alexie, była ona prostym urządzeniem, tylko i wyłącznie przyczepionym do sieci, więc technologia nie była przygotowana na to, żeby używać jej w sytuacji, gdy nie ma Internetu. Ja skupiłem się właśnie na tym kierunku, jak zacząłem tutaj pracować w 2016 r. Zaczęliśmy badać, czy istnieje taka potrzeba i kiedy ona zachodzi.

Doszliśmy do obecnego momentu, gdzie mamy dwie podstawowe sytuacje, w których chcemy, żeby samo urządzenie bezpośrednio w domu potrafiło rozpoznać, co mówimy. Są sytuacje, w których nie ma Internetu, a ja jednocześnie jak mam to urządzenie, to mam możliwości sterowania domem. Więc teraz czemu chciałbym zabierać użytkownikowi tę możliwość? Nie ma dobrego powodu.

Nie było jednak wiadomo, na ile duży to jest problem. Badania pokazały, że jest tam tyle poważnych problemów, że warto w to zainwestować. Równolegle drugim tematem, w którym to było jeszcze bardziej oczywiste, były samochody, które poruszając się po drodze, często tracą zasięg. Tutaj niestety żadne 3G, 4G, a 5G tym bardziej nie rozwiązuje tego problemu. Mam takie wrażenie czasami, że rozwój tych sieci się skupia na density, ale nie na problemie rozwiązania dostępu wszędzie.

Co z tego wynika? Wynika to, że często, jeżeli bym chciał powiedzieć, któremuś samochodowi, żeby włączył muzykę, wyłączył klimatyzację czy zaczął nawigować tam, gdzie chcę, to ta online’owa integracja nie wystarczy. Urządzenia Alexy, Echo Plus czy Echo Show mają wbudowaną funkcjonalność offline. Można z nich korzystać, gdy nie ma Internetu. Tych możliwości, które można wykorzystać nie ma może bardzo dużo, ale jest to jakiś początek. Jest to coś, co daje fundament budowania większej ilości funkcji w przyszłości.

Doszła do tego trzecia funkcjonalność, której się na początku nie spodziewaliśmy. W przypadku naszych urządzeń Amazon Fire TV klienci przyzwyczajeni do używania naszych nowych technologii głosowych, zaczęli być bardziej skłonni do obsługi głosowej również odtwarzaczy video, co nie było bardzo oczywistym obszarem. Jest to akceptowalne przy interfejsie głosowym Alexy, gdzie czas oczekiwania na odpowiedź do sekundy nikogo nie drażni, bo to jest taki dialogowy, normalny czas oczekiwania, aż ktoś zrozumie, co do niego mówimy, co w przypadku gdy ja mówię do telewizora – „play”, „pause”, „scroll left”, „scroll right” i nie ma tej bezpośredniej reakcji, to stwierdzam, że to jest wolne.

Tutaj te najnowsze urządzenia Fire TV mają wbudowaną Alexę, tę samą technologię i potrafi proste komendy rozpoznać bezpośrednio na urządzeniu nie po to, żeby je wykonywać, gdy nie masz Internetu, ale po to, żeby je wykonywać szybciej. Na tyle szybciej, że klienci rzeczywiście to zauważyli. To podniosło rating tego urządzenia znacząco na Amazonie, właśnie ta funkcjonalność lokalnego rozpoznawania mowy.

Więc to są takie trzy podstawowe miejsca, gdzie widzimy i rozwijamy tę funkcjonalność offline, czyli zabezpieczenie przed brakiem Internetu w domu, w drodze, gdzie ten zasięg jest niepewny oraz dla prostych komend, które chcemy, żeby były wykonywane jak najszybciej.

Jakie tam są problemy, które trzeba było rozwiązać?

Wykorzystujemy te same technologie co chmura, czyli nasze silniki machine learningowe to są te same silniki machine learningowe, których używamy w chmurze. Nie zawsze są to te same modele, czyli nie jesteśmy w stanie użyć takiego samego, dużego modelu, co serwer za kilkadziesiąt tysięcy dolarów na urządzeniu, który kosztuje tych dolarów kilkadziesiąt czy kilkaset.

To jest w pewnym sensie problem, bo dostajemy innego rodzaju produkt, innego rodzaju rozwiązanie technologiczne, ale okazuje się, że z jednej strony mamy ograniczenie funkcjonalności tego lokalnego systemu do tego, do czego on jest zbudowany, a z drugiej strony inwestycja w optymalizację tych technologii pozwoliła nam stworzyć modele i silniki rozpoznawania mowy, rozpoznawania języka naturalnego oraz później syntezy mowy, które działają równie wydajnie jak te, które są w chmurze pod względem czasu reakcji.

Jednocześnie nie stanowią istotnego pogorszenia, tzn. rozmawiając z tą Alexą offline, ona nie będzie działać wolniej, ani nie usłyszysz słuchając odpowiedzi, że to jest syntezowane przez syntezator na urządzeniu, a nie w chmurze. Też jakość rozumienia tego, co ta Alexa może zrobić, nie będzie w żaden sposób inna, czyli to, że lokalnie mamy jakiś silnik, nie pogarsza funkcjonowania z tym urządzeniem, co było krytycznym punktem, jeśli chodzi o zaakceptowanie tego typu rozwiązania.

Nie mogliśmy tutaj odpalić tego rozwiązania bez dostarczenia odpowiednio wysokiej jakości. To znaczy, że zbudowaliśmy technologię tzw. kwantyzacji, czyli zamiast używania pełnej rozdzielczości liczb zmiennoprzecinkowych, używamy prostych ośmiobitowych liczb w modelach machine learningowych. Używamy zmniejszania rozmiarów modeli, tzn. wyrzucamy np. wagi z modelu, które są mało istotne, czyli filtrujemy model do mniejszego rozmiaru.

Używamy różnych sztuczek, optymalizacyjnych dla modeli, szczególnie dla sieci neuronowych, które pozwalają na zmniejszenie złożoności rozwiązywanych później równań. Mógłbym długo o tym rozmawiać. Jeśli kogoś to interesuje, to może posłuchać wykładu na YouTube, w którym opowiadam szczegółowo właśnie o tym.

To jest ciekawe, że ta technologia przenika w różne obszary, również w świat offline. Tak naprawdę nie wiadomo, jaki tam jest sprzęt dostępny. W tym wykładzie, o którym wspominasz, fajnie żartujesz, jak to mogła być szafa z serwerami albo cały bagażnik zawalony w samochodzie sprzętem, ale jest inaczej.

Bardzo skromne procesory tam stoją, które potrafią przeliczać bardzo wolno, więc to faktycznie jest wyzwanie. Jak widać, poradziliście sobie, bo zawęziliście domenę i te problemy dostępne do rozwiązania.

Czy zdarzają się sytuacje, gdy ludzie Was zaskakują? Wyobrażacie sobie, że jest asystent głosowy i chcecie, żeby ludzie używali go w dany sposób, przygotowujecie to zastosowanie, a później świat to weryfikuje. Część pewnie się sprawdza, ale też podejrzewam, że pojawiają się takie zastosowania, które były zaskoczeniem.

Tutaj na pewno wspomniałem o sterowaniu głosowym, odtwarzaniu oraz o popularyzacji technologii Smart Home, która nie była specjalnie przewidziana. To, co mnie zaskoczyło, nawiązuje trochę do tego, co powiedziałeś o budowaniu personalnej więzi z Alexą.

Gdy policzymy, ile razy ludzie w ciągu roku powinni mieć urodziny oraz popatrzymy, jak często proszą Alexę, żeby zaśpiewała im piosenkę „Happy Birthday”, to zauważymy, że co najmniej kilkukrotnie więcej razy w stosunku do tego, ile rzeczywiście nasi użytkownicy mogliby tych urodzin mieć, wliczając w to zapraszanie znajomych po to, żeby te urodziny spędzili z Alexą.

To jest bardzo ciekawe, że taka funkcjonalność pomyślana jako pewien żart, że Alexa potrafi zaśpiewać „Happy Birthday”, jest naprawdę często używana przez klientów i to jest jak najbardziej zaskakujące. Ma to też przełożenie na rzeczywistość, ponieważ obserwujemy głębszą interakcję – ludzie budują wirtualne reakcje z wirtualnym bytem, jakim jest Alexa.

Amazon oczywiście inwestuje w to dalej, rozwija to i tworzy z tego różne nowe możliwości. W zeszłym roku uruchomiliśmy personę, bo to w zasadzie nie jest sam głos, który brzmi jak Samuel L. Jackson. Również ma charakter Samuela L. Jacksona, można go poprosić, żeby opowiedział Ci dowcip, ale można też poprosić, żeby Cię sponiewierał. Tutaj zaskakujące było z kolei to, że wiedzieliśmy z jednej strony, budując tę personę, że ludzie chcący mieć takiego asystenta jak Samuel L. Jackson, będą chcieli, żeby ten Samuel L. Jackson przeklinał.

Natomiast feedback od użytkowników zupełnie nas zwalił z nóg, bo mieliśmy użytkowników, którzy chcieli, żeby on przeklinał non stop, że to jest to, czego oni pragną. Taka wersja dla dorosłych. Możesz sobie takiego Samuela L. Jacksona zainstalować w tej chwili, można do niego już mówić w miarę normalny sposób. Więc jak powiem:

– Hey Sam Jackson, tell me a joke.

To jeżeli mam wybraną wersję family friendly to dostanę żart, ale jak mam tę wersję dla dorosłych, to zwykle będzie tam jakieś przekleństwo dodane. Zwykle te wszystkie technologiczne produkty są bardzo wychuchane, a tutaj Amazon odważnie potrafił zrobić coś, co najwyraźniej jest potrzebą klientów, czyli żeby ta technologia nie zawsze była taka wychuchana, wymuskana i nice.

Ciekawe dokąd to będzie dążyć.

To jest bardzo ciekawy temat.

Dzięki wielkie Staszku za rozmowę, za to, że podzieliłeś się swoim doświadczeniem. Jeszcze wiele tematów moglibyśmy dodatkowo poruszyć. Być może warto jeszcze się umówić za jakiś czas na kolejną rozmowę, ale przynajmniej na początek udało nam się zobaczyć, co tam się dzieje, jakie są metryki, jak to może wpływać potencjalnie na biznes, czego można się spodziewać w najbliższym czasie.

Obserwujmy, jak te zmiany będą zachodzić u nas w Polsce, bo jednak tutaj, w porównaniu ze Stanami, to trochę wolniej to idzie, co wcale nie oznacza, że nie idzie, bo widać postęp, widać, że ludzie zaczynają to stosować. Dzięki wielkie za rozmowę i do usłyszenia.

Dziękuję bardzo, do usłyszenia.

Ta rozmowa mogłaby trwać jeszcze znacznie dłużej. Jeżeli uważasz, że warto byłoby zaprosić Staszka jeszcze raz i zadać inne pytania, to daj mi o tym znać. Wszystko jest możliwe, żeby zorganizować i dopytać o inne informacje, które tutaj nas ominęły. Jeżeli masz pomysł, kogo warto byłoby zaprosić albo jakie tematy byłyby dla Ciebie interesujące, to zapraszam do kontaktu. Twórzmy razem Biznes Myśli!

NLP w Amazon – porozmawiaj z Alexą

Vladimir

Dodaj komentarz Anuluj pisanie odpowiedzi