Sztuczna inteligencja coraz sprawniej zarządza dźwiękiem
Samochody autonomiczne wkraczają w nasze życie coraz bardziej odważnie. Opowiem Ci dwie historie.
Brand Google, o nazwie Waymo, właśnie umożliwia zamówienie taksówki, która jest dostępna 24h. Na początku brzmi to dość normalnie, większość firm umożliwia zamówienie taksówki w ciągu doby. Natomiast, jest jedna, dość istotna różnica, w tej taksówce nie ma… kierowcy. Zamawiasz taksówkę, przyjeżdża samochód i w środku jest pusto. Jakbyś się wtedy poczuł? Co o tym myślisz? Na koniec dodam, że na razie jest to uruchomione tylko eksperymentalnie w Detroit. Natomiast, czytając ten artykuł poczułem, że właśnie to jest moment, który wiele zmieni, włączając w to świat taksówek.
Teraz dużo mówi się, że Uber zmienia świat taksówek. W Polsce dzieją się różne przygody z Uberem (chociaż nie tylko w Polsce, jeszcze nie tak dawno paradoksalna sytuacja była np. w Londynie). Pomijając wyzwania prawne i wracając do świata sztucznej inteligencji, ludzie z Ubera poświęcają dużo energii na to, żeby usprawnić technologię autonomicznych samochodów (też pomijam tematy skąd ta technologia wzięła się, bo są tam elementy nieuczciwej konkurencji). Zbudowali oni… wirtualne miasto. Co prawda, miasto istnieje fizycznie, tylko jest w 100% sztuczne.
Przechodząc do dzisiejszego gościa. Paweł Cyrta zajmuje się uczeniem maszynowym już kawał czasu. Ale ciekawostka jest taka, że zajmuje się głównie dźwiękiem i tematami powiązanymi, takimi jak synteza mowy lub brand sound design. Między innymi, rozmawialiśmy o sieci neuronowej WaveNet, co ciekawe w międzyczasie wyszła nowa wersja sieci, która jest jeszcze bardziej sprawna. Jak szybko ten świat rozwija się. Zapraszam do wysłuchania.
Cześć Paweł! Przedstaw się. Kim jesteś? Czym się zajmujesz? Gdzie mieszkasz?
Cześć! Nazywam się Paweł Cyrta i jestem Data Scientist – inżynierem, zajmującym się od co najmniej 10 lat obszarem dźwięku, ogólnie uczenia maszynowego także, w tekście i ostatnio też w obrazie. Mieszkam od urodzenia w Warszawie, studiowałem tu. Wyjeżdżałem co jakiś czas, ale generalnie jestem osadzony w Warszawie.
Co ostatnio czytałeś?
Czytam bardzo dużo różnych artykułów. Ostatnio poświęciłem czas na książkę „Weapons of Math Destruction„, to książka Pani O’Neil, która była doktorem Harvardu. Później pracowała w różnych firmach venture capital i na Wall Street. Ona przedstawia pewne zagrożenia, za którymi stoją hipotezy, podejścia, których następstwa są wykorzystywane do uczenia maszynowego, tworzenia modeli, które mają wpływ na całe nasze życie, często na społeczeństwa czy na ludzkość.
Od zasad takich jak przyznawanie kredytów, zwłaszcza w Stanach Zjednoczonych to jest dosyć ważne. Oczywiście na ile dany człowiek może być potencjalnym kryminalistą bądź człowiekiem poza normą. Przedstawia różne inne przykłady związane z tym, że matematyka może być obecnie bronią.
Bardzo mnie to ciekawi. Zapytam teraz o ranking, który prowadzi firma Deloitte. Ona prowadzi ranking firm publicznych i prywatnych, najszybciej rozwijających się, między innymi, w Centralnej Europie. W tym rankingu znajduje się 50 firm, 19 z nich jest z Polski, pośród nich 1 miejsce zajął Tooploox – firma, w której pracujesz. Super wynik, gratulacje! Czym się zajmujecie? Jakie problemy rozwiązujecie?
Jesteśmy młodą firmą, między innymi dlatego, dostaliśmy tę nagrodę dla młodych, rozwijających się firm, przez ostatnie 3 lata osiągnęliśmy skok o 2500%. Tooploox jest przede wszystkim software housem – firmą, która pomaga w tworzeniu produktów opartych o nowe technologie dla klientów zewnętrznych. Jako cała firma mamy doświadczenie we wdrażaniu wszelkich aplikacji, przede wszystkim mobilnych, czyli iOS, Android, platform internetowych z wykorzystaniem różnych języków, kilku rozwiązań Internet of Things – na tym Tooploox wyrósł.
Teraz nasze strategie ukierunkowane na połączenie funkcji designu, mobilnych zastosowań usability z uczeniem maszynowym i rozwiązaniami opartymi o Data Science, o analitykę nawet niestrukturalnych danych. Pracujemy głównie dla klientów zagranicznych z kilku branż. Między innymi media internetowe, trochę z ochrony zdrowia, czyli przemysłu związanego na przykład z analizą obrazu pod kątem medycznym.
Rozpoczęliśmy kilka projektów związanych z przemysłem motoryzacyjnym – autonomous cars, mamy tutaj kilku klientów także z Doliny Krzemowej. Niestraszny jest nam VR i Augmented Reality w połączeniu z analizą obrazu, tekstu, dźwięku daje to dużo większe możliwości. Tak naprawdę, bez tych dodatkowych narzędzi VR byłby tylko wygenerowaną perspektywą. Podsumowując, jesteśmy grupową bardzo fajnych osób w Warszawie i we Wrocławiu, które mają spory wachlarz doświadczeń, umiejętności i próbujemy przekazać je na produkty naszych klientów.
Widzę, że robicie bardzo dużo rzeczy! VR i AR – wspomnę, że też nagrałem odcinek 18 na ten temat, jeśli ktoś nie słuchał to zapraszam, żeby dowiedzieć się więcej co to jest. Teraz będę się dopytywał o szczegóły bo to jest najciekawsze. Wiem, że pracujesz między innymi nad speech recognition lub rozpoznawaniem mowy. Proszę wyjaśnij co to jest? Jakie języki już rozpoznajecie? I jakie są postępy?
Pracujemy nad różnymi technologiami zarówno z obrazu jak i z tekstu. Wspomniałeś o rozpoznawaniu mowy – jest to problem znany przynajmniej od lat 60. ubiegłego wieku. Pracujemy głównie nad amerykańskim angielskim, który jest najbardziej powszechny. Nasze zainteresowanie znajduje się w obszarze dźwięku pochodzącego głównie z broadcastingu, czyli z mediów – telewizji, bądź nagrań wideo, które są emitowane w Internecie.
Rozpoczynamy teraz także pracę nad językiem polskim. Jednak przyznam, że interesuje nas nie tylko rozpoznawanie mowy. Jest to takie zadanie, które ma na celu zebrać jakikolwiek sygnał dźwiękowych i przekazać go w formie tekstowej. Żeby tego dokonać trzeba wykonać kilka dodatkowych operacji. Ja osobiście, ostatnio zgłębiałem nowe sposoby na diaryzację mówców, podzielenia tego sygnału na odpowiednie segmenty, które przy udziale rozpoznawania mowy transkrybujemy na tekst.
Jeżeli chodzi o rozpoznawanie to mniej więcej to. My także robimy różne projekty z obszaru obrazu. Połączenie tych trzech rzeczy często prowadzi do dodatkowego zrozumienia np. nagrania wideo. Film, który jest emitowany w Internecie na YouTube czy Facebook, zawiera w sobie napisy, które dodatkowo wzbogacają ten przekaz. Jeżeli dodamy do tego rozpoznanie tego tekstu w obrazie, czy rozpoznanie rozkładu obiektów, twarzy ludzi w tym obrazie, a także transkrypcję mowy, analizę tekstu i multimodalny model sieci konwolucyjnej, to rezultaty mogą zostać użyte do predykcji popularności albo wygenerowania, w którym miejscu ma się pojawić najlepsza reklama oraz jaka ma ona być. Co więcej, jakie style edycji dziennikarze mogą użyć, żeby to nagranie było bardziej oglądane lub lepsze dla konkretnej kategorii odbiorców.
To brzmi bardzo ciekawie, więc troszkę się dopytam. Jak to dokładnie działa? Na podstawie czego stwierdzacie co jest lepsze?
Trudno określić jedną rzeczy, to jest model multimodalny. Główną informacją, oczywiście jest obraz. Bez kozery mogę powiedzieć, że są różne sieci konwolucyjne czy metody rozpoznawania obiektów. W przypadku filmów w Internecie, najlepiej wychodzą takie, które mają bardzo ciepły obraz, ciepłe barwy zbliżone do żółci, czerwieni. Bardzo ważne jest też, żeby obraz był w miarę dynamiczny. Oczywiście osoby, które eksperymentują wiedzą to, ale metody sprawdzenia przez nasze modele pozwalają, żeby każdy mógł ocenić montaż takiego filmu i stwierdzić czy w pierwszych 3 sekundach zatrzymamy delikwenta oglądającego film.
To jest ciekawe. Pamiętam, że czytałem taki artykuł, że jeżeli chcesz zwiększyć oglądalność to musisz dodać albo kota, albo małe dziecko, albo jedzenie. Jeśli masz jeden z tych wymienionych elementów…
Z naszych wyników wychodzi: ani kota, ani psa. Chociaż może psa bardziej niż kota, zwłaszcza takiego robiącego coś, niestatycznego. Jedzenie to jest najważniejsza rzecz. Na pewno nie gadające głowy, zwłaszcza na statycznym tle, bo to bardziej wygląda jak politycy. Oczywiście, mówię o grupie odbiorców, którzy są najbardziej dostępni w Internecie. Inne rzeczy będą przyciągać osoby w starszym wieku niż generację milenialsów, pokolenie C. To na pewno są osoby, które mają krótszy czas uwagi.
W związku z tym, wydaje mi się, że kilkunastu profesjonalnych YouTuberów, którzy robią bardzo długie przejścia, długie ujęcia i nadal utrzymują pewną, najważniejszą historię, przyciągają ludzi. Najważniejsze są pierwsze 3 sekundy, początek to jest obecnie clue obrazu. Kiedyś mówiło się, że nikt nie będzie słuchał niczego dłuższego niż 3 minuty, bo takie były prezentowane w radiu piosenki. 5 lat temu mówiono, że filmy to tylko 12 minut bo tyle YouTube miał limitu, więc de facto ludzie przyzwyczaili się do tego formatu.
Teraz mam wrażenie, że filmy to jest 1:30 – po to tylko, żeby zaciekawić, przekazać jedną myśl, tak naprawdę jedno zdanie, które jest jakoś zwizualizowane. Oczywiście, filmy są przeróżne, ale jeśli chodzi o treści nadawane w obszarze mediów społecznościowych to muszą być krótkie przekazy. Tak jakby można trzymać kogoś w czasie swapowania, przerzucania ekranu. Tam jest dosłownie jednosekundowa reakcja tak/nie i lecimy dalej.
Pozwolę sobie jeszcze wrócić do tematu rozpoznawania mowy, bo jest tam pełno trudności. Jest taki śmieszny filmik kiedy dwaj Szkoci próbują dogadać się z windą, ale ich akcent niestety im przeszkadza.
https://www.youtube.com/watch?v=5FFRoYhTJQQ
Jak widać akcent jest wyzwaniem, jak wy sobie z tym radzicie?
To jest wyzwanie dla każdego, nawet dla Anglika, żeby zrozumieć Szkota, a co dopiero dla Polaka czy dla naszego modelu. Po pierwsze, to nie jest akcent tylko dialekt. W Polsce przykładowe dialekty to śląski czy podlaski. Jedyne rozwiązanie tutaj to posiadanie danych, które reprezentują dźwięki, które akurat ten dialekt posiada.
Są też takie zastosowania, bardzo dużo takich rozwiązań robi Google. A mianowicie rozpoznaje miejsce, w którym jest twoja komórka i nawet do obszaru 20-30 km jest oddzielnie wytrenowany model tylko na te osoby, które komunikują się z tym systemem Google Search. Oczywiście, to ma duże znaczenie w przypadku małych regionalistów, w Belgii, na Śląsku czy w niektórych obszarach Anglii.
Ta skuteczność, dzięki temu, jest bardzo duża. Innym sposobem, jest adaptacja modelu akustycznego, czyli pewnego fragmentu całej ścieżki rozpoznawania mowy o element personalizacji. To znaczy, że w locie tworzymy sobie taką macierz, przekształcenie, które adaptuje model wejściowy do parametrów twojego głosu. Jednak i tak w przypadku szkockiego, trzeba mieć dane – nagranych Szkotów, żeby to wypadło dobrze. Tam są dodatkowe dźwięki, tak samo jak u nas w śląskim, których nie ma w typowym alfabecie mówionym. Trzeba je nagrać i mieć w korpusie, którego używamy do budowania systemu.
Rozumiem, to trzeba zaznaczyć, że są dwa problemy. Jeden z nich to jest akcent – on jest troszkę łatwiejszy, a drugi problem to jest dialekt, czyli gdy mamy zupełnie inne słowa lub dźwięki.
Dokładnie tak.
Spytam jeszcze o przewagę waszego rozwiązania. W poprzednich odcinkach miałem przyjemność zaprosić ludzi z Google, Microsoft i IMB, każdy z tych gigantów ma swoje rozwiązania. One się różnią jedynie językiem, który potrafią transformować z głosu na tekst. Jak jest w waszym przypadku? Jaka jest wasza przewaga? I czy widzicie sens, w tym żeby pisać swoje własne narzędzia zamiast użyć tych już gotowych?
Nasze rozwiązanie jest dostosowane do przemysłu mediowego. Google, Microsoft, IBM robią bardzo ogólne modele, które mają zastosowanie przy krótkich wypowiedziach, do wyszukania informacji, czasami do asystentów głosowych. My staramy się transkrybować głównie takie wypowiedzi, które są dłuższe, mają pewien dłuższy kontekst.
W związku z tym to jest nasza główna przewaga. Oczywiście, takie firmy mają dużo więcej danych niż my. W związku z tym, ich skuteczność w całej populacji bywa lepsza. Jednak, w tym zastosowaniu jesteśmy ciutkę lepsi niż te 3 firmy. Wracając do pytania czy warto jest budować własny system? Myślę, że to jest zależne od tego czy chcesz produkować produkt. Czy chcesz wdrażać usługę, która będzie długotrwała? I czy chcesz, żeby ta technologia rozpoznawania mowy należała do Ciebie?
Obecnie te firmy, bądź też jeszcze kilka innych, oferują dojście przez SDK, przez API – czyli systemy, które każą Ci przesłać ten sygnał przez Internet. Z uwagi na bezpieczeństwo danych, tego co jest mówione, sygnał musi być jakoś zabezpieczony. Musisz to mieć wewnątrz firmy bądź całego systemu łączności. Myślę, że to nie jest tak, że ktoś może myśleć o tym, żeby to budować, bo to wymaga trochę zaparcia i sporej ilości pieniędzy. Pieniądze są wymagane głównie na akwizycję pracy, ale także na dane, które trzeba przygotować. Te 3 duże firmy mają ich aż nadto. Zwykła firma nie będzie miała ochoty, żeby to przygotowywać.
Myślę, że bank, może firma telekomunikacyjna – na przykład Orange ma własny system. Niektóre banki, z tego co wiem, przygotowują rozwiązania wykupione o startupy bądź firmy. Suma sumarum jeśli ma się mało pieniędzy i niszowy produkt warto jest skorzystać z tych rozwiązań. Jeżeli chce się produkować własny produkt, zwłaszcza w obszarze chatbotów i rozszerzenie tego do voicebotów, jest to konieczne, żeby posiadać własną technologię.
Teraz jak słucham tego co mówisz, że wasz model jest ciut lepszy, w tym konkretnym zastosowaniu, niż to co oferuje Google – to wydaje mi się, że niedługo jakaś większa firma zgłosi się do was z propozycją wykupu, ale może ten temat zostawmy. Zapytam jeszcze o coś technicznego. Wiem, że pracowałeś nad syntezatorem mowy. Żeby upewnić się, że każdy rozumie co to jest, proszę wyjaśnij na prostych przykładach: po co to jest stworzone? I kto jest docelowym odbiorcą?
Syntezator mowy – myślę, że pierwsze jego zastosowanie, według wszystkich podręczników, było datowane na rok 1750, kiedy ktoś dla cesarza Austrii przebrał się za gadającą kurę i mówił pod spodem. Wiele osób chciało mieć syntezator, żeby mówiła do niego maszyna, komputer, robot albo żeby można było czytać książki.
Sam syntezator mowy jest krokowym rozwiązaniem. Chcemy z tego sygnału tekstu – zapisu ortograficznego zamienić to na sygnał mowy – na fale dźwiękowe. Do tego trzeba nam modułów, które pozwalają nam tokenezować zrozumieć strukturę tekstu, znormalizować pewne zapisy i następnie wytworzyć pewną reprezentację tekstową, reprezentację dźwięku mowy, głosu, nagraną lub wygenerowaną z audiobooków. Tak jak kilka firm obecnie to robi. Dany filtr, silnik oparty o vocoder zlepia te wszystkie cząstki, sylaby, difony, trifony, pięciofony w jeden długi ciąg. To jest syntezator mowy.
W Polsce, wiem, że przynajmniej część osób, jest dumna z Ivony – syntezatora mowy, który pojawił się na początku lat dwutysięcznych. Swego czasu Ivona była najlepsza. Ludzie robili ciekawe rzeczy. Pamiętam taki, żart kiedy Ivona zamawia pizzę, włączę ten fragment bo to było dość zabawne i kreatywne.
W roku 2013 Ivona została przejęta przez Amazon, ludzie którzy ją tworzyli zajmują się rozwijaniem Alexa. Wiem, że wcześniej w tych obszarach nie było uczenia maszynowego. Była to bardziej prosta statystyka albo nawet coś prostszego, kiedy dzielimy mowę na kawałki, a później to sklejamy, żeby wygenerować ją na nowo.
Rok temu DeepMind przyłożył się z tak zwanym WaveNet, to jest sieć neuronowa, która całkiem fajnie zaczyna generować dźwięki. Nadal czuć, że jest to sztuczne, ale postępy są widoczne. Na ile taka synteza mowy jest trudnym zadaniem? I gdzie będziemy za 5-10 lat?
Jest to nadal trudny obszar. Na pewno, to co powiedziałeś, muszę skorygować. Rzeczywiście podstawowe metody, które są często używane w transporcie publicznym albo call center, to jest tak zwana synteza konkatenacyjna – zlepiamy fragmenty nagranego wcześniej głosu. Tutaj mamy funkcję kosztu połączenia ich wszystkich, próbujemy to zoptymalizować – w pewien sposób jest to uczenie statystyczne.
Od mniej więcej 5-8 lat główne głosy syntezatorów, których się używa to są to syntezatory parametryczne – nie mamy tutaj nagranych próbek, tylko z nagrań głosu tworzymy generatywny obraz mowy, który po wpisywaniu tekstu, odpowiednim mapowaniu, jest przetwarzany na czysty dźwięk. Daje to bardzo duże możliwości szybkiego tworzenia kolejnego głosu, ponieważ stare metody kazały pociąć ten materiał, zaznaczyć gdzie są odpowiednie difony, trifony etc. Sam spędziłem nad tym ponad 3 miesiące, jedynie ustawiając w nagraniach znaczniki daje to bardzo dobre efekty.
Cały czas Google, w niektórych krajach, systemach korzysta z tego. Obecnie rzeczywiście, chyba tydzień temu, przeszedł już na nową technologię WaveNet. On też jest modelem generatywnym, tutaj generatywnym aspektem jest możliwość wrzucenia dużej ilości danych, wytworzenia pewnych splotów, konkretnych odpowiedzi impulsowych tej sieci, która później jest łączona i tworzy bardzo dobry efekt.
Myślę, że jeśli chodzi o tę technologię to ona musi dostać jeszcze trochę ogłady. To znaczy, osoby, które pracują przy syntezie mowy zajmują się tym od lat. Profesor Kawahara, który wymyślił parametryczną i pomaga w tworzeniu WaveNetu, pracuje nad syntezą mowy od 1976 roku. Zasada jest taka, żeby ten WaveNet móc jeszcze sparametryzować. Wracając do kolejnego pytania, czyli co będzie za chwilę?
Myślę, że jest duże nastawienie na chatboty, na boty w ogóle. Każdy chciałby stworzyć swój własny unikalny głos. Albo to jest głos, który reprezentuje Ciebie i wtedy zbieramy krótką próbkę twojego głosu, nakładamy ją na ten syntezator i on brzmi bardzo podobnie do Ciebie. Obecnie już są 3 firmy, które robią takie rozwiązania, nie na rynek botów, ale na rynek medyczny dla osób, które straciły głos. Czy to w wypadku motocyklowym czy są po wycięciu krtani z uwagi na raka. Z nagrań przeszłych, bądź tuż przed operacją nagrywają trochę materiału, osoby chore dostają swój głos z powrotem. Jeśli chodzi o boty – one mogą mówić dowolnym głosem.
Tutaj też jest kilka firm, które już próbują dawać nam awatary. Ja myślę, że jest jeszcze inna sprawa, tak jak w filmie „Her” – czyli nasz asystent głosowy będzie miał swoją osobowość. Tak jakbyś inicjalizował telefon czy jakieś inne urządzenie, którym masz się później komunikować – będziesz tworzył jego profil, jak w grach fabularnych. Będziesz wybierał co on lubi, jakie miał przeżycia, jaką ma prozodię głosu. Jest to szalenie trudne.
WaveNet daje nam bardzo podobny do ludzkiego dźwięk, ale nadal prozodia – czyli wyrażanie emocji, przystanków itd. jest nam jeszcze do tego daleko. Pamiętam, że pracowałem nad syntezą mowy z emocjami w Instytucie Badań i Koordynacji Akustycznych i Muzycznych w Paryżu w 2007 roku. Od tamtej pory bardzo mało drgnęło, żeby było to lepsze. Myślę, że teraz wszyscy próbują używać sieci neuronowych zapominając, że jeszcze jest ważna prozodia. Być może za 5-10 lat będziemy już mieli gadającego spikera w radiu. Na pewno wielu managerów w radiu będzie ucieszonych, że zamiast nagrywać voiceovery będą mogli wklepać dany tekst i tuż przed reklamą pójdzie jakiś kawał, zupełnie bez zatrudniania spikera.
Bardzo ciekawe przykłady, zwłaszcza z medycznym zastosowaniem – kiedy człowiek z różnych, losowych przyczyn traci głos i będzie mógł do niego wrócić. Według mnie to brzmi fantastycznie. Często uczenie maszynowe używane jest w marketingu i podobnych zastosowaniach, ale bardzo mnie cieszy taka sytuacja kiedy pomaga ono ludziom wprost, gdy mają oni jakieś trudności życiowe.
Dodam jeszcze jedno. W Warszawie jest pan doktor Janicki, który przy współpracy z Instytutem Psychiatrii, wykorzystuje syntezator do pracy z osobami chorującymi psychiatrycznie, na schizofrenię, depresję, które są w ciężkim stanie. Używa tego do terapii, na przykład, pogodzenia się z własnym ojcem, który zmarł i tego typu przypadki. Myślę, że jest jeszcze sporo innych use cases, o których moglibyśmy mówić.
Następne pytanie: co to jest Brand Sound Design? Wyjaśnij proszę na prostych przykładach, co to jest i jakie ma zastosowanie?
Wiele firm myśli nad swoim wizualnym wizerunkiem. Mają książki znaków, pewne opisy jak można używać logo. Nikt nie myśli o tym, że dźwięk także jest reprezentacją naszej marki. Brand Sound Design czy Audio Design wchodzi – jest to sposób na całościowe opracowanie naszego wizerunku dźwiękowego. Dla sklepu to będzie pewna muzyka, system dzwonków wejść, nawet dodatkowych powiadomień w kasach.
Przy aplikacji wiadomo, że ma ona swój zestaw dźwięków. Poniekąd Brand Sound Design wychodzi najpierw od gier, później aplikacji mobilnych, a teraz w zasadzie każda szanująca się marka ma pewnego rodzaju dokumenty i materiały, które wykorzystuje do tego, żeby rozbudować opis marki o dźwięk. Dla przykładu, firma Audi, kiedyś pracowała nad dźwiękiem silnika do samochodu elektrycznego. Zatrudnili tam kilka osób, które nagrały stare silniki, ale także wykorzystując pewne techniki muzyczne spowodowały, że ten dźwięk był pełny, bardziej muzyczny i taki, który sprawia, że nasza psychoakustyka – podświadome odbieranie dźwięku, była pozytywna.
Jeśli chodzi o Brand Sound Design to kiedyś opracowałem Sonic User Interface, czasami niektórzy nazywają to No UI – koncept, który spowodowałby, że nie mamy ekranu, jedynie pewne zestawy elementów interfejsu powodują, że poruszamy się w nim bardzo naturalnie. Są pewne teorie, które mówią o tym, żeby łączyć to podobnie jak w kwestii wizualnej. Mamy coś w rodzaju przycisków, anchory, pewne ikony dźwiękowe i dodatkowe cue, które pozwala poruszać się nam w przestrzeni.
Ale są też takie podejścia, które powodują, że tworzy się soundtrack, przestrzeń dźwiękowa, sfera dźwiękowa, w której się poruszamy się. Tworzy się element deszczu, dodatkowego szumu, który ma swoje znaczenie i my je rozpoznajemy. Inny przykład, jesteśmy na słuchawkach, pracujemy i dźwięki klawiatury – jeżeli jest lato – są bardziej świetliste, miękkie, a zimą są bardziej ostre i mrożące lub na odwrót jeżeli chcemy zmienić nastrój. To jest przykład, że w przypadku sfery wirtualnej czy Augmented Reality dźwięk de facto będzie czasem ważniejszy od elementów graficznych z tego względu, że przy takiej ilości bodźców wizualnych nie zwracamy na to uwagi.
W przypadku dźwięku jest to naturalne, szybko znajdowane i jest to po prostu ludzkie. Gdy coś zadzwoni albo zaszura to wiemy, w którym kierunku się zwrócić.
Tak zgadzam się, dźwięk ma ogromny wpływ na percepcję ludzi i tak naprawdę nie trzeba nawet dużo się zastanawiać. Gdy ktoś ma zły humor i odpali sobie ulubioną muzyczkę to od razu humor się poprawia. A jeżeli spojrzę na kotka to ten humor niekoniecznie poprawi się tak szybko. Pewnie to jest trochę dyskusyjne, ale na pewno dźwięk ma pewien wpływ na to jak się czujemy. To, że marki będą dźwięk wykorzystywać w bardziej zaawansowany sposób to można się było tego spodziewać. Natomiast, to że jest tutaj dołożone uczenie maszynowe, jest to pewna nowość.
Przejdźmy do kolejnego tematu, który również jest ciekawy i jest związany z dźwiękiem. Kolejna anglojęzyczna fraza – speaker identification albo speaker verification albo voice authentication. Teraz trochę po polsku, rozpoznawanie mówcy, uwierzytelnienie głosem. Najpierw jak zwykle wyjaśnij proszę o co tu chodzi? Co już udało się osiągnąć? I czego możemy się spodziewać w najbliższej przyszłość. I proszę też o przykłady.
To są pojęcia tak stare jak rozpoznawanie mowy. Na pewno każdy z nas pomyśli – gdy mówisz rozpoznawanie mówcy – rozmowy kontrolowane albo dostęp do drzwi – albo Bond czy inny superbohater mówi coś i urządzenie weryfikuje czy jest człowiekiem, za którego się podaje. Rzeczywiście mamy takie zadania w tej sferze jaką jest weryfikacja mówcy. Mamy tego mówcę, wiemy że on to on, tylko chcemy to sprawdzić. To jest tożsame z autentykacją, z tym, że w ramach niej trzeba dodatkowo powiedzieć np. PIN albo coś co jest elementem dodatkowo autentykującym.
Sam kiedyś stworzyłem taki prototypowy element dla Samsunga, który pozwalał na parowanie urządzenia przez bluetooth z telewizorem. Kiedy mówisz, w tym samym czasie, na urządzeniu i na telewizorze, przez to, że dźwięk dochodzi do mikrofonów, generowany jest hashcode i oczywiście oba urządzenia porównują czy jest on ten sam i są łączone. Nie trzeba niczego naciskać, jedynie powiedzieć: „Cześć, tutaj jestem” albo „Cześć telewizorze”.
Jeśli chodzi o identyfikację mówcy to tutaj chcemy… Mamy wielu mówców, nie wiemy de facto, kto to jest i chcemy powiedzieć to jest ten. Tutaj są dwa problemy. Rzeczywiście potrzebujemy bardzo dużo materiału nagraniowego bo ludzie są brzuchomówcami i umieją zmienić tembr głosu tak, by brzmiał podobnie do kogoś innego. Jednakże przytrzymanie tego głosu na dłuższym materiale jest dosyć trudne. Dlatego większość takich systemów do zastosowań biometrycznych bazuje na tak zwanym text dependent – mamy nagrany wcześniej głos tego samego mówcy i musi on później powtórzyć to wymawiając to samo.
Teraz większość systemów, które się opracowuje, są to systemy opierające się o text independent i przyznam, że tutaj nawet IBM robi rozpoznawanie na poziomie 10-15 milionów ludzi głównie do zastosowań call center np. w banku. Jeżeli dzwonisz, żeby powiedzieć kilka zdań to jest mniej więcej 1-3 sekundy, żeby mieć tę skuteczność tak to jesteś ty – to jest Vladimir, a to jest Paweł. Od razu wyświetla się informacja o tym i takie systemy już istnieją.
Myślę, że one wejdą wraz ze wszystkimi innymi systemami głosowymi. Są jeszcze nowe sposoby, które ostatnio kilka firm próbuje zaprezentować to jest sprzedawanie/kupowanie głosem. To znaczy, oczywiście gdy powiesz do Alexa z Amazonu: „Dodaj mi do listy zakupów… albo wyślij mi jutro tę paczkę.” To jest już rozwiązanie systemowe, tam nie będzie autentykacji tego systemu.
Chociaż obecny Google Home rozpoznaje każdego z członków rodziny i w związku z tym każdy komunikat jest inny. Wracając do płatności głosem, jest to podobne do tego parowania. Urządzenie w danym momencie, kiedy chcesz coś kupić łączy się z serwerem, generuje pewne połączenie hashcodes, prezentuje te konkretne zapisy, czytasz to i później weryfikowane jest czy ty konkretnie to ty. Jeżeli tak, to transakcja została zaakceptowana.
To jest bardzo ciekawy przykład. Spróbuję troszkę się dopytać. Przede wszystkim jeżeli chodzi o uwierzytelnienie w banku i płatności. Wiem, że w Polsce Alior Bank i kilka innych, już testują te tematy. Próbują tego używać. Ciekaw jestem czego możemy się spodziewać w najbliższych latach, że zamiast podawać telefonicznie swoje dane uwierzytelniające np. PESEL, którego nie zawsze pamiętasz, to wystarczy powiedzieć cokolwiek i system rozpozna, że ja to ja i wpuści mnie na moje konto? Jak myślisz to jest bliska przyszłość? Mniej niż 5 lat, czy raczej 15-20?
Myślę, że to jest blisko 3-5 lat. Ale! I to jest ważna rzeczy, myślę, że najważniejsze jest prawo, które w tej sytuacji… Głos można odtworzyć, można go nagrać. Tutaj jest bardzo ważne, żeby umieć rozpoznawać czy ten głos jest wysentyzowany, czy jest nałożony – voice conversion, czy jest po prostu odtworzony. Oczywiście, jest bardzo dużo podejść, żeby się przed tym zabezpieczać.
Od 2-3 lat jest taki challenge naukowy, który jasno wskazuje, używa syntezatorów, tych metod i wymaga, żeby stwierdzić czy to jest nagranie czy prawdziwy człowiek. Skuteczność jest teraz na poziomie 95-97%. Najlepsze zastosowania są z firmy w Sankt Petersburgu, oczywiście sprzedają oni na cały świat. Jeżeli chodzi o samą autentykację głosem to nie jest ona jednoznaczny do stwierdzenia czy to ten osobnik czy nie. Ja myślę, że bez pytań dodatkowych, czy wyzwań…
Wymagane są dodatkowe etapy zabezpieczeń, jest tu wymagane multi-factor authentication. Głos może być tylko jednym z czynników. Na przykład, w Pentagonie dostęp nie jest tylko na głos, musisz udostępnić siatkówkę, odciski palców i dopiero głos. Tak samo, tutaj. Myślę, że w prostych zastosowaniach – jasne. Jak zadzwonisz do call center po 2-3 zdaniach wiedzą kim jesteś, proszę podać nazwisko panieńskie matki i wtedy jest jeszcze większa autoryzacja bo powiedziałeś konkretne zdanie, które wcześniej było nagrane. I mamy podwójne ulepszenie skuteczności. Nie sądze by głosem udało się podpisać kartę do głosowania. Jeżeli tylko głos byłby używany do potwierdzenia autentyczności danego osobnika.
Poruszyłeś bardzo ciekawy temat chciałbym go jeszcze zgłębić. Technologia rozwija się bardzo szybko – to prawda, którą powtarzam zawsze na początku – „Świat zmienia się szybciej, niż myślisz”. Jest taki startup o nazwie Lyrebird, który syntezował głosy Donalda Trumpa, Baracka Obamy i Hillary Clinton do konwersacji o ich startupie (link do nagrania).
Oczywiście czuć, że ten głos jest trochę sztuczny, ale widać też ten potencjał. To jest ciekawe, tak się zastanawiam, też o tym powiedziałeś, że jest sieć, która próbuje wykryć czy głos jest sztuczny, podrobiony czy autentyczny. Zastanawiam się czy w najbliższym czasie nie będzie takiej sytuacji, kiedy jedna sieć będzie generować głos, a druga będzie wykrywać czy jest on prawdziwy czy podrobiony? I będzie taka walka pomiędzy dwoma sieciami neuronowymi, a człowiek będzie tylko to obserwować bo nie będzie w stanie zrobić tego lepiej niż deep learning. Co o tym myślisz?
Tak jak wcześniej powiedziałem. Taki challenge, taka walka już się odbywa w tych sprawdzianach naukowych. Mamy jedną sieć, która jest syntezatorem i drugą, która rozpoznaje. Albo jedna sieć, która dodaje pewne parametry do głosu – voice conversion, a później druga, która rozpoznaje. Te techniki syntezy mowy mają pewne rzeczy, o których nie słyszymy. Jeżeli chodzi o tak zwaną reprezentację częstotliwościowo-czasową, zwłaszcza jeśli chodzi o zaburzenie fazy.
Tam, po prostu bezpośrednio, ze skutecznością 100% można powiedzieć, że to jest podróbka. Tak samo, jakieś przecięcia, odtwarzanie bardzo łatwo jest rozpoznać. Teraz nie, myślę, że firma Lyrebird zrobiła dużo dobrego marketingu zanim zaczęła cokolwiek prezentować, nawet proof of concept. To jest dobre demo. Metody są bardzo podobne do WaveNet i na pewno dzięki tej technologii, bardzo łatwo będzie powielić głos i tworzyć dodatkowe personalizowane głosy. Nie sądzę, żeby jednak była tutaj jakaś walka.
Jeśli mówimy o znanych osobach, na przykład o Obamie, to już teraz mamy tekstowe fake news. Oczywiście możemy sobie założyć, że zmontujemy filmik, podłożymy dany głos i będzie to gdzieś w Internecie hulać. Ale dlatego tak ważne jest obecnie, żeby sprawdzać źródła, z którego ma się informacje albo ufać jakiejś redakcji. Tak jak dobry dziennikarz, sprawozdawca daje Ci tylko sprawdzone wiadomości, informacje.
De facto, dziennikarze mogą już to sprawdzać. Wiem, że niektórzy, bardziej śledczy BBC czy z innych ośrodków Reutersa, oni wiedzą w jaki sposób porównać nagranie choćby z telefonu. Gdy dzwoni jakaś osoba, która mówi, że jest kimś. Wtedy dzwonisz do specjalisty od kryminalistyki mowy, dźwięku, czyli speech forensics albo audio forensics i on sprawdza.
Są też softwarowe rozwiązania, które to wspomagają. Koniec końców, oszukiwanie nas jest notoryczne już teraz. To są trochę strachy na lachy i nasze wielkie marzenia, że będzie tam sztuczna inteligencja i będziemy my malutcy. Ja tylko wierzę, że człowiek jest myślący i bardzo łaknie bezpośredniego kontaktu z człowiekiem, a nie tylko z głosem, czy krótką wypowiedzią Obamy, którą już nawet na słuch łatwo wykryć, że jest nieprawdziwa.
Bardzo mi się spodobało to co powiedziałeś – że wierzysz, że człowiek jest myślący – też chcę w to wierzyć. Też to co powiedziałeś, jeżeli chodzi o fake news – wydaje mi się, że osoby, które siedzą w internecie już się przyzwyczaiły, że są takie brudne, różne newsy, które później są gdzieś w reklamie. Tutaj już chyba nie ma tego problemu, że jest to jakimś śmieciem, ale jeżeli chodzi o dźwięki to przynajmniej ja, nie czuje się, że w tej chwili jestem w stanie jakoś szybko się adaptować.
Prawdopodobnie to jest kwestia czasu. Jednak jestem przyzwyczajony, że gdy słyszę dźwięk to zwykle to nie jest podróbka. Jak wyjdzie to na skalę masową, to pewnie będziemy musieli się adaptować do sytuacji. Teraz już zostawię ten temat.
Chcę zapytać Cię jeszcze o sztuczną inteligencję, w kontekście trochę wizjonerskim. Mówi się, że sztuczna inteligencja zabierze sporo miejsc pracy, ale pewnie stworzy też nowe. Myślę na przykład o call center, w tej chwili jest sporo osób, które po prostu siedzą i odpowiadają na te same pytania. Jak narazie w większości przypadków to wciąż jest człowiek. Dzieje się tak z kilku powodów, człowiek wie co odpowiedzieć, ale też my jako ludzie nie do końca lubimy rozmawiać z botami, zwłaszcza, że ten dźwięk jest bardzo sztuczny.
Pytanie jest takie: jak myślisz jak długo jeszcze call center będą „żyć”? Ile im dajesz?
Nie lubię strzelać. Myślę, że każdy inżynier ma z tym trudności bo to jest trudne do zmierzenia. W każdym razie, mam taką myśl, że proste informacje i zgłoszenia, na pewno będą zautomatyzowane. Już teraz ubezpieczalnie, czy jakieś firmy typu telewizje kablowe, mają pewne formularze głosowe. To jest całkiem niezły sposób, żeby nie czekać na odpowiedź tylko od razu mamy kontakt z maszyną, przechodzimy bardzo krótki formularz, on jest transkrybowany i załatwiany.
Natomiast, na pewno w wielu wypadkach kontakt z człowiekiem jest czymś dodatkowym, takim premium, przynajmniej to firmy chcą nam to wmówić. Myślę, że dużo osób będzie łaknęło tego i będą chciały mieć bezpośredni kontakt z człowiekiem. Call center jako call center, na pewno zostanie – myślę, że dopóki mamy telefony to musi ono istnieć. Na pewno, też nie zastąpią te maszyny czy syntezatory, wirtualnych sprzedawców. Jednak do sprzedaży trzeba mieć wyczucie. Być może za 25 lat będzie już można wyczuć wszystkie możliwe reakcje człowieka. Jednak cięta, szybka riposta sprawi, że dla dobrego sprzedawcy, klient zostanie i kupi.
Poza tym, w tej chwili, wydaje mi się, że w tych aspektach człowiek jest lepszy i tańszy niż zbudowanie systemu. Mam też taką myśl, że call center będzie troszeczkę odsunięte jeżeli chodzi o pewne funkcje. Może w Polsce to będzie dłużej, ale jeśli w Stanach Zjednoczonych coraz więcej osób kupuje systemy typu Google Home, Alex, to pewne informacje, zarządzanie tymi kontami zostanie przerzucone na ten nasz głośnik. Może w tym jest też siła firmy Amazon?
Też zakładam, że obydwie firmy, mają już SDK, które pozwala tworzyć własne aplikacje głosowe. De facto, każdy bank lub inna firma, będzie mógł mieć swoją wewnętrzną aplikację w twoim interfejsie głosowym, asystencie domu i tutaj korzystać z tego. Jeżeli potrzebujesz jakiejś informacji proste funkcje, typu włączyć/wyłączyć, myślę, że to będzie już robione na poziomie tego wirtualnego głośnika.
Bądź tak jak robi to Samsung, ten asystent nazywa się Bixby, on ma zarządzać domem. Samsung jest jedyną firmą, która ma głośnik, bo niedawno kupiła firmę Harman, ma telewizor, jak i lodówki. Kiedyś takim szalonym pomysłem Samsunga było, żeby całe centrum zarządzania znajdowało się w lodówce. Ponieważ jest tam ciągły prąd i chłodzenie, można wrzucić tam dyski twarde i asystenta głosowego, bo gdzie spędzamy najwięcej czasu jak nie w kuchni? De facto, mogą być w lodówce nasze dane wrażliwe. Myślę, że tutaj nie da się fantazjować bardziej i bardziej, bo już dużo filmów i książek powstało na temat. Call center, tak jak powiedziałem o sprzedawcach, ludzie łakną kontaktu i będą dzwonić.
Rozumiem, można powiedzieć, że call center raczej będzie zanikać, ale nie z powodu tego, że uczenie maszynowe potrafi sobie lepiej radzić niż człowiek, tylko nowe pokolenie – milenialsi – oni będę preferować inny kanał, na przykład Google Home czy Alexa. To raczej będzie przyczyną dlaczego call center nie będzie tak aktualne jak dzisiaj.
Dobrze, już musimy kończyć, choć fajnie nam się rozmawia. Dziękuję bardzo. Na sam koniec zapytam: jak można się z Tobą skontaktować? Jeżeli ktoś będzie miał taką ochotę.
W tej chwili, chyba najlepiej jest to zrobić przez konto na Twitter @cyrta, tak jak moje nazwisko i tam możecie do mnie pisać.
Jasne, dziękuję Ci bardzo za rozmowę, za chęć podzielenia się swoim doświadczeniem. Słychać ten entuzjazm w Twoim głosie, skoro mówimy o dźwiękach i tematach powiązanych. Bardzo się cieszę, że podzieliłeś się tym i do usłyszenia, do zobaczenia.
Również bardzo Ci dziękuję za rozmowę. Super, do zobaczenia.
Bardzo ostrożnie, ale jednak powiem to. Jeśli pamiętasz Biblię, to jest tam napisane: “Na początku było Słowo…”. Oczywiście różnie można to interpretować, ale to do czego dążę, że prawdopodobnie to słowo było dźwiękiem. Być może od dźwięku wszystko się zaczęło i na tym się kończy? Co o tym sądzisz? Dźwięk ma ogromny wpływ na nasze życie. Tak naprawdę, przy pomocy dźwięku można bardzo wpłynąć na ludzi, na ich nastrój, samopoczucie i nawet więcej (czytałem na ten temat różne książki, które wykraczają poza wątki tego odcinka).
To że sztuczna inteligencja wkracza również na podwórko dźwięku brzmi dość intrygująco. Ciekawy jestem jak to wpłynie na nasze życie, bo być może otwieramy Puszkę Pandory. Co o tym sądzisz?
Na koniec, chcę bardzo Ci podziękować za to, że jesteś, słuchasz podcastu i dzielisz się z innymi.
Następny odcinek będzie na mniej popularny temat, ale według mnie bardzo ważny. Trochę się bałem poruszać go wprost, bo jest mniej namacalny, ale tak jakoś się złożyło, że życie samo mi w tym pomogło. Z moim gościem, poruszamy tematy etyczne, również i te trudniejsze, między innymi mówimy o roli ludzi na Ziemi i czy przypadkiem obecne zachowanie człowieka nie jest nowotworem dla naszej planety i wiele innych tematów.
Wybacz jeśli według Ciebie ten odcinek będzie mniej biznesowy lub technologiczny, ale uważam, że biznes to nie tylko pieniądze i technologia. W dużej mierze, to również odpowiedzialność. Swoją drogą, polecam każdemu biznesmenowi przeczytanie książki Aleksandra Havarda – “Etyka Przywódcy”. Ona jest dość cienka ok. 200 stron, więc nawet najbardziej zapracowani mogą po nią sięgnąć. Po prostu warto.
To tyle na dzisiaj. Dziękuję Ci bardzo za Twój czas i energię. Życzę wszystkiego dobrego i do usłyszenia.
2 komentarze
Daniel
Ciekawy odcinek, tego typu rozwiązania napewno dają duże pole do manewru np: w branży muzycznej czy filmowej.
Ogólnie wszędzie tam gdzie dźwięk przepadł np jak we wspomnianej branży medycznej.
Już spotkałem się z nagraniami muzycznymi nie pośmiertnymi, a nowo tworzonymi, na zasadzie składania sylab itp.
Polecam ciekawą wizję Stanisława Lema „Kongres”
Słynna aktorka dostaje propozycję „zeskanowania”, dzięki czemu wszystkie kolejne role będzie grała jej wiecznie młoda kopia.
Ps:
Słowo rodzi się z dźwięku – dźwięk przed słowem.
Fryderyk Chopin
POZDRAWIAM
Vladimir
Dziękuję Daniel za komentarz, zwłaszcza za polecenia „Kongres” :).