Natural Language Processing – Biznes Myśli

Sztuczna inteligencja pod własnym dachem

Vladimir — Wed, 22 May 2024 07:00:00 +0000

Oglądaj video

To już 120 odcinek, a dzisiejszym tematem jest „sztuczna inteligencja pod własnym dachem”, czyli trenowanie własnych modeli LLM (takich jak „ChatGPT”) tylko na własną rękę. Brzmi ciekawie? W mojej opinii, LLM to nowoczesna waluta. Tak, aż tak! Posiadanie własnego modelu LLM (przynajmniej na poziomie kraju) daje przewagę konkurencyjną i wpływa na rozwój gospodarki oraz innowacyjności.

W tym odcinku rozmawiam z Markiem Kozłowskim, ekspertem od NLP (pracy z tekstem) i ogólnie machine learning. Marek pracuje w AI Labie w OPI (Ośrodku Przetwarzania Informacji – Państwowym Instytucie Badawczym). Poruszamy wiele tematów, a główną myślą jest trenowanie własnych modeli LLM pod własnym dachem.

O czym rozmawiamy?

Dlaczego trenowanie własnych modeli LLM jest kluczowe na poziomie kraju (w tym także w Polsce)?
Jak wygląda proces trenowania modeli LLM? Od pre-trainingu, przez fine-tuning, aż po ewaluację i walidację.
Wyzwania i możliwości budowy ekosystemu LLM w Polsce.
Inicjatywy takie jak konsorcjum PLLuM oraz potencjał rozwoju modeli LLM w Polsce.
Marek dzieli się swoimi przemyśleniami na temat otwartości modeli, w tym Mistrala i jego zmieniających się warunków dostępności.
Znaczenie danych kulturowo-historycznych w modelach oraz ich niedobór w dostępnych modelach, takich jak LLama 3 i innych.

Dlaczego warto trenować własne modele LLM?

Własne modele to coś więcej niż technologia – to element narodowego ekosystemu AI.
Dają przewagę konkurencyjną i wpływają na rozwój gospodarki.
Pozwala na tworzenie rozwiązań dopasowanych do specyficznych potrzeb.
Zapewnia większą kontrolę nad danymi i prywatnością.
I coś więcej (warto posłuchać

Dodatkowo dowiesz się o projektach realizowanych w AI Labie w OPI, w tym o systemie antyplagiatowym JSA oraz modelach Qra i MMLW. Poruszamy też kwestię otwartości modeli LLM i podkreślamy, że tworzenie modeli dostępnych dla wszystkich jest kluczowe.

Zapraszam Cię do wysłuchania tego inspirującego odcinka i podzielenia się swoją opinią. Będzie mi również bardzo miło, jeśli polecisz nasz podcast co najmniej jednej osobie – im więcej osób się dowie, tym lepiej!

Spis treści odcinka:

00:00:00 – Wprowadzenie
00:01:35 – Kim jest Marek Kozłowski?
00:03:35 – OPI i AI Lab – co to jest i czym się zajmuje?
00:10:40 – Historia deep learningu i NLP w Polsce
00:12:40 – Jakie książki Marek ostatnio czytał?
00:16:10 – OPI – software house i laboratoria
00:20:00 – Projekty zrealizowane przez AI Lab w OPI
00:25:00 – Dane i ich znaczenie dla budowy modeli LLM
00:30:10 – Definicja modeli LLM
00:33:00 – Reprezentacyjne i generatywne modele LLM
00:37:00 – OpenAI i Google – historia sukcesu i porażki
00:40:00 – Dane jako klucz do sukcesu
00:41:35 – Etapy uczenia modeli LLM
00:53:00 – Dlaczego warto budować modele LLM pod własnym dachem?
00:56:00 – Konsorcjum PLLuM
01:06:00 – Ekosystem usług oparty o AI
01:14:00 – Racją stanu i przyszłość AI w Polsce
01:17:40 – Podsumowanie

Chcesz dowiedzieć się więcej? Posłuchaj całego odcinka i daj mi znać, co o nim myślisz! Koniecznie poleć odcinek co najmniej jedne osobie.

Podcast Biznes Myśli znajdziesz na wszystkich platformach podcastowych (Apple, Google, Spotify i innych). Wystarczy wpisać „Biznes Myśli”. Możesz także obejrzeć nas na YouTube, gdzie oprócz głosu nagrywamy również wideo. Czekam na Twoją opinię, czy dodatkowy format na YouTube Ci bardziej odpowiada.

Artykuł Sztuczna inteligencja pod własnym dachem pochodzi z serwisu Biznes Myśli.

Transformery w Machine Learning

Vladimir — Mon, 28 Jun 2021 06:40:54 +0000

Z tego odcinka dowiesz się:

Transformery i Performer. Dowiesz się, czym są Transformery w Machine Learning i jak Performery optymalizują ich wydajność.
Poznasz naukowca z Google Brain Robotics, który pracuje nad zaawansowanymi algorytmami.
Praktyczne zastosowania. Zrozumiesz, jak Transformery rewolucjonizują różne dziedziny, od przetwarzania języka naturalnego po bioinformatykę i computer vision.
Otrzymasz informacje o autorskich kursach, które pomagają w nauce Transformerów i innych technik uczenia maszynowego.
Wyzwania i przyszłość. Poznasz wyzwania związane z Transformerami oraz przyszłość Machine Learning według eksperta.
Droga do doktoratu. Dowiesz się, jak decyzja o doktoracie na Columbia University wpłynęła na karierę Krzysztofa i jak przygotować się do podobnej ścieżki.
Filozofia nauki. Zainspirujesz się podejściem do nauki jako pasjonującego pojedynku z naturą, pełnego ciekawości i frajdy z odkrywania.

Zaczynamy!

Dzisiejszym gościem jest Krzysztof Choromański, który zrobił doktorat na Uniwersytecie w Kolumbii. Pracuje już od 7 lat w Google Brain Robotics. Jest autorem ciekawych publikacji naukowych. Będziemy dzisiaj rozmawiać o tzw. Performance. Czym jest Performance? To taka wydajna architektura Transformerów (Transformance). Czym są Transformery w Machine Learning? To rozwiązanie, o którym na pewno warto wiedzieć, jeśli chce się zajmować uczeniem maszynowym. Tę architekturę koniecznie trzeba poznać.

Dlaczego tak mówię? W uczeniu maszynowym istnieje wiele różnych rozwiązań i są grube książki, które opisują je wszystkie, ale z grubsza rzecz ujmując jest kilka rzeczy, które trzeba poznać.

Tak się stało, że Transformery wkroczyły w ten ograniczony zasób algorytmów, które moim zdaniem koniecznie trzeba poznać. Owszem, Transformery mają swoje wady jeżeli chodzi o wydajność (potrzebują więcej pamięci lub wolniej się liczą).

To, o czym dzisiaj właśnie Krzysztof będzie opowiadał, to jest rozwiązanie w konkretnych przypadkach, kiedy mamy troszkę więcej danych czyli to, co podajemy na wejściu (np. duże zdjęcia lub teksty). Jeżeli takie klasyczne Transformery nie działają, to wtedy mogą nam pomóc Performery.

Ciekawe jest to, że to nadal są Transformery, tylko tak w sposób chirurgiczny zostały wycięte te kawałki, które są bardzo wolne i wstawiono tam bardziej efektywne elementy. W gruncie rzeczy nadal zostały Transformery, tylko zostały lepiej zoptymalizowane.

Jeżeli chcesz lepiej poznać Transformery, to jest ku temu okazja i to dosyć unikalna. Zapraszam na mój autorski kurs, który został stworzony po to, aby wyjaśnić wszystkie techniki związane z przetwarzaniem języka naturalnego i pracy z tekstem. Sporo miejsca poświęcam tam także właśnie na Transformery, bo działają najlepiej.

Warto wspomnieć, że Transformery były wymyślone w kontekście NLP, ale później udało się to też adaptować do innych dziedzin, np. computer vision, gdzie też robiły rewolucję.

A więc jeśli chcesz poznać, czym są Transformery w praktyce, to bardzo gorąco Cię zapraszam na mój autorski kurs. Jedynie na co zwrócę uwagę tutaj, to oczywiście mile widziana na tym kursie jest już przynajmniej podstawowa wiedza o tym, czym są sieci neuronowe itd.

Jeśli nie wiesz, czy Twoja wiedza jest wystarczająca, aby poradzić sobie na tym kursie, to zawsze możesz dołączyć i sprawdzić przez dwa tygodnie, a potem “przeskoczyć” do kursu “Praktyczne Uczenie Maszynowe”, który polecam każdemu na początek, podczas którego uczysz się niezbędnych podstaw i strukturyzujesz wiedzę. Potem można iść dalej.

Jeśli czujesz, że musisz przemyśleć sprawę i potrzebujesz wsparcia, to możesz uzyskać indywidualną konsultację telefoniczną. Po prostu napisz do mnie maila, że słuchasz Biznes Myśli i wiesz z odcinka, że jest taka możliwość. Wtedy umówimy się i porozmawiasz – ze mną albo z kimś z mojego zespołu. Najważniejsze jest to, żeby wyczuć, jakie masz potrzeby, aby w sposób indywidualny Ci poradzić, więc masz taką unikalną możliwość rozmowy.

Przechodzimy do rozmowy, która jest z jednej strony techniczna, naukowa, ale też zostały poruszone tematy filozoficzne, za które jestem bardzo wdzięczny Krzysztofowi. To jest rzecz, która mnie osobiście też bardzo kręci. Zresztą cały czas mój umysł jest pobudzany do zadawania sobie różnych pytań koncepcyjnych – jak, dlaczego, czemu tak akurat, a nie inaczej?

Zapraszam do rozmowy.

Cześć Krzysztof. Przedstaw się: kim jesteś, czym się zajmujesz i gdzie mieszkasz.

Dzień dobry. Nazywam się Krzysztof Choromański. Jestem naukowcem w Google Brain Robotics Team w Nowym Jorku, czyli team robotyczny. Poza pracą w Google, wykładam też w Columbia University. Łączę się tutaj z pięknego New Jersey, w którym pracuję zdalnie w okresie pandemii.

Co ostatnio fajnego przeczytałeś i dlaczego akurat warto to przeczytać?

W sumie nie ma takiej jednej specjalnej, natomiast jest jedna z pozycji, do której czasami wracam to „Sen o teorii ostatecznej” Stevena Weinberga. Tę książkę wiele lat temu kupił mi ojciec i wracam do niej. Bardzo fajne opowiadanie o dążeniach ludzi do stworzenia teorii wszystkiego. Pokazana jest bardzo fajna perspektywa jednego z czołowych fizyków amerykańskich, zdobywcy Nagrody Nobla. Odpowiedzialnego w dużej mierze za unifikację (przynajmniej częściową) oddziaływań, więc duży krok w kierunku stworzenia tej teorii wszystkiego. Często do tej książki wracam i różne fajne wątki są w niej poruszane, więc polecam wszystkim pasjonatom – bardzo fajna pozycja.

Bardzo dziękuję. Jesteś naukowcem. Już troszkę powiedziałeś, gdzie pracujesz, czym się zajmujesz, ale spróbujmy teraz to zgłębić i zrozumieć więcej. Opowiedz o swoim doświadczeniu naukowym.

Pracuję w „robotycznym teamie”, natomiast całe doświadczenie naukowe jest szersze. Moja poważna przygoda naukowa zaczęła się w Columbia University, gdzie przyjechałem do Nowego Jorku studiować teorię grafów, to była abstrakcyjna matematyka, niekoniecznie z zastosowaniami.

Więc nastąpiła fajna transformacja do uczenia maszynowego, czym się zajmuję teraz. Wszystko się bardzo fajnie zaczęło od teorii grafów. Potem w którymś momencie, już po zakończeniu doktoratu, wybrałem maszynowe uczenie jako kierunek, który wydawał się w 2013 r., kiedy kończyłem doktorat, bardzo perspektywiczny. Natomiast teraz rzeczywiście ta rewolucja jest już na dobre i ciężko sobie wyobrazić współczesną informatykę bez maszynowego uczenia.

Więc to doświadczenie naukowe obejmuje zarówno czystą matematykę czy abstrakcyjną matematykę, czym zawsze byłem zafascynowany, w zasadzie od najmłodszych lat. Ale też bardzo praktyczne dziedziny takie jak właśnie maszynowe uczenie czy robotyka, do których paradoksalnie ta abstrakcyjna matematyka jest bardzo przydatna. Jeżeli chce się właśnie pracować nad tymi algorytmami w sposób trochę bardziej systematyczny, kiedy nie zgadujesz co działa, ale starasz się rzeczywiście zrozumieć dlaczego działa, co polecałbym wielu osobom, które pracują właśnie nad maszynowym uczeniem. Podejście właśnie może takie bardzo rygorystyczne, matematyczne. Więc w skrócie tak to moje doświadczenie naukowe wygląda

Wspomniałeś, że zajmowałeś się matematyką, w szczególności grafami, ale później pojawił się ML. Ciekawy jestem, jakie były w głowie pytania, dylematy, być może były jakieś inne opcje do rozwoju? Jak te decyzje wyglądały.

To była trudna decyzja, bo po doktoracie miałem bardzo dobry czas. Był to jeden z najpiękniejszych okresów w moich życiu. Natomiast pytanie było też: co dalej chcę robić? Oczywiście kwestia dalszej pracy w teorii grafów to było coś co mnie zawsze ekscytowało, ale zdawałem sobie też sprawę, patrząc na to co moi znajomi robili, że jest ileś tam dziedzin, które potencjalnie mogą okazać się zdecydowanie ważniejsze, jeśli chodzi właśnie o rozwój technologii i wpływ na to jak żyjemy. Abstrakcyjna teoria grafów nie wpływa na to w taki sposób jak chociażby maszynowe uczenie dziś.

Więc powiedziałbym, że wybrałem właśnie maszynowe uczenie, zamiast np. „postdoca”, na którym zajmowałbym się teorią grafów, ze względu na to, że po pierwsze było w miarę oczywiste, że maszynowe uczenie zdominuje wiele dziedzin życia, a po drugie (to było też bardzo istotne) zrozumiałem bardzo szybko, że ta elegancka matematyka, o której właśnie Weinberg opowiada w swojej książce, o której wspomniałem na początku i która mnie zawsze pasjonowała od najmłodszych lat, jest bardzo przydatna także w maszynowym uczeniu.

Ale jest więcej metod, które mogą być wykorzystane. Ta teoria grafów, to nad czym pracowałem to było bardziej takie kombinatoryczne podejście, natomiast w maszynowym uczeniu może nie stosuje się teorii grafów w takim sensie, w jakim wykorzystywałem podczas doktoratu, ale stosuje się mnóstwo pięknych matematycznych rzeczy. Jest rachunek prawdopodobieństwa, jest też teoria grafów w trochę innym sensie niż w tym, którym ja się zajmowałem podczas doktoratu.

Jest mnóstwo innych ważnych dziedzin, którymi się zawsze interesowałem jeszcze przed rozpoczęciem doktoratu, więc stwierdziłem, że po prostu także z czysto matematycznego punktu widzenia to będzie ekscytujące. Natomiast tym dodatkowym motywatorem było to, że będę mógł tę teorię sprawdzać w praktyce, nie ma nic piękniejszego niż zobaczyć, że robot działa.

W tamtym czasie, kiedy wybierałem Google, nie wiedziałem jeszcze o robotycznym team’ie. Natomiast już miałem tę intuicję, że maszynowe uczenie to będzie duża rzecz i tak się stało w ciągu następnych kilku lat.

Google Brain Robotics

Czyli dobra decyzja. Już pracujesz od ponad 7 lat w Google. Obecnie w zespole Google Brain Robotics. Fajnie byłoby, żebyś opowiedział troszkę więcej, czym zajmuje się zespół, jaki jest jego cel, jakie problemy rozwiązujecie i jakie macie osiągnięcia na swoim koncie.

Brain Robotics to jest naturalna konsekwencja tej rewolucji maszynowego uczenia, która dzieje się na naszych oczach, ponieważ następnym konkretnym, naturalnym krokiem po tym wszystkim, co udało się zrobić w maszynowym uczeniu (jesteśmy cały czas, mimo wszystko daleko od stworzenia sztucznej inteligencji) jest zobaczenie, czy roboty, do których stosowało się bardziej takie standardowe metody, mogą korzystać właśnie z tej rewolucji. Czy roboty mogą korzystać z sieci konwolucyjnych, żeby widzieć w jaki sposób zastąpić taką standardową control theory (która była wykorzystywana w robotyce w czasie przed maszynowym uczeniem) nowymi technikami, które okazały się niezwykle efektywne w klasycznym Data Science.

To jest taka myśl przewodnia tego teamu. Jesteśmy bardzo researchowo zorganizowani. Staramy się bardzo dużo publikować. Dużo rzeczy tak naprawdę dzielić ze środowiskiem naukowym, ponieważ jest to researchowe podejście, więc staramy się właśnie kontaktować z tymi ludźmi, którzy są właśnie na zewnątrz, a też pracują właśnie w robotyce. Oczywiście konferencje są bardzo dobrym miejscem na coś takiego.

Myśl przewodnia to jest te wszystkie dobre rzeczy, których się nauczyliśmy, te techniki, sieci neuronowe, które okazały się tak istotne w maszynowym uczeniu, jakoś przekuć ten sukces na sukces w robotyce. Więc to jest najważniejszy temat ogólny, natomiast oprócz tego to co wydaje się bardzo istotną rzeczą to to, że mamy fizyczne roboty, więc tych algorytmów, które produkujemy nie musimy testować tylko i wyłącznie w symulatorach, ale możemy na prawdziwych robotach. Oczywiście każdy kto się zajmuje robotyką wie, że tak naprawdę symulator, a prawdziwe urządzenie to są dwie różne rzeczy.

Można mieć algorytm, który dobrze działa na symulatorze, ale przenieść potem to na prawdziwego robota to z reguły jest to trudna rzecz i wymaga dużo wysiłku. Więc mamy możliwości robić to, mamy naszą flotę robotów i dlatego to połączenie podejścia teoretycznego do rozwiązywania trudnych, algorytmicznych problemów jest bardzo praktyczne. Mamy te fizyczne roboty, to jest właśnie taki dobry balans, który mamy w teamie. Tak to wygląda właśnie z lotu ptaka nasza działalność.

Powiedz jeszcze tak od kuchni, jak wygląda życie naukowca w takim zespole? Jak wygląda przeciętny dzień, jak się definiuje problem, ile na przykład trwa taki sprint?

Różnie to wygląda. Tych projektów jest dużo, a problemów naukowych, nad którymi pracujemy jest sporo, ponieważ team też jest duży. To są ludzie i na Wschodnim Wybrzeżu i na Zachodnim Wybrzeżu. Są też ludzie spoza robotycznego teamu, którzy współpracują z nami w Google. Też właśnie środowisko naukowe poza Google z Uniwersytetów.

Generalnie dobre fajne projekty trwają przynajmniej kilka miesięcy, ale taki projekt naukowy może trwać bardzo długo. Największym projektem naukowym, w którym siedzimy od powstania teamu to jest właśnie maszynowe uczenie dla robotyki. Natomiast mniejsze projekty to zależy bardzo dużo od tego kto siedzi akurat nad projektem, jak duży jest ten team, który pracuje nad tym konkretnym projektem, ale z reguły to jest przynajmniej ileś miesięcy, ponieważ to jest kwestia wymyślenia algorytmu, z reguły przetestowania na jakimś symulatorze na początku, ale największą frajdą jest jak da się to pokazać na prawdziwym robocie.

To też może trwać. Czasami właśnie największą sztuką jest przenieść te pomysły na prawdziwe urządzenie. Więc projekty mogą trwać od kilku miesięcy do kilku lat, więc duża różnorodność, bo dużo tych problemów też jest. Są problemy związane z manipulation, z robotami, które nawigują w terenie, które się przemieszczają i tak naprawdę różne techniki są wykorzystywane, żeby do tych problemów podejść i to są z reguły projekty, które trwają dłuższy czas.

Attention Mechanism

Jasne, rozumiem. Teraz porozmawiajmy właśnie o jednej takiej publikacji, której jesteś jednym z głównych autorów: Rethinking Attention with Performance. Ale zanim zaczniemy o tym mówić, zróbmy kilka kroków wstecz, aby każdy kto nas słucha trochę lepiej zrozumiał kontekst. Spróbujmy najpierw przypomnieć czym jest tzw. Attention Mechanism? Dlaczego on akurat jest taki pomocny w uczeniu maszynowym?

Attention Mechanism to jest technika, która jest znana w maszynowym uczeniu od wielu wielu lat. Tak naprawdę, mimo, że Transformersy stały się architekturami, które prawdopodobnie najlepiej by promowały Attention w środowisku ludzi zajmujących się maszynowym uczeniem. Idea jest prosta – to jest próba bezpośredniego modelowania interakcji, związków pomiędzy elementami w jakimś potencjalnie bardzo długim ciągu. Ten ciąg to może właśnie być ciąg słów, tak jak to jest w NLP.

To może być sekwencja pikseli czy patchów. To mogą być frames tak jak to jest w wideo. To jest próba modelowania związków pomiędzy właśnie tymi elementami za pomocą czegoś co się nazywa softmax kernels, który jest po prostu jakąś tam miarą podobieństwa pomiędzy obiektami. Ta miara podobieństwa jest w większości architektur modelowana i uczona za pomocą optymalizacyjnych algorytmów.

Czyli idea polega na tym, żeby te związki modelować bezpośrednio. Pomysł jest taki, że po pierwsze mnóstwo problemów w maszynowym uczeniu ma taki charakter sekwencyjny czyli można te dane rozpatrywać jako ciągi tych elementów, właśnie z tymi związkami, które pełnią kluczową rolę w zrozumieniu semantyki tych danych. Czyli np. jeżeli ma się zdanie to oczywiście związki między słowami w zdaniu czy w paragrafie czy dłuższym tekście, rozdziale, książce – modelowanie tych związków wydaje się być kluczowe do zrozumienia znaczenia tekstu. To modelowanie można zrobić bezpośrednio za pomocą atencji, więc to jest główna myśl przewodnia to co stoi za tym mechanizmem.

Jak działają Transformery?

Kolejnym takim tematem są Transformery, które powstały nie tak dawno – w 2018 r. One faktycznie zaczęły robić w pewnym sensie rewolucję, rozpoczęło się od NLP, ale do tego jeszcze dojdziemy. Ale najpierw takie pytanie: jak sobie tłumaczysz bardziej na poziomie intuicji, nie tyle jak to działa, ale dlaczego to działa? Było wiele różnych prób, kombinacji i nie wszystko wystrzeliło, to akurat tak. Dlaczego?

Kluczowym mechanizmem jest mechanizm atencji, o którym właśnie mówiliśmy. Tutaj tak naprawdę intuicją, którą ja mam jest taka, że w przeciwieństwie do wielu innych architektur, które operowały na sekwencjach elementów, na danych, które można było naturalnie interpretować jako uporządkowane ciągi elementów, w przeciwieństwie do wielu innych architektur (np. LSPM) te związki pomiędzy tymi poszczególnymi częściami składowymi – czy to są właśnie te słowa w tekście czy piksele w obrazie – są modelowane bezpośrednio.

Wcześniej przed atencją, Transformersami próbowano w jakiś sposób ominąć to, także dlatego, że jest to dosyć kosztowne, ale także dlatego, że nie byliśmy przygotowani na algorytmy, które wykorzystują atencję. Teraz jest inaczej. Dlatego wcześniejsze podejście polegało na tym, że próbowało się znaczenie tego ciągu skompresować do jakiegoś ukrytego stanu, który miał sumaryzować cały tekst. To jest to co właśnie np. robią LSPM.

Problem polega na tym, że ciężko jest skompresować (nawet jeżeli uczysz się tej kompresji, tak jak to jest w algorytmach maszynowego uczenia) cały tekst czy obraz w ukrytym stanie, który jest w miarę kompaktowy.

W podejściu atencyjnym, czy właśnie w Transformersach, które atencję wykorzystują pomysł jest zupełnie inny. Zamiast tego pojedynczego, ukrytego stanu, którego ciężko się nauczyć, trzyma się informacje, ukryte stany tych wszystkich elementów części składowych. Na pierwszy rzut oka to się może wydawać bardzo nieefektywne, ponieważ tych części składowych jest dużo, ale okazuje się właśnie, że z rozwojem technologii można było to zrobić bardzo efektywnie, a to co się otrzymuje to jest to ekspresywność tej całej architektury.

To, że możemy znaczenie tych poszczególnych elementów bezpośrednio składować i modelować relacje między nimi bezpośrednio powoduje, że jesteśmy w stanie zrozumieć lepiej semantykę tych danych, więc to jest intuicja. Wielu ludzi pracujących nad atencją i Transformerami ma, natomiast oczywiście intuicja to jest jedna rzecz, natomiast połączenie tego w całość (ponieważ Transformersy to nie jest tylko atencja, ale jest mnóstwo różnych bloków, które razem współgrają ze sobą) jest rzeczą nietrywialną i tak jak generalnie w historii maszynowego uczenia bywało, wiele tych rzeczy to jest jakaś intuicja, ale też dużo różnych prób, podejścia i któraś architektura po prostu nagle zaczyna działać. Ale właśnie intuicja wiąże się z bezpośrednim modelowaniem relacji pomiędzy elementami składowymi.

Gdzie można wykorzystać Transformery?

Zatem jeszcze jedno pytanie intuicyjne, koncepcyjne. Tak jak już było wspomniane, Transformery powstały w takiej dziedzinie NLP m.in. BERT to była taka bardziej kluczowa architektura. Później okazało się, że da się to adaptować. Najpierw poszło w kierunku computer vision albo może nawet muzyka w tej dziedzinie podziałać. To jest ciekawe. Jak interpretujesz ten fakt? Czy to jest jakieś takie prawo natury, w sensie, że udało się stworzyć pewien mechanizm/architekturę, która łapie pewne zależności w sposób bardziej ogólny? Dlaczego to działa akurat w różnych dziedzinach, które nie były na początek przemyślane, że tam powinny działać, ale akurat też wystrzeliły?

Wydaje mi się, że to jest po prostu jeszcze jeden z wielu przykładów na skuteczność matematyki w opisie otaczającego nas świata. Jeszcze jeden przykład, że metoda, która na początku została wymyślona być może właśnie z zamysłem o konkretnym zastosowaniu okazuje się zdecydowanie bardziej uniwersalna. Tak naprawdę, jak się popatrzy na te inne aplikacje to struktura matematyczna innych problemów, często jest bardzo podobna do tej struktury problemu tego NLP modelowania języka na przykład. Jeżeli się patrzy na zastosowanie w images to już wspomniałem o tym, że te słowa można zastąpić pikselami albo grupami pikseli. Relacje między nimi wydaje się, że powinny mieć kluczowe znaczenie dla zrozumienia semantyki obrazu. Tak jak relacje pomiędzy słowami w zdaniu mają kluczowe znaczenie dla zrozumienia sensu zdania.

Dlatego te techniki fajnie się transferuje z jednej dziedziny do drugiej i w tym bym upatrywał sukces. Oczywiście to nie jest tak, że Transformer, który się zastosuje w NLP można czasami jeden do jednego od razu zmapować do architektury, która będzie od razu działać w innej dziedzinie. Te rzeczy się adaptuje jakoś. Jakieś tam dodatkowe techniki, które się stosuje, biorąc pod uwagę konkretne zastosowanie, ale rzeczywiście główne algorytmiczne koncepcje pozostają bardzo podobne. W przypadku Transformersów to jest jest właśnie ta atencja, bezpośrednie modelowanie związków pomiędzy tymi częściami składowymi.

Takim bardzo fajnym przykładem tutaj jest bioinformatyka. To jest przykład, że wydawałoby się, że może ma niewiele wspólnego z takimi klasycznymi zastosowaniami Transformersów, a okazuje się właśnie, że można zastąpić te słowa w zdaniu poprzez aminokwasy w cząstce białka i relacje pomiędzy tymi aminokwasami można modelować w zasadzie bardzo podobnym algorytmem do relacji między słowami w zdaniu.

To jest jeszcze jeden przykład na uniwersalność matematyki i tego właśnie co Weinberg w swojej książce mówi, że w jakiś sposób tak zmierzamy do tej unifikacji, jest ileś tych idei, które pozwalają upraszczać opis świata. Tutaj taka mała unifikacja też następuje w maszynowym uczeniu, co tylko odzwierciedla jak zbudowany jest świat. Dzięki temu potrafimy tak dużo rzeczy zrobić w nauce, ponieważ byłoby straszne gdybyśmy musieli dla każdego nowego problemu wymyślać nowy algorytm, nową metodę od samego początku. Bardzo nieefektywne, a jakimś cudem okazuje się, że te idee się bardzo fajnie transferuje. To stanowi też o sukcesie nauki. Więc tak patrzę na uniwersalność Transformersów w maszynowym uczeniu. Tak długo jak masz dane o strukturze sekwencyjnej, te architektury się bardzo przydają.

Transformery same w sobie, jak już dzisiaj powiedziałem, że to była taka rewolucja jeżeli chodzi o NLP, ale też w computer vision. Natomiast wejdźmy teraz bardziej w krytykę, bo każde rozwiązanie ma swoje wady. Jakie problemy mają Transformery i dlaczego powstał Performer?

Powiedziałem, że to co stanowi o sukcesie Transformersów w jakimś sensie jest też najsłabszą stroną. Transformersy zrywają z tradycją opisu właśnie tego złożonego ciągu zależności poprzez bardzo skompresowany stan. Ale oczywiście ceną, którą płaci się za to, że te ukryte stany trzyma się dla tych wszystkich elementów ciągu jest kwestia efektywności. Jeżeli te ciągi są bardzo długie – przynajmniej tysiące elementów albo nawet miliony – to oczywiście modelowanie wszystkich zależności jest po prostu niemożliwe. Jeśli chodzi właśnie o compute time i space.

Po prostu fizycznie nie jest możliwe nawet przy dużych zasobach, na których można trenować te architektury, one mają z reguły przynajmniej miliony i biliony parametrów. Przy tak dużych zasobach po prostu bijemy głową o ścianę, jeżeli chcemy modelować wszystkie zależności w bardzo długich ciągach.

A wydaje się, że takie długie ciągi naturalnie powstają, jeżeli mówimy o zastosowaniach w maszynowym uczeniu. Jednym przykładem oczywiście jest Vision, piksele w obrazie, w high resolution image to tych pikseli będzie w milionach i modelowanie zależności pomiędzy każdą parą pikseli jest po prostu niemożliwe.

Innym przykładem będzie bioinformatyka. Wspomniałem o białkach. Białka to z reguły kilkaset aminokwasów. Ciąg o długości kilkuset elementów nie jest problemem dla Transformersów, ale przejdźmy teraz od białek do genomiki. Modelujemy transkrypcję genów czyli to mapowanie genów do białek, które powstają. Genom jest bardzo długi, miliardy elementów – nie jest możliwe modelowanie tych wszystkich zależności bezpośrednio za pomocą Transformersów i to jest problem.

No i mamy problem skalowalności dotyczący zdecydowanie dłuższych ciągów. Także uczynienie Transformersów architekturami, z których można korzystać nawet jeżeli nie ma się dużych zasobów obliczeniowych to jest myśl założycielska Performersów.

Przypominam sobie, jak jakiś czas temu uczyłem się – duże O i takie tam różne historie. To było na początek dla mnie bardziej nudne, bo w sumie nie było wiadomo po co to wszystko. A później jak już zaczynasz pracować np. z danymi, tzw. big data to tutaj masz taki wybór, że mniej optymalne rozwiązanie potrafi się liczyć godzinami albo nawet dniami lub tygodniami, a bardziej zoptymalizowane minuty albo nawet sekundy, więc tutaj od razu widać taką wartość dodaną. Ale też jest drugi wymiar, jak pamięć.

Tutaj fajnie, żeby to jeszcze bardziej wybrzmiało, w szczególności jak mówimy o kartach graficznych. Co prawda Nvidia trochę te rzeczy już naprawia, bo wcześniej to była jeszcze większa bolączka. Mam na myśli to, że karty GPU zwykle mają dość mało tej pamięci dostępnej i ten wyjątek, jeden z najsłynniejszych OOM (Out Of Memory) jest mega męczący.

Tak, zgadza się.

To chciałem, żeby też wybrzmiało, bo w sumie jeżeli chodzi o ten Performance liczenia, że trochę dłużej się liczy to jest problem, ale powiedzmy da się poczekać czasem, a jeżeli mówimy o pamięci to po prostu jest bloker. Jak brakuje pamięci to wszystko się zatrzymuje i nie działa. Więc dlatego to jest aż tak ważne, żeby to uruchomić.

Tak, Out Of Memory to jest koszmar ludzi, którzy próbują zastosować tego typu architektury dla bardzo skomplikowanych problemów, gdzie te ciągi są długie. Taki konkretny przykład z robotyki – atencję, która jest kluczowym elementem Transformersów, próbuje się wykorzystać do kompresji obrazów dla robotów. Czyli mamy robota, który dostaje jako input vision obraz np. z kamery i próbuje ten obraz skompresować, żeby zrozumieć tak naprawdę jakie części tego obrazu są kluczowe dla podejmowania decyzji w określonej chwili.

Można próbować właśnie tę kompresję robić za pomocą atencji. Jest wiele bardzo fajnych prac, które to pokazują. Natomiast tak naprawdę nie jest możliwe modelowanie tych pixel to pixel atencji za pomocą standardowego mechanizmu atencji. Można robić fajne rzeczy z obrazami powiedzmy 100×100, natomiast jeżeli mamy coś rzędu 1024×1024 i chcesz modelować pixel to pixel attention to jest to w zasadzie nie do zrobienia w standardowy sposób.

Poza tym, jeszcze dodatkowy problem związany z pamięcią i z czasem wykonania, nawet jeżeli zakładasz, że w jakiś sposób, jakimś cudem możesz tą skomplikowaną atencję policzyć. Czekasz powiedzmy tydzień czy miesiąc i to się liczy, korzystając z naprawdę bardzo dużych zasobów obliczeniowych, to potem to musisz często gdzieś to wstawić. W robotycznych zastosowaniach wstawiany na robota. To jest też problem, tzn. nawet przy dużych zasobach, koniec końców down screen application, gdzie to ma być zastosowane.

Wstawienie architektury, która ma miliony, biliony parametrów, która zjada kwadratową pamięć i potrzebuje czasu, żeby procesować te dane jest szczególnym problemem w robotyce, gdzie ten inference time musi być bardzo szybki, żeby te decyzje podejmować natychmiast. Oczywiście zasoby też pamięciowe takiego robota są małe. Nie da się olbrzymiej architektury przenieść 1:1 na robota.

Transformery w Machine Learning

ograniczenia i optymalizacje

Tak jak powiedzieliśmy Performersy przede wszystkim skupiają się na wydajności Transformerów, więc stąd jest też ta nazwa. Natomiast to nie były pierwsze próby, kiedy ludzie próbowali jakoś usprawnić Transformery. Były różne podejścia, ale z różnych powodów to nie wystrzeliło. Jakie miały wady te poprzednie próby naprawy Transformerów i dlaczego akurat Performersom to się udało?

Dużo jest podejść do stworzenia nie tylko efektownych, ale też efektywnych architektur transformerowych.

Rzeczywiście jest cała klasa algorytmów polegających na sparsyfikacji atencji. W jakimś sensie jest to takie najbardziej intuicyjne podejście, tzn. jeżeli nie potrafi modelować wszystkich zależności pomiędzy częściami składowymi to modeluję tylko niektóre z nich.

To, które zależności będą modelowane jest albo kwestią, której algorytm się uczy, albo zakodowaną np. takim najbardziej trywialnym podejściem byłoby po prostu powiedzenie, że jeżeli mamy sekwencję elementów to elementy, które są w jakimś sensie koło siebie w tej sekwencji to relacje między nimi powinny być modelowane. Natomiast elementy, które nie są koło siebie – niekoniecznie.

Czyli np. jeżeli mamy zdanie to słowa, które występują czy jakiś paragraf, tekst, pewnie jakiś związek mają. Słowa, które występują daleko od siebie, mogą mieć lub nie mieć, ale jeżeli nie wiemy jak modelować efektywnie to tego nie róbmy.

Tego typu podejście sprawdza się w wielu zastosowaniach, natomiast ma oczywiście kluczowe wady, tzn. jest wiele problemów, gdzie te relacje pomiędzy odległymi elementami w ciągu są bardzo istotne. Konkretnym przykładem jest choćby właśnie modelowanie białek. Mamy sekwencję aminokwasów, jeżeli o tym białku się myśli jak o sekwencji to rzeczywiście mamy fajny input dla Transformersa.

Wydaje się, że aminokwasy, które są koło siebie, relacje między nimi są najistotniejsze. Natomiast jeżeli się uzmysłowi sobie, że takie białko może się składać, ma 3d strukturę i aminokwasy, które w tej zwektoryzowanej, sekwencyjnej wersji są daleko od siebie, mogą znaleźć się bardzo blisko od siebie, bo białko się zwija to nagle się okazuje, że właśnie te parę aminokwasów, które są w tej zwiniętej strukturze blisko siebie, a były daleko w tej zwektoryzowanej, odgrywają olbrzymią rolę w zdefiniowaniu kształtu takiego białka. A kształt tego białka, jak wiemy ucząc się od biologów, ma kluczowe znaczenie dla zrozumienia jego funkcjonalności.

Więc jest mnóstwo problemów. Tutaj podałem przykład z bioinformatyki, gdzie modelowanie tych związków między odległymi elementami jest bardzo istotne. Właśnie jest to trudne do osiągnięcia z tymi metodami, gdzie się sparsyfikuje. Oczywiście można próbować nauczyć się, które z tych odległych relacji modelować, natomiast w praktyce jest to trudne.

Poza tym, dodatkowym problemem jest, że taka architektura, której uczy się w ten sposób, nie może zostać wykorzystana do usprawnienia czy wzmocnienia architektury, którą trenowało się zwykłym algorytmem. Czyli np. jeżeli team X skorzysta z jakiejś architektury i modeluje ten Transformers, trenuje go przez tydzień to nie będzie w stanie zrobić dodatkowego treningu z tą nową Spars Architecture, ponieważ te architektury nie są kompatybilne. To jest właśnie duży problem tego podejścia korzystającego ze sparsyfikacji.

Oczywiście jest wiele sytuacji, w których ciągi są na tyle krótkie, że to nie jest problem i nawet nie trzeba sparsyfikować. Ale kiedy okazuje się, że trzeba sparsyfikować to zaczynają się schody. Poza tym te wszystkie metody sparsyfikacji, one nie aproksymują tak naprawdę atencji dokładnie – tej standardowej atencji. Raczej zamieniają tę atencję w trochę prostszą atencję, gdzie mnóstwo elementów jest wyzerowanych, mnóstwo relacji się nie modeluje. Oczywiście ta prostsza atencja jest słabsza też w tym sensie, że jakość takiego Transformersa różni się od Transforemersa, który by się trenował w sposób standardowy, ale nie można tak, ze względu computational costs.

To są tego typu problemy związane z sparsyfikacją.

Jak czytałem publikację, o której teraz właśnie rozmawiamy to z jednej strony było czuć, że była przygotowana przez naukowców – tam jest dużo różnych matematycznych wzorów. Ale z drugiej strony było bardzo czuć, że to podejście jest takie praktyczne, czyli sam problem, który jest rozwiązywany jest praktyczny i też takie zdania, które można było złapać pokazują sposób myślenia.

Na przykład tam było zaznaczone, że Performer jest w 100% kompatybilny ze zwykłym Transformerem albo np. była taka twarda gwarancja matematyczna, że to rozwiązanie, to prawdopodobieństwo, będzie stabilne. Więc spróbujmy wyjaśnić tak w praktyce, co to oznacza i dlaczego akurat to było wyróżnione.

Performersy opierają się na bardzo prostej idei. To jest idea dekompozycji tej atencji na części składowe, które są prostsze niż ta standardowa atencja. Czyli jest to próba dekompozycji atencji w taki sposób, że te części składowe połączone znowu razem w jakiś tam aproksymacyjny sposób, dobrze przybliżają tę prawdziwą atencję, ale umożliwiają właśnie zdecydowanie bardziej efektywne policzenie tej atencji.

Prostota tego pomysłu polega na tym, że (do tego odnosimy się jak mówimy o kompatybilności) tak naprawdę jedyna rzecz, którą się zmienia w Performersach to sposób liczenia atencji. Wszystkie pozostałe elementy Transformersów są takie jak w standardowych architekturach albo jakiś tam zmodyfikowanych architekturach. Jednym słowem, można wziąć sobie swój ulubiony Transformer (a teraz tych różnych wersji Transformersów na rynku jest mnóstwo) i w zasadzie jedyną rzecz, którą się robi to się podmienia właśnie sposób liczenia tej atencji na ten moduł, który jest wykorzystywany w Performersach.

Kompatybilność polega właśnie na tym, że bardzo łatwo można to podmienić, a także na tym, że sposób modelowania relacji pomiędzy elementami, pozostaje dokładnie taki sam jak w oryginalnej architekturze. To znaczy w szczególności modelowane są wszystkie relacje, natomiast nie w sposób bezpośredni, tzn. nie materializuje się tego bezpośrednio, nie trzyma się tych wszystkich relacji bezpośrednio w pamięci, natomiast one są tak naprawdę wszystkie modelowane w sposób bardziej kompaktowy za pomocą tej dekompozycji, o której wspomniałem.

Dzięki temu można te architektury czy ten algorytm używać do kontynuowania trenowania architektur, które trenowało się wcześniej innym algorytmem. Po prostu podmieniając tylko sposób, w jaki tę atencję się liczy. Czyli tak naprawdę prostota, fakt, że nie trzeba też wszystkiego budować od początku to wydaje mi się jest kluczowy element. Jest wiele architektur na rynku, ale wiele z tych innych podejść jest dosyć skomplikowanych z praktycznego punktu widzenia.

Natomiast tutaj rzeczywiście mamy bardzo jasne podejście do tego, w jaki sposób modyfikować te architektury – taki bardzo chirurgiczny sposób. Nie zmienia się wszystkiego, zmienia się tylko jeden konkretny element, który pełni kluczową rolę w Transformersach, jeśli chodzi o otrzymanie dobrej jakości modeli.

To jest właśnie ta kompatybilność i my to trenowaliśmy po prostu na wielu różnych problemów, także właśnie z bioinformatyki. Dla nas było istotne, żeby właśnie wymyślić coś, co będzie łatwe do użycia. Będziesz mógł wziąć swoją architekturę, dokonać tej małej modyfikacji i będziesz mieć performance variance tej swojej architektury, z tymi wszystkimi zaletami, które płyną z liniowej zamiast kwadratowej złożoności czasowej i pamięciowej.

A propos gwarancji też może coś dodasz?

Mamy dosyć fajną analizę teoretyczną tego algorytmu, więc okazuje się, że ten nasz sposób przybliżania… chociaż ta atencja, którą liczymy nie jest to dokładnie ta atencja w regularnym Transformersie, ale jej aproksymacja, natomiast ona jest dosyć dokładna i w artykule podajemy liczby, kwantyfikujemy to dosyć dokładnie, jak dokładna ona jest.

Też jest to co nazywamy unbiased czyli tak naprawdę przybliżanie atencji jest algorytmem proabilistycznym, natomiast wartość oczekiwana tej atencji, którą wylicza się tym algorytmem jest dokładnie tym, co chcemy, czyli tą regularną atencją. A błąd czyli wariancja, może być dosyć dokładnie policzona. To jest duża różnica w porównaniu z innym podejściem. To jest tak naprawdę zastąpienie standardowego mechanizmu przez mechanizm aproksymacyjny z bardzo mocnymi gwarancjami teoretycznymi. Tam jest wiele różnych, dodatkowych technik, które pełnią bardzo ważną rolę w osiągnięciu algorytmu, który właśnie dosyć dokładnie aproksymuje tę regularną atencję. W szczególności algorytmy z dziedziny, którą nazwałabym Quasi-Monte Carlo.

Techniki, które wykorzystywaliśmy wcześniej, w wielu innych problemach, ale matematyka jest uniwersalna i okazało się po raz kolejny, że pełnią istotną rolę także tutaj. Tak więc powiedziałbym, może nie skromnie trochę, że jeśli chodzi o gwarancje teoretyczne tej atencji, którą proponują Performersy to pod względem teoretycznym to jest moim zdaniem jedna z niewielu prac, gdzie jest rzeczywiście wysiłek, żeby zrozumieć też dlaczego ten mechanizm działa, a nie tylko pokazać, że działa. Sądzę, że wiemy dosyć dokładnie, dlaczego działa, częściowo wyjaśniając to ze względu też na limit stron w artykule.

Tutaj dodam oczywiście, że te wszystkie szczegóły matematyczne to jak najbardziej polecam przeczytać publikację, bo tam faktycznie fajnie można spędzić czas czytając różne szczególiki. Ale z drugiej strony jednak chciałbym trochę dopytać o kilka rzeczy, które zresztą wprost chyba nie są tak jednoznacznie powiedziane, bo to jest trochę o czymś innym. Czyli to co już dotychczas było powiedziane to było to, że Transformery same w sobie podbijają rynek, to po prostu działa, ale są tzw. pewne bottlenecki , które są mało wydajne czyli ten mechanizm atencji.

Teraz to co udało się tu stworzyć w sposób chirurgiczny – wymienić ten komponent, który jest za wolny na ten, który nie jest za wolny. To jest taka pełna aproksymacja, ale też jak powiedziałeś to przed chwilą, z punktu widzenia teoretycznego da się udowodnić, że to działa stabilnie, dokładnie i na tym też polega właśnie wartość dodana, jeżeli chodzi o tą pracę naukową.

Natomiast jeżeli chodzi o parametry. Chodzi o znalezienie tzw. kernela, który próbuje to aproksymować. Tam są różne parametry, np. takie h(x), który domyślnie był tam jako 1. Też liczba funkcji f i w albo omega. Tak na poziomie intuicji, najważniejsze wnioski, które udało się wyciągnąć właśnie eksperymentując przy tej publikacji i jak te parametry dobierać?

Aproksymując tę atencję. Tak jak wspomniałem wcześniej, modelowanie atencji to jest po prostu bezpośrednie modelowanie zależności pomiędzy elementami. Do modelowania zależności pomiędzy elementami musimy mieć jakąś definicję podobieństwa między elementami. Jak dwa elementy są związane ze sobą to chcemy mieć jakąś miarę podobieństw. To podobieństwo w maszynowym uczeniu nazywa się kernel.

To jest po prostu fajne słowo dla funkcji, która liczy podobieństwo między elementami. Ale oczywiście w maszynowym uczeniu, tę funkcję podobieństwa się też trenuje. Trenuje się pewne parametry, natomiast jest pewna struktura, której się nie trenuje. Ta struktura to jest jakby ten szkielet tej funkcji podobieństwa, szkielet kernela. W tradycyjnych Transformersach ten szkielet jest opisywany przez coś co się nazywa softmax kernel. Nie wchodząc w szczegóły jest to taki bardzo fajny szkielet, na którym można budować właśnie te funkcje podobieństwa, natomiast ten szkielet jest niesłychanie efektywny w praktyce. Mówisz o tych różnych funkcjach h itd. – bawiąc się tymi różnymi funkcjami można te szkielety zmieniać.

Czy chcemy te szkielety zmieniać czy nie to jest pytanie. Ten softmax kernel szkielet jest bardzo dobry. On w praktyce działa niesłychanie dobrze i dlatego jednym z dużych wyzwań, które mieliśmy jak pracowaliśmy nad Performersami to mieć pewność, że co prawda możemy udostępnić inne szkielety i cały czas mieć tę liniową atencję zamiast kwadratowej, ale że jesteśmy w stanie korzystać teraz też z tego szkieletu softmax kernel, który okazuje się niezwykle efektywny do modelowania zależności.

Tak naprawdę, jednym z dużych teoretycznych moim zdaniem fajnych pomysłów w tej pracy to jest efektywny sposób modelowania tego softmax kernel szkieletu. To jest związane właśnie z konkretnym wyborem tego h, tych parametrów o których mówisz. Jak się wczyta w pracę to tam jest powiedziane, że możemy modelować ten softmax kernel szkielet za pomocą losowych Random features, natomiast jest nowy mechanizm, z którego korzystamy tam.

Standardowy mechanizm, który tak naprawdę też zaproponowaliśmy w pracy, ale okazało się, że nie działał dobrze to jest mechanizm, który korzysta z trygonometrycznych funkcji do modelowania tego szkieletu. On w praktyce nie jest stabilny, tzn. właśnie okazuje się, że jak się próbuje trenować Transformersy tym mechanizm, on się cechuje za dużym błędem, za dużą wariancją. Ten nowy mechanizm opiera się na exponential functions do modelowanie właśnie tego szkieletu to są właśnie te parametry, które się wybiera i jest zdecydowanie bardziej stabilny. Tak naprawdę jest pierwszym efektywnym mechanizmem modelowania tego softmax szkieletu w taki sposób, że cała architektura, cały mechanizm atencji jest ciągle liniowy.

Tak jak to jest w innych wersjach Performersa, gdzie korzystamy z prostszych szkieletów, gdzie liniowość wychodzi automatycznie z definicji szkieletu.
Więc tak naprawdę, jeśli chodzi o wybór parametrów to wybranie szkieletu związanego z softmax kernel jest zawsze bardzo dobrym pomysłem. Mamy nowy mechanizm właśnie, który pozwala korzystać z tego szkieletu. Natomiast bardzo często to, co działa w praktyce, jest prostsze i to jest tzw. Performers Value.

W praktyce to jest mechanizm nie losowy, tam nie ma Random Features. W praktyce jest bardzo szybki do policzenia. Jeszcze szybszy niż ten mechanizm losowy. Bardzo często działa naprawdę fajnie, więc tak naprawdę wybór tych parametrów, wybór tego szkieletu, tego kernela, który będzie uczony, ale wybór szkieletu, którego się nie uczy, z którego korzysta się, zależy w dużej mierze od aplikacji.

Jeżeli mamy aplikację, gdzie tak naprawdę zastosowanie standardowego Transformersa jest niemożliwe, ze względu na długość ciągu (właśnie te problemy obliczeniowe) to często właśnie te zastosowanie aproksymacji tego szkieletu softmaxa, korzystającego z Random Features jest bardzo fajnym pomysłem, bo to Ci od razu zmienia problem na liniowy i możesz korzystać z bardzo mocnego kernela.

W wielu innych zastosowaniach, gdzie liczy się przede wszystkim czas, po prostu chcesz mieć bardzo szybkie trenowanie albo bardzo szybką inferencję. W tym momencie ten ReLu kernel jest bardzo dobrym pomysłem, ponieważ to się po prostu jeszcze szybciej liczy.

Można też zmieniać z 1 kernel podmieniać na 2 kernel. To jest bardzo fajna rzecz związana z Performersami. Czyli można trenować z jednym kernelem, a potem robić up training albo finetunings. Innym szkieletem – możesz wziąć architekturę, która jest trenowana z jednym szkieletem, jak trenować z innym szkieletem. Właśnie to flexibility to jest coś, co uważam za jedno z najbardziej atrakcyjnych własności Performersów.

Doktorat na Columnia University

Myślę, że tu wyobraźnia została już dość mocno pobudzona, więc temat Performersów na razie zamykamy na dzisiaj. Teraz pozwolę sobie zmienić temat. Robiłeś doktorat na Columbia University. Jak oceniasz tę decyzję z perspektywy czasu? Na ile właśnie ta decyzja pomogła zbudować karierę, którą już masz, gdzie się rozwijasz, zmienić otoczenie? Powiedz, co o tym myślisz.

To było bardzo istotne, ponieważ tak naprawdę otworzyło mnie na wielką naukę. Możliwość pracy z naukowcami, którzy są naprawdę światowymi ekspertami w dziedzinie. W Kolumbii pracowałem nad teorią grafów. Miało to niewiele wspólnego tak naprawdę z maszynowym uczeniem, ale pracowałem nad trudnymi problemami. Wiele z nich cały czas są to otwarte problemy. Z ludźmi, którzy są naprawdę na topie, jeśli chodzi o tego typu rzeczy. Więc jakby jest to zupełnie inne doświadczenie niż to co miałem wcześniej.

W Polsce bardzo dużo nauczyłem się jeśli chodzi o techniki. Te techniki matematyczne, powiedziałbym, że na najwyższym poziomie i to jeszcze przed rozpoczęciem doktoratu, więc byłem w dosyć komfortowej sytuacji, nie musiałem się wielu rzeczy uczyć. Natomiast to jest temat na oddzielną dyskusję na temat inwestycji w naukę w różnych krajach. W Stanach Zjednoczonych rzeczywiście jest takie podejście, że… są oczywiście fundusze na naukę przez duże N.

Ponieważ pracują ludzie z całego świata to się wzajemnie od siebie uczymy i też jest po prostu łatwiej wpaść na coś przełomowego. Więc to miało olbrzymie znaczenie. Mnie otworzyło na taki research, którym zajmuję się już od wielu lat. Natomiast chcę podkreślić, że tak naprawdę gdyby nie lata w Polsce, gdzie nauczyłem się mnóstwo ważnych technik na Uniwersytecie Warszawskim i jeszcze przed Uniwersytetem Warszawskim to wszystko to nie byłoby możliwe.

Natomiast fundusze, które są kierowane na naukę w Stanach są nieporównywalne z innymi krajami i to się widzi nawet jak się zaczyna robić doktorat w Stanach. Więc miało to olbrzymie znaczenie, w jaki sposób ukierunkowało moje myślenie na temat kariery naukowej i chęci pracy nad tymi najtrudniejszymi problemami, rozwiązywania ich.

Więc skoro jest to taka ważna decyzja to spróbujmy teraz podpowiedzieć osobom, które teraz są na takim etapie życiowym, mają dylematy w głowie czy próbować czy nie. Jakie 3-5 trików podpowiesz osobie, która rozważa czy robić doktorat czy nie? Gdzie go robić, jak robić albo jak się np. zaczepić w Stanach Zjednoczonych?

Czy da się to robić zdalnie w tych warunkach, w których teraz jesteśmy? Podpowiedz tak po ludzku, jaka jest najkrótsza możliwa ścieżka, żeby ktoś, kto powiedzmy być może w tej chwili czuje się trochę zagubiony, być może też nie ma pieniędzy, ale ma chęć, motywację do działania, co on może zrobić?

Opcji jest bardzo dużo. Wiele osób nie zna tych opcji i tutaj jest problem. W większości przypadków tak naprawdę (tak było w moim przypadku) za doktorat nie musisz płacić Uczelni – dostajesz stypendium. Oczywiście są wyjątki, czasami może się zdarzyć, że osoba zostaje przyjęta na doktorat, ale właśnie bez tego stypendium co jest dużym problemem. Natomiast w większości przypadków (99,9%) przyjęcie na doktorat na prestiżowej uczelni amerykańskiej wiąże się z otrzymaniem stypendium.

To stypendium pokrywa wszystko – akademik, koszty związane z uczeniem itd. Ja w przeciągu całego doktoratu nie musiałem zapłacić centa z własnej kieszeni za te opłaty, które na pierwszy rzut oka wydają się duże. Są duże, jeżeli chce się płacić samemu, ale oczywiście uczelnie amerykańskie działają w ten sposób, że pomagają. Ponieważ w innym przypadku, większość studentów nie miałoby po prostu możliwości studiowania, gdyby musiała to wszystko opłacać samo. Więc to jest pierwsza rzecz, żeby się nie martwić tak bardzo o te kwestie finansowe, ponieważ jeżeli dostaje się ofertę to z reguły te kwestie finansowe są dosyć dobrze rozwiązane.

Natomiast jeśli chodzi o jakieś inne rady, generalnie uważam, że doktorat na prestiżowej uczelni, czy to jest amerykańska czy jakakolwiek inna to jest bardzo fajna rzecz. Szczególnie w Stanach po doktoracie z przedmiotu ścisłego, technicznego jest mnóstwo opcji. Można zostać na uczelni, kontynuować jako postdoc, myśleć o full time position. Można myśleć o pracy.

To była moja ścieżka, kiedy przeszedłem do Googla. Jest mnóstwo firm, które są zainteresowane osobą, która ma doktorat z dziedziny ścisłej – czy to jest matematyka, informatyka, maszynowe uczenie. To są ważne dziedziny, w które się inwestuje teraz. Więc ja zawsze mówię, że doktorat na tego typu uczelni amerykańskiej czy jakiejkolwiek innej mocnej uczelni na świecie to jest po prostu inwestycja w siebie. Uczelnia pokrywa koszty, ale to nie jest oczywiście czas, kiedy będzie się zarabiało pieniądze to jest to mimo wszystko bardzo fajna inwestycja, która pozwala potem rozważać wiele opcji.

Wiele osób mówi właśnie, że nie potrzebują doktoratu, ponieważ tak naprawdę mogą się nauczyć tych wszystkich rzeczy omijając tą ścieżkę – od razu skacząc do pracy z branży. Często tych propozycji nie ma aż tak atrakcyjnych, jeżeli tego doktoratu się nie ma. Ale poza tym doktorat to jest też kwestia poznania ludzi, którzy potem albo pracują z Tobą, albo spotyka się ich w różnych momentach swojego życia. Często właśnie współpracuje się z innymi teamami i nawiązywanie tych relacji podczas doktoratu jest bardzo ważne.

Tak więc moja rada to jak najbardziej iść na doktorat na prestiżowej uczelni. Taka ostatnia wskazówka, którą chciałbym się podzielić to, żeby nie mieć żadnych obaw, że nie powinienem czy nie powinnam się tym zająć, ponieważ ileś tam osób przede mną siedziało nad tym, próbowało to zrobić i się nie udało. To jest bardziej taka filozoficzna uwaga. Pewność siebie w każdej dziedzinie życia – w sporcie, nauce jest bardzo istotne. Jest istotna właśnie, jeżeli myśli się czy o doktoracie czy o karierze naukowej.

Oczywiście z jednej strony docenić to co inni zrobili jest piekielnie ważne, ale to co zrozumiałem dosyć wcześnie to to, że nie można o tym myśleć za dużo. Nie przeskoczysz tych wyników, jeżeli myślisz, że to jest poza zasięgiem. Nie mieć żadnych sentymentów, jeśli chodzi o to co inni zrobili. Doceniać pracę, szanować ją, szanować wysiłek, ale nigdy nie myśleć, że jest to jakaś przeszkoda, której nie da się przeskoczyć. Tylko w ten sposób można osiągnąć sukces, czy w nauce czy w sporcie. To widzimy tak namacalnie na każdym kroku. Więc to jest generalnie filozoficzna uwaga, ale wydaje się istotna.

Oczywiście te najlepsze uczelnie mają najlepszych studentów z całego świata, ale tak jak mówię, tym studentem może być Pan X czy Pani Y i to tak naprawdę od Ciebie zależy na koniec czy tak będzie czy nie. I oczywiście ciężka praca. To jest jakby wyświechtany termin, ale ileś procent to jest talent, który jest istotny, ale 70% to jest ciężka praca. Jest dużo ludzi utalentowanych, natomiast połączyć to z powtarzalnością, która jest potrzebna jak się robi doktorat czy potem właśnie w nauce. To jest kluczowa rzecz – wtedy ten talent fajnie działa i sukcesy można osiągać. Więc tyle, jeżeli chodzi o kilka takich ogólnych uwag dotyczących kariery naukowej i planowania tego.

Bardzo dziękuję. W szczególności też za te filozoficzne wątki, bo dość mocno to ze mną rezonuje. Słuchając jednego z Twoich wywiadów, fajnie powiedziałeś o studentach, którzy dość często nie wiedzą, że coś jest niemożliwe i dzięki temu mogą być bardziej efektywni, bo nie blokują się. Owszem, czasem popełniają proste błędy, których być może niektórzy nie powinni popełniać, ale przez to, że nie mają za dużo blokad w swojej głowie to po prostu próbują robić rzeczy bardziej odważne. A historia pokazuje, na ile takie podejście pozwalało odkrywać takie rewolucyjne rzeczy.

Jak sobie radzisz z tym? Jak w pewnym momencie już wiesz coraz więcej i wiesz co nie działa, jak sobie radzisz z tym, żeby mieć cały czas otwarte oczy, otwarty umysł i ignorować to pojęcie, że coś się nie da. Po prostu wszystko się da.

Generalnie pasja do nauki. Dla mnie te kwestie naukowe czy matematyka to jest taki piękny pojedynek z matką naturą, wydzierania jej sekretów. To jest taki pojedynek, który nigdy się nie kończy. Ja w ten sposób to traktuje. Uważam, że te prawa głębokie, to do czego docieramy to jest gdzieś zapisane. Jest wiele różnych filozoficznych podejść. Jest takie podejście, że my ludzie tak naprawdę tę tematykę, te prawa stojące za nią w jakiś sposób, sami tworzymy tę naszą wersję. Jest grupa, która uważa, że to jest gdzieś zapisane, a my to odkrywamy.

Więc ja należę do tej drugiej. Rzeczywiście, jeżeli myśli się o tym w kontekście pięknego pojedynku z matką naturą, który jest ciężki i te sekrety się wydziera z trudem to ma się frajdę nawet jeżeli jest problem trudny, nawet jeżeli właśnie się wie, że ileś tam osób wcześniej pracowało nad tym i tego nie zrobiło, bo się wie, że to gdzieś jest. To jest gdzieś ukryte i może Ty będziesz tą pierwszą osobą, która to zobaczy. To jest tego typu podejście. Dziecięca więc ciekawość. To pamiętam miałem od najmłodszych lat dzieciństwa, żeby właśnie odkrywać to co natura stara się szczelnie czasami ukryć. Wtedy jak się na to patrzy w ten sposób to nie myśli się tak naprawdę o tym co Pan X, Y, Z zrobił wcześniej czy czego nie zrobił, tylko myśli się właśnie o tym co ja mogę zrobić i jak wygrać kolejny z pojedynków.

To jest moje podejście. Trochę przez zabawę. Trzeba mieć frajdę z tego co się robi. Jeżeli się człowiek zacznie zastanawiać jak problem jest trudny, jak wiele było różnych innych podejść to na starcie można się poddać.

Fajnym przykładem są te Transformersy. My się zaczęliśmy zajmować Transformersami niedawno, chyba półtora roku temu. Oczywiście same Transformersy to też jest dosyć nowy temat, natomiast ten mechanizm atencji jest znany od wielu wielu lat. Jest mnóstwo ludzi, którzy siedziało nad Transformersami wcześniej bardzo mocno i próbowało wielu różnych rzeczy. Okazało się, że było takie świeże podejście, gdzie nie myśleliśmy za bardzo kto co zrobił wcześniej, tylko mieliśmy konkretny problem, który matka natura postawiała. Uważaliśmy, że jest jakieś tam rozwiązanie, które możemy odkryć. To było fajne podejście, które doprowadziło do tego, że udało się te Performersy wymyślić.

Więc na każdym kroku, wszystkim polecam, nie zajmujcie się, nie zastanawiajcie się nad wielkimi tego świata, co zrobili, czego nie zrobili, patrzcie na matkę naturę, na własny pojedynek. Tak jak w westernach – Ty versus przyroda, świat otaczający, który kieruje się tymi ukrytymi prawami. Tylko to się liczy. To jest właśnie ta frajda, którą się ma z nauki koniec końców. A reszta – hierarchie, że ktoś coś zrobił, czegoś nie zrobił nie ma żadnego znaczenia.

Bardzo piękne. Zresztą to zdanie – trzeba mieć frajdę – myślę, że to jest takie mocne zdanie, które trzeba przyswoić. Jak po prostu jest coś na siłę to stąd się biorą dość często różne wątpliwości. Jak bawisz się w to co robisz to nie ma obawy, po prostu robisz to co lubisz.

Machine Learning za 5-15 lat

To już tak na koniec, jak w ogóle widzisz rozwój Machine Learning w ciągu 5-15 lat? Jakie kamienie milowe są możliwe? Oczywiście to wszystko zweryfikuje historia i wiem, że wróżenie to nie jest najprostsza rzecz. Ale z drugiej strony bardzo ciekawy jestem takiej Twojej intuicji, być może takich marzeń naukowych?

Wydaje mi się, że jesteśmy w ogóle na początku drogi do stworzenia nowej technologii, z której czerpać będzie cała cywilizacja, ponieważ oczywiście takim końcowym efektem, na który wszyscy czekają to jest ta sztuczna inteligencja. Ale jak słyszę często właśnie w mediach, że się mówi, że już mamy tą sztuczną inteligencję to tylko się uśmiecham, ponieważ wiem, jak daleko jesteśmy od tego. Stworzenie maszyny, która uczyłaby się przynajmniej częściowo jak człowiek jest jeszcze cały czas poza naszym zasięgiem.

Więc to wydaje się tak naprawdę największym wyzwaniem i mam nadzieję, że w przeciągu najbliższych X lat – nie wiem czy 20, 50, 100 – uda się zrobić duży postęp. To co jest niesamowitą własnością, którą ludzie posiadają to jest generalizacja, czyli uczenie się na podstawie bardzo małej liczby przykładów i generalizowanie skomplikowanych sytuacji, często sytuacji, w których nie było się wcześniej – na podstawie tej nabytej wiedzy.

Oczywiście algorytmy, z których korzystamy teraz nie mają z tym paradygmatem nic wspólnego. Nawet te Transformersy, o których mówimy z dumą, ponieważ pozwalają rzeczywiście nam zrobić to, czego inne architektury nie były w stanie, korzystają z olbrzymiej ilości danych i wymagają czasu na nauczenie.

Generalnie wydaje mi się w środowisku naukowym jest zgoda, że potrzebujemy zupełnie nowych idei, żeby trenować te systemy, które miałyby tą sztuczną inteligencję osiągnąć. Że tak naprawdę ten paradygmat głębokich sieci neuronowych, które zarzucamy ogromnymi ilościami danych i trenujemy przez X czasu to jest jakieś lokalne maksimum. Rzeczywiście wiele fajnych rzeczy możemy z tym zrobić, ale nie rozwiążemy wielu problemów. Nawet w robotyce jest mnóstwo problemów bardzo namacalnych, które mamy teraz, które nie jesteśmy w stanie rozwiązać za pomocą standardowych technik, z których korzystamy dzisiaj.

Co tym nowym paradygmatem miałoby być – nie wiem. Gdybym wiedział to pewnie bym już starał się opublikować i byśmy to jakoś stosowali. Ciężko jest tak przewidzieć też rozwój nauki. To jest super losowa rzecz, jak działa ludzki mózg, że jak wpadamy na odkrycia. Teoria odkryć naukowych – nie mamy dobrej teorii odkryć naukowych stety albo niestety. Natomiast wydaje się, że jest potrzebna zmiana myślenia na temat takich standardowych technik, które teraz uważamy za klasyczne z punktu widzenia maszynowego uczenia, ale nie są efektywne, jeśli chodzi o ilość danych, które muszą być przetworzone.

Więc to jest wyzwanie. To jest oczywiście też moje marzenie, żeby w jakiejś mierze kontrybuować do tej nowej rewolucji, która moim zdaniem musi się wydarzyć, żebyśmy przeszli od problemów, gdzie maszynowe uczenie jest wykorzystywane, ale jest wykorzystywane ostrożnie do sytuacji, gdzie możemy w pełni zaufać algorytmom maszynowego uczenia w podejmowaniu skomplikowanych decyzji, które byłyby podejmowane na podstawie właśnie ekstrapolacji, tej informacji, przypadków do sytuacji, w których algorytm nigdy wcześniej się nie znalazł. Nie wiemy jak to robić dobrze i to jest Święty Graal wszystkich, którzy zajmują się teraz maszynowym uczeniem.

Krzysztof, bardzo dziękuję za piękną, fajną, też motywującą rozmowę. Bardzo fajne rzeczy tu wybrzmiały, wartościowe. Wszystko podlinkujemy – publikację, Linkedin, więc zapraszam też do kontaktu z Krzysztofem. Dzięki wielkie i do usłyszenia.

Bardzo dziękuję. Cała przyjemność po mojej stronie. Do usłyszenia.

Ten odcinek troszkę nam się wydłużył, ale mam nadzieję, że było warto. Wiem, że czasem warto robić troszkę krótsze odcinki, ale z drugiej strony jak się rozmawia z człowiekiem i płyną takie różne, ciekawe informacje i jest ta pozytywna energia – bardzo to czuję, jestem taki bardzo zmotywowany, żeby takimi rzeczami z jednej strony się z Tobą podzielić, a z drugiej strony też, żeby pewne klocki u mnie w głowie się poskładały, żeby jeszcze bardziej się nakręcić i zmotywować do działania. Mam nadzieję, że Ci się podobało.

Zapowiadałem, że tutaj mamy cały plan innych odcinków. Bardzo ciekawy jestem Twojej opinii na temat tych naszych eksperymentów, np. zapraszania ludzi ze świata akademickiego, naukowców. Cały czas łączymy to z praktyką. Krzysztof według mnie jest właśnie takim bardzo ciekawym kandydatem, kiedy z jednej strony to jest ewidentnie człowiek ze świata naukowego, ale z drugiej strony rzeczy, które robi, robi tak, żeby rozwiązywać praktyczne problemy.

Jestem ciekawy Twojej opinii, co myślisz o tym samym podejściu, na ile to Ci odpowiada. Na koniec też mam taką jedną prostą prośbę do Ciebie – jeżeli to co robimy w ramach Biznes Myśli ma sens dla Ciebie to bardzo proszę podziel się przynajmniej z jedną osobą, a może z kilkoma informacją o tym odcinku. Dzięki temu więcej osób się dowie też, że być może zmieni się ich życie albo przynajmniej częściowo się zainspirują.

A z drugiej strony też jest takie poczucie wdzięczności, że to co robimy po prostu ma sens, bo to jest ważne robić rzeczy, które mają sens, bo wiele różnych rzeczy można robić w tym świecie. Wydaje mi się, że znalezienie pewnych takich formuł, które w sposób najbardziej efektywny przekazują pewną wiedzą, inspirację, motywację, dlatego tak eksperymentujemy. Dlatego też Twoja informacja zwrotna jest bardzo potrzebna.

To tyle na dzisiaj.

Bardzo dziękuję za wspólnie spędzony czas. Życzę Ci wszystkiego dobrego, cześć, na razie, trzymaj się.

Artykuł Transformery w Machine Learning pochodzi z serwisu Biznes Myśli.

3 krótkie historie efektywnego rozwoju

Vladimir — Mon, 23 Nov 2020 04:04:29 +0000

Jak rozwijać się, aby czuć rozpęd i satysfakcję? Praktyczne uczenie maszynowe to bardzo rozległy obszar wiedzy i działań, który daje wiele możliwości, ale także potrafi zwieść na manowce i sprawić, że zacznie się błądzić, co może kosztować wiele czasu, energii i frustracji. Poznaj 3 krótkie historie efektywnego rozwoju, które mogą stać się dla Ciebie inspiracją i cenną wskazówką.

Jeśli jesteś na tym blogu od dłuższego czasu, to wiesz, jak bardzo zależy mi na tym, żeby dzielić się wiedzą i uwalniać potencjał. Tym razem zaprosiłem do rozmowy trzy osoby, które brały udział w kursach DataWorkshop. Gdy obserwuję, jak się zmienia świat po tych kursach, to czuję wartość dodaną.

Dlatego nagrywam podcast i piszę ten tekst dla osoby, która w tej chwili potrzebuje takiej pomocy. Lubię zapraszać uczestników kursów, bo ich historie są inspirujące i nierzadko motywują słuchaczy podcastu i czytelników bloga do zmiany czegoś w życiu. Często zdradzają, że wcześniej nie mieli w swoim otoczeniu nikogo, kto interesowałby się omawianymi tutaj tematami, a znaleźli tu dla siebie coś wartościowego. Niektórzy dzięki kursowi zmieniają firmę lub stanowisko na bliższe uczeniu maszynowemu.

Chcę o tym mówić szczególnie, że w tej branży krąży wiele mitów m.in. dotyczących tego, że machine learning to dziedzina tylko dla osób technicznych, programistów. Najpierw trzeba mieć 5-10 lat doświadczenia w programowaniu, dopiero później wkracza się do świata uczenia maszynowego. Oczywiście to wszystko nie jest łatwe. Widuję też osoby, które nie chcą zrobić nic i mieć wszystko – to się zdarza i to nie działa.

Widzę także takie przypadki, kiedy człowiek, który wcześniej wątpił, wahał się, czy warto zacząć, czy to jest aby na pewno dla niego – po prostu dołącza do kursu, próbuje swoich sił i nie tylko zdobywa wiedzę techniczną, ale udowadnia sobie, że najzwyczajniej “da radę”. Dużą rolę odgrywają konkursy organizowane w trakcie kursów, które dają możliwość i poczucie, że sam sobie udowadniasz, że potrafisz.

To brzmi może prosto i trywialnie, ale pamiętaj, że tak naprawdę największym blockerem, jaki możesz spotkać w swoim życiu, jesteś Ty sam. Tak naprawdę wiele ograniczeń to są ograniczenia nie ze świata zewnętrznego, a z wewnętrznego. Owszem, świat do Ciebie przemawia w ten czy inny sposób, różne prognozowania tworzy i mówi, gdzie jest Twoje miejsce, ale ostatecznie to Ty decydujesz, czy iść do przodu, czy działać albo czego potrzebujesz, żeby to było jak najbardziej wartościowe dla Ciebie.

Ostatnio zauważyłem, że w świecie akademickim jest bardzo wiele młodych ludzi, którzy spędzili dużo czasu pracując na uczelniach, ale zaczęli gubić swój potencjał. Gdy dołączają do kursu, zaczynają inaczej widzieć swoje otoczenie. Zauważają, że nie muszą pozostawać w miejscu, w którym się nie rozwijają.

Wtedy zaczynają dziać się rzeczy, które mnie bardzo inspirują. Osoby, które przez 5, 10, 15 pracowały w tym bardzo zamkniętym środowisku, decydują się na zmiany. To jest trochę paradoksalna rzecz, bo ja właściwie jestem samoukiem. Mam wykształcenie wyższe, ale większość swoich umiejętności nauczyłem się sam.

Wdrażam projekty w praktyce, pomagam w praktyce i stąd czerpię całą wiedzę i inspirację. Paradoks polega na tym, że to też zaczyna przemawiać do wielu osób ze świata akademickiego, którym zależy na wyniku, a nie na tym, żeby zajmować się papierologią. Jeżeli jesteś z tego świata i czujesz pewien dyskomfort, że coś Ci nie gra i być może warto byłoby ten potencjał wykorzystać inaczej, to zapraszam.

Dla mnie to była niespodzianka w pewnym sensie, że tak duża grupa osób ma taki niedosyt. Samorealizacja ma też takie pewne stereotypowe myślenie polegające na tym, że po prostu nie można wychodzić poza pewne ramy, granice. Tak naprawdę zwykle się nie robiło coś poza to, co było powiedziane. To nie jest innowacyjne podejście. W taki sposób nie da się nic stworzyć nowego, jeżeli my z góry wiemy wszystko. Tu chodzi o eksperymentowanie.

Zwykle mówię, że „Praktyczne uczenie maszynowe od podstaw„ jest dla osób początkujących i to jest prawda. Osoby, z którymi będą rozmawiać opowiedzą o swoich doświadczeniach.

Vladimir w kilku słowach opowiada o tym, dlaczego ML

Z drugiej strony czasem osoba, która już w tej chwili pracuje jako inżynier machine learning albo data scientist, pracuje przy pewnym projekcie, w szczególności jeśli to jest duża firma i duży projekt, dość często jest w wąskim kanale myślowym, cały czas przerabia w kółko te same schematy i brakuje jej szerszego poglądu.

Zauważyłem, że część już doświadczonych osób, które jednak się zdecydowały dołączyć, już po pierwszym lub drugim module w „Praktycznym uczeniu maszynowym od podstaw” również czuła, że dowiaduje się nowych, przydatnych rzeczy. Nie chodzi tu o trudniejsze, bardziej skomplikowane rzeczy, lecz takie, które najzwyczajniej można przeoczyć koncentrując się na konkretnym problemie.

Kursów powstaje coraz więcej. W tej chwili przygotowany jest kurs „Praktyczne uczenie maszynowe od podstaw„. Przed nim warto przerobić „Wprowadzenie do Pythona”. Też są jeszcze odmiany NLP, czyli „Praktyczne przetwarzanie języka naturalnego” i „Praktyczne prognozy szeregów czasowych”, który był zawieszony w tej edycji, ale być może w kolejnej będzie uruchomiony.

Natutal Language Processing w Twojej firmie

Zaprosiłem dzisiaj 3 osoby, żeby podzieliły się swoim doświadczeniem, historią życiową. Też warto powiedzieć, że czasy, w których żyjemy, są dość niepewne, niestabilne i pewne rzeczy będą się zmieniać. Warto przyznać, że w wielu branżach pewne rzeczy będą się optymalizować i zobaczymy, jak dalej uczenie maszynowe będzie się rozwijać.

To jednak temat na osobny wpis. Ta automatyzacja również będzie się uwydatniać w tej branży, ale widać, że w tej chwili jest popyt na to rozwiązanie. Wynika to między innymi z tego, że biznes, który w tej chwili ma dość duże kłopoty w obecnych zamieszaniach, musi sobie jakoś radzić.

Nie może sobie pozwolić na działanie, które znaliśmy dotychczas i musi zrobić coś, żeby to było bardziej optymalne, przemyślane. De facto to się sprowadza do tego, że gdzieś tutaj automatyzacja, a jeszcze lepiej inteligentna automatyzacja (czyli uczenie maszynowe) będzie przydatne.

Zaprosiłem dzisiaj trzy osoby. Dwie z kursu „Praktyczne uczenie maszynowe od podstaw” i jedną z kursu NLP, przy czym ta osoba już wcześniej ukończyła również kurs „Praktyczne uczenie maszynowe od podstaw”.

Pierwszym gościem będzie Maja, z którą poznaliśmy się w ramach kursu „Praktyczne uczenie maszynowe”

Maja w tej chwili mieszka w Wielkiej Brytanii. Pracuje w większej instytucji i chciała zobaczyć praktyczne spojrzenie na uczenie maszynowe, bo przedtem przerabiała różne rzeczy (na kursie i w Internecie), ale brakowało praktycznego spojrzenia i części związanej z programowaniem.

Dodatkowo wartością jest to, że poczuła wewnętrzne przekonanie, że da radę i np. braki z Pythonem nie zawsze powinny być blockerem.

Cześć Maja. Przedstaw się: kim jesteś i opowiedz o swoim doświadczeniu.

Cześć Vladimir. Mam na imię Maja. Jestem związana z data science od 2 lat, bo właśnie 2 lata temu zaczęłam studia magisterskie w tym obszarze. Studiowałam w Anglii i pracuję teraz na stanowisku Food and nutrition data scientist, czyli zajmuję się data science w żywności i diecie. Pracuję w instytucie badawczym w od kilku miesięcy. Jestem na kursie Vladimira, żeby poprawić swoje umiejętności praktyczne w obszarze uczenia maszynowego.

Jesteś na kursie, pewnie jest ku temu jakiś cel. Jak uczenie maszynowe może pomóc naukowcom? Jak to może pomóc Tobie? Po co sięgać po te narzędzia?

W moim przypadku to nie chodzi koniecznie o naukę. Nie jestem w obszarze naukowym dlatego, że taki miałam cel od początku. Akurat tak się zdarzyło, że ten instytut będzie potrzebował kogoś, kto będzie zajmował się interesującym mnie obszarem.

Myślę jednak, że w przyszłości bardziej będę się skłaniała ku pracy w przemyśle. Widzę duże możliwości, jeżeli chodzi o przemysł żywnościowy i uczenie maszynowe, ponieważ wydaje mi się, że ten przemysł generuje duże ilości danych. Jest wielki, ogromny, codziennie produkuje się dużą ilość żywności i już są aplikacje takie jak rozpoznawanie poprzez computer vision, czy jakiś produkt już jest zepsuty czy nie (coś czego człowiek nie może zauważyć).

Jeżeli chodzi o to, czym się zajmuję obecnie, to tutaj przede wszystkim chodzi o spersonalizowaną dietę. Wszyscy wiemy, że niektórzy ludzie potrafią jeść i nigdy nie tyją, a inni tyją bardzo łatwo. Ludzie reagują w bardzo różny sposób na żywność. Naukowcy próbują zbadać przyczyny, ale nie do końca jest to wiadome. Teraz z uczeniem maszynowym i z ilością danych, która już została wygenerowana lub które możemy wygenerować, jest szansa, żeby znaleźć te czynniki.

Jedno źródło danych – np. Fitbit. Dużo ludzi używa tego zegarka, który jest w stanie zmierzyć różne parametry – jak oni się zachowują w ciągu całego dnia. Będą to bardziej dokładne dane niż kiedykolwiek indziej. Jeżeli pytamy ludzi, co robili wczoraj, wtedy wiadomo, że oni nie pamiętają większości rzeczy i nigdy się do końca nie dowiemy, ale jeżeli mamy teraz metody, żeby sprawdzić to, to badania mogą pójść dalej.

Ja będę próbowała stworzyć model, który będzie w stanie przewidzieć, jak człowiek zareagują odpowiedzią glikemiczną na dane jedzenie, na podstawie jego indywidualnych cech np. konkretnych bakterii w jelicie.

Tutaj może warto sprostować jedną rzecz, bo “glikemiczne” brzmi fachowo. Pewnie chodzi o poziom cukru, prawda?

Tak, chodzi o to, jak zmienia się poziom cukru po spożyciu danego produktu przez daną osobę albo przez osobę o danych cechach.

Brzmi to ciekawie. A propos diety i tego, że każdy z nas jest inny – genetyka robi cuda przeróżne, że w jednym przypadku wystarczy zjeść trochę i człowiek tyje, a w innym człowiek siedzi cały czas i jest całkiem spoko. W obecnych czasach, biorąc pod uwagę liczbę fast-foodów, których ludzie spożywają sporo, to ta genetyka im też się niestety psuje.

To jest też ciekawe, że to wszystko jest dynamiczne, więc jest dużo wyzwań, które masz przed sobą albo osoby, które tym się zajmują. Dlaczego wybrałaś kurs i czy już czujesz, w czym Ci pomaga?

Tak, zdecydowanie czuję, że mi pomógł. A dlaczego akurat wybrałam ten kurs? Gdy zaczęłam pracę kilka miesięcy temu, wiedziałam, że będę musiała stworzyć model uczenia maszynowego i moja szefowa zapytała mnie, czy chcę dodatkowo się doszkolić. Na to odpowiedziałam, że oczywiście, że tak, bo zawsze dobrze wiedzieć więcej niż mniej. Szczególnie, że miałam dotychczas tylko doświadczenie z uczelni, więc nie miałam praktycznego doświadczenia jak zbudować model, który będzie można do czegoś użyć.

Szukałam konkretnie kursów, które będą miały praktyczne nastawienie. Niestety dla mnie, większość kursów o uczeniu maszynowym albo ogólnie w data science odbywają się tylko online. Co prawda są to często świetne kursy, bardzo dobrze prowadzone, ale wiem już z doświadczenia, że taka formuła nie do końca mi odpowiada. Zapisałam się na naprawdę setki kursów w moim życiu i bardzo ciężko jest mi dobrnąć do końca.

Ciężko mi zdobyć motywację na coś takiego. To jest w sumie dość ciężkie psychologicznie dla mnie, myśląc, że ta cała wiedza jest już w Internecie, że gdybym tylko miała motywację, żeby przejść przez to, zmusić się, żeby to zrozumieć, to mogłabym wiedzieć o wiele więcej. Jak wiemy, to nie jest takie łatwe. Dlatego właśnie ten kurs przekonał mnie tym, że już sam opis podkreślał to, że to nie jest taki po prostu kurs online, mimo że nie odbywa się osobiście.

Opcję stacjonarną niestety miałam zminimalizowaną do zera przez obecną sytuację z pandemią, więc zdecydowałam się na ten kurs, ponieważ było bardziej osobiste podejście, że jednak był jakiś kontakt z ludźmi i muszę powiedzieć, że naprawdę to się świetnie sprawdziło. Fakt, że wszyscy przechodzimy przez kurs w tym samym czasie, nie jak w trakcie kursów online, że można zacząć kiedykolwiek się chce.

Fakt, że mamy całą społeczność ludzi, z którymi możemy rozmawiać na Slacku i naprawdę ludzie są aktywni na tym czasie, więc ciągle wiadomo, że to nie tylko ja robię ten kurs. Mogę zadać pytanie i ludzie mi odpowiadają, więc nie jest tak, że utknę w którymś momencie. Fakt, że widzimy się co sobotę na webinarach. Też sam konkurs, który był elementem kursu.

Taka dodatkowa motywacja, że muszę to skończyć przed terminem i mam motywację, żeby nauczyć się więcej i polepszyć mój wynik przez samą rywalizację. Myślę, że te wszystkie elementy pozwoliły mi wreszcie zebrać moją motywację, usiąść do tego i nauczyć się porządnie. Jeszcze jeden element kursu, który mi się podoba, to to, że wiedza jest przedstawiona w sposób przemyślany i nie jest to płytkie, jak niektóre kursy, które można znaleźć w Internecie.

Vladimir bierze przykłady i treści ze swojego własnego doświadczenia praktycznego, więc nie pozostaje tylko na fundamentach teoretycznych, a resztę pozostawia uczestnikowi, żeby sam sobie później znalazł. Wysoki poziom merytoryczny i to zaangażowanie to dwa główne aspekty, które pomogły mi w tym kursie.

Jak wyglądała sprawa ze znajomością Pythona, czyli języka, którego używamy do kodowania? Jak ewolucja wyglądała w tym przypadku?

Wspomniałam, że mam studia magisterskie jednoroczne w obszarze data science, ale nie jestem informatykiem i nie mam programistycznego doświadczenia, więc mam obawy, że nie mogę być dobrym specjalistą, jeżeli nie umiem programować lepiej. Tutaj właśnie kurs bardzo mi pomógł, ponieważ mimo tego, że nie wiedziałam tak dużo o Pythonie, bo głównie używałam w trakcie studiów i w pracy języka programowania R, to udało mi się po pierwsze poprzez pierwszy moduł, który Vladimir nam dał do powtórki z Pythona.

Poza tym po prostu przez praktykę udało mi się poczuć o wiele pewniej teraz. Też w trakcie konkursu używając Pythona, udało mi się osiągnąć dobry wynik. Pomyślałam, że może wcale nie muszę być programistą, żeby umieć stworzyć dobre modele i żeby być w tym dobra. To był dla mnie moment, w którym poczułam, że może faktycznie mogę to zrobić i być może powinnam pozbyć się tych wszystkich swoich obaw.

Pomimo że teoretycznie oczywiście wiele razy czytałam i słyszałam ludzi mówiących, że programowanie to nie wszystko, trzeba mieć jeszcze inne umiejętności, żeby być dobrym w uczeniu maszynowym, ale właśnie doświadczyłam teraz tego w praktyce i bardzo mnie to podbudowało.

Rozmawialiśmy o tym, że jeżeli spojrzeć na Twoje rozwiązania z konkursu i pokazać Ci 4 tygodnie przed startem kursu i powiedzieć, żebyś poczytała ten kod, to niekoniecznie było Ci łatwo to odczytać. Ale potem sama to wszystko stworzyłaś. W ramach kursu jest konkurs, czyli mamy 2 tygodnie na to, żeby rozwiązać konkretny problem. W edycji 7. mieliśmy prognozowanie cen samochodów.

Były prawdziwe dane, dużo różnych kłopotów z życia wziętych, duplikaty, braki w danych, niejasności, dane trzeba łączyć odpowiednio itd. Ten konkurs trwał 2 tygodnie, wzięło udział ponad 50 osób i zajęłaś trzecie miejsce. Była bardzo gorąca rywalizacja i rozwiązania, które były na pierwszym, drugim miejscu nie były bardziej zaskakujące, tylko kwestia pewnych szczegółów, które później były omawiane. Ta sama liga.

Jak Ci pomógł konkurs i jaka największa wartość jest po nim dla Ciebie?

Są dwa aspekty, w których konkurs mi pomógł – aspekt psychologiczny i praktyczny. Aspekt psychologiczny: dodało mi to wiary w siebie, że jestem w stanie stworzyć rozwiązanie, które może będzie lepsze niż rozwiązania innych ludzi i że jestem w stanie osiągnąć wynik, który jest satysfakcjonujący.

Aspekt praktyczny: lubię rywalizację, więc byłam dość zmotywowana tą sytuacją, kiedy musiałam coś stworzyć w przeciągu 2 tygodni. Miałam motywację, żeby wrócić do lekcji, które mieliśmy w trakcie kursu i wyciągnąć stamtąd wszystko, co mogłam, żeby tylko pomóc mojemu modelowi dostać jeszcze lepszy wynik w konkursie.

Czuję, że na pewno pozwoliło mi to przejść przez materiał lepiej, głębiej zapisać to w mózgu, tak że teraz na pewno już tego nie zapomnę. Na pewno poprawiło mi to pewność siebie i bardziej mnie upewniło w tym, że to jest to, co chcę robić.

Informacyjnie dodam, że dostępne jest nagranie, które zrobiliśmy już po konkursie. Tam były prezentacje, też Maja występowała, opowiadała o swoim rozwiązaniu bardziej technicznie, jak do tego podchodziła. Ciekawostka mi się przypomniała, bo każda osoba z top 3 potwierdziła to, że aspekt psychologiczny jest ważny.

Omówienie wyników konkursu podczas 7 edycji kursu „Praktyczne uczenie maszynowe od podstaw”

To ciekawa rzecz, na ile człowiek potrzebuje czasem sam sobie udowodnić, że da radę. To jest ważne, bo faktycznie wtedy czujesz, że masz moc, siłę, teraz możesz iść dalej do przodu. Chociaż de facto jakby nic się nie zmieniło, bo nadal jest ten sam człowiek, te same ręce, głowa itd., ale ta energia, która płynie ze sprawdzenia, że faktycznie dam radę, jest istotna. Człowiek jest istotą psychologiczną i ta psychologia ma duże znaczenie.

Jeszcze dodam, że właśnie tutaj też rolę gra to, że ludzie tacy jak ja, rzadko mamy taką okazję. Ja pracuję z ludźmi, którzy nie mają nic wspólnego z data science. W gronie znajomych też nie ma wielu ludzi, którzy tym się zajmują, więc jedyną wiedzę o ludziach, którzy to robią, mam z Internetu i widzę ich super skomplikowane rozwiązanie. Pewnie najlepsi ludzie publikują w Internecie i to może stworzyć takie wrażenie, że tak naprawdę to się nie wie nic. Taka okazja, żeby zweryfikować się na swoim poziomie, jest bardzo cenna.

Przypomniał mi się cytat jednej osoby na podsumowaniu konkursu, która mówiła, że też nie ma ani kolegów związanych z ML i data science. Na co była odpowiedź:

– Jak to nie masz? Przecież jest ponad 100 osób na kursie, więc już masz trochę znajomych w tej branży.

Bardzo dziękuję Maju za podzielenie się swoim doświadczeniem, przemyśleniami. Na koniec powiedz jeszcze – z Twojego punktu widzenia, komu warto polecić ten kurs?

Poleciłabym ten kurs osobom, które mają już trochę teoretycznego przygotowania, bo też muszę przyznać, że na początku czułam, że gdybym nie wiedziała w teorii, czym są te modele, to też ciężko byłoby mi używać potem tego w praktyce.

Więc jednak ludziom, którzy mają już jakąś pierwszą styczność z ML teoretyczną, ale chcą nauczyć się używać tego w praktyce. Kurs Vladimira jest pełen praktycznych porad z jego doświadczenia, które moim zdaniem są świetne. Super jest właśnie usłyszeć to od kogoś, kto tego używa na co dzień i ma bardzo praktyczne nastawienie. Polecam to ludziom, którzy lubią praktykę.

Dziękuję Ci za tę informację. Życzę wszystkiego dobrego, sukcesów w tej dziedzinie, w której teraz działasz. Mam nadzieję, że za jakiś krótki czas pewne aplikacje będą się pojawiać i ludzie zaczną lepiej się odżywiać. Przynajmniej w jakimś drobnym stopniu, bo ten problem sam w sobie jest dość skomplikowany. Też tam jest psychologii dużo w tym problemie, ale to już temat na inny odcinek. Dzięki wielkie Maja.

Kolejnym moim gościem będzie Bartek, który jest po kursie NLP, czyli „Przetwarzanie języka naturalnego„. Bartek ukończył pierwszy kurs „Praktyczne uczenie maszynowe od podstaw„ jakiś czas temu i wtedy dopiero rozważał, żeby przejść na samodzielną pracę, żeby prowadzić freelancing.

Faktycznie to się udało i w tej chwili realizuje różne projekty. Całkiem fajnie się rozpędza, czuć na ile ten człowiek ciągle chce się rozwijać, żeby poszerzyć swoje portfolio. Zawsze powtarzam, że technologia jest tylko narzędziem, liczy się bardziej umiejętność zastosowania tej technologii. Bartek z jednej strony pochodzi ze środowiska języka R. To jest alternatywa do Pythona.

Czasem te środowiska są bardzo rozłączne. Przy okazji kursu, a później też samodzielnie, poznał Python. To fajnie łączy, bo tak naprawdę to, czego się nauczył z czasem, to nie mylić narzędzia z rozwiązaniem, bo w biznesie wszystko jedno czy tam się użyje narzędzia „a” czy „b”, ważne żeby to przynosiło wartość dodaną.

Cześć Bartek. Powiedz kilka słów o sobie, czym się zajmujesz?

Cześć Vladimir. Dziękuję za zaproszenie. Ja jestem już po raz drugi absolwentem kursu DataWorkshop. Z wykształcenia jestem matematykiem, natomiast jeśli chodzi o programowanie, to jestem samoukiem. Niektórzy mogą mnie kojarzyć z języka R. Jestem entuzjastą R, współorganizatorem krakowskich spotkań tego języka.

Też jestem w zarządzie Fundacji “Why R?”, która zajmuje się promowaniem R trochę szerzej. Natomiast jeśli chodzi o pracę to jestem freelancerem, który jest otwarty na nowe wyzwania. Interesuje mnie szeroko pojęta analiza danych, automatyzacja procesów. Mój background to właśnie statystyka, R, Python, VBA. Ogólnie często bardzo dopasowuję się do klientów i staram się spełniać ich oczekiwania.

Dopasowanie się do klientów to prawdopodobnie odpowiedź na kolejne pytanie – dlaczego zdecydowałeś nauczyć się albo zgłębić wiedzę w temacie NLP?

Poszerzenie swojego portfolio – zauważyłem, że na portalach freelancerskich tematyka NLP bardzo często się pojawia i wydaje mi się, że to nie są też trudne zagadnienia, bo zazwyczaj chodzi o jakąś klasyfikację, analizę sentymentu. Natomiast dodatkowo mam pewne komercyjne, niekomercyjne projekty, które chciałbym zrealizować.

Mam jeden projekt dla aktualnego klienta, który dotyczy aktualizacji danych wyszukiwarki o lekach. Natomiast drugi projekt jest hobbystyczny, ale też z naciskiem na własną działalność, czyli zastosowanie NLP w web scrapingu, czyli pobieraniu danych.

Czyli rynek NLP, jeżeli chodzi o przetwarzanie języka naturalnego jest dość szeroki i rośnie, bo firmy dostrzegają ten potencjał. Jak planujesz wykorzystać zdobytą wiedzę i czujesz rozwój po kursie?

Czuję duży przyrost wiedzy po kursie. To na pewno bardzo mi pomogło. Nie wiem, czy chcesz wiedzieć w szczegółach czy tak ogólnie na temat tych projektów, gdzie chciałbym to zastosować?

Może żeby nie wchodzić zbytnio w szczegóły, ale możesz podać jeden przykład bardziej konkretny tylko, żeby też wybrzmiało, że to są konkretne przykłady.

W przypadku tej wyszukiwarki celem jest to, żeby ona sama się aktualizowała. Tworzę skrypty, które zbierają dane ze stron i to, co jest potrzebne, to otagowanie tych informacji. Głównie właśnie nazwa leku, substancji czy jakiś innych rzeczy medycznych. Bardzo często na to idą regexy, ale niektóre źródła danych wymagają ingerencji człowieka, więc tutaj widzę zastosowanie NLP, żeby tagowanie robić automatycznie.

Dodam, że regexy to wyrażenia regularne, dla osób, które nie miały z tym styczności. Co okazało się najbardziej przydatne, zaskakujące, przełomowe dla Ciebie podczas nauki NLP na kursie?

Mam wrażenie, że wszystko. Ale teraz jest mi trudno ocenić, jestem świeżo po kursie i praktyka pokaże, co będzie przydatne faktycznie. Natomiast z rzeczy zaskakujących to taka rzecz, że przy pewnych zagadnieniach naprawdę nie trzeba dużo wysiłku, żeby uzyskać satysfakcjonujący wynik. Te metody są już na tyle fajnie zbudowane, że wystarczy lekko oczyścić dane, wrzucić je w pudełko i już mieć sensowne wyniki.

Zaczęliśmy od tego, że zobaczyłeś, że na rynku NLP jest pewien popyt, więc zdecydowałeś się zaangażować i rozwinąć swoje umiejętności w tym kierunku. Jakbyś mógł powiedzieć osobom, które być może rozważają, czy warto wejść do świata NLP, czy warto wybrać jakąś inną dziedzinę: co chciałbyś powiedzieć takiej osobie?

Też pod kątem wejścia, bo tutaj są dylematy, w który temat warto się zaangażować, gdzie tematy faktycznie są bardzo skomplikowane, bo NLP jeszcze jakiś czas temu to w ogóle było zupełnie inne NLP niż teraz. Teraz po prostu bierzesz w miarę gotowe pudło, wiesz, które przyciski wcisnąć i już dostajesz wynik. Z tej perspektywy, co powiedziałbyś osobie, która tej ścieżki jeszcze nie przeszła?

Tak naprawdę jestem na początku tej ścieżki, ale uważam, że kurs jest bardzo dobrym początkiem. Jest wszystkim, czego potrzeba na start. Jest bardzo duża dawka wiedzy, dużo praktyki, świetna społeczność i konkurs, przez który można zarwać niejedną noc.

Konkurs, podobnie jak na innych kursach, pojawia się też w tym o NLP. Trwa on 2 tygodnie. Na początku było tak, że zbiór danych był nieco łatwiejszy. Potem uznaliśmy wspólnie z grupą, że walka o czwarty czy piąty znak po przecinku w wyniku modelu raczej mija się z celem. Z definicji problem został ten sam, ale zbiór danych nieco się skomplikował. Zrobiłem to specjalnie, żeby podrzucić więcej wyzwań, żeby nie było to takie łatwe.

Co Ci dał konkurs? Jakie są Twoje spostrzeżenia o konkursie?

Przede wszystkim bardzo szybko można przetestować zdobytą wiedzę. Natomiast to, co chciałem zrobić, to jeszcze za pomocą dodatkowych źródeł spróbować różnych rozwiązań, niestety ostatecznie już w tej drugiej formie konkursu to za bardzo nie pomogło, bo chyba siódmy czy ósmy wylądowałem. Natomiast przede wszystkim można było sobie szybko utrwalić tę wiedzę, którą się nabyło przez ostatnie 4 czy 5 tygodni.

Konkurs zaczynał się w czwartym tygodniu kursu, trwającego łącznie 6 tygodni. Będzie też podsumowanie konkursu. Postaramy się to nagranie udostępnić w notatkach, żeby można było obejrzeć, bo każdy uczestnik ma swoją własną perspektywę. Nie chodzi tu tylko o aspekty techniczne.

Komu polecasz ten kurs? Kto najbardziej się odnajdzie w branży NLP i poprzez kurs może wystartować?

Według mnie, żeby przejść przez ten kurs, dobrze byłoby już mieć podstawy NLP zrobione. Dobrze już mieć podstawy z machine learningu – to tak z mojego doświadczenia, bo już startujemy od jakiegoś pułapu i w sumie każdy, kto pracuje nad tekstem, mógłby być tym zainteresowany. Szczególnie jeśli jego praca polega na klasyfikacji, wyciąganiu informacji z dokumentów.

Dzięki wielkie. Jeżeli ktoś dopiero wchodzi w świat ML, to faktycznie może być nieco trudniej i polecam zrobić krok wstecz i przerobić kurs podstawowy.

Dzięki za podzielenie się swoim doświadczeniem, informacjami. Trzymam kciuki, żeby udało się tę wiedzę maksymalnie zastosować w praktyce. Przed nagraniem wywiadu o tym trochę więcej porozmawialiśmy i czuć, jak u Ciebie to ciekawie się rozpędza, więc trzymam kciuki, żeby udało się jak najszybciej to zastosować i potem przy okazji wymienimy się opiniami, na ile te rzeczy używałeś albo których bardziej używałeś, żebym też dostał taką informację zwrotną.

Na koniec poznajcie historię Michała, który osobą z tej grupy biznesu. Prowadzi szereg spółek, w których podejmuje cały szereg decyzji biznesowych. To jest bardzo ciekawe podejście, kiedy człowiek, który uświadamia sobie, że od jego decyzji zależy wiele i to są decyzje wiążące (nie da się tak łatwo z pewnych rzeczy się wywiązać). Oczywiście można tym ryzykiem zarządzać, ale zdecydowanie lepiej z czasem sobie uświadamiać, na ile fajnie jest podjąć trafniejsze decyzje na początku niż próbować potem jakoś to prostować.

Są takie branże, gdzie danych mamy więcej, więc można się spodziewać, że faktycznie ta jakość usprawnienia tej decyzji będzie zauważalna, więc pojawia się bardzo prosta decyzja, że trzeba tego się nauczyć. Jak z Michałem rozmawiałem o tym, on fajnie powiedział, że zadał sobie pytanie – jak nie teraz, to kiedy?

Branża uczenia maszynowego i AI bardzo szybko się rozwija. Jak nawet jestem w temacie, to nie jestem na bieżąco, bo liczba publikacji, które pojawiają się codziennie jest ogromna i nie da się tego na bieżąco wszystkiego obserwować. Fajnie, jak łapiesz te wszystkie fundamenty, wiesz, jak można rozwiązać różne problemy i ewentualnie jak potrzebujesz innego rozwiązania, to wiesz, gdzie po nie sięgnąć albo gdzie je znaleźć.

Nie da się jednak być z tym na bieżąco. Pytanie, które sobie zadał Michał, jest bardzo właściwe – jak nie teraz to kiedy? Świat się rozpędza i pewne rzeczy potrzebują czasu, żeby je przyswoić. Ja osobiście bardzo się cieszę, że ludzie biznesu są świadomi na tyle, żeby podejmować decyzje w taki sposób, że sami wchodzą w rolę techniczną.

To nie jest przypadek, kiedy CEO albo osoby z C-Level angażują się w kurs. Były też jedne z największych spółek w Polsce i ten człowiek jest tam na dość wysokiej pozycji, kiedy on sam osobiście chce się zaangażować, nie tylko słuchać swoich podwładnych co im powiedzą, tylko też rozumieć. To według mnie bardzo dojrzała i świadoma decyzja.

Cześć Michał. Powiedz kilka słów o sobie, czym się zajmujesz, gdzie mieszkasz?

Cześć Vladimir. Nazywam się Michał Muszyński. Mieszkam we Wrocławiu i jestem prezesem w grupie kapitałowej Domar S.A. To jest grupa kilku spółek i działamy w trzech branżach. Pierwsza to branża retail – prowadzimy największą galerię wnętrz z artykułami wyposażenia wnętrz we Wrocławiu. Prowadzimy też działalność deweloperską w zakresie nieruchomości i biuro rachunkowe, które świadczy usługi dla spółek z naszej grupy, ale także dla kilku innych.

Masz duże doświadczenie biznesowe. Zdecydowałeś się na kurs online „Praktyczne uczenie maszynowe od podstaw„, czyli to jest troszkę inna dziedzina niż to, czym zajmowałeś się dotychczas. Dlaczego taką decyzję podjąłeś?

Zawsze interesowała mnie sztuczna inteligencja. Interesowałem się też sieciami neuronowymi, ale to było w czasie, gdy to było tylko wszystko teoretyczne, nie było implementacji informatycznych, a jak były, to bardzo toporne. Natomiast zawsze mnie interesowało, jak to działa, jak komputer może zacząć myśleć. Natomiast nie jestem informatykiem i dopiero właściwie od kilku miesięcy zacząłem poznawać Pythona.

Zobaczyłem właściwie od razu, że Python to jest coś, co bardzo mi się przyda w mojej pracy codziennie, ponieważ moim hobby zawodowym jest analiza danych biznesowych i business intelligence, przygotowywanie pewnych informacji, wizualizacja ich do podejmowania decyzji, bo tym się na co dzień zajmuję. Aby podejmowane decyzje biznesowe były obarczone niskim ryzykiem, to jednak informacje muszą być przygotowane bardzo dobrze i od przygotowania tych informacji zależy, jak ta decyzja zostaje podjęta.

W związku z tym zauważyłem, że uczenie maszynowe może rozwiązać bardzo wiele moich problemów, od weryfikacji pewnych hipotez, które są i na rynku, i wśród ludzi, pewnych mitów, które lubię obalać. Nie lubię sytuacji, kiedy ktoś mi mówi, że jest jakoś, a ja nie mogę tego sprawdzić. Można powiedzieć, że dzisiejsza zdolność obliczeniowa komputerów i dzisiejsze zestawy danych, które są możliwe do pozyskania, już pozwalają w dużym stopniu te zjawiska osiągnąć, które są potrzebne do podejmowania decyzji.

Widać, że wiedzę o machine learning, którą zdobyłeś na kursie, już chcesz zastosować w konkretnych projektach. Co to są za projekty?

Mam dużo pomysłów. Na pewno nie uda mi się tutaj wszystkich wymienić, ale rzeczywiście przyszedłem na kurs z myślą, że poznam te zagadnienia i będę w stanie zastosować to w pracy w naszym biznesie. Działając w kilku branżach, w zasadzie w każdej widzę jakieś możliwości zastosowania uczenia maszynowego.

Zacznijmy od tej branży nieruchomości, bo już się zaczęły pojawiać na rynku takie rozwiązania, ale na pewno chciałbym poprawić naszą jakość usług sprzedażowych, jeżeli chodzi o sprzedaż nieruchomości. Chciałbym zrobić takiego doradcę działu sprzedaży, który będzie przede wszystkim pomagał wycenić mieszkania. Jak zaczynamy nową inwestycję, to w zależności od cech poszczególnych mieszkań, taki doradca podpowie nam, jak te ceny powinny wyglądać, rozpozna potrzeby klienta i pomoże przygotować dla niego lepszą ofertę.

Chciałbym mieć taki model, który analizuje rynek nieruchomości i pokazuje pewne zagrożenia albo możliwości, które się pojawiają na tym rynku, pokazuje analizę konkurencji. Do podjęcia decyzji o inwestycji, jeżeli mamy jakąś przeprowadzić, musimy mieć naprawdę szerokie spektrum informacji. Fajnie by było pewne rzeczy przewidywać, których nie możemy wprost przewidzieć i uzyskać takich danych, bo konkurencja bardzo mocno je chroni. Natomiast myślę, że można by tu uczenie maszynowe zastosować do przewidywania ruchów konkurencji.

Druga moja branża to retail, czyli galeria handlowa. Tu oczywiście mamy już bardzo dużo zastosowanych na rynku rozwiązań. Mam kilka pomysłów, nie chciałbym ich dokładnie opisywać, bo nie wiem, czy one są możliwe do zastosowania. Nie to, żeby komuś nie podpowiadać, ale przede wszystkim chciałbym wykorzystać uczenie maszynowe w analizie ruchu klientów w galerii, przy czym oczywiście dzisiaj są takie technologie, ale ja bym nie chciał z dzisiejszych technologii korzystać, tylko chciałbym trochę inną zastosować.

Także tu mam taki jeden pomysł, już nawet zaczęliśmy nad nim pracować i go rozgryzać. Chciałbym np. zbudować coś, co pozwoli mi rozpoznawać nastroje klientów przed i po wizycie w sklepie.

W obszarze finansowym, który mnie też bardzo mocno interesuje, chciałbym połączyć uczenie maszynowe z analizą finansową na różnych poziomach, żeby to wspomagało zarządzanie przedsiębiorstwem. Może na poziomie inwestycyjnym, czyli analizowanie jakichś potencjalnych możliwości inwestycyjnych. To jedne z głównych pomysłów.

Inny przykład – inspiracja wykorzystania uczenia maszynowego w branży nieruchomości odcinek 80

Brzmi to bardzo inspirująco, bo uczenie maszynowe jako narzędzie jest bardzo potężne. Z drugiej strony nadal świat biznesu albo osoby decyzyjne, które w tym biznesie działają, nie do końca dostrzegają, że brakuje czegoś (pewnej wiedzy, umiejętności), żeby to się zaczęło łączyć w sposób obligacyjny.

Żeby nie tylko było tak, że jest jakaś magiczna technologia, która być może działa, tylko są konkretne pomysły, pewna wiedza techniczna, która pozwala w pewien sposób przewidywać kolejne ruchy.

Jest taki żart: czym się różni sztuczna inteligencja od uczenia maszynowego? Sztuczna inteligencja jest pisana w języku PowerPoint, a uczenie maszynowe w Pythonie. Jak wyglądała u Ciebie sprawa z Pythonem? Na ile to jest blokada dla Ciebie, żeby działać w ramach kursu i po kursie?

Okazuje się, że nie jest blokadą. Rzeczywiście kilka miesięcy temu zająłem się Pythonem i przyczyną tego było to, że Excel przestał mi już wystarczać. Excel jest fajny, wygodny, natomiast do obróbki dużej ilości danych, trochę problematyczny. Można powiedzieć, że w kilka miesięcy opanowałem Pythona na tyle, że się przesiadłem z Excela na Pythona.

Dzisiaj już częściej Pythona otwieram niż Excela, jeżeli mam coś zrobić. Tutaj bardzo mi pomógł kurs wstępny z Pythona przed kursem uczenia maszynowego. Usystematyzowało mi to wiedzę, bo do końca pewnych rozwiązań nie znałem i to mi pomogło je zastosować. Właściwie można powiedzieć, że na kursie naszym z uczenia maszynowego czułem się swobodnie.

To jeszcze oczywiście nie jest taka swoboda jak pewnie osoby, które się zajmują programowaniem zawodowo, ale wiedziałem przynajmniej, co się do mnie pisze w notebookach i rozumiałem, dlaczego tam jest to napisane.

Z jednej strony język Python jest w miarę prosty, ale są też ludzie, którzy uczą się go przez 10-20 lat i nadal są jakieś zawiłe konstrukcje pod spodem, jeżeli chodzi o technikę i optymalizację, więc tego można się uczyć długo, ale chodzi o to, że my potrzebujemy użyć Pythona jako narzędzia do konkretnych celów.

Te podstawowe mechanizmy, których my potrzebujemy, okazuje się, że da się w miarę łatwo przyswoić i akurat jesteś potwierdzeniem tego. Tu też należy powiedzieć, że trzeba mieć kilka warunków spełnionych. Trzeba mieć otwartą głowę do tego, zaangażować się, bo nie ma co ukrywać, że zaangażowałeś się w trakcie kursu.

Jeszcze jeden z elementów, który się wyróżniał, to jest konkurs. Co myślisz o konkursie i co Cię najbardziej zdziwiło albo co Ci najwięcej dało?

Konkurs na pewno jest bardzo fajną rzeczą na tym kursie i można by powiedzieć, że nie ma kursu bez konkursu, bo jest to coś, w czym trzeba wziąć udział i naprawdę trzeba z tego skorzystać, bo jest to tak niesamowicie ciekawe doświadczenie, gdzie naprawdę możemy oczywiście w praktyce zastosować to, czego się uczymy.

Natomiast gdybyśmy rzeczywiście tylko przejrzeli materiały z kursu, przesłuchali Twoje nagrania, to myślę, że tam może z 20% by zostało. Po zastosowaniu tego na konkursie myślę, że dużo więcej zostało mi w głowie, ale nie tylko w głowie, ale też w rękach, bo to jest doświadczenie. Trzeba było sobie z różnymi problemami poradzić i co jest ważne, to te problemy były z życia wzięte.

Po pierwsze – realne dane, które były zanieczyszczone w dosyć ciekawy sposób. W różnych miejscach trzeba było sobie z nimi poradzić. Po drugie trzeba było tak prowadzić eksperymenty, żeby czas tych eksperymentów był rozsądny, żeby je można było rzeczywiście zrobić. Myślę, że ten konkurs nauczył mnie tego doświadczalnie, żeby dużo próbować na prostych modelach, szybko zweryfikować postawione hipotezy i to chyba w przyszłości pozwoli mi dużo czasu i mocy obliczeniowej oszczędzić.

Dodałbym jeszcze, że konkurs ukierunkował mnie bardzo mocno w tym kierunku, w którym rzeczywiście trzeba iść, żeby rozwiązywać konkretne problemy biznesowe. Ja w tym konkursie widzę już zaczątek moich projektów, o których mówiłem. One pewnie będą podobnie wyglądać, także naprawdę w praktyce można sobie zaprojektować to, co będzie się robić samemu w uczeniu maszynowym.

Mówiąc już teraz o kursie jako całości – co najbardziej Cię zaskoczyło? Co najbardziej doceniasz?

Zaskoczyło mnie to, jaki postęp zrobiłem w Pythonie. Odnosząc się do początku, jaki był mój stan, to mimo że już tam coś zacząłem robić, to były proste rzeczy i tutaj naprawdę postęp jest bardzo duży. Natomiast doceniam to, że korzystając z Twojego kursu, zaoszczędziłem mnóstwo czasu, bo uczeniem maszynowym starałem się interesować trochę wcześniej, próbowałem też różnych dostępnych kursów, oglądałem trochę na ten temat, ale to ciągle było takie ślizganie się po temacie. Natomiast bardzo konkretnie na kursie weszliśmy w temat.

Można powiedzieć, że każda lekcja kolejna to jest bardzo konkretne pogłębienie wiedzy, ale w tym kierunku, w którym wydaje mi się, że trzeba iść. To jest fajne, że ukierunkowujesz bardzo dobrze na te problemy, którymi się trzeba zająć, także nie tracimy czasu na niepotrzebne rzeczy.

Bardzo miło mi to słyszeć, bo to jest właśnie ta metryka sukcesu, która była postawiona przy tworzeniu tego kursu i ciągle jest tak pielęgnowany. Pomimo tego że teoretycznie można było wypuścić pierwszą edycję i nic nie zmieniać, to po każdej edycji coś się zmienia, zwraca się uwagę na to, co działa lepiej, co gorzej.

Taka ciekawostka a propos konkursu – zadanie, które było teraz na konkursie, pojawiło się w tej samej formie drugiej edycji. Najfajniejsze było to, że jakość rozwiązań w obecnej edycji była lepsza. Średnia uczestników myślę, że jest podobna – to nie są dwie, tylko około stu osób, więc zakładam, że potencjał, który przyszedł jako uczestnicy, jest podobny. Według mnie to też kwestia tego, że niektóre rzeczy coraz lepiej tłumaczę, czyli coraz bardziej wyczuwam, co lepiej przemawia, na to zwracam większą uwagę.

Też się ucieszyłem, jeżeli chodzi o średnią jakość rozwiązań, która w tym kursie się wydarzyła. Miło mi słyszeć, że doceniania jest praktyczność, bo na to faktycznie jest stawiany duży nacisk.

Tu naprawdę muszę powiedzieć, że materiały są świetnie przygotowane – bardzo praktycznie. Na przykładzie widać – chciałem bardzo być w pierwszej dziesiątce konkursu, udało się zająć siódme miejsce, także to świadczy, że jednak da się z materiałów tego nauczyć.

Dzięki wielkie, że udało Ci się znaleźć czas, podzielić się swoim doświadczeniem, bo jesteś przykładem, osoby nie pochodzącej ze świata programowania, która ma konkretne potrzeby związane z biznesem. Teraz już nie jest ten moment, kiedy pewne rzeczy można sobie usprawniać lub nie, tylko sytuacja, obecne trudności w pewien sposób zmuszają nas, żeby robić biznes bardziej efektywnie, podejmować decyzje biznesowe nie na podstawie emocji, tylko bardziej angażować tam dane.

Owszem, doświadczenie życiowe też bardzo się przydaje, ale z drugiej strony warto coraz bardziej wykorzystywać dostępne narzędzia i technologie, aby prowadzić bardziej efektywnie działalność i cieszyć się z życia.

Tak jest.

Dzięki wielkie, do usłyszenia.

Bardzo dziękuję.

Dziękuję, że dotarłeś tutaj i poznałeś historie naszych absolwentów. Obiecuję, że będę starać się nie nadużywać naszego wspólnego czasu do dzielenia się podobnymi treściami, bo wiem, że część osób bardziej oczekuje informacji technicznych albo biznesowych. Jak powiedziałem na początku, to jest część mojego życia.

Czuję bardzo dużą misję, jeżeli chodzi o szkolenie i jak to wpływa na ludzi. Blog to jest jeden z kanałów, którym mogę dotrzeć do tych osób. Owszem, to jest bardzo szeroki kanał i nie zawsze to jest 100% trafione, ale wiem, że część osób decyduje się na kurs właśnie po przeczytaniu takich historii lub przesłuchaniu podcastu.

Planuję zrobić podsumowanie ankiety dotyczącej podcastu. Jeżeli jeszcze nie miałeś okazji podzielić się opinią, w którym kierunku podcast ma się rozwijać, to warto to zrobić. Bardzo dziękuję wszystkim osobom, które już udzieliły tej informacji, bo to jest bardzo inspirujące. Bardzo miło mi jest czytać wszystkie komentarze i czuć, że to, co robię, ma sens.

Nawet jak jestem troszkę bardziej zmęczony, to czuję, że to pompuje energię. Obiecuję, że bardzo starannie przeanalizuję wszystkie propozycje, jak dalej to rozwijać i podzielę się z Tobą przemyśleniami, co z tego wyszło i jakie decyzje zostały podjęte. Jeżeli jeszcze się nie podzieliłeś tą informacją, to proszę zrób to, bo jeszcze jest szansa, że zdążysz przed ostatecznymi decyzjami.

Dzięki wielkie za wsparcie!

Pytaliście wiele razy, czy jakoś finansowo można wesprzeć Biznes Myśli – zobaczymy, jak to zrobić, bo faktycznie podcast sam w sobie generuje koszty, ale przyznam, że dla mnie w tej chwili najbardziej jest potrzebne, nie tyle wsparcie finansowe, co wsparcie mentalne, że to co robię ma sens. Kiedy widzę, że to rezonuje z tak dużą liczbą osób, to po prostu będę jeszcze bardziej się rozpędzał.

Artykuł 3 krótkie historie efektywnego rozwoju pochodzi z serwisu Biznes Myśli.

NLP w Amazon – porozmawiaj z Alexą

Vladimir — Mon, 26 Oct 2020 07:47:35 +0000

Na wstępie bardzo dziękuję za informacje zwrotne po ostatnim odcinku, w którym zacząłem od tego, jak dalej rozwijamy Biznes Myśli. Ta informacja jest bardzo cenna. Jeżeli nie miałeś jeszcze czasu tego zrobić, to bardzo Cię proszę, poświęć 5 minut i podziel się swoją opinią, bo dzięki temu ten podcast może być jeszcze bardziej wartościowy dla Ciebie. A dziś dowiesz się, co słychać u Alexy, czyli jak rozwija się aktualnie obszar NLP w Amazon.

Moim dzisiejszym gościem jest Staszek, który zajmuje się tematem asystenta głosowego. Zapraszam do rozmowy.

Cześć Staszku. Przedstaw się: jak się nazywasz, gdzie mieszkasz i czym się zajmujesz?

Dzień dobry, nazywam się Staszek Paśko. Jestem programistą, pracuję na stanowisku Senior Principal Software Engineer w Amazonie w gdańskim biurze rozwoju technologii, a w zasadzie w gdańskim biurze Alexy, ponieważ w Amazonie pracuję właśnie nad Alexą. Mieszkam w Gdańsku, a w ramach pracy nad Alexą zajmuję się tzw. oddziałem Alexa Speech.

Alexa Speech to jest ta część Alexy, która dostarcza wszystkie funkcje rozpoznawania i syntezy mowy. Zamieniamy mowę na coś rozumianego przez komputer. Ja potem zamieniam to, co komputer chciałby powiedzieć, na coś zrozumiałego przez człowieka. To jest funkcjonalny opis, natomiast oznacza tak naprawdę dużo systemów, które wykorzystują machine learning do zarówno rozpoznawania jak i syntezy.

Zespoły, tutaj w Gdańsku, w Stanach, jak i w innych miejscach, zajmują się tymi algorytmami, researchem, machine learningiem, serwisami (zarówno tymi w chmurze, jak i usługami bezpośrednio na urządzeniach, które Amazon tworzy i które mają Alexę wbudowaną).

Bardzo się cieszę, że udało Ci się znaleźć czas na tę rozmowę, bo z jednej strony fajnie, że porozmawiamy o Alexa i jej rozwoju, ale przede wszystkim chciałbym porozmawiać o Twoim doświadczeniu. Jak się myśli o algorytmach związanych z mową, syntezą mowy, jej rozpoznawaniem, to w Polsce jesteś w czołówce specjalistów w tej dziedzinie.

Zanim przejdziemy do szczegółów, powiedz, jaką ostatnio fajną książkę przeczytałeś? Dlaczego akurat ją warto przeczytać?

Myślę, że najfajniejszą książką, którą ostatnio przeczytałem, jest „Rekursja” od Blake’a Croucha. W zasadzie po polsku to się powinno nazywać „rekurencja”, ale tłumacz przełożył ją inaczej. To jest książka o pamięci, trochę science-fiction, trochę kryminał, trochę o pamięci, trochę o technologii. Polecam przeczytanie jej, nie tylko dlatego że jest to książka, w której akcja zmienia kierunek i nie wiadomo, jak się skończy, ale również wywraca sposób myślenia o całym tym problemie, nad którym książka się skupia wielokrotnie.

Jest to nieustanne, ale bardzo pozytywne. Z jednej strony bardzo zagmatwana książka, a z drugiej bardzo ciekawe, świeże spojrzenie na tematykę związaną z podstawowymi zagadnieniami, którymi się science-fiction zajmuje, jak podróż w czasie, sztuczna inteligencja czy komputery kwantowe. To wszystko występuje w stopniu większym lub mniejszym. Ciekawym jest, jak to wszystko zostało wplecione w chandlerowski kryminał. Naprawdę warte przeczytania. Dostała jakąś nagrodę w zeszłym roku.

Dzisiaj będziemy rozmawiać o asystentach głosowych. Pewnie większość osób w miarę kojarzy, co to jest, ale chciałbym, abyśmy uspójnili wiedzę. Zacznijmy od początku – czym jest asystent głosowy? Po co on jest tworzony? Jakie tutaj problemy próbujemy rozwiązać albo jakie wartości potencjalne chcemy dostarczyć?

Tutaj bym miał dwie odpowiedzi. Takie kolokwialne, czy też typowe rozumienie asystenta głosowego to jest aplikacja, usługa czy serwis, pozwalający za pomocą głosu na rozmawianie z programem komputerowym, który emuluje ludzkiego asystenta, czyli spełnia różnego rodzaju zadania, które ludzki asystent mógłby wykonać za Ciebie. Stąd się narodziła ta terminologia.

Mamy asystenta głosowego na urządzeniach przenośnych typu iPhone Siri czy też Google Asystent na androidowych urządzeniach. Głównym ich celem było umożliwienie dostępu i łatwiejsze zarządzanie kontaktami, spotkaniami, mailami oraz wyszukiwanie informacji w Internecie.

W tym momencie pojawia się Alexa, która stara się być czymś więcej niż tylko i wyłącznie asystentem głosowym. Terminologia, której my używamy, to jest serwis głosowy. Różnica w zasadzie polega na tym, że po pierwsze – Alexa nie ogranicza się do samej kwestii asystenta głosowego.

Asystenta swojego własnego, pewnie nie poprosiłbyś o to, żeby Ci zaczął odgrywać jakąś muzyczkę albo zaczął opowiadać dowcipy. Alexa skupia się na tym, żeby dostarczać prosty sposób komunikacji głosowej z otaczającą nas technologią. Zasadniczo każda dziedzina, którą mógłbyś sobie wyobrazić, działanie, które mógłbyś wykonać na komputerze czy też wchodząc w interakcję z otaczającą Cię technologią, pozwala zautomatyzować za pomocą głosu czy też operować za pomocą głosu.

Przykładowo: mam w domu lampkę, którą mogę włączyć za pomocą naciśnięcia guziczka, ale jednocześnie mam jakąś bezprzewodową czy przewodową kontrolę nad tą lampką i mogę sterować nią teraz również za pomocą głosu. Jeżeli chcę posłuchać muzyki, to mogę to zrobić, mówiąc, jaką muzykę chciałbym, aby Alexa w tym momencie odtworzyła i to automatycznie się dzieje.

Ponad to wszystko, Alexa umożliwia innym ludziom tworzenie funkcji głosowych i dodawanie tych funkcji do Alexy, czyli tzw. Alexa Skills, co pozwala np. na budowanie interaktywnych gier głosowych, czy też budowanie interfejsów do różnego rodzaju istniejących serwisów sieciowych i innych.

Mogę sobie zamówić taksówkę czy pizzę. Mogę też spróbować zapytać o takie rzeczy, które zapytałbym zwykłego asystenta głosowego na telefonie, natomiast jest to troszeczkę więcej. Asystent Google, Asystent Siri też dostarczają teraz podobne funkcjonalności, natomiast one cały czas noszą nazwę asystentów, ale to jest trochę więcej niż asystent.

Zmienia się interfejs. Z jednej strony wcześniej, jak pojawiły się komputery, to trzeba było wpisywać wszystko, potem pojawiła się myszka. Trzeba było dotykać przycisków, a tutaj to przechodzi w kierunku, że można rozmawiać po ludzku, nie trzeba mieć klawiatury albo przycisków, aby osiągnąć zamierzony efekt.

Brzmi to jak dość duża zmiana interfejsu i tak naprawdę myślę, że nawet starsze osoby, które w tym momencie mają trudności z komputerem, bo nie wiedzą, który przycisk nacisnąć, to prawdopodobnie już nie mają takich trudności, jeżeli chodzi o to, żeby np. porozmawiać (to jest jedna rzecz, która pewnie łatwiej przychodzi). Czy to oznacza, że taka zmiana interfejsów wpłynie na nasz świat? Jakie zmiany tak naprawdę to przyniesie? Jak świat będzie wyglądał z takimi asystentami głosowymi?

Dla mnie takim momentem, w którym stwierdziłem, że chcę pracować dla Amazona nad Alexą, było właśnie zobaczenie, że to diametralnie zmienia sposób interakcji z technologią i że to działa. W roku 2015 w powszechnej świadomości technologie rozpoznawania mowy na komputerze jeszcze się nie wydarzyły, tzn. można było sobie zainstalować jakiś program do dyktacji i on polegał na tym, że mówię do komputera, a potem spędzam kilka godzin poprawiając to, co komputer myślał, że ja powiedziałem i to było narzędzie do tego celu.

Drugim takim obszarem, powszechnym w zastosowaniu, były automatyzowane procesy obsługi call center. Znasz to na pewno – dzwonisz do lekarza i on Ci mówi:

– Powiedz 1, jeśli chcesz rozmawiać z danym oddziałem.

– 1 – odpowiadasz.

– Czy powiedziałeś 9?

Tak to mniej więcej wyglądało 5 lat temu. W tym momencie pojawia się Alexa i wtedy cały odbiór tego urządzenia (zanim ono wyszło) było takie, że Amazon robi głośnik, do którego będzie można rozmawiać i będzie można słuchać muzyki.

Pojechałem na rozmowę do Amazona, zanim Alexa się tak publicznie rozwinęła i zobaczyłem ją w działaniu u jednego znajomego, który miał taką wersję dla wcześniej zaproszonych użytkowników. To było dla mnie niesamowite, że gra muzyka i można ją głosem zatrzymać. Dla mnie była to fundamentalna zmiana technologiczna, ale też właśnie otwierająca duże możliwości. Jak się później okazało, ludzie zaczęli wykorzystywać Alexę do rzeczy, które na początku recenzentom nie przyszły do głowy.

Alexa teraz jest tożsama z jej umiejętnościami Smart Home, czyli sterowaniem wszystkim dookoła – światłami, zamkami, roletami. Takiej funkcjonalności w ogóle nie było, zanim Alexa się pojawiła. Ta funkcjonalność na pewno zmienia rynek, ponieważ urządzeń do Smart Home jest teraz zatrzęsienie i ludzie kupują je również dlatego, że mogą nimi sterować za pomocą głosu, a nie przegryzając się przez bardzo skomplikowane interfejsy na telefonie komórkowym czy dedykowanych urządzeniach typu centra sterowania domem. To nie jest przyjazne rozwiązanie dla takiego standardowego użytkowania.

Dochodzimy do tego, jaki to ma plan na przyszłość. Jak popatrzymy na to, jak młodsze pokolenie współgra z technologią, to w pewnym momencie ja zaobserwowałem, że oni zakładają, że każdy ekran, który istnieje, można go dotknąć. To jest takie przyzwyczajenie i dla mnie to jest coś zupełnie nieoczywistego, bo po pierwsze – u moich dzieci komputera nie było na co dzień, a po drugie ekrany dotykowe pojawiły się kilkanaście lat temu, to to nie zakłada automatycznie, że coś takiego będzie wszędzie.

Natomiast widać, że jest to na tyle powszechna technologia, że pewnie kiedyś będzie wszędzie. To samo teraz widać też z głosem. Widząc wśród tych ludzi, którzy od dłuższego czasu już te urządzenia mają, to widać, że młodzież, która z tego korzysta, potrafi zakładać, że Alexa wszystko potrafi zrobić i gdziekolwiek nie jest, można do niej coś powiedzieć i coś się wydarzy. Czyli np. przychodzisz do cioci, która nigdy o Alexie nie słyszała i chcesz włączyć światło, to mówisz:

– Alexa, włącz światło.

Ja pewnie bym nigdy czegoś takiego nie zrobił, ale widać, że ludzie zaczynają utożsamiać technologię z tym aspektem sterowania głosem. Przebija się to nie tylko do kultury popularnej (Alexa występuje w różnych filmach, serialach i widać, że ma kulturowe przebicie), ale także do powszechnej świadomości, że jest to wszędzie, wszyscy to mają i wszyscy z tego korzystają. Tworzy to kolejne przyzwyczajenia, które napędzają zmiany kulturowe, bardziej socjologiczne niż tylko technologiczne.

Czuć te zmiany, zwłaszcza jeśli chodzi o dotyk. Też mam dzieci i widzę, jak one wszystko próbują dotknąć palcem.

To, co mówiłeś o sterowaniu głosem, faktycznie może być zabawne, jak młodsze pokolenie nie będzie sobie w stanie wyobrazić, że może być inaczej. Jak teraz ciężko sobie wyobrazić życie bez komórki, to za X lat pewnie większość osób będzie w stanie z trudem się odnaleźć, gdy nie będzie mogła kogoś zawołać na pomoc (asystenta).

To jest dość ważne, jeżeli chodzi o zmiany dotyczące asystentów głosowych i kontaktu z biznesem. Co tak naprawdę zmieni się w kontekście biznesu? Które branże mogą wyglądać zupełnie inaczej? Jakie możliwości mogą się pojawić, których w tej chwili nie ma? Kiedy te zmiany mogą się pojawić i w których krajach?

Na pewno technologia głosowa pojawia się powoli w zastosowaniach biznesowych. W kontekście asystentów, czy Alexy w szczególności, pojawiły się takie wdrożenia jak pokoje hotelowe wyposażone w Alexę. W Las Vegas bodajże są 2 hotele, które mają Alexę w każdym pokoju i one, poza rzeczami, których się spodziewamy (wyłączenie, włączenie światła, sterowanie roletami), mają też integrację typową hotelową, czyli można np. poprosić o zamówienie obiadu bezpośrednio do pokoju przez Alexę.

Drugi obszar, gdzie widać wejście Alexy, bardziej współgrający z biznesem, to są np. samochody, gdzie asystenci powoli (nie tylko Alexa) zastępują systemy sterowania głosowego, które nie cieszyły się nigdy specjalną popularnością, ze względu na to, że te systemy wymagały bardzo sztywnego sposobu wyrażania się. Tutaj zaleta Alexy i tych nowych technologii jest taka, że do Alexy mówię w miarę naturalnie.

Nie muszę się zastanawiać, w jaki sposób mam wprowadzić komunikat, żeby Alexa mnie zrozumiała. Ona zrozumie, najwyżej zapyta o dodatkowy kontekst, jeżeli ja jej czegoś nie powiem. To jest zarówno unikalna umiejętność asystentów głosowych, jak i duży skok jakościowy w stosunku do starego typu interfejsów głosowych w samochodach. Skok na tyle duży, że widać, że wszystkie branże samochodowe zapowiadają, już integrują albo już mają jakąś wersję asystenta głosowego w swoich przynajmniej tych lepszych samochodach dostępnych w salonach.

Od strony technologicznej będzie na pewno coraz więcej takich rzeczy. Tutaj główną zaletą tego głosowego interfejsu jest to, że w przypadku interakcji wizualnej z komputerem (w samochodzie ona jest trudna), żeby znaleźć jakąś funkcję, którą chciałbym uruchomić, muszę się przekopać przez menu, tzn. musi być po pierwsze projektant tego interfejsu wizualnego, musi włożyć dużo wysiłku w to, żeby zaprezentować ścieżki przez interfejs, które jako człowiek będę w stanie zrozumieć.

Po drugie jako użytkownik, muszę włożyć ten wysiłek, żeby za każdym razem przejść przez tę ścieżkę, żeby znaleźć poszukiwaną funkcję. Interfejs głosowy przesuwa tę granicę w taki sposób, że trochę więcej być może ma projektant interfejsu, który musi wymyślić sposoby dotarcia do wszystkich funkcji jego programu za pomocą głosu, ale modelowanie konwersacji jest troszeczkę bardziej naturalne niż modelowanie takiego obcego interfejsu, jakim jest interfejs komputerowy.

Mieliśmy więcej czasu jako ludzie, żeby rozwinąć umiejętności komunikowania się niż żeby rozwinąć hierarchiczne interfejsy graficzne. To komputer musi zrozumieć, co ja tak naprawdę chcę i najwyżej dopytać się, a nie ja muszę zrozumieć, co komputer mi chce pokazać. To jest troszeczkę broń obosieczna w niektórych sytuacjach, np. jak mówimy o takich funkcjach jak wyszukiwanie informacji, to prezentacja wizualna, szczególnie gdzie możesz pokazać dużo obrazków, często jest nie do przekazania w formie głosowej.

Tutaj nie wszystko komputer będzie mógł w stanie bardziej efektywnie zrobić. Jednak jeśli pomyślimy o czymś takim jak sterowanie różnymi funkcjami samochodu, telefonu, rzeczami w domu, to wchodzimy w potencjalne zastosowania przemysłowe – sterowanie urządzeniami w hali przemysłowej, w której musisz włączyć lub wyłączyć jakieś przełączniki. To są takie rzeczy, gdzie komputer jest w stanie znacznie łatwiej zaprojektować taki interfejs, jeśli po prostu mogę powiedzieć, co chcę zrobić, niż jeżeli mam się uczyć tego, w jaki sposób komputer przekazuje informacje.

Tego będzie pewnie coraz więcej, na pewno widzimy już nie Alexę i nie asystentów, ale jest duży boom dookoła chatbotów, zarówno tekstowych jak i głosowych, czyli gdy na stronie pojawia Ci się taki bąbelek, że może chciałbyś z nami porozmawiać, to w 99% przypadków nie chce z Tobą porozmawiać człowiek tylko bot. Jak zaczniesz do niego mówić, czy to za pomocą klawiatury, czy swojego głosu, to rozumieć Cię będzie również nie człowiek, który siedzi po drugiej stronie z mikrofonem, tylko komputer, który przejmuje rolę pierwszej linii wsparcia, zarówno online jak i poprzez telefon.

Jak dzwonisz teraz do centrów pomocy różnych firm, to już nie dostajesz komunikatów w stylu „powiedz 1”, ale mimo wszystko rozmawiasz z komputerem. Taki skok technologiczny widać troszeczkę w takich miejscach, w których powoli zastępujemy starsze technologie, nowszymi. Tutaj to jest oczywiste, natomiast wprowadzane są również ułatwienia, które pozwalają firmie np. obsłużyć proste zapytania bezpośrednio przez technologię, chatbota działającego czy to na technologii AWS, Google czy Microsoftu. Wszystkie platformy mają swoje funkcje do budowania tego typu rozwiązań.

Osoby, które wcześniej się zajmowały projektowaniem, designem, skupiały się głównie na części obrazkowej, graficznej, a teraz idzie to bardziej w kierunku głosu, żeby zaprojektować troszkę inne interfejsy. Z punktu widzenia osób tworzących biznes myślę, że tutaj dość głośno słychać, że sprzedaż może się bardzo mocno zmienić.

W tej chwili sprzedaż jest oparta na ludziach (ludzie wprost dzwonią i rozmawiają) albo jest bardziej statyczna (informacja na stronie, ewentualnie jakieś delikatne interakcje). Może tak się stać, że sprzedaż przesunie się bardziej w kierunku interakcji głosowej. Wspomniałeś o chatbotach, które teraz faktycznie idą do przodu i mogą być tekstowe lub głosowe.

Dla osób, które patrzą na możliwości i okazje, czy to jest tak, że w Polsce za 10 lat, jeżeli nie będziesz potrafić odnaleźć się na rynku głosowym, to jest podobnie jak teraz, gdy nie masz strony internetowej? Czy trochę przesadzam?

Trudno powiedzieć. Myślę, że będzie coraz więcej biznesów obecnych w różnego rodzaju systemach głosowych. Podejrzewam, że rzeczywiście, jeśli mówimy o perspektywie 5-10 lat, to przynajmniej dla takich rozpoznawalnych marek myślę, że będzie takie oczekiwanie, że one będą w jakiś sposób dostępne, zintegrowane w formie głosowej.

Czy będzie to równie popularne jak w tej chwili strony internetowe? Strony internetowe nigdzie się nie wybierają i mówimy o stronach, które mają kilkadziesiąt lat historii w tej chwili, więc zanim stały się na tyle popularne, żeby każda firma musiała mieć stronę internetową, bo inaczej nie były obecne w tym nurcie technologicznym, trochę czasu minęło, żeby ten nurt się spopularyzował.

Natomiast jeżeli teraz założymy, że za te kilka lat np. większość Amerykanów będzie miała już jakiegoś asystenta głosowego w domu, to dla niektórych biznesów w tej chwili głos to jest być albo nie być. W tej chwili nie ma producentów systemów sterowania Smart Home, którzy by nie mieli systemu głosowego. To po prostu jest jedno i to samo. Nie można istnieć na tym rynku, nie mając takiej funkcjonalności.

To jest ciekawy przykład, bo to nie chodzi tylko o to, że są biznesy, które się przekształcą, ale również chodzi o to, że pojawią się nowe biznesy, które inaczej nie mają sensu – one albo mają tę funkcjonalność, albo nie. Faktycznie ciężko jest prognozować jak to się rozwinie za 10 lat, chociaż widać, że technologia się rozpędza.

Może zostawmy tutaj wskazówkę, że warto obserwować chociażby rynek Stanów Zjednoczonych, bo on zawsze jest trochę do przodu, jeżeli chodzi o sprzedaż i wdrożenie innowacji, chociaż nie wszędzie, ale akurat jeżeli chodzi o asystentów głosowych, to tutaj Stany ewidentnie wyprzedzają. To też wynika m.in. z tego, że język angielski jest łatwiejszy i sprzedaż jest bardziej rozwinięta.

To jest ciekawe stwierdzenie. Nie jestem pewien, czy język angielski jest najłatwiejszy ze wszystkich języków, jeśli chodzi o jego rozumienie. Na pewno jest dosyć prostym językiem, jeżeli chodzi o tę drugą stronę, czyli syntezę mowy. Jeśli chodzi o rozumienie, to tutaj nie jest specjalnie łatwy, nie jest specjalnie trudny. Język angielski ma niestety dużo homofonów i homografów – słów, których znaczenie chcąc zrozumieć, musimy je wydedukować z kontekstów.

Nie jest to może aż taki problem koncepcyjny, jak w języku japońskim, ale mimo wszystko ciężar rozpoznania tego, co użytkownik tak naprawdę powiedział, przesuwa się ze strony samego rozpoznawania zgłosek do warstwy semantycznej w porównaniu do niektórych innych języków. Na przykład w języku polskim łatwiej jest zrobić prawidłowe rozpoznawanie transkrypcji, co nieszczególnie pozwala później zrobienie dobrego systemu rozumienia tego, co tak naprawdę użytkownik powiedział, ponieważ gramatycznie nasz język jest dosyć skomplikowany, ale sama transkrypcja ma mniej zagadkowych elementów niż w języku angielskim.

To ciekawe. Jeżeli chodzi o rozpowszechnienie technologii głosowej, czy tu przypadkiem też nie pojawia się aspekt psychologiczny związany z tym, że osoby, które są mniej przyzwyczajone do tych technologii, po prostu będą mniej tego używać? Osoby młodsze, które od dziecka będą bawić się z asystentami, za 10 lat będą decydentami. Może to być taki rozwój, że najpierw będzie to mniej zauważalne, a potem nastąpi gwałtowny przeskok. Czy to jest realny scenariusz?

Myślę, że to jest długoterminowy scenariusz, a zmiany dzieją się nawet szybciej. Nie trzeba czekać, aż to pokolenie dorośnie, żeby zaobserwować globalną integrację, globalne użycie tego typu technologii. To ilość użytkowników tego typu urządzeń świadczy o tym, że to jest naprawdę bardzo szybki trend. Ta technologia szybko się spopularyzowała i teraz dociera do mniej technologicznych ludzi.

To nie jest tak, że asystenci głosowi są używani tylko i wyłącznie przez techno-elitę, która zawsze jest tym docelowym odbiorcą wszystkich nowinek technologicznych, tylko to jest element życia codziennego dla bardzo dużej grupy odbiorców i dociera teraz do coraz szerszego grona ludzi, dla których często jest to pierwsze urządzenie technologiczne, którego używają.

Wspomniałeś w pewnym momencie o ludziach starszych. Mamy takie komunikaty od naszych klientów, którzy są nam wdzięczni, ponieważ poprzez Alexę uzyskują pewną samodzielność. Mówię o osobach, które mają poważne niepełnosprawności, ale również o ludziach starszych, którzy nie obsługują np. tak skomplikowanego dla nich urządzenia jak telefon komórkowy dobrze, natomiast z Alexą są w stanie się dogadać.

Są w stanie np. łatwo zadzwonić do kogoś za pomocą Alexy, mówiąc po prostu, że chcą zadzwonić do swoich dzieci. W przypadku osób, które mają ograniczenia w poruszaniu się ruchowo czy ze względu na chorobę są unieruchomieni, Alexa pozwala ograniczyć tę zależność od innych osób, co jest budujące, bo ci ludzie czują, że sami mogą coś zrobić. Nie są skazani na to, żeby ktoś zawsze nad nimi stał. To jest ciekawe, że dla takiej grupy odbiorców, która dotychczas z tych nowinek technologicznych nie korzystała, akurat głosowe funkcje są nie tylko akceptowane, co wyjątkowo użyteczne.

To jest bardzo fajny przypadek, kiedy technologia pomaga człowiekowi odnaleźć się na skutek pewnych trudności życiowych lub wieku – różnie to bywa w życiu. Czasami starsza osoba nie ma z kim porozmawiać, a tu pojawia się nie człowiek, ale coś, co przypomina w pewnym sensie człowieka, głos brzmi nawet czasem podobnie.

Nie ważne w jaki sposób, ale jeśli to sprawia poczucie większego sensu, że można zadbać o kogoś w ten czy inny sposób albo porozmawiać, to to jest fajne.

Na początku wspomniałeś o tym, że jak dołączyłeś do Amazona, to wcześniej były gorsze doświadczenia, np. jak próbowałeś się dodzwonić się do lekarza, to automat pytał, czy powiedziałeś 9, a Ty powiedziałeś 1. Teraz jest lepiej. W jaki sposób mierzycie postęp?

Jest wiele standardowych testów czy zestawów testów, które są używane w przypadku porównywania mechanizmów, rozpoznawania mowy. Metryką samego rozpoznawania mowy jest zwykle word error rate. To jest współczynnik błędu, ile słów było powiedzianych błędnie, czyli jeśli powiedziałem 100 słów, jedno maszyna rozpoznała źle, to mamy word error rate na poziomie 1%.

Gdzie jesteśmy? Gdzie byliśmy?

W latach 80-tych, 90-tych, gdy rozpoznawanie mowy się zaczęło jako uogólnione systemy, które potrafiły trochę więcej zrobić niż tylko rozpoznawać kilka poszczególnych cyfr, powstał test do takiego zastosowania, który się nazywa switch port. To jest benchmark, który ma za zadanie rozpoznawanie tego typu prostych wejść.

W latach 1993-1995 pierwsze systemy, które zostały poddane temu testowi, word error rate mieliśmy na poziomie 80%. Na samym początku nastąpił gigantyczny postęp, z 80% zeszliśmy do 40% pod koniec lat 90-tych i na początku lat 2000 doszliśmy do poziomu 20%, czyli co 20 słowo jest rozpoznawane źle. Potem wystąpiło lekkie wypłaszczenie. Przez jakieś 12-14 lat niewiele się działo.

Dopiero w roku 2013 nastąpiło kolejne podejście do rozpoznawania mowy, w ramach którego zaczęto używać sieci neuronowych do pójścia o krok dalej w stosunku do wcześniejszych statystycznych mechanizmów i osiągnięto poziomy rzędu 12-15%. W roku 2015 zaczęło się naprawdę dziać. Został wtedy opublikowany pierwszy mechanizm, który łączył sieci akustyczne z bardziej skomplikowaną, nierekurencyjną siecią neuronową. Ona osiągała na poziomie 10-11%, co już wtedy było rewolucyjne, bo 90% to jest taka magiczna liczba dla systemów komputerowych, gdzie to zaczyna działać.

Należy pamiętać, że ludzki performance jest na poziomie 5%. Do tych 5% doszliśmy w ciągu 2 lat, czyli w 2017 r. maszyny dotarły do poziomu ludzkiego. Natomiast obecnie są na poziomie 2-3%, czyli teoretycznie 2 razy lepiej niż ludzie. W ciągu tych ostatnich 5 lat znowu kilkukrotnie zaniżaliśmy tę miarę, a należy pamiętać o tym, że normalnie takie krzywe nie wyglądają tak, że coraz szybciej spadają w dół. To nagłe przyspieszenie od roku 2015 do teraz jest astronomiczne do takiego poziomu, że od roku, dwóch, niektórzy naukowcy uważają ten problem prostego rozpoznawania mowy za faktycznie rozwiązanie, tzn. nie ma już czego tam poprawiać, to już jest lepsze niż człowiek.

Teraz dochodzą oczywiście inne zestawy testów, bo switch port jest zbyt prosty, żeby o nim mówić. Są takie testy, które mierzą skuteczność zapisu np. rozmowy konferencyjnej. Tam też są jakieś ograniczenia, co tak naprawdę ten system ma robić i tutaj mniej więcej w roku 2012-2013 byliśmy na poziomie 20%.

Dojechaliśmy w tej chwili do poziomu 7%. Człowiek jest na poziomie 7%, czyli w tym teście dotarliśmy do poziomu człowieka. Znowu ten skok był taki, że przez kilkadziesiąt lat praktycznie nic się nie działo, a potem nagle w ciągu ostatnich 5 lat jest zjazd do poziomu niemal ludzkiego lub lepszego niż ludzki.

Jeżeli system kompletnie nie ma pojęcia, co mógłbym powiedzieć i z jakiej tematyki jest rozmowa, to tym systemom jest jeszcze daleko do ludzkiej mowy, więc tutaj jest jeszcze dużo przed nami. Jednocześnie wszystko wskazuje na to, że tempo nie ustaje. Są coraz to nowsze technologie, techniki machine learningowe, rozumienia lepszego języka i lepszego rozumienia zarówno akustycznego jak i językowego, tego, co człowiek powiedział. Dające nadzieję na to, że również ten dialogowy system będzie w stanie zostać rozwiązany.

To, co powiedziałeś, to jest ASR (Automatic Speech Recognition), kiedy na podstawie mowy rozpoznajemy tekst. To jest właśnie pierwszy element w tym łańcuszku. Jest tam jeszcze element na końcu – Text to Speech, czyli wtedy, kiedy na podstawie tekstu maszyna próbuje mowę syntezować. W jaki sposób tutaj mierzymy postęp? Jak wygląda ten przyrost?

Testem, który jest stosowany w przypadku porównywania jakości głosu, jest satysfakcja klienta w pewnym sensie czy też naturalność. To, w jaki sposób my oceniamy naturalność syntezy mowy, jest taka, że używamy testu Mushra. To jest system ewaluacji statystycznej, w której osobie, która wykonuje ewaluację, odtwarzane są w losowej kolejności różnego rodzaju próbki dźwięku.

Na podstawie reakcji wnioskujemy o tym, które są lepiej akceptowalne, czy też preferowane przez użytkownika. To jest też dosyć ciekawa historia, bo te testy w latach 90-tych były dosyć daleko od tego, co człowiek był w stanie zaakceptować jako naturalną mowę.

Natomiast ta rewolucja zaczęła się, zanim się zaczęła rewolucja związana z sieciami neuronowymi, ponieważ zwiększenie możliwości obliczeniowych komputerów spowodowało, że można było zbudować systemy tzw. unit selection, czyli takie, w których maszyna składa tekst z drobniutkich kawałeczków, każdy z nich jest głoską lub kombinacją dwóch głosek i sklejając odpowiednie głoski ze sobą budujemy płynną mowę.

Jakość tego systemu zależy od tego, ile jest różnych kawałeczków dla danej głoski (np. „to”), może mieć w bazie 10 takich nagrań, może mieć jedno, kilkadziesiąt tysięcy takich nagrań dla jednej tej pary głosek. Dzięki temu, że mieliśmy nagle bardzo szybki przyrost sprawności komputerów od roku 2000, to te systemy nagle dobiegły do poziomu, w którym były kilka punktów procentowych poniżej ludzkiego speakera. W wyniku testów zawsze punktem odniesienia jest człowiek, czyli mamy rzeczywiste, ludzkie nagranie kontra nagranie syntetyzowane przez maszynę.

Jeżeli dla człowieka typową oceną w jakimś teście będzie 4,5/5, to te systemy unit selection uzyskiwały wyniki na poziomie 4, czyli 10% różnicy. Teraz sieci neuronowe dotarły również do tego zakątka. 2 lata temu pojawił się pierwszy system zrobiony przez Google – Tacotron, który wykorzystywał sieci neuronowe do generowania dźwięku. Podobnie jak w przypadku speech recognition tutaj historia potoczyła się bardzo szybko, bo teraz już wszystkie duże centra technologiczne mają swój system oparty o sieci neuronowe, również Alexa.

W takich testach, w których porównujemy teksty, które typowo Alexa czy też inny asystent odpowiadałby w reakcji na zapytania, wyniki są na poziomie ludzkiej mowy. Natomiast to nie jest cały obrazek, ponieważ ludzka mowa to nie jest tylko naturalność dla neutralnego tekstu, ale to też jest emocjonalność, reakcja na to, w jaki sposób druga strona mówi, czyli empatia. To też jest zrozumienie tekstu, ponieważ Alexa na przykład potrafi czytać książki, wiadomości.

Stworzyliśmy specjalną odmianę głosu, która lepiej sobie z tym radzi, ale jeszcze nie jesteśmy dokładnie tam, gdzie chcielibyśmy być. W przypadkach bardziej skomplikowanych czyli taka umowa dialogowa jeszcze nikt nie jest blisko tego, żeby rzeczywiście być w stanie na bieżąco reagować na to, co druga strona mówi, dostosowywać się do tego. Wciąż pracujemy nad tym, aby to było bardziej naturalne.

A propos naturalności – sam język powinien brzmieć jak ludzki, a nie właśnie zestawienie różnych słów, których człowiek używa, jak myśli bądź się zastanawia typu „aaa…”, „mmm…”, „hmmm…”. Zawodowy spiker walczy z tym, ale człowiek generalnie rzecz biorąc takie rzeczy mówi jak myśli, bo się zawiesza.

To jest dosyć ciekawy problem, czy należy wstawiać tego typu przerywnik, czy nie. My na przykład odkryliśmy w tym momencie, że głos Alexy nie zawierał oddechów. Okazało się, że dogranie tego i syntetyzowanie głosu tak, żeby te oddechy były słyszalne, zauważalnie poprawiło percepcję tego głosu. W dodatku bez inwestycji dużej technologicznej.

Tutaj masz na pewno rację, że niektóre dysfluencje warto robić, ponieważ to bardzo naturalne. Z drugiej strony Google przeprowadził eksperyment z dupleksem, specjalnie wstawiali tego typu zawahania się i to nie zostało bardzo ciepło przyjęte, bo tutaj z kolei wystąpił ten problem, że niby wiemy, że rozmawiamy z komputerem, ale on zaczyna niepokojąco blisko brzmieć jak człowiek. Z jednej strony nie brzmi jeszcze zupełnie jak człowiek, więc nie jesteśmy w 100% przekonani, że rozmawiamy z człowiekiem, ale jest to blisko, więc widzimy, że komputer stara się udawać człowieka.

W tym momencie zaczynamy odczuwać dyskomfort psychiczny, że coś jest nie tak. Uncanny valley to jest termin określający dokładnie to zjawisko. W jaki sposób stworzyć tę naturalność jednocześnie nie czyniąc jej drażniącą dla klienta – to jest ciekawe zagadnienie. Trochę mniej machine learningowe, bardziej z human-computer interfaces czy budowania efektywnych interfejsów głosowych, ale nad tym również pracujemy.

Jest dużo psychologii w tych tematach. Człowiek jest istotą, która nie tylko myśli racjonalnie, ale to chyba przede wszystkim irracjonalna istota, która czasem potrafi robić rzeczy, które ciężko wyjaśnić logicznie. Po prostu są emocje, ktoś ma ich więcej, ktoś ma ich mniej, ale czasem nawet nie zdajemy sobie sprawy, czemu tak jest.

Czasem daje się to naukowo zbadać i wyjaśnić pewne rzeczy, ale sporo o sobie nie wiemy. Historia o Google Duplex skłania do zadania szeregu pytań, aż prosi się, aby zapytać, czy faktycznie technologia w prawdziwym życiu może zastąpić człowieka i dogadać się z dogadać z restauracją, albo kupić bilet w kinie. Czy jedynie jest to pokaz najnowszych osiągnięć – state of the art dziedziny.

Tak, ten funkcjonalny aspekt jest na pewno bardzo ciekawy. W jaki sposób maszyna może zainicjować rozmowę z człowiekiem, czyli ja nie mówię do komputera, tylko komputer do mnie dzwoni, coś chce zrobić. To tworzy ciekawe, funkcjonalne możliwości, ale z drugiej strony sposób realizacji czy też emulowanie człowieka do takiego stopnia, że staramy się wstawiać jakieś przerywniki, żeby zmylić użytkownika w pewnym sensie, to to już jest inny aspekt. Trzeba być ostrożnym i badać, wszystko trzeba przeliczyć.

Jeśli chodzi o integrację Alexy w świecie online, to jak już powiedziałeś, jest mnóstwo różnych zastosowań, a teraz porozmawiajmy o świecie offline, czyli sytuacji kiedy nie mamy wprost połączenia z Internetem, bo takich sytuacji jeszcze nadal mamy dość dużo. Jakie są przypadki takiego użycia? Jakie są problemy w świecie offline?

Grupa, w której pracuję, jest skupiona dokładnie na tej tematyce obecnie. Gdy zaczynałem pracę w Alexie, była ona prostym urządzeniem, tylko i wyłącznie przyczepionym do sieci, więc technologia nie była przygotowana na to, żeby używać jej w sytuacji, gdy nie ma Internetu. Ja skupiłem się właśnie na tym kierunku, jak zacząłem tutaj pracować w 2016 r. Zaczęliśmy badać, czy istnieje taka potrzeba i kiedy ona zachodzi.

Doszliśmy do obecnego momentu, gdzie mamy dwie podstawowe sytuacje, w których chcemy, żeby samo urządzenie bezpośrednio w domu potrafiło rozpoznać, co mówimy. Są sytuacje, w których nie ma Internetu, a ja jednocześnie jak mam to urządzenie, to mam możliwości sterowania domem. Więc teraz czemu chciałbym zabierać użytkownikowi tę możliwość? Nie ma dobrego powodu.

Nie było jednak wiadomo, na ile duży to jest problem. Badania pokazały, że jest tam tyle poważnych problemów, że warto w to zainwestować. Równolegle drugim tematem, w którym to było jeszcze bardziej oczywiste, były samochody, które poruszając się po drodze, często tracą zasięg. Tutaj niestety żadne 3G, 4G, a 5G tym bardziej nie rozwiązuje tego problemu. Mam takie wrażenie czasami, że rozwój tych sieci się skupia na density, ale nie na problemie rozwiązania dostępu wszędzie.

Co z tego wynika? Wynika to, że często, jeżeli bym chciał powiedzieć, któremuś samochodowi, żeby włączył muzykę, wyłączył klimatyzację czy zaczął nawigować tam, gdzie chcę, to ta online’owa integracja nie wystarczy. Urządzenia Alexy, Echo Plus czy Echo Show mają wbudowaną funkcjonalność offline. Można z nich korzystać, gdy nie ma Internetu. Tych możliwości, które można wykorzystać nie ma może bardzo dużo, ale jest to jakiś początek. Jest to coś, co daje fundament budowania większej ilości funkcji w przyszłości.

Doszła do tego trzecia funkcjonalność, której się na początku nie spodziewaliśmy. W przypadku naszych urządzeń Amazon Fire TV klienci przyzwyczajeni do używania naszych nowych technologii głosowych, zaczęli być bardziej skłonni do obsługi głosowej również odtwarzaczy video, co nie było bardzo oczywistym obszarem. Jest to akceptowalne przy interfejsie głosowym Alexy, gdzie czas oczekiwania na odpowiedź do sekundy nikogo nie drażni, bo to jest taki dialogowy, normalny czas oczekiwania, aż ktoś zrozumie, co do niego mówimy, co w przypadku gdy ja mówię do telewizora – „play”, „pause”, „scroll left”, „scroll right” i nie ma tej bezpośredniej reakcji, to stwierdzam, że to jest wolne.

Tutaj te najnowsze urządzenia Fire TV mają wbudowaną Alexę, tę samą technologię i potrafi proste komendy rozpoznać bezpośrednio na urządzeniu nie po to, żeby je wykonywać, gdy nie masz Internetu, ale po to, żeby je wykonywać szybciej. Na tyle szybciej, że klienci rzeczywiście to zauważyli. To podniosło rating tego urządzenia znacząco na Amazonie, właśnie ta funkcjonalność lokalnego rozpoznawania mowy.

Więc to są takie trzy podstawowe miejsca, gdzie widzimy i rozwijamy tę funkcjonalność offline, czyli zabezpieczenie przed brakiem Internetu w domu, w drodze, gdzie ten zasięg jest niepewny oraz dla prostych komend, które chcemy, żeby były wykonywane jak najszybciej.

Jakie tam są problemy, które trzeba było rozwiązać?

Wykorzystujemy te same technologie co chmura, czyli nasze silniki machine learningowe to są te same silniki machine learningowe, których używamy w chmurze. Nie zawsze są to te same modele, czyli nie jesteśmy w stanie użyć takiego samego, dużego modelu, co serwer za kilkadziesiąt tysięcy dolarów na urządzeniu, który kosztuje tych dolarów kilkadziesiąt czy kilkaset.

To jest w pewnym sensie problem, bo dostajemy innego rodzaju produkt, innego rodzaju rozwiązanie technologiczne, ale okazuje się, że z jednej strony mamy ograniczenie funkcjonalności tego lokalnego systemu do tego, do czego on jest zbudowany, a z drugiej strony inwestycja w optymalizację tych technologii pozwoliła nam stworzyć modele i silniki rozpoznawania mowy, rozpoznawania języka naturalnego oraz później syntezy mowy, które działają równie wydajnie jak te, które są w chmurze pod względem czasu reakcji.

Jednocześnie nie stanowią istotnego pogorszenia, tzn. rozmawiając z tą Alexą offline, ona nie będzie działać wolniej, ani nie usłyszysz słuchając odpowiedzi, że to jest syntezowane przez syntezator na urządzeniu, a nie w chmurze. Też jakość rozumienia tego, co ta Alexa może zrobić, nie będzie w żaden sposób inna, czyli to, że lokalnie mamy jakiś silnik, nie pogarsza funkcjonowania z tym urządzeniem, co było krytycznym punktem, jeśli chodzi o zaakceptowanie tego typu rozwiązania.

Nie mogliśmy tutaj odpalić tego rozwiązania bez dostarczenia odpowiednio wysokiej jakości. To znaczy, że zbudowaliśmy technologię tzw. kwantyzacji, czyli zamiast używania pełnej rozdzielczości liczb zmiennoprzecinkowych, używamy prostych ośmiobitowych liczb w modelach machine learningowych. Używamy zmniejszania rozmiarów modeli, tzn. wyrzucamy np. wagi z modelu, które są mało istotne, czyli filtrujemy model do mniejszego rozmiaru.

Używamy różnych sztuczek, optymalizacyjnych dla modeli, szczególnie dla sieci neuronowych, które pozwalają na zmniejszenie złożoności rozwiązywanych później równań. Mógłbym długo o tym rozmawiać. Jeśli kogoś to interesuje, to może posłuchać wykładu na YouTube, w którym opowiadam szczegółowo właśnie o tym.

To jest ciekawe, że ta technologia przenika w różne obszary, również w świat offline. Tak naprawdę nie wiadomo, jaki tam jest sprzęt dostępny. W tym wykładzie, o którym wspominasz, fajnie żartujesz, jak to mogła być szafa z serwerami albo cały bagażnik zawalony w samochodzie sprzętem, ale jest inaczej.

Bardzo skromne procesory tam stoją, które potrafią przeliczać bardzo wolno, więc to faktycznie jest wyzwanie. Jak widać, poradziliście sobie, bo zawęziliście domenę i te problemy dostępne do rozwiązania.

Czy zdarzają się sytuacje, gdy ludzie Was zaskakują? Wyobrażacie sobie, że jest asystent głosowy i chcecie, żeby ludzie używali go w dany sposób, przygotowujecie to zastosowanie, a później świat to weryfikuje. Część pewnie się sprawdza, ale też podejrzewam, że pojawiają się takie zastosowania, które były zaskoczeniem.

Tutaj na pewno wspomniałem o sterowaniu głosowym, odtwarzaniu oraz o popularyzacji technologii Smart Home, która nie była specjalnie przewidziana. To, co mnie zaskoczyło, nawiązuje trochę do tego, co powiedziałeś o budowaniu personalnej więzi z Alexą.

Gdy policzymy, ile razy ludzie w ciągu roku powinni mieć urodziny oraz popatrzymy, jak często proszą Alexę, żeby zaśpiewała im piosenkę „Happy Birthday”, to zauważymy, że co najmniej kilkukrotnie więcej razy w stosunku do tego, ile rzeczywiście nasi użytkownicy mogliby tych urodzin mieć, wliczając w to zapraszanie znajomych po to, żeby te urodziny spędzili z Alexą.

To jest bardzo ciekawe, że taka funkcjonalność pomyślana jako pewien żart, że Alexa potrafi zaśpiewać „Happy Birthday”, jest naprawdę często używana przez klientów i to jest jak najbardziej zaskakujące. Ma to też przełożenie na rzeczywistość, ponieważ obserwujemy głębszą interakcję – ludzie budują wirtualne reakcje z wirtualnym bytem, jakim jest Alexa.

Amazon oczywiście inwestuje w to dalej, rozwija to i tworzy z tego różne nowe możliwości. W zeszłym roku uruchomiliśmy personę, bo to w zasadzie nie jest sam głos, który brzmi jak Samuel L. Jackson. Również ma charakter Samuela L. Jacksona, można go poprosić, żeby opowiedział Ci dowcip, ale można też poprosić, żeby Cię sponiewierał. Tutaj zaskakujące było z kolei to, że wiedzieliśmy z jednej strony, budując tę personę, że ludzie chcący mieć takiego asystenta jak Samuel L. Jackson, będą chcieli, żeby ten Samuel L. Jackson przeklinał.

Natomiast feedback od użytkowników zupełnie nas zwalił z nóg, bo mieliśmy użytkowników, którzy chcieli, żeby on przeklinał non stop, że to jest to, czego oni pragną. Taka wersja dla dorosłych. Możesz sobie takiego Samuela L. Jacksona zainstalować w tej chwili, można do niego już mówić w miarę normalny sposób. Więc jak powiem:

– Hey Sam Jackson, tell me a joke.

To jeżeli mam wybraną wersję family friendly to dostanę żart, ale jak mam tę wersję dla dorosłych, to zwykle będzie tam jakieś przekleństwo dodane. Zwykle te wszystkie technologiczne produkty są bardzo wychuchane, a tutaj Amazon odważnie potrafił zrobić coś, co najwyraźniej jest potrzebą klientów, czyli żeby ta technologia nie zawsze była taka wychuchana, wymuskana i nice.

Ciekawe dokąd to będzie dążyć.

To jest bardzo ciekawy temat.

Dzięki wielkie Staszku za rozmowę, za to, że podzieliłeś się swoim doświadczeniem. Jeszcze wiele tematów moglibyśmy dodatkowo poruszyć. Być może warto jeszcze się umówić za jakiś czas na kolejną rozmowę, ale przynajmniej na początek udało nam się zobaczyć, co tam się dzieje, jakie są metryki, jak to może wpływać potencjalnie na biznes, czego można się spodziewać w najbliższym czasie.

Obserwujmy, jak te zmiany będą zachodzić u nas w Polsce, bo jednak tutaj, w porównaniu ze Stanami, to trochę wolniej to idzie, co wcale nie oznacza, że nie idzie, bo widać postęp, widać, że ludzie zaczynają to stosować. Dzięki wielkie za rozmowę i do usłyszenia.

Dziękuję bardzo, do usłyszenia.

Ta rozmowa mogłaby trwać jeszcze znacznie dłużej. Jeżeli uważasz, że warto byłoby zaprosić Staszka jeszcze raz i zadać inne pytania, to daj mi o tym znać. Wszystko jest możliwe, żeby zorganizować i dopytać o inne informacje, które tutaj nas ominęły. Jeżeli masz pomysł, kogo warto byłoby zaprosić albo jakie tematy byłyby dla Ciebie interesujące, to zapraszam do kontaktu. Twórzmy razem Biznes Myśli!

Artykuł NLP w Amazon – porozmawiaj z Alexą pochodzi z serwisu Biznes Myśli.