sztuczna intelgencja – Biznes Myśli

Sztuczna inteligencja zmienia szukanie odpowiedzi

Vladimir — Wed, 05 Jun 2024 07:00:00 +0000

Wprowadzenie

Vladimir: Cześć Piotrek, powiedz trochę więcej o sobie, czym się zajmujesz, gdzie mieszkasz?

Piotr: Cześć, ja się nazywam Piotr Rybak, mieszkam w Warszawie i zajmuję się szeroko pojętym rozumieniem języka, tak zwanym Natural Language Processing (NLP). W tym się specjalizuję, ale też zajmuję się przy okazji całym nurtem uczenia maszynowego, trochę wizją komputerową, kiedyś też analizami sygnałów – bardzo różnymi rzeczami. Co się trafiało, tym też się zajmowałem.

Natomiast główny mój fokus to jest właśnie rozumienie języka, przetwarzanie języka, budowanie tak naprawdę produktów, które wykorzystują w jakiś sposób ten komponent uczenia maszynowego, żeby rozumieć język.

Ciekawa książka

Vladimir: Właśnie, o tym dzisiaj porozmawiamy. Masz bardzo fajne doświadczenie, takie bardzo praktyczne, takie sobie najbardziej lubię. Ale tak na rozgrzewkę, powiedz, jaką fajną książkę ostatnio przeczytałeś i dlaczego warto ją przeczytać?

Piotr: To jest bardzo problematyczne pytanie. Szczerze, nie wiem. Chyba od wielu lat nie czytam już książek. Jakoś mam wrażenie, że książki przestały być dobrym medium, jeżeli chodzi o naukę, o przekazywanie wiedzy.

Kiedyś rzeczywiście dużo czytałem – bardzo dużo beletrystyki, potem też jakichś podręczników i tak dalej. Ale w sumie mam wrażenie, że w tej chwili cała branża rozwija się na tyle szybko i to zarówno, jeżeli chodzi o jakieś uczenie maszynowe, ale nie wiem – budowanie produktów czy cokolwiek innego, startupów – to się wszystko rozwija na tyle szybko, że najwięcej informacji jest na Twitterze, na Discordach. Gdzieś ludzie napiszą jakiś losowy komentarz i tam jest wiedza. I to trzeba śledzić. Tego na przykład czytam na bieżąco. Polecam przykładowo Hacker News –

Polecam przykładowo Hacker News – to taka super stronka z newsami startupowymi, która ma niesamowite komentarze. Są tam najbardziej znane osoby na świecie, znani startupowcy. Jeżeli jest pytanie o MongoDB i ktoś narzeka, że coś w MongoDB jest beznadziejne, to nagle komentarz pisze twórca MongoDB i odpisuje merytorycznie, że jednak nie masz racji, bo to jest tak i tak. Mam wrażenie, że tam jest aktualnie najwięcej wiedzy i to należy czytać.

Vladimir: Czyli to, co mówisz, to informacja teraz szybko się starzeje, a a propos Hacker News – to też ciekawostka, że ta stronka wygląda jak coś takiego starszego, ale faktycznie zawiera najbardziej świeże rzeczy, plus ta merytoryczność, o której wspomniałeś, tam jest.

Dobrze, słuchaj, to zanurzajmy się w tematy dzisiejszego odcinka. Masz dużo doświadczenia z NLP, w szczególności w tzw. zadaniach zdanie-odpowiedź, czyli question answering. Zwykle jest tak, że ktoś, kto siedzi w tym bardzo długo, zapomina, jak to jest czegoś nie wiedzieć, i mówiąc niby prostymi słowami do kogoś innego, to nie zawsze jest takie oczywiste. I chciałbym, żeby osoba, która w tych tematach nie siedziała, po dzisiejszej naszej rozmowie zrozumiała wiele, a również osoby, które w tym temacie siedzą, też usłyszały przydatne informacje.

Piotr: Jest to dość trudne zadanie, ale myślę, że dam radę.

Czym jest question answering?

Vladimir: Zacznijmy od początku, jeżeli chodzi o właśnie question answering. O co chodzi z tym zagadnieniem, jak możesz to wyjaśnić tak po ludzku, dlaczego to zagadnienie może być pomocne, wartościowe np. dla biznesu?

Piotr: Jeżeli chodzi o question answering, to jest to bardzo, bardzo szeroka dziedzina przetwarzania i rozumienia języka naturalnego. I możemy sobie wyobrazić, dlaczego jest szeroka, podam kilka przykładów.

Oczywiście możemy się spytać, kiedy była bitwa pod Grunwaldem?

Vladimir: To sobie wyobrażamy jako standardowe odpowiadanie na pytanie. Była wtedy i wtedy. Ale ktoś może zadać pytanie, jak będzie po angielsku „biznes myśli”? Niby to jest question answering, ale tak naprawdę to jest tłumaczenie maszynowe.

Ktoś może zapytać, ile to jest 2+2. Niby to jest question answering, niby ktoś sformułował to jako pytanie, ale tak naprawdę to nie jest pytanie, to jest użycie kalkulatora.

I jakby sam question answering zajmuje się właśnie bardzo, bardzo wieloma rzeczami, bardzo wieloma typami. Ja się zajmuję, w szczególności tutaj podczas tej rozmowy, chyba skupiłem się na takim dosyć ograniczonym rozumieniu question answeringu jako wyszukiwaniu odpowiedzi.

Question answering jako lepszy search

Piotr: Znaczy, założyłbym, że mamy jakąś bazę wiedzy, np. dokumenty w firmie, i teraz mamy użytkownika, który chce się czegoś dowiedzieć, ale zamiast przeszukiwać te dokumenty ręcznie, chciałby zadać pytanie: ile dni urlopu przysługuje pracownikowi, który pracuje tutaj od roku?

To jest konkretna informacja, która najprawdopodobniej jest w jakichś dokumentach kadrowych, HR-owych, tylko zamiast szukać tych informacji ręcznie, ja bym chciał tę informację, tę odpowiedź znaleźć.

I w tym sensie odpowiadanie na pytania to jest tak naprawdę taki trochę lepszy search, trochę lepsza wyszukiwarka. Bo nie tylko znajdujemy dokumenty, w których ta odpowiedź jest, czy jakiś paragraf, w którym ta odpowiedź się znajduje. To jest pierwszy krok, ale drugi krok to jest jeszcze wyciągnięcie tej odpowiedzi i przedstawienie jej w jakiejś takiej bardziej naturalnej formie, czyli po prostu podanie informacji: 20 dni albo 26 dni, zamiast zdania, że tutaj jest dokument.

Przydatność question answeringu

Piotr: Czemu to jest przydatne? To jest analogicznie przydatne, jak Google jest przydatny. Mamy mnóstwo informacji, potrzebujemy informacji. W tym samym sensie po prostu każdy biznes żyje na informacjach w dzisiejszym świecie i tych informacji szuka podczas codziennej pracy.

Co chwilę tak naprawdę zadajemy sobie jakieś pytania, czy jako programiści – jakie argumenty ma dana funkcja, czy jak coś zrobić. Wtedy używamy często tego Google’a, wyszukujemy, znajdujemy taką stronkę Stack Overflow, gdzie ktoś już zadał to pytanie i patrzymy, jaka jest odpowiedź.

Ale oczywiście w każdej innej branży jest dokładnie to samo i niektóre te informacje są publicznie dostępne, jak właśnie w Google, a niektóre oczywiście są zamknięte w ramach naszych organizacji, w ramach naszych firm, bo mamy jakieś procedury, standardy i informacje wewnątrzfirmowe. Też musimy dobrze wyszukiwać te informacje i prezentować je, czy to naszym pracownikom, klientom, czy użytkownikom strony internetowej.

Stack Overflow a ChatGPT

Vladimir: Powiedziałeś, że to jest taka wyszukiwarka, tylko lepsza. Myślę, że Stack Overflow może nam się teraz przydać jako przykład.

Wcześniej, jak ktoś potrzebował napisać kod i coś mu nie działało albo chciał coś nowego stworzyć, to wpisywał zapytanie do Google, trafiał zwykle na Stack Overflow, patrzył na rozwiązania, kopiował, wklejał, coś zmieniał i tak to działało. Był nawet taki żart – Stack Overflow Driven Development.

Natomiast kiedy pojawił się ChatGPT, Stack Overflow zaczął być rzadziej używany.

Zresztą, jak teraz nagrywamy, to już jest oficjalny news – ChatGPT, czyli OpenAI, zaczyna formalnie współpracować ze Stack Overflow. Wcześniej były tylko pogłoski, że parsują sobie te dane, a teraz to już formalna współpraca. Pojawiały się nawet śmieszne propozycje nazw, jak GPT Overflow, ale oficjalnie nazywa się to Overflow AI.

Idea polega na tym, że teraz już nie musisz najpierw szukać w Google, analizować semantycznie wyników, tylko od razu wpisujesz, co chcesz i dostajesz odpowiedź. Wszystko sprowadza się do tego, że jako ludzie szybciej uzyskujemy potrzebne informacje.

Ograniczenia ChatGPT

Vladimir: Chociaż trzeba przyznać, że nie zawsze to działa. Wczoraj miałem wyzwanie z Kubernetesem, bo po kolejnej aktualizacji rozsypały mi się rzeczy. Kopiowałem błędy wszędzie – do Bardy, ChatGPT, Perplexity, Llamy – coś podpowiadały, ale ostatecznie musiałem sam pogrzebać głębiej w logach i rozwiązać problem. Choć czasem faktycznie pomaga.

Podsumowując, teraz mamy mniej kroków i zwykle, choć nie zawsze, dostajemy precyzyjną odpowiedź na swoje pytania, prawda?

Piotr: Tak, to jest założenie. Znaczy założenie jest takie, że odpowiedź gdzieś jest, przynajmniej w tym rozumieniu question answeringu, którym ja się zajmuję i który dla mnie jest obecnie najbardziej rozwiązaną częścią tego zagadnienia.

Chodzi o to, że gdzieś w bazie dokumentów jest odpowiedź i chcemy ją wyciągnąć w dobrej formie. W przypadku tego błędu z Kubernetesem, być może nikt nigdy nie rozwiązał tego problemu, w sensie nie ma tej informacji w żadnym dokumencie – nikt nie zadał tego pytania na Stack Overflow, nie ma tego w dokumentacji ani w zgłoszeniach na GitHubie. Więc to jest coś, co jest nierozwiązywalne w takim standardowym question answeringu.

Prawdopodobnie obecnie w ogóle nie jest to sensownie rozwiązywalne. Można liczyć, że kolejna wersja ChatGPT przeanalizuje kod źródłowy Kubernetes i wymyśli, z czego może wynikać błąd, ale jeszcze nie jesteśmy na tym etapie.

To, co działa dobrze, to znalezienie informacji, która już gdzieś jest i być może przetworzenie jej w bardziej zrozumiały sposób, tak żeby łatwiej nam było to przeczytać.

Vladimir: Masz rację, bo to była świeża aktualizacja, więc dopiero te błędy zaczęły się pojawiać i ludzie próbują to rozwiązać i gdzieś zgłosić. Dopiero później informacja będzie gdzieś zarejestrowana.

Paradoks odpowiedzialności za rozwiązywanie problemów

Vladimir: Tylko problem polega na tym, że ty jako osoba, która jesteś odpowiedzialna za to, musisz to rozwiązać. Więc to jest taki trochę paradoksalny stan, gdzie nadal człowiek nie ma wymówki, że nie ma jeszcze informacji, jak to rozwiązać, tylko musi coś sobie z tym zrobić.

Piotr: Jak o tym pomyślimy, to takie sytuacje nie zdarzają się aż tak często. Raczej to, co widzimy, jak mamy kanał supportowy w firmie i komuś nie działa, nie ma dostępu do jakiejś usługi. Rzadko kiedy jest sytuacja, w której on jest akurat tą pierwszą osobą w firmie, która ma ten problem.

To raczej jest tak, że już 50 innych osób napisało, że ma z tym problem i tylko człowiek z tego wsparcia IT musi po raz kolejny, 50. raz napisać „trzeba założyć ticket tutaj i tutaj”. Tak samo tutaj z tym błędem Kubernetesa, pewnie kolejne 50 osób już nie musi tego rozwiązywać samemu, tylko wystarczy, że znajdzie już to pierwsze rozwiązanie.

Rozwiązywanie powtarzających się problemów dzięki technologii

Vladimir: Właśnie, teraz dochodzimy do wniosku nr 1.

Osoba decyzyjna, osoba, która buduje takie systemy, już wie co najmniej jedną rzecz – że jeżeli chcemy rozwiązać problem, który regularnie się powtarza, to obecnie technologie pozwalają robić to całkiem dobrze.

Za chwilę też o tym porozmawiamy jak, ale mówimy, co jest możliwe.

Open domain vs closed domain w question answering

Vladimir: I teraz połączmy to z takim stwierdzeniem jak open domain, bo często pojawia się właśnie question answering w kontekście open domain albo closed domain. Gdzie jest ta definicja i jaka jest granica? Czy teraz, mówiąc o takiej wewnętrznej wyszukiwarce w firmie, to jest open domain czy to już nie do końca? Jak to definiujesz dla siebie?

Piotr: To jest trudne pytanie. Wydaje mi się, że tak jak wiele prób postawienia granicy, to zależy. Dla mnie to jest raczej kwestia historyczna względem tego, jak kiedyś się rozwiązywało systemy question answering.

To było raczej tak, że mamy jakiś dokument i zadajemy do tego dokumentu pytanie. To bym nazwał taki closed domain, to się teraz raczej nazywa reading comprehension, a open domain to jest na zasadzie, że mamy tę bazę wiedzy bardzo, bardzo dużą. Na tyle dużą, że możemy rzucić tam, w cudzysłowie, dowolne dokumenty, dowolnie dużo dokumentów, ale mamy tę bazę wiedzy.

Teraz możemy zadawać dowolne pytania o tę bazę wiedzy i w tym sensie jest to open domain. Oczywiście, też założenie jest takie, że to jest rzeczywiście open domain w znaczeniu, że to mogą być dokumenty czy to prawnicze, czy jakieś lekarskie, czy techniczne i tak dalej.

I to ma trochę znaczenie, ale raczej powiedziałbym, że rozróżnienie jest takie, czy mamy dużo tych dokumentów, czy to jest jeden dokument.

Vladimir: Dobrze. Spróbujmy teraz zrobić taki punkt odniesienia na temat technicznych możliwości, jeżeli chodzi właśnie o „open„, „nie open„, question answering, czyli pytania, odpowiedzi.

Skuteczność systemów AI w zadaniach question answering

Vladimir: Czyli nawet uprośćmy sobie zdanie, załóżmy, że mówimy o angielskim, za chwilę też porozmawiamy o języku polskim. Gdzie jesteśmy teraz? Są różne benchmarki, ale chciałbym, żebyśmy to jakoś oszacowali bardziej tak po ludzku. Załóżmy, że jest ocena od 0 do 10 – 0 totalnie nie umiemy, 10 idealnie trafiamy zawsze w to, co trzeba. Załóżmy, że tych dokumentów jest nieskończenie wiele i znajdujemy dokładnie to, co trzeba, prosto, idealnie. Gdzie jesteśmy teraz? Przynajmniej może subiektywnie, to jest trochę, ale spróbujmy to oszacować, żeby osoba, która nie zna tych benchmarków po nazwach, była w stanie odnieść, co w tej chwili już jest możliwe.

Piotr: Ja bym powiedział, że to jest 9, 9,5. Jest to w miarę rozwiązany problem, a przynajmniej rozwiązany w sensie użytkowym. Też pomyślmy o tym, że jeżeli system ma, powiedzmy, skuteczność 90%, czyli odpowiada na 90% pytań, to to wciąż jest bardzo użyteczny system. W sensie bardzo fajnie coś takiego wdrożyć, nie odpowiemy na wszystkie pytania i w każdym systemie, który jest oparty o uczenie maszynowe, nigdy nie będziemy mieli 100% skuteczności, ale powyżej jakiejś skuteczności ten system już jest użyteczny.

Oczywiście ta proporcja jest różna w zależności od tego, co robimy. Jeżeli gramy w ruletkę i chcemy przewidywać, czy będzie czerwone czy czarne, to nawet jak mamy 55% skuteczności, to już możemy się wzbogacić i wygrywać miliony w kasynie. Ale jakby to było 55% skuteczności w wyszukiwaniu jakiejś informacji, to pewnie nie byłoby to bardzo wysokim wynikiem.

Ja bym powiedział, że to w tej chwili raczej są rzędu właśnie 80-90-90 parę procent. Trochę zależy od tego, jak skomplikowane są te pytania. Trochę zależy, jak bardzo różne są pytania od dokumentów. Znaczy, jeżeli pytanie jest bardzo skomplikowane i ma bardzo dużo szumów i śmieciowych informacji, które nie są istotne, a dokumenty wyglądają zupełnie inaczej, no to wtedy wiadomo, że ten model, jakiś model, system będzie miał trudność, żeby znaleźć dobre dokumenty, żeby generować dobrą odpowiedź. Im prostsze, czystsze, takie sensowniejsze są pytania i im lepszej jakości są dokumenty, to czasami to działa praktycznie zawsze i zawsze dostajemy dobrą odpowiedź.

Użyteczność systemów AI vs ludzie

Vladimir: A fajnie to rozdzieliłeś, bo ja cię zapytałem właśnie o ocenę i to jest blisko idealne, czyli bardzo blisko dziesiątki jesteśmy, ale też fajnie to rozdzieliłeś, że jest jeszcze druga miara – użyteczność. I właściwie, jeżeli chodzi o użyteczność, to jak nie mamy takiej wyszukiwarki wewnętrznej, powiedzmy w większym atelier, no to mamy ludzi. I taka Zuzia albo Jacek to też nie zawsze odpowiada na wszystkie pytania, ale nadal zwykle pytamy kogoś, więc pod tym względem i tak ten problem istnieje, czyli nie mając tych narzędzi też nie mamy zwykle, jeżeli to jest w miarę większa firma, jakieś skomplikowane procedury, rzeczy itd., to zwykle też nie ma pojedynczej osoby, która wie wszystko.

Piotr: Co ciekawe, też istnieje takie routery, że jest ta osoba, która wie, kto może wiedzieć i to też jest taka ciekawa rzecz, którą można stosować technologicznie, że masz takie routery i przekierowujesz się do pojedynczych takich modeli, agentów, jakkolwiek tam je nazwać, a oni się skupiają na którejś tam działce, na przykład ten na HR, ten na marketingu, ten tam jeszcze na urlopach itd.

Udało mi się tak w jednej firmie wpaść w cykl, że spytałem osoby A, jak coś zrobić, zostałem przekierowany do osoby B, osoba B przekierowała mnie do osoby C, osoba C do osoby A i tak naprawdę już ciężko było powiedzieć, co z tym zrobić.

Natomiast co do tej skuteczności ludzi, to też jest coś, co jest w pewnym sensie niesamowite. Czy nie wiem, na ile się zmieniła percepcja ostatnio, ale jeszcze parę lat temu było oczekiwanie takie, że ludzie są bezbłędni, a to uczenie maszynowe czy ta AI, sztuczna inteligencja, no to ona popełnia błędy, ona się myli, ona jest głupia i jest generalnie gorsza od ludzi.

I to naprawdę powodowało duże problemy w rozmowie z klientami, bo robiliśmy badania na zasadzie, trzeba było, nie wiem, klasyfikować teksty, powiedzmy, czy tekst jest z jakiejś tematyki. I wcześniej to robili ludzie, a teraz my to automatyzowaliśmy, robiąc model uczenia maszynowego. I ten model miał skuteczność 80%. No i wtedy klienci mówili: „Nie, no tragedia, 80%, o Panie, to w ogóle nas nie satysfakcjonuje, my nie jesteśmy w stanie przeżyć 20% błędów”. Tak, no tak, ale my daliśmy te same przypadki testowe wam, w sensie waszym pracownikom i oni mieli skuteczność 75%. „Nie, ale to co innego, nie, nie, nie, my nie możemy przeżyć 20% błędów”.

Błędy ludzi vs błędy maszyn

Piotr: Coś w tym jest. Nie wiem, w sensie to nie jest bardzo głupie podejście, bo rzeczywiście ludzie mylą się inaczej niż maszyny. Maszyny często się mylą w dużo głupszy sposób, więc te błędy są inne i być może te błędy są jakby bardziej problematyczne. Natomiast wciąż jest takie przekonanie, że człowiek jest stuprocentowo skuteczny i maszyna też musi być stuprocentowo skuteczna, w szczególności żeby była użyteczna.

A to zupełnie nie jest prawda. Jeżeli nawet mamy taki system do odpowiadania na pytania, który odpowiada tylko w połowie przypadków poprawnie, to to też jest super. Jeżeli wcześniej zajmowało nam na przykład godzinę, żeby znaleźć jakiś akt prawny, który opisuje jakąś sytuację prawną, no i teraz w połowie przypadków ten czas z godziny spada do 5 sekund, to wciąż oszczędzamy mnóstwo czasu. Może tylko w połowie przypadków, ale wciąż oszczędzamy mnóstwo czasu, bo każda ta rozwiązana sprawa to jest godzina do przodu.

Vladimir: Chciałem rzec coś innego, ale jak powiedziałeś, że maszyny się mylą w bardziej głupi sposób, aż się prosi, żeby jakiś leaderboard stworzyć i porównać, kto potrafi się mylić bardziej głupio – maszyny czy ludzie, bo ludzie też czasem robią różne głupie rzeczy.

Piotr: Ludzie, na przykład, jak się mylą, to często się mylą dlatego, że są rozkojarzeni. W sensie raczej nie popełniają głupich pomyłek tak po prostu, w jakiś taki jeden konkretny sposób, tylko na przykład nie chce im się, to klikną coś losowo i też tego typu błędy bardzo łatwo wychwycić.

A jak model się myli, to często się myli w głupi, ale nieoczywisty sposób, taki, że nie jesteśmy w stanie tego łatwo wykryć.

Jak posadzimy dwóch ludzi i każemy im anotować czy patrzeć na ten sam przykład, to nawet jeżeli jedna z tych osób się pomyli, to bardzo łatwo jest wykryć, że się pomyliła. Jak wytrenujemy dwa modele, to już nie jest aż takie oczywiste, że modele będą zazwyczaj w ten sam sposób skrzywione, przynajmniej w podobny sposób skrzywione, i to już wtedy nie jest oczywiste, żeby to naprawić.

Vladimir: O anotacjach gdzieś jeszcze porozmawiamy, temat pewnie rzeka, ale w tym przypadku na pewno Cię podpytam. Ale żeby skończyć tę myśl, którą zacząłem – powiedziałem tak: jaka jest ocena obecnych rozwiązań?

Powiedziałeś, że blisko dziesiątki. A teraz cofniemy się w czasie, powiedzmy 10 lat temu, może 15. I to samo pytanie, czyli jaka była wtedy dostępność rozwiązań, jeśli chodzi o ten problem question answering, od 0 do 10? Jak to oceniałbyś teraz?

Piotr: Powiedziałbym, że było dużo gorzej. Znaczy, trochę rewolucyjnych rzeczy się zmieniło i to jakby w dwóch krokach. Może delikatnie rozbiję, w jaki sposób się w ogóle tego typu systemy buduje.

Dwa kroki w budowaniu systemów question answering

Zazwyczaj składa się to z dwóch kroków. Pierwsza to jest wyszukiwarka, czyli mamy dużo dokumentów, mamy pytanie i chcemy znaleźć dokumenty, które odpowiadają na to pytanie. To jest pierwszy krok – wyszukiwanie dokumentów.

A drugie to, jak już mamy ten dokument, to jak znaleźć odpowiedź w tym dokumencie. I w obu częściach zdarzyła się tak naprawdę rewolucja, przy czym, powiedziałbym, większa rewolucja jest w tej drugiej części, w wyciąganiu informacji z dokumentu.

Tutaj w szczególności modele generatywne, takie jak large language models, czyli LLM, na przykład GPT itd., to jest coś, co zdecydowanie podniosło skuteczność tego typu systemów.

Ale w wyszukiwarkach też się trochę rzeczy zadziało. W szczególności przeszliśmy z używania takich klasycznych wyszukiwarek opartych o słowa kluczowe do wyszukiwarek właśnie opartych o sieci neuronowe. I to było, jest dla mnie cały czas zaskakujące, bo to się wydarzyło dopiero niedawno. To są ostatnie, nie wiem, 2-3 lata.

Mimo że ludzie próbowali już od dawna używać sieci neuronowych do tego, żeby wyszukiwać, to okazuje się, że te wyszukiwarki oparte o słowa kluczowe są po prostu bardzo, bardzo dobre. I one bardzo dobrze działają. Jeżeli dodamy jeszcze jakieś triki na zasadzie lematyzacji tych słów – w języku polskim jest to istotne.

Lematyzacja, czyli sprowadzenie do takiej formy podstawowej, do bezokolicznika czy do mianownika w przypadku rzeczowników. W przypadku języka polskiego jest to problematyczne, dla angielskiego nie ma to dużego znaczenia, bo tam nie ma aż takiej deklinacji.

Tak, jeżeli dodamy jakieś, nie wiem, predefiniowane listy synonimów, to tak naprawdę taka wyszukiwarka oparta o słowa kluczowe działa bardzo dobrze. I w tym sensie te systemy nadal były użyteczne już te 5, 10, 15 lat temu. Google powstał ile, 20 lat temu

Czym jest LLM?

Vladimir: Dobra, i teraz ta druga część, jeżeli chodzi o poprawę, to między innymi tam pojawi się LLM, tak zwany large language model. Nie będziemy za bardzo się skupiać na definicji, co to jest, ale chciałbym też podpytać, czym dla Ciebie jest LLM i kiedy to jest duży.

Piotr: To może dwa słowa powiem, czym jest LLM, żeby uprościć dyskusję. LLM, czyli large language model, składa się z dwóch części. Language model to jest takie bardzo proste zadanie uczenia maszynowego, gdzie mamy jakiś tekst i chcemy przewidzieć, jakie będzie kolejne słowo w tym tekście. I to jest super zadanie, bo z jednej strony mamy bardzo dużo danych do uczenia. Wystarczy ściągnąć cały internet, wziąć wszystkie możliwe książki na świecie i mamy przygotowane dane, żeby trenować taki model. Po prostu czytamy sobie i przewidujemy kolejne słowo.

A z drugiej strony jest to fajne zadanie, bo to jest takie zadanie, trochę jak właśnie question answering, które enkapsuluje wszystkie inne zadania. Jeżeli mamy zadanie klasyfikacji wydźwięku tweetów, czy tweet jest pozytywny, czy negatywny, to możemy dać tę treść tweeta, a potem napisać „ten tweet jest” i liczymy, że language model nam powie: pozytywny, negatywny, bo musi przewidzieć kolejne słowo. Jakie będzie najbardziej prawdopodobne kolejne słowo? Albo pozytywny, negatywny i która z tych słów raczej ta prawidłowa. Czy question answering też możemy rozwiązać za pomocą language modelingu.

Kiedy model językowy staje się „duży”?

Piotr: Ludzie to robili od lat i zajmowali się tym od lat, i to zawsze było w jakiś tam sposób użyteczne. Natomiast faktycznie zaczęło być super użyteczne od kiedy dodaliśmy to pierwsze „L”, czyli large. To znaczy, ludzie zauważyli, głównie tak naprawdę OpenAI zauważyło, że jeżeli będziemy skalować te modele językowe, czyli te sieci neuronowe, które właśnie przewidują to kolejne słowo, jeżeli będziemy je robić coraz większe i coraz większe, i coraz większe, to te modele będą działać coraz lepiej, coraz lepiej i coraz lepiej.

I to się wydaje banalny wniosek. No wiadomo, jak będzie większe, to będzie lepsze, ale to nie jest oczywisty wniosek. Znaczy, raczej zazwyczaj było tak, że jeżeli mieliśmy więcej danych, no to wiadomo, że model był lepszy, ale w którymś momencie ta skuteczność się wypłaszczała, już nie warto było mieć więcej danych. Albo jeżeli zwiększaliśmy model, to ok, no było lepiej, ale do pewnego momentu, potem już nie było

Skalowanie modeli językowych i ilości danych

Vladimir: Okazało się, że jeśli będziemy skalować obie te rzeczy na raz, czyli wielkość modelu i ilość danych, a obie rzeczy możemy skalować – wielkość modelu, po prostu musimy mieć więcej kart graficznych, więcej GPU, na których trenujemy ten model, no i danych też mamy bardzo dużo, bo możemy brać po prostu strony internetowe, książki itd. I w pewnym sensie mamy tych danych nieograniczenie wiele, chociaż okazuje się, że już dochodzimy do tej granicy.

To okazuje się, że jeżeli będziemy to tak skalować, to się nie wypłaszcza. Znaczy wiadomo, że za każdym razem musimy dawać na przykład 10 razy więcej danych i 10 razy większy model, ale wtedy mamy zawsze stały przyrost skuteczności. No i od pewnego momentu te modele po prostu zaczęły działać bardzo, bardzo dobrze i rzeczywiście zaczęły działać w ten sposób, w jaki zawsze ludzie teoretycznie myśleli, że by było fajnie, gdyby te modele językowe działały.

Piotr: Czyli właśnie ten przykład z tweetami, że po prostu dajemy tweet i się pytamy, jaki jest sens tego tweeta. No i to było takie machanie rękami, że to powinno działać, ale od pewnego momentu okazało się, że to faktycznie działa. No i to było w jakimś sensie niesamowite, znaczy mnie to osobiście zaskoczyło, że to faktycznie może tak działać.

Prompt engineering

No i wtedy też pojawił się cały ten nurt promptingu, tak, prompt engineeringu, no bo skoro to w ten sposób działa, no to teraz może ma znaczenie, jaką napiszemy tę początkową sekwencję i włożymy do modelu językowego. Czy najpierw damy treść tweeta, a potem napiszemy: sklasyfikuj ten tweet to…, czy najpierw napiszemy: sklasyfikuj tweet i coś dalej, i tak dalej.

I okazało się, że w tych początkowych modelach językowych ma to bardzo duże znaczenie, bo on jedyne, czego się uczył, to właśnie przewidywać kolejne słowo.

Taki znany przykład jest na przykład ze streszczeniem. Jak się czyta dużo Reddita na przykład, to często posty są pisane w ten sposób, że jest napisany post, a potem tl;dr, czyli „too long; didn’t read”. Ludzie pisali kilkuzdaniowe streszczenie, o co chodzi w tym poście.

I okazało się, że skoro model przeczytał bardzo dużo tego typu tekstów, no to wiedział, że po słówku tl;dr ma napisać streszczenie. Więc jak wzięliśmy taki początkowy language model, GPT-2 czy GPT-3, i daliśmy mu jakiś tekst, a potem daliśmy tl;dr, to on fenomenalnie potrafił generować streszczenie.

No i teraz to jest przydatne, bo te modele są po prostu bardzo zdolne, mają bardzo dużo umiejętności, bardzo dobrze rozumieją tekst i w szczególności nie wymagają bardzo dużo danych treningowych.

Często nie potrzebują w ogóle danych treningowych, tylko wymagają dobrze napisanego promptu, żeby już rozwiązywać jakieś konkretne zadania. Jednym, oczywiście bardzo specyficznym zadaniem, jest właśnie wyciąganie odpowiedzi z dokumentów czy synteza informacji z dokumentów, żeby odpowiedzieć na pytanie.

Vladimir: Bardzo mi się podoba, jeżeli chodzi o ten duży model, że zwrócono uwagę, iż nie chodzi tylko o rozmiar architektury czy liczbę parametrów. Zwykle osoby, które są poza tematem, mierzą się, kto ma tych 13 miliardów parametrów, kto 7 itd. Ale ważne jest też to, że dotyczy to danych. W obecnych czasach, jak już udało się znaleźć pewien poziom, to teraz jest taka walka – co jeżeli zmniejszamy rozmiar modelu, a bardziej pracujemy na jakości i ilości danych, próbując osiągnąć tę samą rzecz.

Widać, że dane w tej chwili odgrywają ważną rolę. Był taki moment, pewna iluzja, że wystarczy wrzucić cokolwiek, bo mamy duży model i on sobie jakoś tam poradzi. Jednak po raz kolejny odbiło się to o tę iluzję i znów wraca się do tego, że jakość danych ma sens. Ilość i jakość w tym przypadku odgrywają ważną rolę.

Znaczenie danych w trenowaniu modeli

Piotr: To znaczy, koniec końców, to czego się ten model uczy, to po prostu tych danych. Im więcej tych danych damy, tym więcej informacji się nauczy. Nawet niekoniecznie lepszej jakości, bo bardzo ciężko zdefiniować, co znaczy lepszej jakości dane, ale takich danych, których chcemy, żeby model się nauczył.

Tego się nauczy. Jeżeli damy mu teksty, które są pełne teorii spiskowych i nieprawdziwych faktów, jakichś fake newsów, to model się fenomenalnie tego nauczy, tylko to będzie dla nas mało użyteczne, jeżeli chcemy, żeby odpowiadał prawdziwie na pytania. Ale nie jest powiedziane, że to są wysokiej jakości dane, jeżeli zawierają prawdziwe informacje.

Jeżeli chcemy pisać fake newsy, powiedzmy, że jesteśmy jakąś agencją propagandową i chcemy pisać fałszywe informacje, to akurat tego typu danych chcemy. Chcemy mieć dane z fake newsami i chcemy, żeby on generował nieprawdziwe informacje. Wtedy dla nas wysokiej jakości dane to są te dane, które właśnie zawierają fałszywe informacje.

Vladimir: A w tym przypadku bardziej poszedłeś w kierunku biasu, że może być w ten sposób pisane albo w inny, a ja też, mówiąc o jakości, myślę przede wszystkim, że te dane w ogóle mają sens jako takie.

To znaczy, możesz sobie pozbierać jakieś paskudztwa w internetach, różne rzeczy i tam jest mnóstwo śmieci, które – nawet nie chodzi o to, że to jest prawda czy nieprawda – tylko po prostu to są totalne śmiecie. I trenowanie na takich śmieciach nie daje dużych wartości, bo tam nawet nie ma dobrych zdań, po prostu jakiś spam, niespam, nie wiadomo co.

Problem generowanych tekstów w internecie

Piotr: To w ogóle jest problem, że dużo tekstów w internecie jest generowanych przez jakieś proste modele, w szczególności teraz przy powszechności modeli językowych. Ale też historycznie ludzie tak pisali na potrzeby SEO, czyli optymalizacji wyszukiwarek internetowych, optymalizacji Google’a.

Pisali jakieś fejkowe, automatyczne artykuły na blogach, byle tylko miały odpowiednie słowa kluczowe, żeby Google ich indeksował. Teraz, jeżeli weźmiemy w tym przypadku słabej jakości teksty i nauczymy model, żeby tak generował tekst, to tak będzie generował tekst. Czy to będzie dla nas użyteczne? Zazwyczaj nie, bo chcę mieć taki czysty, ładny, powiedzmy wysokiej jakości, w znaczeniu poprawny gramatycznie.

Reprezentacja dokumentów w wyszukiwarce

Vladimir: Słuchaj, Piotrek, bardzo lubisz klocki LEGO, o tym też dzisiaj porozmawiamy, bo to jest wprost przełożenie, ale teraz chciałem zostać nadal w NLP, ale chciałem, żeby właśnie u słuchaczy była taka fajna analogia, że jak próbujemy rozwiązać konkretny problem, a teraz chciałbym, żebyśmy to zrobili, żeby było zrozumiałe, że ten system, który powstanie, to de facto są klocki LEGO, czyli pewne rzeczy, pewne warstwy, je można wymieniać na różne.

I też te decyzje są o coś, czyli jak zmieniamy A na B, to jest coś lepsze albo coś gorsze i musimy sobie wybrać. I chciałbym, żeby to wybrzmiało, że ten system jako tako to nie jest taka jedna duża bryła, tylko to są pewne warstwy i te warstwy można sobie tak konfigurować na różne sposoby. I też tam język może być inny, też jakby dany wycinek mógł być różny, więc próbujemy zdefiniować zadanie w taki sposób.

Załóżmy, że mamy firmę. Ta firma jest powiedzmy troszkę większa, tysiąc pracowników plus więcej, więc różne materiały tam gdzieś się nagromadziły, i PDF-y, i prezentacje, jakieś tam wewnętrzne serwisy o urlopach i innych i chcielibyśmy zbudować wyszukiwarkę, o której rozmawialiśmy, żeby ten przykład już sobie pociągnąć dalej. I teraz oczekiwanie mnie jako użytkownika jest następujące, że ja mam jakąś stronkę, wchodzę tam, jakiś URL i pytam sobie właśnie takie rzeczy, jak sobie zgłosić urlop, albo ile dni urlopu mi przysługuje.

Jak pracowałem w korporacji to dla mnie było dużym wyzwaniem znaleźć system aby zgłosić np. adres do bazy danych (lub odczytać go stamtąd). Bo właściwe były rzeczy takie prawdziwe do rozwiązania, na których warto było skupiać się i biurokratyczne. I dla mnie faktycznie znalezienie procedury, w jaki sposób ja mogę zgłosić jakiś tam dostęp do bazy danych, albo uzyskać ten dostęp do bazy danych, było super skomplikowane.

I osobiście byłbym mega zadowolony, żeby zapytać powiedzmy: „Proszę, jaki jest adres do bazy + i tam jakiś kontekst”, i on mi od razu zwracał, to ja byłbym bardzo szczęśliwy. Więc takie mam zadanie, ja teraz chciałbym, abyśmy przeszli krok po kroku i rozdzielili to na pierwsze takie warstwy poszczególne i też było zrozumiałe, jakie decyzje powinniśmy podjąć w poszczególnych warstwach. Co myślisz o tym?

Piotr: Teraz skupię się na klockach, ale dam disclaimer na początek, że pierwszą rzeczą, którą w ogóle absolutnie w każdym projekcie, a w szczególności w takim projekcie uczenia maszynowego, to chcemy zdefiniować, co właściwie chcemy zrobić i określić sobie cel. Ten cel powinien być jakoś mierzalny.

Takie wiadomo, że tutaj na potrzeby dyskusji pomachamy rękami, powiemy, że chcemy odpowiadać na takie pytania, tak jak powiedziałeś. Natomiast koniec końców zazwyczaj chcemy zacząć od analizy biznesowej – jakiego typu pytania chcemy odpowiadać, jaki zakres, jakie skomplikowanie, kto ma na nie odpowiadać, znaczy kto ma zadawać te pytania.

Często przygotowanie jakiegoś zbioru testowego, który idealnie, jeżeli reprezentuje dobrze te docelowe pytania i tak dalej, to jest absolutny must have na samym początku. O tym możemy jeszcze potem porozmawiać dalej w kontekście jak się buduje dobre zbiory testowe, jak się anotuje dane itd. Ale załóżmy, że to mamy i teraz już faktycznie budujemy konkretne rozwiązanie.

Ja bym powiedział, że kroków jest kilka i rzeczywiście są to takie klocki, które w miarę łatwo jesteśmy w stanie składać i wymieniać. Pierwszym takim dużym klockiem jest po prostu wyszukiwarka.

Wybór dokumentów do bazy wiedzy

Wyszukiwarka składa się z kilku elementów. Najpierw musimy podjąć decyzję jakie dokumenty w ogóle chcemy wciągać do naszej bazy wiedzy. To już jest taka decyzja mocno biznesowa, na jakie pytania chcemy odpowiadać, w związku z tym wciągamy jakieś konkretne dokumenty.

Często te dokumenty są bardzo różne, to mogą być albo jakieś wewnętrzne strony internetowe, może to być jakaś dokumentacja w Confluence czy czymś innym, mogą to być dokumenty takie wordowe czy w Google Docs czy coś takiego.

Tutaj raczej musimy po prostu zdefiniować, na podstawie czego chcemy odpowiadać i jak. Tu też jest trochę trikowych decyzji, na przykład mogą być problemy z uprawnieniami, z dostępem do informacji. Niektórzy pracownicy powinni mieć dostęp do jakiejś informacji, a niektórzy nie.

Jeżeli na przykład mamy dokumenty w Google Docs, to w oczywisty sposób nie możemy wziąć po prostu wszystkich dokumentów w Google Docs całej naszej korporacji, bo tam będą jakieś mniej lub bardziej tajne rzeczy, gdzie konkretne zespoły nie powinny mieć do tego dostępu. Więc jak w ogóle filtrować te dokumenty, skąd brać te dokumenty itd.

To jest taki może mały klocek, ale część polegająca na tym, że musimy te dokumenty, to źródło danych, wybrać.

Reprezentacja dokumentów

Jak mamy już te dokumenty, to pierwszy taki realny klocek to jest to, jak chcemy te dokumenty reprezentować.

Możemy albo je reprezentować i używać wyszukiwarki właśnie takiej klasycznej, opartej o słowa kluczowe. Wtedy jest to względnie proste – bierzemy dokument i wrzucamy cały, reprezentujemy jako słowa kluczowe, czyli dzielimy po prostu na słowa. Być może musimy podjąć tę decyzję, czy chcemy lematyzować te dokumenty, czy nie, ale w końcu jest to względnie proste, gdzie nie ma tutaj dużo decyzji.

Większy problem jest, kiedy chcemy używać tych bardziej współczesnych metod wyszukiwania, czyli tzw. embeddingów albo semantic search, albo ma wiele różnych nazw, ale chodzi o to, żeby reprezentować dokumenty jako jakiś wektor i generujemy ten wektor za pomocą sieci neuronowej, czyli modelu uczenia maszynowego.

Tutaj okazuje się, że ma bardzo duże znaczenie, jak ten dokument podzielimy na kawałki. Możemy oczywiście wziąć cały dokument i wrzucić do takiej sieci neuronowej, i dostać jakiś wektor, ale możemy też ten dokument podzielić na paragrafy i każdy paragraf wrzucić. Możemy też podzielić na zdania i wrzucić każde zdanie, i mieć tak tysiąc wektorów z jednego dokumentu.

Możemy zrobić bardziej trikowe rzeczy, np. użyć LLM-a, żeby napisał nam streszczenie tego dokumentu, czyli co w tym dokumencie jest, i zareprezentować, zaembedować tylko to streszczenie i wrzucić do bazy danych.

Podział dokumentów na fragmenty

Vladimir: Tutaj to są decyzje, które nie powodują dodatkowych problemów technicznych. Często są po prostu gotowe biblioteki, które to robią i każda z tych metod jest równie prosta, i każdą możemy bezpośrednio użyć. Natomiast jest to decyzja trudna produktowo, bo nie jest oczywiste, która z nich jest najlepsza i która w której sytuacji się sprawdzi.

Może podam dwa przykłady na to. Jeden przykład – załóżmy, że mamy system do odpowiadania na pytania o grach planszowych. Czyli chcemy zadać pytanie, nie wiem, czy mogę się ruszyć tym pionkiem tutaj albo o co chodzi w tej karcie, gram w jakąś grę karcianą.

I to jest sytuacja, w której tak naprawdę nie musimy robić wyszukiwania, bo jeżeli jesteśmy w kontekście danej gry planszowej, to źródłem prawdy do tej gry planszowej jest instrukcja tej gry. Instrukcja do gry planszowej zazwyczaj ma najwyżej kilka stron i to jest dostatecznie mało, żeby kolejny krok, jakiś LLM, był w stanie przeczytać całą instrukcję na raz. Więc tak naprawdę nie musimy robić wyszukiwania.

Ale możemy mieć skrajnie inny przykład – projekt, nad którym pracowałem, gdzie trzeba było odpowiadać na pytania dotyczące hoteli, a dla hoteli mieliśmy opinie. Dla danego hotelu mieliśmy tysiące opinii i tam ludzie pytali, czy woda w basenie jest ciepła.

Reprezentacja dokumentów w bazie danych

No i teraz, jak sobie o tym pomyślimy, to w jaki sposób możemy reprezentować te nasze dokumenty? W znaczeniu – każdy dokument to jest opinia.

Tak możemy całą opinię traktować jako taki jeden tzw. chunk i coś takiego wrzucać do bazy danych, ale w przypadku takich pytań o fakty, o jakieś cechy produktu, usługi, czegokolwiek, przez to jest za dużo.

W tej opinii ludzie wymienią 20 różnych cech. No, że woda była ciepła, ale szkoda, że ta plaża była daleko, a drinki to w ogóle były beznadziejne, ale przynajmniej było czysto w hotelu i tak dalej, i tak dalej.

Nie potrzebujemy kontekstu całej opinii, żeby zrozumieć, że woda była ciepła. Wystarczy, że podzielimy sobie tę całą opinię na takie króciutkie frazy rzeczownikowe – po prostu „woda była ciepła”, na pojedyncze zdania czy nawet mniej i coś takiego będziemy enkodować i wrzucać do bazy danych.

Generalnie, im – nazwijmy to – czystsze, czyli im mniej informacji będzie w tych pojedynczych chunkach, tym lepiej, tym łatwiej będzie je wyszukać. No bo jeżeli widzimy całą opinię, to będziemy mieli tak z 20 różnych informacji.

Trudniej jest wyszukać coś, co ma 20 informacji, versus coś, co ma jedną informację, takie to the point. Więc w zależności od problemu – czasami musimy robić wyszukiwanie, czasem to wyszukiwanie jest proste, właśnie po jakichś metadanych, jaka to jest gra planszowa i tyle, a czasami możemy sobie dzielić bardzo drobno, czasami nie możemy dzielić bardzo drobno.

Tak, jeżeli mamy jakiś akt prawny i chcemy wyszukać akt prawny, no to raczej jeżeli wyszukamy po jakimś drobnym detalu, po jakimś pojedynczym zdaniu, to zgubimy cały kontekst dokumentu i to nic nam nie będzie mówić. Więc w zależności od problemu jakoś musimy dzielić te dokumenty na kawałki.

Jak podzielić dokumenty na fragmenty?

Vladimir: Czekaj, ja cię troszkę przepytam, bo tutaj też chciałem podpytać – powiedziałeś, że „woda ciepła”, a potem ta cała reszta – plaża i tak dalej – będzie niepotrzebna w tym kontekście. Super, brzmi fajnie, tylko jak to podzielić? Bo to nie jest podział per kropka, per spacja, tylko taki bardziej semantyczny sposób, żeby to podzielić. I tutaj na pewno trzeba coś zatrudnić bardziej mądrego niż tylko takie regexpy. I jak to zrobić?

Piotr: Znaczy, te pomysły są dwa albo trzy. Znaczy, ja szczerze mówiąc po prostu dzieliłem, w cudzysłowie, „po kropce”, w sensie dzieliłem po pełnych zdaniach i to było dostatecznie dobre przybliżenie.

Można używać czegoś, co się nazywa parsowanie zależnościowe, to jest taki lingwistyczny termin. Znaczy, można – nie wiem, czy pamiętasz – w podstawówce rysowało się drzewka gramatyczne zdań.

No i coś takiego też można robić automatycznie za pomocą uczenia maszynowego. To było popularne 15-20 lat temu w przetwarzaniu języka naturalnego, ale nadal się to czasami wykorzystuje właśnie po to, żeby automatycznie podzielić to zdanie, że tu są frazy rzeczownikowe i te frazy rzeczownikowe są osobne, a pomiędzy nimi jest koordynacja, czyli a, b i c.

To są trzy osobne komponenty i okazuje się, że względnie łatwo jesteśmy w stanie automatycznie to podzielić na kawałki, więc jakby to jest drugi pomysł, jak można do tego podejść.

A trzeci pomysł to po prostu użycie LLMów znowu, właśnie na etapie takiego preprocesingu, na zasadzie: „Tak, wylistuj mi wszystkie cechy tego hotelu”.

No i on wypisze, jeżeli napiszemy dobry prompt, no to wypisze, że woda jest ciepła, pokój jest czysty i tak dalej. To notabene, to może już uprzedzając i wyprzedzając, w przypadku tego projektu o hotelach to może mieć fundamentalne znaczenie, jeżeli o tym pomyślimy.

Problem z wyszukiwaniem fragmentów

Jeżeli mamy 1000 opinii i 900 osób napisało, że woda jest ciepła, a 100 osób napisało, że woda jest zimna, to chcielibyśmy wiedzieć, że faktycznie 90% osób napisało, że woda jest ciepła.

Ale jeżeli wyszukamy sobie kilka tak najbardziej podobnych zdań w tym przypadku, które opisują ciepłotę wody, no to w szczególności jak ktoś zapyta, czy woda jest ciepła, to semantycznie bardziej podobne będą zdania „woda jest ciepła” niż że „woda jest zimna”.

Jak ktoś zapyta, czy woda jest zimna, to bardziej podobne będą te zdania „woda jest zimna”. No i teraz będzie bardzo duży problem, jeżeli ktoś zapyta, czy woda jest ciepła, znajdziemy powiedzmy 10 zdań, gdzie ludzie piszą, że woda jest ciepła i damy odpowiedź: „Tak, woda jest ciepła”.

Jak ktoś zapyta, czy woda jest zimna, znajdziemy 10 zdań, gdzie ktoś napisał, że woda jest zimna i odpowiemy: „Tak, woda jest zimna”. Widzisz, to jest absurdalne, bo model nam odpowie w zupełnie inny sposób, zależnie od tego, jak zadamy pytanie.

Wybór modelu do tworzenia embeddingów

Piotr: Kolejna ważna decyzja to czym tworzymy te embeddingi. To nie jest oczywisty wybór. Mogliśmy w ogóle ominąć ten krok i używać słów kluczowych, ale zazwyczaj w dzisiejszych czasach chcemy używać metod semantycznych, czyli sieci neuronowych, które przetwarzają teksty w konkretne wektory.

Wybór modelu jest bardzo istotny, bo te modele różnią się jakością. Często ludzie sięgają po popularne rozwiązania, jak np. embeddingi od OpenAI. Ich nowsza, trzecia wersja jest już w porządku, ale poprzednia była po prostu tragiczna, szczególnie dla języka polskiego. Trzecia też nie jest najlepsza, ale wystarczająco dobra.

To było coś prostego w użyciu, ale bardzo słabego. Wyszukiwaliśmy w jakimś sensie podobne teksty do naszego pytania, podobne dokumenty czy chunki, ale one były podobne tylko według OpenAI, a nie według tego, jak my na to patrzymy. Widzieliśmy, że to jest totalnie od czapy.

Wybór modelu wpływa na to, czy rozwiązanie będzie działać, czy nie. Wracając do twojego pytania, co się zmieniło w ciągu ostatnich 10 lat – to zmieniło się bardzo mocno. Jeszcze 5 lat temu, jeśli mieliśmy model do wyszukiwania informacji, potrafił on działać sensownie tylko w jednej domenie.

Jeśli mieliśmy problem wyszukiwania opinii o hotelach i model wytrenowany pod kątem opinii hotelowych, to użycie go dla danych prawniczych skończyłoby się totalną porażką. W danych hotelowych działałby może trochę lepiej niż wyszukiwanie po słowach kluczowych, ale po przejściu do innej domeny, innego typu tekstu, działałby już praktycznie losowo.

Postęp w dziedzinie modeli językowych

Piotr: Tak, bo to, teraz kolejna decyzja to jest, ale właściwie czym embedujemy, tak, czym tworzymy te embeddingi. I to też nie jest oczywista decyzja, tak, w sensie mogliśmy w ogóle ominąć ten krok i używać słów kluczowych, ale zazwyczaj w dzisiejszych czasach chcemy używać takich metod, tak zwanych semantycznych, czyli właśnie sieci neuronowych, które przetwarzają te teksty w konkretne wektory.

No i to jest bardzo nieoczywista decyzja, którego modelu użyjemy. I to jest bardzo ważna decyzja, bo te modele są lepsze albo gorsze. Często ludzie używają jakichś popularnych modeli, na przykład tak, postulant embeddingów od OpenAI i ta nowsza wersja, wersja trzecia, już jest okej, ale ta poprzednia wersja była po prostu tragiczna, przynajmniej dla języka polskiego. Ta trzecia też nie najlepsza, ale good enough może.

To było coś, co jest bardzo proste do użycia, ale ono było bardzo słabe i okej, wyszukiwaliśmy w jakimś sensie podobne teksty do tego naszego pytania, podobne dokumenty, podobne te chunki, ale one były tylko podobne według OpenAI, a nie według nas, jak na to patrzymy, bo widzimy, że to jest totalnie od czapy.

No i tutaj to, jak wybierzemy ten model, właśnie wpływa na to, czy to będzie działać, czy nie. I trochę wracając do tego pytania twojego, co się zmieniło w ciągu ostatnich 10 lat, to to się bardzo mocno zmieniło, w sensie jeszcze 5 lat temu nawet, jeżeli mieliśmy taki model do wyszukiwania informacji, to on potrafił działać tylko i wyłącznie w jednej domenie sensownie, znaczy jak mieliśmy ten problem, powiedzmy, wyszukiwania opinii o hotelach i mieliśmy wytrenowany model pod opinie dla hoteli i byśmy użyli go dla danych prawniczych, to on totalnie by nie działał.

W sensie w tych danych hotelowych on pewnie działałby trochę lepiej niż wyszukiwanie po słowach kluczowych, ale jak byśmy musieli przejść do innej domeny, do innego typu tekstu, to on by już działał praktycznie losowo.

Generowanie syntetycznych danych treningowych

PIotr: I okazało się, że to było bardzo trudne, żeby przeskoczyć to i żeby mieć model, który faktycznie daje uniwersalnie dobre embeddingi. To się udało dosłownie 2-3 lata temu, głównie w ten sposób, że po prostu wzięliśmy bardzo, bardzo dużo danych i wytrenowaliśmy model na wszystkich domenach naraz. W jaki sposób jest to oszustwo? Nadal nie potrafimy generalizować, czyli dobrze działać na nieznanych domenach.

Tak poradziliśmy sobie z tym w ten sposób, że wytrenowaliśmy model na wszystkich możliwych domenach, co jest w pewnym sensie oszustwem, ale dopóki działa praktycznie, to w sumie czemu nie. I rzeczywiście są takie modele, które teraz działają sensownie dla wielu różnych domen, i to dla angielskiego, i też dla polskiego takie modele się pojawiają.

Natomiast wciąż te modele nie są zazwyczaj idealne. One są generyczne, uniwersalne i działają ok, ale jeżeli chcemy mieć naprawdę super dobrą skuteczność, to wciąż bardzo wartościowe jest, żeby wytrenować ten model specjalnie dla siebie, w twojej konkretnej niszy. To daje bardzo duże zyski.

Trenowanie własnego modelu

Piotr: Więc ja zazwyczaj to, co rekomenduję, to w pierwszym kroku użyć takiego modelu uniwersalnego i sprawdzić, jak on będzie działać, sprawdzić na naszym zbiorze testowym, czy on faktycznie zwraca dobre dokumenty, dobre w znaczeniu zawierające odpowiedź. Często zwraca dostatecznie dobre.

Powiedzmy, że zwraca dobry dokument w 90% przypadków i to jest użyteczne, ale czasami dla nas ma znaczenie, czy to będzie 90 czy 95%, czy tak może się zdarzyć, że to jest 60 vs 90%. I wtedy jest inny klocek, kolejny klocek na zasadzie – wytrenujmy swój własny model do tego celu.

I to też jest coś, co się radykalnie zmieniło w ciągu tych ostatnich paru lat, bo kiedyś, żeby wytrenować taki model, trzeba było mieć dane, no ale żeby mieć dane, to trzeba zatrudnić ludzi, którzy będą anotować dane. To było zaskakująco trudne w znaczeniu, że tych danych, żeby wytrenować taki model do embeddingu, potrzebujemy dosyć dużo, w sensie to są raczej dziesiątki tysięcy takich par – pytanie, dokument.

W związku z tym trzeba jakoś te pary napisać, trzeba albo mieć pytania skądś, na przykład historyczne pytania od użytkowników i dla tych pytań znaleźć dokumenty w naszej bazie danych, albo nie mamy historycznych pytań od użytkowników, więc trzeba sobie jakoś radzić i albo wymyślać te pytania, i potem znajdować dokumenty, albo brać te dokumenty i do nich pisać pytania. No ale dość, że to było bardzo czasochłonne i jakby koniec końców kosztowało dużo pieniędzy i nie zawsze warto było to robić.

To, co się stało niesamowitego w ostatnich czasach przez LLM-y, to że możemy użyć po prostu LLM-ów, żeby te pytania wygenerować automatycznie. Czyli bierzemy sobie nasze dokumenty, które mamy w bazie danych, i pytamy tak ChatGPT: „Wygeneruj mi pięć pytań do tego dokumentu”. I on generuje pytania, a te pytania są zaskakująco sensowne.

Czasem warto coś tam pofiltrować, poczyścić te rzeczy, ale możemy to robić automatycznie. I teraz nagle wygenerowanie dziesięciu tysięcy pytań czy pięćdziesięciu tysięcy pytań to koszt pięćdziesięciu dolarów – absolutnie zerowy w skali jakiejś korporacji.

I mając te pięćdziesiąt tysięcy pytań, jesteśmy w stanie już dotrenować jakiś taki uniwersalny model do embeddingów pod nasze potrzeby, ponieważ jest to dotrenowanie. Dotrenowanie zazwyczaj jest jakby mało zasobochłonne, często zajmuje po prostu godzinę czasu na jednej karcie graficznej i już wtedy ten model jest dużo, dużo lepszy.

Więc też właśnie to, co się zmieniło, to możliwość szybkiego dostosowania tych modeli dzięki temu, że możemy łatwo wygenerować sobie syntetyczne dane treningowe.

Wiadomo, że te dane treningowe nie są super jakości, one będą miały błędy, nie mają tych wszystkich subtelności, które powinny tam być, ale jesteśmy w stanie szybko dojść do sensownego poziomu. A potem, jeżeli nadal chcemy mieć lepszą skuteczność, to już nie uciekniemy od tego, że ktoś musi usiąść, zanotować te dane i stworzyć dane wysokiej jakości.

Embeddingi – konwertowanie tekstu na reprezentację numeryczną

Vladimir: To teraz ja już spróbuję tak podsumować to, co wybrzmiało i idziemy dalej.

Czyli kiedy jesteśmy na etapie embeddingu, czyli chcemy skonwertować nasz tekst w reprezentację numeryczną, to pierwsza rzecz: nie chcemy używać jakiejś znanej nazwy jak OpenAI ot tak domyślnie bez rozważenia, bo zwykle to nie działało w tej poprzedniej wersji. I mimo że GPT jest super, to nie znaczy, że embeddingi też będą super, tym bardziej dla nas, więc to jest do rozważenia.

Druga rzecz to trzeba rozważyć, jak nie to, to co wtedy. I to jest super, że w ogóle te pytania się pojawiają, bo można zacząć wybierać. Warto podpowiedzieć, że są na przykład takie leaderboardy MTEB albo jakieś tam inne, gdzie można sobie wybrać takich fajnych kandydatów, których można byłoby rozważyć.

I też, co fajnie powiedziałaś, że owszem, teraz są bardziej takie ogólne rozwiązania, ale też może tak się zdarzyć, że mamy jakąś bardziej konkretną potrzebę i wtedy może być lepiej, żebyśmy my dotrenowali to do siebie, ale też żeby to było obiektywne, to weźmiemy coś bardziej ogólnego.

Mamy wynik, potem bierzemy coś bardziej konkretnego pod nas, czyli dotrenujemy pod naszą domenę. Też na przykład język polski już sam w sobie jest domeną, bo też te wyrazy itd. już też to komplikują. I wtedy dostajemy rozwiązanie, które będzie de facto lepiej reprezentować te semantyczne zależności, jeżeli chodzi o dane na wejściu, czyli dane w postaci tekstu, i na wyjściu to będą wartości numeryczne.

Dobra, mamy to. Idziemy dalej, co tam dalej nas czeka?

Reranking – ulepszanie wyników wyszukiwania

Piotr: Mamy to. Dobra, to teraz ostatni krok wyszukiwania, bo jak robimy to wyszukiwanie, zazwyczaj znajdujemy dla danego pytania 10, 20 albo 100 najbardziej podobnych dokumentów. Te dokumenty będą rzeczywiście podobne, ale nie będą łapać tych wszystkich subtelności, bo one będą podobne, ale niekoniecznie będą odpowiadały na pytanie.

To z różnych względów technicznych jest trudne do uzyskania, żeby te zwrócone dokumenty były faktycznie świetnej jakości. I teraz dochodzi nam kolejny klocek, czyli tzw. reranking. Znaczy, jak mamy te 100 zwróconych dokumentów, to czy możemy bardziej złożonym, bardziej skomplikowanym, lepszym modelem maszynowym przesortować te dokumenty tak, że jeżeli ten poprawny dokument był na 90. pozycji, to żeby wynieść go na pierwszą pozycję.

Tutaj oczywiście też jest dużo podejść, możemy używać LLMów do tego, zrobić zapytanie do OpenAI, czy ten dokument odpowiada na to pytanie – tak, nie.

Generowanie odpowiedzi

Piotr: Możemy użyć opensource’owych modeli, możemy też trenować swoje modele do tego zadania i to często też pomaga, żeby jeszcze bardziej poprawić te wyniki wyszukiwania. Oczywiście wiąże się to z kosztem finansowym, bo musimy zrobić np. odpytania do OpenAI, ale też kosztem jeżeli chodzi o czas odpowiedzi, bo wkładamy kolejny klocek i on zajmuje jakiś czas. To czasami jest potrzebne, czasami nie. Tak naprawdę znowu, to jest zależne od konkretnego wdrożenia, od konkretnego produktu.

Czasami te wyniki z tego pierwszego wyszukiwania są na tyle dobre, że nie musimy tego poprawiać. A czasami niestety tak nie jest i musimy dołożyć kolejny klocek.

Vladimir: Ja chciałem tylko tak dopowiedzieć, że na początek mamy powiedzmy 100 tysięcy albo 10 tysięcy dokumentów, więc „pierwsze wyszukiwanie” robi takie szybsze, ale mniej precyzyjne wyszukiwanie i z tych 100 tysięcy dostarczy nam np. 100 dokumentów.

Ale żeby faktycznie znaleźć najbardziej trafny dokument, to czasem może nam się opłacać zatrudnić troszkę bardziej skomplikowany mechanizm, co zwykle nam powiększa czas, bo nic nie ma za darmo, no i też jakieś pieniądze prawdopodobnie będą za tym. Ale dzięki temu możemy liczyć na to, że znajdziemy faktycznie bardziej konkretniejsze, też możemy się mylić, ale tak z punktu widzenia tego mechanizmu, bardziej trafny dokument i mamy w ten sposób wybrany ten dokument numer jeden.

Piotr: Dokładnie tak. Zazwyczaj nie dokument numer jeden, tylko wciąż kilka dokumentów, pięć najlepszych dokumentów, kilka najlepszych dokumentów.

Tak i to zakończyliśmy ten etap wyszukiwania i teraz zazwyczaj jest ten etap generowania odpowiedzi i on często, przynajmniej w takim najprostszym wariancie, jest w sumie prosty. Znaczy bierzemy to pytanie, bierzemy te pięć dokumentów i współcześnie po prostu wysyłamy to do OpenAI, do ChatGPT i prosimy o odpowiedź na pytanie. I ChatGPT odpowiada na to bardzo dobrze zazwyczaj. To jest też fajne, bo on wtedy raczej nie halucynuje, co się zdarza później wiadomo, ale raczej korzysta z tych informacji, które były w znalezionych dokumentach, żeby odpowiedzieć na pytanie.

Trenowanie własnych modeli

Piotr: Oczywiście to jest coś, co się tak pojawiło te dwa lata temu razem z popularyzacją ChatGPT. Wcześniej trenowaliśmy też specyficzne modele, które właśnie te informacje, te odpowiedzi wyciągały.

I to albo na takiej zasadzie, jakby początkowo to było, żeby zaznaczyć fragment dokumentu, który zawiera odpowiedź. Czyli jak powiedzmy to pytanie o urlop, ile mam dni urlopu, to gdzieś tam pewnie była rozpiska, że w zależności od stażu to ma się tyle i tyle dni urlopu i wtedy byśmy dostali odpowiedź jako zaznaczony fragment tego oryginalnego dokumentu.

No ale to jest mega ograniczone podejście. Jeżeli sobie pomyślimy o pytaniach typu „tak, nie”, no to nie możemy w dokumencie zaznaczyć „tak, nie”, czyli „czy mam 26 dni urlopu” i możemy zaznaczyć tylko „26 dni urlopu przysługuje osobie, która coś tam coś tam”. Tak, ale nie dostaniemy odpowiedzi „tak”, bo tego „tak” nie ma w dokumencie.

Potem pojawiły się modele właśnie takie generatywne, które były specjalnie trenowane do tego, żeby wziąć pytanie, wziąć te dokumenty i wygenerować faktyczną odpowiedź. Do tego często potrzebowaliśmy przygotować sobie jakieś dane treningowe, zazwyczaj parę, paręnaście, parędziesiąt tysięcy takich przykładów, wytrenować model i mogliśmy go użyć, żeby odpowiadać na pytania. Natomiast te LLM-y obecnie używane są super dlatego, że nie musimy mieć danych treningowych i one działają dostatecznie dobrze.

Oczywiście, jeżeli zależy nam na tym, żeby model odpowiadał w jakimś konkretnym stylu albo żeby po prostu odpowiadał lepiej, to wciąż możemy ten model dotrenować. To też może nie wszyscy wiedzą, ale modele od OpenAI, w sensie Chata GPT, też można w ich interfejsie sobie dotrenować, jeżeli mamy jakieś dane i tak dostosować do naszych potrzeb.

To jest powiedziałbym dziedzinowo proste, wystarczy dać takie pary: pytanie, dokumenty i oczekiwana odpowiedź. Nawet jak przygotujemy 100 takich przykładów, to już ten model będzie działał dużo, dużo lepiej. Wtedy odpytywanie Chata GPT będzie trochę droższe, ale często jakość będzie istotnie lepsza i te odpowiedzi będą bardziej dostosowane do tego, czego oczekujemy.

Natomiast zazwyczaj po prostu korzystamy z Chata GPT, Anthropic czy z jakichś oczywiście innych konkurencyjnych rozwiązań – Gemini, Claude i tak dalej. One wszystkie działają bardzo fajnie.

Wielkość kontekstu w modelach językowych

Vladimir: Jaka jest obecnie typowa wielkość dokumentu, który można przesłać do modelu językowego w jednym zapytaniu? Fajnie byłoby to przedstawić w liczbie stron, aby ludzie mogli to sobie lepiej wyobrazić. I druga kwestia – jakie są dobre praktyki w tym zakresie? Bo nie wszystko co się da, warto robić, prawda?

Piotr: To ważna kwestia, którą poruszyłeś. W standardowym, najprostszym setupie, o którym mówiłem, nawet nie wyciągamy całych dokumentów, tylko tzw. chunki, czyli fragmenty. Zazwyczaj będzie to jedno zdanie, maksymalnie parę zdań. Więc nawet jak wyciągniemy pięć takich chunków, to nie będzie tego dużo – maksymalnie jedna strona tekstu. To jest coś, co bez problemu każdy model językowy przetworzy.

Natomiast rzeczywiście, w zależności od problemu, taki chunk może nie zawierać wszystkich potrzebnych informacji. Czasem potrzebujemy szerszego kontekstu, na przykład całego dokumentu. Tutaj jest kilka różnych trików, które można zastosować.

Jeden standardowy trik polega na tym, że skoro mamy jakiś chunk, ale chcemy mieć większy kontekst, to bierzemy jeszcze dwa chunki poprzedzające ten główny i dwa następujące po nim. Wtedy takie pięć chunków wrzucamy. To daje nam dwadzieścia pięć bazowych chunków, czyli już około pięć stron tekstu. Ale czasami nawet to może być za mało i musimy znać cały dokument.

Sposobów radzenia sobie z dużymi dokumentami jest wiele. Na szczęście w dzisiejszych czasach okno kontekstowe (context window) różnych modeli językowych jest na tyle duże, że nie musimy się tym aż tak bardzo przejmować. To są raczej dziesiątki tysięcy tokenów, a nawet setki tysięcy. Gemini od Google obsługuje nawet milion tokenów. Więc to są absurdalne ilości, których nigdy nie wykorzystamy w takim setupie odpowiadania na pytania. W innych zastosowaniach oczywiście możemy je wykorzystać.

Jednym z rozwiązań jest takie, że jak mieliśmy tych pięć oryginalnych chunków, to tak naprawdę robimy pięć odpytań do modelu językowego. Pytanie plus pierwszy chunk – chcemy dostać odpowiedź, pytanie plus drugi chunk – chcemy dostać odpowiedź, i tak dalej. Wysyłamy więc pięć różnych zapytań i dostajemy pięć różnych odpowiedzi.

Możemy też zrobić dodatkowy krok, że nie tyle generujemy odpowiedź, co wyciągamy istotne informacje. Czyli bierzemy pytanie, pierwszy cały dokument i prosimy model o wyciągnięcie kluczowych informacji z tego dokumentu.

Wyciąganie kluczowych informacji z dokumentów

Zazwyczaj tych kluczowych informacji nie będzie aż tak dużo, żeby odpowiedzieć na pytanie. One będą po prostu rozsiane w różnych miejscach po tym dokumencie. Powtarzamy to pięć razy dla każdego z tych pięciu dokumentów, więc zbieramy koniec końców dosyć małą ilość danych i wrzucamy do finalnego promptu do LLM-a. Wygeneruje on odpowiedź na podstawie tych wyciągniętych cytatów i dzięki temu możemy sobie radzić z tym ograniczonym kontekstem.

To też ma znaczenie o tyle, że jeżeli zrobimy pięć takich odpytań równolegle w tym samym czasie, to będzie to szybsze niż jedno odpytanie z bardzo długim dokumentem.

Vladimir: Wydaje mi się, że w miarę pokryliśmy temat, przynajmniej tak high level, żeby mniej więcej było zrozumiałe, jakie są warstwy i jakie decyzje należy podejmować. Temat rzeka. Ja też nie stawiałem aż tak ambitnego celu, żeby omówić wszystkie szczegóły, bo tego jest wiele.

Triki i detale w budowaniu chatbotów

Piotr: Tak, tego jest bardzo, bardzo dużo i generalnie takich trików – ludzie wymyślają bardzo dużo tych trików i to na każdym z tych etapów. Ja też przedstawiłem taką ścieżkę dosyć podstawową. Mimo że już wchodziliśmy w jakieś detale, to tych detali może być bardzo, bardzo dużo.

Problem jest taki, że wybór tych detali bardzo mocno zależy od konkretnego projektu i nie jest tak, że któreś z tych rozwiązań są dobre. One bywają dobre, ale często bywają złe. Często też na przykład ta sama konstrukcja naszego chatbota czy systemu odpowiadania na pytania wymaga czegoś więcej, jakichś dodatkowych funkcjonalności.

Na przykład, jeżeli mamy asystenta prawniczego i chcemy odpowiadać na pytania prawnicze, to nie jest tak, że jedyne kryterium to czy ten dokument będzie pasujący do pytania, ale też czy będzie aktualny. Tak więc możemy na przykład sortować jeszcze te dokumenty po tym, jak one są aktualne, z którego są roku. Możliwe, że powinniśmy filtrować po jakichś metadanych i tak dalej. Więc tych detali jest jeszcze bardzo, bardzo dużo, ale to jest taki najprostszy możliwy przepływ.

Rozwiązania szyte na miarę

Vladimir: Fajnie, że to wybrzmiało, bo mimo tego, że istnieje ta cała magia, jeżeli chodzi o LLM, który faktycznie zaskoczył wszystkich osób technicznych możliwością porozmawiania i tak dalej, to nadal rozwiązanie jako takie musi być szyte na miarę. Tutaj właśnie zdefiniowanie, co potrzebuje biznes, jaka jest metryka sukcesu, jakie błędy są dopuszczalne, jakie są niedopuszczalne, jaki jest koszt takich błędów. W zależności od tych wszystkich wytycznych pojawia się to finalne rozwiązanie i stąd właśnie musi być ono szyte na miarę, a te warstwy są dość elastyczne w zależności od potrzeb. Bywa różnie.

Kluczowe kompetencje w budowaniu projektów ML

Piotr: Wracając jeszcze raz do tego pytania, co się zmieniło w przeciągu ostatnich 10 lat. W tym sensie nic się w świecie nie zmieniło. Dostaliśmy nowe zabawki, nowe narzędzia, one działają dużo lepiej niż działały kiedyś, ale te kluczowe kompetencje – kiedyś to byli statystycy, potem data scientiści, potem ML inżynierowie, teraz AI inżynierowie – te nazwy stanowisk, nazwa dziedziny się co chwilę zmienia, narzędzia się zmieniają.

Ale te kluczowe kompetencje są dokładnie takie same cały czas i te problemy są też dokładnie takie same. Chcemy wiedzieć, co musimy budować, jak dobrać odpowiednie klocki, żeby zrealizować cele biznesowe, gdzie popełniamy błędy, jaki jest kompromis między skutecznością a kosztami itd.

I jasne, że mamy zupełnie inne klocki do dyspozycji dzisiaj niż 10 lat temu, ale sam proces budowania projektu machine learningowego tak naprawdę nie zmienił się – powiedziałbym, że prawie w ogóle. Może trochę, rzadko już teraz pisze się sieci neuronowe np. od zera w PyTorchu, raczej się wykorzystuje jakieś gotowe klocki, ale nigdy to pisanie sieci neuronowych w PyTorchu, czy wcześniej w TensorFlow, czy w Theano, to nigdy nie było clou problemu.

Narzędzia do adnotacji danych

Vladimir: Powiedz kilka rzeczy na temat narzędzi, których używasz w kontekście tekstu, obrazków. Jakie rzeczy są dla ciebie przydatne? Chcielibyśmy, żeby inni też to usłyszeli. No i jak sobie to układasz mentalnie, motywacyjnie, że chce ci się to robić?

Piotr: Jeśli chodzi o narzędzia do adnotacji danych, to jest bardzo trudne pytanie, bo różnie. W swoim życiu napisałem pewnie z 10 różnych narzędzi do adnotacji danych, tak po prostu dla siebie, w zależności od projektu. Często to jest najlepsze rozwiązanie, bo te adnotacje danych bywają na tyle specyficzne, że warto napisać coś swojego.

Mogą to być bardzo proste rzeczy, na przykład Google Sheets, gdzie po prostu robimy sobie arkusz, w jaki sposób go filtrujemy, sortujemy i tam piszemy adnotacje. Klocki Lego anotuję głównie w Jupyter Notebooku. Mam po prostu taką prostą aplikację w Jupyter Notebooku napisaną do adnotacji danych, bo tam robię bardzo dużo filtrowania tego, jakie dokładnie dane chcę zaadnotować. To filtrowanie tak po prostu robię w Pythonie.

Motywacja do żmudnej pracy

Piotr: Mnie zawsze najbardziej napędza zrobienie projektu. Najważniejsze dla mnie jest to, że chcę po prostu zbudować jakiś model, produkt, coś stworzyć. Tak naprawdę, co dokładnie robię, nie ma aż tak dużego znaczenia.

Może adnotacja danych jest nudna, powtarzalna i człowiekowi się nie chce tego robić. Ja też nie jestem w stanie wytrzymać dłużej niż pół godziny czy godzinę, siedząc i adnotując te dane. Po prostu wiem, że jest to konieczne, potrzebne i wartościowe, więc samo to mnie motywuje.

Pisanie kodu też nie zawsze jest super miłe i przyjemne, jest męczące, uciążliwe, trzeba myśleć i też się nie chce. Wyskakują jakieś błędy. W pewnym sensie wolę adnotować dane, bo tam przynajmniej klikam ten klocek, ten klocek, ten klocek i jest to przynajmniej bezstresowe. Więc motywuje mnie efekt końcowy, tak w skrócie.

Natomiast rzeczywiście dzielę sobie też często tę adnotację tak, żeby po prostu robić po trochu. Staram się mieć zawsze gotową jakąś adnotację danych, w sensie jakoś ustawiony proces adnotacji danych. Także jak mam przerwę pomiędzy spotkaniami 15 minut, to mogę sobie otworzyć to narzędzie do adnotacji danych i trochę poklikać. Albo jem obiad i nic mi się innego nie chce robić, to sobie poklikam. Czy jest wieczór i już jestem zmęczony, i nie chce mi się pracować, a trochę sobie poklikam.

Tak jak powiedziałeś, że robię to bardzo regularnie, to też nie do końca prawda. Są takie miesiące dwa, trzy, że na przykład anotuję codziennie dane, a potem mam już tak bardzo dosyć, że przez kolejne dwa miesiące w ogóle na to nie mogę patrzeć.

Vladimir: Trochę mnie uspokajasz, bo to brzmi jak szaleniec już wreszcie.

Piotr: Nie, nie, nie, to znaczy jestem szalony, ale nie aż tak szalony.

Narzędzia do anotacji danych

Piotr: Nie byłbym w stanie tego robić sensownie w jakimś gotowym narzędziu, w szczególności, że to często jest mniej lub bardziej dynamiczne, więc nie mogę wrzucać jakichś batchy. Wygodnie jest mi to anotować w Jupyter Notebooku.

Natomiast z takich narzędzi, z których faktycznie korzystam regularnie, to jest na pewno Label Studio. To jest takie narzędzie open source’owe, bardzo elastyczne, można odpalić lokalnie lub na serwerze w chmurze. Jest to narzędzie w miarę uniwersalne – i do tekstu, i do obrazków, i do bardzo wielu różnych typów danych.

Oni mają w miarę elastyczny system definiowania interfejsu, czyli co chcemy wyświetlać i w jaki sposób. To działa ok. Na pewno nie jest to świetne narzędzie, ale działa dostatecznie dobrze, więc jak jest coś bardziej standardowego, to po prostu używam tego.

Albo jeżeli jest coś, co jest trudne do zaimplementowania samemu, np. rysowanie bounding boxów czy prostokątów, żeby zaznaczyć gdzie klocek Lego znajduje się na zdjęciu, to napisanie czegoś takiego byłoby odrobinę bardziej skomplikowane. Więc warto użyć czegoś gotowego, jak Label Studio.

Jest trochę komercyjnych rozwiązań, które też są spoko, ale one w dużej mierze wszystkie są w miarę podobne, więc czego nie użyjemy, to będzie ok.

UX narzędzia do anotacji

Piotr: Dla mnie ważne jest to, żeby UX rozwiązania był dobry. To narzędzie powinno nam pomagać anotować dane, a nie przeszkadzać. Nie powinniśmy robić 10 kliknięć, żeby zrobić jedną anotację, tylko jedno kliknięcie i już.

Istotniejsze od tego, jakiego używamy narzędzia, jest to, w jaki sposób w ogóle przedstawimy problem anotacji danych. Przykładowo klocki Lego. Jest 80 tysięcy klocków Lego i mam jakieś zdjęcia od użytkowników, które muszę przypisać, jaki klocek jest na danym zdjęciu.

Oczywiście mógłbym to robić naiwnie, na zasadzie mieć zdjęcie i 80 tysięcy klas, i teraz przeglądać te klasy. Ale to byłoby nierealne, bo nie przeskrolowałbym tych 80 tysięcy klas, plus nie znam wszystkich tych klas. Więc wiadomo, że tutaj anotacja musi działać w taki sposób, że mam oryginalne zdjęcie i np. 5 predykcji modelu, co to jest za klocek.

Wtedy wybieram najbardziej prawdopodobny klocek. Muszę mieć też np. link do jakiejś „Wikipedii klockowej” dla każdego z tych polecanych klocków, żebym mógł wejść i poczytać, czy to jest na pewno ten klocek, zobaczyć więcej zdjęć.

Więc to za-setupowanie sobie, jak dokładnie anotujemy dane, wpływa na to, czy robimy to szybko czy wolno i czy robimy to poprawnie czy nie.

Eksperyment z klasyfikacją tekstu

Piotr: Pamiętam, jak jeszcze pracowałem w Allegro, robiliśmy taki eksperyment. Robiliśmy klasyfikację tekstu i albo klasyfikowaliśmy tekst na zasadzie: tu jest tekst i mamy 100 labelek, i wybierz poprawną labelkę, albo: tu jest tekst i wydaje nam się, że to jest ta labelka, i potwierdź albo nie. Powiedz, czy to jest poprawna labelka, czy nie.

Okazało się, że w takim set-upie binarnym, gdzie tylko potwierdzasz tak/nie, uzyskaliśmy dużo szybsze anotacje. Człowiek był w stanie zaanotować dużo więcej danych i te dane były dużo lepszej jakości. Bo człowiek nie musiał w głowie trzymać tych 100 labelek i zastanawiać się, która z nich będzie poprawna.

Tylko widział wiadomość, widział labelkę, widział klasę, mówił: „A, no tak, to pasuje” i ok, i lecimy dalej. I to ma naprawdę bardzo duże znaczenie.

Podsumowanie

Vladimir: Chciałem podsumować to, co usłyszałem. Czyli tak naprawdę anotacja sama w sobie to też wymaga podejścia produktowego. Nie wystarczy tylko pobrać któreś, nawet modne czy płatne, narzędzie, bo to jest jeden z możliwych klocków, który ma tam powstać. Liczy się to, co pojawia się jako wynik, też jaki czas potrzeba spędzić, aby ten wynik osiągnąć.

Ta łatwość musi być jak największa i często może być taka sytuacja, że proste narzędzia, jak arkusz czy coś takiego, nadal wchodzą w grę. Bo czemu nie? Spełniają podstawowe warunki i pomagają dostarczyć to, co jest potrzebne na koniec.

Piotr: Jasne, taki arkusz, jak w Google Docs, jest super do anotacji tekstu. Mamy jakąś wiadomość i chcemy sprawdzić, w jaki sposób anotowałem poprzednie tego typu wiadomości.

Mogę zrobić Ctrl+F i szybko mam znalezione inne podobne wiadomości, i widzę: „A, dobra, anotowałem to w taki sposób”. Jakbym miał jakieś zewnętrzne narzędzie, to pewnie mógłbym się cofnąć z widoku anotacji, przejść do widoku wszystkich tekstów, potem mieć jakieś wyszukiwanie, coś wyszukać, wejść w te wiadomości i zajęłoby mi to dużo więcej czasu.

Czasami nie warto, czasami takie proste narzędzia są po prostu dużo lepsze, dużo szybsze. Na przykład takim innym trikiem, którego często używam do klasyfikacji obrazów, i to w ogóle jest taki absurdalny trik.

Jeżeli mamy klasyfikację obrazków i mamy, nie wiem, kilka klas generalnie, pięć, dziesięć, to jak ja anotuję te dane, to otwieram sobie te wszystkie zdjęcia, wrzucam do jednego katalogu i robię sobie miniaturki tych obrazków. I teraz przelatuję i po prostu z Commandem zaznaczam obrazki jednej klasy, i jak zaznaczę sobie z 50 takich, to po prostu przenoszę do katalogu „klasa pierwsza” i zaczynam od początku tego katalogu.

Zaznaczam tę klasę, tę samą klasę, pewnie jakąś inną, generalnie tę klasę, którą widzę, że jest najpopularniejsza aktualnie, i po prostu klikam, zaznaczam z 50 przypadków i przenoszę do innego katalogu.

I skupiam się mocno na precision, a nie na recall, czyli nie zależy mi, żeby znaleźć wszystkie zdjęcia tej klasy, którą akurat mam w głowie, bo to nie ma znaczenia. Po prostu robię bardzo wiele takich przejść, bardzo dużo takich baczy i to działa niesamowicie szybko.

Artykuł Sztuczna inteligencja zmienia szukanie odpowiedzi pochodzi z serwisu Biznes Myśli.

Zima AI

Vladimir — Mon, 17 May 2021 04:22:32 +0000

Czy zbliża się kolejna zima AI, a może jednak wiosna?

Czym właściwie jest zima w tym kontekście?

Na kogo to wpływa i jak?

Skąd bierze się natura tego zjawiska?

Czy jest się czego bać?

Jakiego rozwoju AI możemy się spodziewać?

Na te i wiele innych pytań znajdziesz odpowiedzi w 100 odcinku podcastu Biznes Myśli. Dowiesz się o trendach w branży AI oraz przemyśleniach Vladimira, które prowokują do krytycznego myślenia i zadawania kolejnych pytań.

Zaczynamy 100-ny odcinek podcastu. Można było dzisiaj zrobić podsumowanie tego, co wydarzyło się wstecz, natomiast myślę, że wystarczy powiedzieć, że podcast już ma ponad 4 lata i skupić się na czymś ważniejszym. Jednak w Biznes Myśli mówimy o przyszłości, która zaczyna się już teraz, dlatego pozwolę sobie w tym odcinku zamiast mówić o tym, co się wydarzyło, skupić się na przyszłości.

Od razu powiem, że mówienie o przyszłości jest tematem złożonym. Mało tego, wierzę, że nasza przyszłość nie jest jednoznacznie określona i możemy wpływać na to, co faktycznie wydarzy się. Też dodam, że wierzę, że istnieje coś takiego jak los. Tylko musiałbym wyjaśnić, jak to jest możliwe, aby dwie sprzeczne idee mogły współgrać razem. Mogą!

Dzisiejszy odcinek możemy potraktować trochę jako moje notatki o przyszłości, aby zachować pewną moją obecną wizję, posłuchać jej za jakiś czas i dokonać kalibracji. Mówiąc wprost pozwolę sobie w tym odcinku na więcej moich subiektywnych przemyśleń. Też jestem ciekaw, co o nich myślisz.

Zależy mi na tym, aby jak najszybciej wyłapywać nieścisłość w moim myśleniu i re-trenować nową wersję. Pozwala to iść do przodu, ulepszać się. Wtedy każdy może na tym zyskać. Mało tego, nawet bardzo liczę na to, że odezwiesz się i dasz znać, na ile pewne pomysły z Tobą rezonują lub które do Ciebie nie przemawiają i podzielisz się swoją wizją 🙂

Czym jest czas?

Skoro chcemy mówić o przyszłości, warto zastanowić się, czym jest przyszłość? Jak definiujesz przyszłość? Tak po ludzku zwykle mówimy, że przyszłość to jest coś, co odbędzie się za jakiś czas np. za rok, 5 lat czy nawet za 50 lat. Innymi słowy, definicja przyszłości zależy od czasu.

W takim razie, czym jest czas? I tu jest pewien kłopot. Pytanie brzmi bardzo dziwnie. Teraz prawie każdy ma przy sobie ma zegarek, więc chyba powinno być wiadome, czym jest czas. Możemy powiedzieć – to jest coś, co mierzy się w sekundach, minutach i godzinach. W takim razie, czym jest sekunda?

Tutaj na pomoc może przyjść np. Główny Urząd Miar z definicją sekundy. Natomiast nawet w tym wypadku nie wszystko jest jasne. Zobacz, definicja “sekundy” do 19 maja 2019:

Czas równy 9 192 631 770 okresom promieniowania odpowiadającego przejściu między dwoma nadsubtelnymi poziomami stanu podstawowego atomu cezu 133.

Od 20 maja 2019 definicja zmieniła się. Brzmi już trochę bardziej groźnie:

Sekunda, oznaczenie s, jest to jednostka SI czasu. Jest ona zdefiniowana poprzez przyjęcie ustalonej wartości liczbowej częstotliwości cezowej ∆ν_Cs, to jest częstotliwości nadsubtelnego przejścia w atomach cezu 133 w niezaburzonym stanie podstawowym, wynoszącej 9 192 631 770, wyrażonej w jednostce Hz, która jest równa s^-1.

To jest piękne, jak zmieniają się definicje. Z jednej strony to dobrze, bo człowiek rozwija się. Z drugiej strony brakuje dopisku ostrzegawczego w takim stylu:

Uważaj! Tak naprawdę nikt nie wie, co to jest sekunda, ale najlepsze, co można powiedzieć w tej chwili, to taka definicja i możesz być pewny, że z czasem zmienimy tę definicję.

Myślę, że wtedy to byłoby bardziej uczciwe…

Podam Ci jeszcze inny przykład. Newton był zwolennikiem tego, że czas jest jednostajny w całym Wszechświecie. Einstein już trochę poszedł dalej i powiedział, że czas jest względny, zależy chociażby od prędkości. To jest przykład, jak naukowcy zmieniają swoje zdanie. I jeszcze raz powtórzę, że to jest dobre. Na tym polega rozwój. Jedynie brakuje mi ostrzeżeń, aby nie traktować ostatniej wersji jako źródła prawdy, tylko kolejny etap przejściowy. Tutaj pomaga krytyczne myślenie, które warto trenować i zadawać pytania, czy rzeczywiście jest tylko jedna wersja.

Swoją drogą, w uczeniu maszynowym pod tym względem jest więcej pokory, bo w głowie od razu jest świadomość, że każdy wytrenowany model myli się. Pytanie tylko, jak bardzo i na ile ten model już może być przydatny w pewnym kontekście. To podejście brzmi bardziej zdroworozsądkowo niż to, że ostatnia wersja jest bez błędu.

Najgorsze jest to, że my jako ludzie próbujemy zdefiniować czas poprzez czas. Mówiąc tak po ludzku, jest coś, czego nie wiemy i próbujemy to zdefiniować przy pomocy tego, że nie wiemy czym jest. Przykład: X to taki bla-bla-bla-bla zależy od X. No pięknie. Pewnie każdy sprzedawca może teraz uśmiechnąć się i nawet zainspirować się tym chwytem 😉

Dlaczego mówimy o definicji sekundy czy czasu? Pytanie dotyczyło, czym jest przyszłość, bo chcemy o tym porozmawiać i wychodzi na to, że w sumie nie wiemy, czym jest przyszłość (przynajmniej z naukowego punktu widzenia), bo nadal brakuje zrozumienia, jak działa nasz świat! Chociaż warto przyznać, że świat nauki mocno posunął się do przodu w ostatni dziesięciolecia i zaczyna, chociaż odrobinkę lepiej go zrozumieć lub wydaje nam się, że lepiej go rozumiemy znów ;). Mam teraz na myśli takie kierunki jak teoria strun, teoria superstrun, M-teoria.

Zadam Ci być może trochę zaskakujące pytanie, jak myślisz: czy da się cofnąć się w czasie?

Jeszcze można porozmawiać na temat czasu w kontekście czarnych dziur, ale na razie to darujmy, bo inaczej po tych moich pytaniach możesz być przekonany, że czas to jedynie iluzja w symulacji. A może to jest prawda, bo skąd jest pewność, że jest inaczej? 😉

Pomyślałem, aby w tym odcinku podzielić się przemyśleniami na temat naszej przyszłości i też powiązać to z tematem tak zwanej sztucznej inteligencji. Można to zrobić na różne sposoby. Można np. podejść jako inżynier tylko ze strony technicznej i popatrzeć, jakie algorytmy są obecnie dostępne, jakie są trendy (i to z resztą też zrobimy). Z drugiej strony takie podejście jest bardzo ograniczone. Można pominąć ważne rzeczy, takie jak zewnętrzne czynniki. Chciałem powiedzieć: “przez pewien czas”, chociaż nadal nie wiemy, czym jest ten czas, Próbowaliśmy to zdefiniować, ale zostawmy to już, bo nie chcę, aby odcinek był tylko filozoficzny.

Na razie pozostańmy przy pierwszym wniosku, że obecna nauka zbyt mało wie o świecie, o ile nawet nie potrafi zrozumieć, czym tak naprawdę jest czas. To podejście super-pewności (między innym wśród naukowców) też przenika w wielu różnych dziedzinach, między innymi do światu ML/AI. Natomiast najciekawsze jest coś innego.

Z jednej strony, my jako cywilizacja często przeszacowujemy pewne rzeczy, chociażby w prognozowaniu AI, ale z drugiej strony są pewne rytmy rozwoju. To, co próbuję powiedzieć, to jest to, że my jako ludzie czasem mamy przemyślenia, że będziemy w punkcie B, dlatego że nam się wydaje, że tam będzie. Może tak być, że faktycznie tam dotrzemy, tylko nie z powodu naszej mądrości, ale dlatego, że taki jest bieg wydarzeń. Wiem, że to brzmi dość enigmatycznie, ale obiecałem, że czasem będą myśli subiektywne, które mają na celu pokazać alternatywny punkt widzenia.

Mogę Ci podać bardzo prosty przykład. Zobacz, jak często planujesz rzeczy co chcesz osiągnąć, ale pierwsza wersja “jak to osiągnąć” prawie zawsze jest totalnie oderwana od rzeczywistości. Tylko faktycznie pewne rzeczy uda się osiągnąć. Teraz pytanie, co było przyczyną? Czy ten mało świadomy plan “jak” na początku? Częściowa to można wyjaśnić tym, że robimy kolejne iteracje i poprawiamy się. To brzmi sensownie, ale nie do końca.

Jak dołączasz się do zespołu jako junior, to dobry manager nigdy nie będzie Ci mówić wprost rozwiązania (bo wtedy uzależnia Ciebie od niego), ale sprawi, że w Twoim życiu wydarzą się pewne rzeczy, aby Cię olśniło, co masz zrobić. Wtedy jesteś na 100% pewny, że to Ty wymyśliłeś realizację planu. Manager jest zadowolony, bo pracownik wreszcie zaczął robić to, co trzeba było zrobić. Czy to oznacza, że robiąc rzeczy (także w przypadku AI), działamy w pewnym rytmie i we współpracy z ledwie zauważalną “ręką” nazwijmy to Architekta tej Symulacji? Brzmi pewnie trochę zaskakująco.

Zadam pytanie pomocnicze. Kiedy coś Ci wyszło, jak można upewnić się, że ten pomysł, który wpadł Ci do głowy jest Twoim pomysłem? Zwróć uwagę na słowa “wpadł”. Skąd? 🙂

Wiem, że rozgrzebuje kolejny grubszy wątek, skąd biorą się myśli. O myślach możesz posłuchać i poczytać w 30-ym odcinku Biznes Myśli.

Prędkość

Pamiętasz głównie hasło podcastu? Biznes Myśli: świat zmienia się szybciej niż myślisz.

świat zmienia się szybciej niż myślisz.

To jest jedno z kluczowych zdań, które powinno być Twoim kompasem. Spróbujmy porozmawiać o przyszłości, chociaż nadal nie wiemy, czym jest. Załóżmy, że są to odstępy w kalendarzu.

Popatrzmy ogólnie na świat, nawet bez AI/ML. Myślę, że każdy zgodzi się, że świat rozpędził się. Wszystko dzieje się znacznie szybciej, do większości ludzi dociera do większej ilości informacji. Można nawet powiedzieć, że jednym z kluczowych problemów ludzkości jest otyłość… I nie mam teraz na myśli dodatkowych kilogramów, tylko otyłość informacyjną.

Każdy z nas jest bombardowany komunikatami ze wszystkich możliwych stron. Nasz biedny mózg nie za bardzo może w tym się odnaleźć, co powoduje szereg kłopotów.

Teraz dąży do tego, aby “zatrzymać się” na chwilę, o ile jest to możliwe i zaobserwować fakt, że świat przyspieszył i to znacząco. AI/ML gdzieś w tym też pomaga, ale najważniejsze jest wyłapać rytm, który my jako obserwatorzy możemy zauważyć.

Dlaczego warto to zauważyć? Bo to jest przyczyną, reszta tylko realizacją. Innymi słowy, nie wiesz dokładnie, jakie algorytmy A czy B wystrzeliły, ale wiesz, że on będzie, bo życie pędzi w swoim cyklu.

Zróbmy eksperyment. W jaki sposób, tak po ludzku, możemy zauważyć prędkość? Jedziesz w samochodzie. Czujesz, kiedy samochód jedzie szybciej, prawda? Mijasz obiekty szybciej, też jest głośniej itd. Chociaż warto też zauważyć, że jak jedziesz szybciej po trasie np. 120 czy 140 km na godzinę i potem wracasz do miasta, gdzie maks do 50 km/h, to wydaje się, że te 50 po 120 są znacznie wolniejsze, niż jak zwykle poruszasz się w ciągu dnia po mieście. Chcę tylko odnotować ten fakt, za chwilę nam się przyda.

Spójrz na życie naszych rodziców czy dziadków? Jak dużo wydarzeń było w ich życiu? Jak długo pracowali w jednym miejscu pracy? Czy posiadali kalendarz z dużą liczbą spotkań i szereg spotkań, od których nasz mózg szaleje dość mocno. Zobacz też ten efekt, kiedy jedziesz znacznie szybciej, to trochę spowalniając już wydaje Ci się, że jedziesz wolno. Zmniejszając ilość spotkań, wcale nie oznacza, że jedziemy wolno, nadal pędzimy tylko trochę wolniej 😉 Dodam jeszcze tutaj jedno zdanie. Spróbuj przeprowadzić eksperyment i wyjechać w góry np. na tydzień samodzielnie. Najlepiej, aby nie było ludzi dookoła i zobacz, co będzie się działo z Twoim ciałem, myślami.

Podsumujmy. Tak się stało, że żyjemy w czasie, kiedy świat rozpędza się coraz szybciej. Nie wierz na słowo, obserwuj, mierz na różne sposoby, aby to stwierdzenie się stało oczywistym. Czy to dobrze, czy źle? Myślę, że to pytanie nie jest właściwe. To jest podobnie jak rozważać, czy doba 24h to jest dobrze czy źle? Być może powinna być trochę dłuższa? To nie są decyzje, na które mamy wpływ.

Cykle w życiu AI

Cykl w naszym życiu jest czymś naturalnym. Mamy dzień i noc, mamy 4 sezony w roku itd. W rozwoju AI też są cykle. Nawet mają swoje nazwy. Istnieją tak zwane AI Spring (czyli wiosny) i AI Winter (czyli zimy).

Tak jak można domyśleć się – AI Spring jest wtedy, kiedy wszystko kwitnie i wiele dzieje się. Natomiast AI Winter odwrotnie, kiedy spada zainteresowanie tematem AI.

Cycle of AI booms and busts. Źródło: Chart from TechnologyStories.com

Są różne sposoby, jak zmierzyć rozwój AI, ale weźmy jeden z klasycznych. Mamy już za sobą dwa boomy (i też dwie zimy pod koniec lat 60. pierwsza i pod koniec lat 80. druga). Teraz mamy trzeci boom i być może już za niedługo będzie trzecia zima.

Spróbujmy lepiej zrozumieć źródło tak zwanej “zimy” w AI. Co to oznacza w praktyce?

Podam Ci kilka cytatów.

Marynarka wojenna ujawniła dziś zarodek komputera elektronicznego, który, jak się spodziewa, będzie w stanie chodzić, mówić, widzieć, pisać, rozmnażać się i być świadomym jego istnienia.

Źródło: NEW NAVY DEVICE LEARNS BY DOING; Psychologist Shows Embryo of Computer Designed to Read and Grow Wiser. New York Times 1958.

Maszyny będą w stanie w ciągu dwudziestu lat wykonywać każdą pracę, jaką może wykonać człowiek.
Herbert Simon, 1960

Z przekonaniem spodziewam się, że w ciągu 10-15 lat z laboratorium wyłoni się coś, co nie jest zbyt daleko od słynnego robota science fiction.
Claude Shannon, 1961

Jestem bardzo optymistycznie nastawiony do ostatecznego wyniku pracy nad maszynowym rozwiązywaniem problemów intelektualnych. W ciągu naszego życia maszyny mogą przewyższyć nas pod względem ogólnej inteligencji.

Marvin Minsky, 1961

Jak słyszysz te wiadomości, to wydaje się, że są z “wczoraj”. Prawda? Natomiast te cytaty znanych ludzi lub z popularnych magazynów (np. New York Times) są z lat 60.

Teraz pomyśl. Jeżeli pewne autorytety (naukowcy w tym przypadku) mówią tak optymistycznie o pewnych wydarzeniach. A następnie tego nie doświadczamy, to jakie emocje może to wywołać w szerszym gronie odbiorców? Frustracja lub rozczarowanie, prawda?

Czym skutkuje taka zima? No zwykle to jest zmniejszanie lub wcale ograniczanie dofinansowanie różnych grantów. Czy to jest takie złe? To pewnie zależy, generalnie nauka zwykle nie ma pieniędzy i potrzebuje wsparcie. Z drugiej strony, dość często ciężko to jest nazwać nauką, tylko jakąś walką o granty. Dlatego odcinanie od pieniędzy to jest pewien sposób uzdrowienia systemu. Podobnie, jak wilk łapie zajączki, to głównie chore. Podobnie jest tutaj. Jak komuś zależy, to i tak będzie robił swoje.

Czy jest możliwa trzecia zima AI? O tym ostatnio mówi się dość dużo. Są pewne symptomy boomu. Zobacz.

Źródło: Number of ML publications on, Jeffrey Dean [2020]

W 2015 roku The Guardian przewidział, że „od 2020 roku zostaniesz stałym kierowcą na tylnym siedzeniu”. W 2016 Business Insider zapewnił nas, że „do 2020 r. na drogach będzie jeździć 10 milionów samojezdnych samochodów”. Elon Musk obiecał w 2019 roku, że „za rok będziemy mieli ponad milion samochodów z w pełni autonomiczną jazdą (…)”. Żadne z tych twierdzeń na razie nie spełniło się. To były cytaty z publikacji, która pojawiła się 28 kwietnia 2021 Why AI is Harder Than We Think.

W tej publikacji jest wiele ciekawych przykładów, skąd pojawiją się nieporozumienia. Między innymi chodzi o bardzo optymistyczne wypowiedzi autorytetów. Dość ciekawa publikacja, warto poznać ją.

Popatrzmy na krzywe Gartner, na rok 2020. Widać, że computer vision jest w dołku. Deep Learning, NLP, Machine Learnig toczą się ku dołowi (czyli już po górce największego hype’u). Prawie w dołku jest też temat chatbotów. Można powiedzieć, że są to pewne oznaki zimy.

To zadajmy pytanie wprost. Czy jest możliwa trzecia zima w AI? Wszystko w tym życiu jest możliwe, chociaż trzeba przyznać, że nawet jeśli ona (ta zima) będzie, to będzie miała zupełnie inny wymiar. Poprzednie zimy odnosiły się i były zależne od tego świata akademickiego bardziej – są uczelnie i coś rzeźbią z AI/ML. To tam głównie odbywały się rewolucje w tej branży, ale wiele się zmieniło.

Teraz ML przenika do przemysłu. Nawet jak już nic nowego nie zostanie wymyślone, to i tak jest sporo rzeczy, które działają i rozwiązują konkretne problemy. Dają namacalną wartość dla biznesu.

Mi osobiście nie do końca podobają się krzywe z zimą AI, kiedy bierze się pod uwagę tylko jeden wymiar – pieniędzy (i rzeczy z tym związane wprost). Formuła w tym przypadku jest taka: jak jest entuzjazm na AI, to pompuje się więcej pieniędzy, jak nie ma entuzjazmu – jest mniej pieniędzy. Owszem pieniądze są potężne i mogą wpłynąć na wiele obszarów, ale wracając do czasu… Mimo tego, że nie wiemy, czym dokładnie jest, to jest poczucie, że jest potężniejszy niż pieniądz, prawda? 😉

Mimo tego, że mówią czas to pieniądz. Ale to pewnie dlatego, że często ludzie marnują czas i traktują go “taniej” niż powinni. Natomiast szybko można zauważyć, że czas jest droższy, ponieważ ciężko go odzyskać.

General AI

“Jest to stosunkowo łatwe do wykonania przez komputery prezentujące wyniki na poziomie dorosłych w testach inteligencji lub podczas gry w warcaby, trudne lub niemożliwe, aby dać im umiejętności jednorocznego dziecka, jeśli chodzi o spostrzegawczość i mobilność.”
Hans Moravec

To twierdzenie, też jest znane jako Paradoks Moraveca.

W różnych komunikatach na temat AI jest zwracana uwaga na to, że jak pojawia się kolejny przełom w wąskim zadaniu, to określa się to dość często jako “kolejny krok do General AI”. To jest mylące, bo może być prawdą i nieprawdą. Prawdą jest w tym sensie, że robiąc kolejną rzecz, stwarzamy pewne warunki, aby dostrzegać swoje błędy i tym samym pośrednio posuwamy się dalej. Ale konkretnie ten krok niekoniecznie jest tym rozwiązaniem, które będzie pomocne. Zresztą zacytuję, aby lepiej wyjaśnić, co mam na myśli.

(…) pierwsza małpa, która wspięła się na drzewo, zbliżała się do lądowania na Księżycu.
Stuart Dreyfus

Jaka jest korelacja pomiędzy wspinaniem się na drzewa i lądowaniem na Księżycu? To są zupełnie innego poziomu problemy. Z drugiej strony, trzeba przyznać, że człowiek najpierw wlazł na drzewo i dopiero potem poleciał na księżyc. Tylko pomiędzy tymi zdarzeniami było kilka tysięcy lat. Czy rozwiązania, które są potrzebne, aby wleźć na drzewa skutkowały tym, że polecieliśmy na Księżyc?

Jak zadaje to pytanie, to ono brzmi absurdalnie, ale najciekawsze jest to, że można odpowiedzieć: “tak to prawda” lub “to nieprawda”, w zależności od tego, z jakiej perspektywy na to patrzysz. Podobnie jest w AI. Te nasze lokalne osiągnięcia nie są czymś, co wprost nas przybliża do General AI, ale w zasadzie potencjalnie zbliżamy się ku General AI.

Na rok 2021 można powiedzieć, że bardzo ciekawymi rozwiązaniami, które robią wrażenia to model GPT-3 od Open AI. Dość często mówi się o tym, że to jest duży krok w stronę General AI. Mam nadzieje, że już to omówiliśmy i ta analogia z małpą, która wspina się na drzewo oraz lądowaniem na księżycu do Ciebie przemawia. W tym przypadku to jest bardzo podobna sytuacja.

Z drugiej strony, czy to oznacza, że General AI jest jeszcze daleko? Obecnie możemy stwierdzić, że Deep Learning ma swoje ograniczenia. Potrafi rozwiązać dobrze wąsko wyprofilowane problemy, ale ma duży kłopoty z adaptacją, też dość często potrzebuje dużo danych, etykietek itd.

Między innymi dlatego pojawia się taki trend jak self-learning lub small-data o trendach w AI warto opowiedzieć osobno. Możemy powiedzieć, że Deep Learning już robi dobrą robotę co do rozwiązywania konkretnych problemów, ale osiągnięcie General AI w tym przypadku jest trudne, bo to narzędzie jest ograniczone.

Kolejna ważną rzeczą jest to, czym tak naprawdę jest General AI. Dzisiaj próbowaliśmy zdefiniować, czym jest czas. Było ciężko i porzuciliśmy to. Teraz można było spróbować zdefiniować, czym jest inteligencja! Temat bardzo złożony. Bo istnieje wiele rodzajów inteligencji.

Innym wątkiem jest, skąd w ogóle bierze się myślenie, że istnieje tylko taka inteligencja którą posiada człowiek? Np. delfiny są inteligentne także, a w pewnych aspektach znacznie bardziej niż człowiek.

Podam Ci przykład.

Okręty podwodne z pociskami balistycznymi o napędzie atomowym są szczególnie trudne do wykrycia. I dlatego stają się kluczowym składnikiem „nuklearnej triady” Stanów Zjednoczonych, Rosji i Chin. Ale piętą achillesową pojazdów podwodnych jest problem z komunikacją (fale radiowe po prostu nie przedostają się dobrze przez słoną wodę). Jeszcze w latach 50’ych w Stanach Zjednoczonych był tajemniczy projekt o nazwie Combo. Już jest opublikowany i można się z nim zapoznać.

Głównym pomysłem było wygenerowanie wiadomości (nieodróżnialnych dla ludzi od komunikacji delfinów), w których osadzone są elementy tajnej komunikacji ludzi (okręty podwodne i ich kwatery główne). W 1970 roku DARPA przystąpiła do projektu, co zwielokrotniło jego finansowanie. Stawka w sukcesie Combo była bardzo wysoka. Natomiast nie udało się. Projekt został zamknięty.

Teraz Chiny próbują wznowić ten projekt. Idea jest taka. Skoro GPT-3 potrafi generować fajne teksty (w tym wiersze), to niech spróbuje wygenerować rozmowę delfinów, ale w taki sposób, aby dało się potem to z powrotem odczytać. Projekt jest pilotażowy, ale szansa, że może się udać, jest znacznie większa niż w poprzedniej iteracji.

Bardzo ciekawy wątek, teraz nie będę go rozwijał dalej. Mam nadzieje, że udało mi się Ciebie przekonać, że inteligencja ma wiele wymiarów i nawet to, co nas otacza, może mieć inny wymiar inteligencji. Jak myślisz, czy liczba możliwych rodzajów inteligencji jest ograniczona?

Rytm i AI oraz prognoza

Spróbujmy popatrzeć na sprawę w innym wymiarze, niż klasyczny wykres z zimami i wiosnami. Zauważmy pewien rytm. Najpierw spróbujmy złapać go na poziomie, kiedy wydarzyły się najbardziej istotne i przełomowe rzeczy, aby sprawdzić, czy jest pewna relacja. Od razu zwrócę uwagę, że czas zaokrągliłem. Np. rozkwit Deep Learningu zaczął się od 2012 roku (bo wtedy pojawiły się fajne zastosowanie sieci konwolucyjnych – CNN), natomiast odnoszę ten rok do przedziału: 2010 – 2020. Wymienię najpierw trzy przedziały i potem popatrzymy na przyszłość.

100 lat: ~1850-1950 – Ada Lavelas i jej publikacja
~50 lat: Od lat 50ych do 90ych (40 lat) definicja AI/prosta sieć + więcej było systemów opartych manualnej konfiguracji.
~20 lata: 1990 – 2010 – machine learning
~10 lata: 2010 – 2020 – deep Learning => CNN

Teraz spróbujmy zrobić prognozowanie. Widać, że te okresy zawężają się. Coraz mniej potrzebujemy czasu, by dokonać kolejnego odkrycia. Może założyć, że to dalej będzie kontynuowane.

~ 5 lat: 2020-2025 transformers/self-supervised learning i podobne
~ 3lata: 2025-2028
~ 2 lata: 2028-2031

Interesując tu kilka rzeczy. Jeśli ten rytm nadal zachowa się, a nic nie wskazuje póki co, że będzie inaczej, to nastąpi moment, kiedy jeszcze bardziej przyspieszymy i nawet mniej niż w rok będziemy dokonywać rewolucyjnych zmian. To brzmi trochę przerażająco.

Podam Ci przykład ze świata programistycznego. Ostatnio jest dość głośno o języku Rust. Szybki język, który daje fajne możliwości i konkuruje między innymi z C++ (klasyczny język, który przeżył już wiele konkurentów). Ciekawostka Rusta jest taka, że jego pierwszy kompilator był napisany na OCaml (inny język oprogramowania), ale każda kolejna wersja kompilatora jest rozwijany w Rust. To jest rekurencja, kiedy nie wiadomo gdzie jest początek. Mówiąc tak po ludzku, jest sobie pewien system (język oprogramowania), który ma pewne ograniczenia i on sam siebie rozbudowuje dodając kolejne warstwy. Oczywiście stwierdzenie “sam siebie” to jest pewna przesada, bo człowiek tam jest zaangażowany. Natomiast chodzi mi bardziej o to, że nie to jest zamknięty ekosystem.

Co jeśli te przełomowe rozwiązania już na tyle rozpędzą się, że każde kolejne będzie kawałkiem poprzedniego? Mam na myśli to, że człowiek już nie będzie musiał wprost tłumaczyć wielu rzeczy. Z resztą podejście self-supervised lelarning (czy jeden z rodzajów contrastive self-supervised learning) jest właśnie trochę o tym.

Najważniejsze, co próbuję powiedzieć to to, że widoczny jest rytm przyspieszenia w naszym życiu. AI/ML ma podobnie. Jest dużo szumu i nieporozumień, dlatego próbowałem pokazać Ci trochę inny punkt widzenia i wyjaśnić, co mam na myśli mówiąc rytm.

Warto też zrozumieć przyczyny poprzednich zim i jakie były ich skutki. Zrozumieć, że obecnie możemy mieć do czynienia z czymś innym – odmiennym wydaniem zimy, która może być znacznie krótsza, a pewnie przez niektórych nawet niezauważalna, ale co ciekawe nawet można powiedzieć, że w pewnym sensie “zima” może okazać się potrzebna, aby dokonały się pewne kolejne przełomowe odkrycia na skutek pewnego oczyszczenia branży z napompowanych medialnie obietnic lub gróźb i nadużywania słowa AI, bo sie klika.

Dlatego nawet jeśli zima nastąpi, to raczej będzie dobrze. Bo znikną sztucznie pompowane pieniądze w tej branży lub będzie ich znacznie mniej i faktycznie będzie liczył się wynik i rozwiązywanie problemów, a nie robienie “AI dla AI i dla grantów”, dodatkowo będzie mniej szumu i można będzie spokojnie pracować.

Powiem tak, Ci którzy rzeczywiście potrafią wykorzystać potencjał Data Science i Machine Learning, aby rozwiązywać problemy raczej nie powinni się obawiać zim, bo skoro potrafią to robić dobrze, to przynoszą konkretną wartość biznesowi i zarabiać i poradzą sobie bez dofinansowania.

Nie próbuję teraz krytykować dofinansowań, bo są potrzebne, ale po to, aby dzięki dodatkowym środkom móc jeszcze lepiej rozwiązywać zdefiniowane problemy, a nie po to, aby tworzyć problemy, bo mamy dofinansowanie 😉 A tak niestety dosyć często się dzieje.

A więc jeśli działasz w branży dlatego, że umiesz wykorzystań potencjał Data Science i Machine Learning, aby generować dużą wartość, to pewnie poradzisz sobie z dofinansowaniem lub bez.

Podam Ci przykład 🙂 Załóżmy, że jutro będzie ogłoszenie, że wszystkie projekty z self-driving car będą zamrożone (to nie jest prawdą, ale załóżmy). Czy to sprawi, że przestaniesz używać swojego własnego samochodu? Oczywiście, że nie. Bo to już działa, jest sprawdzone. To samo jest w ML/AI. To co przekazuję np. w moim kursie Data Science i praktyczne Machine Learning od podstaw, to jest wiedza, którą da się zastosować. To działa!

Czy będzie zima, czy nie będzie – wszystko jedno. Jest pewna wiedza, która jest sprawdzona i sprawdza się. Mało tego, należy to potraktować jako pewny fundament. Tak jak teraz ciężko znaleźć firmę, która nie ma strony internetowej czy aplikacji (lub chociażby profilu w social mediach), to koniecznym stanie się wprowadzenie ML, który działa już teraz i generuje konkretne przychody!

Ten odcinek nieco odbiega od poprzednich i jest trochę filozoficzny. Taki odcinek chciałem przygotować już od dawna i akurat 100 stał się dobrym pretekstem, aby to właśnie teraz wybrzmiało. Mam nadzieje, że udało mi się pokazać Ci, jak ważne jest krytyczne myślenie w życiu, a także w biznesie.

Nagłówki gazet często bombardują nas tytułami ze słowami autorytetów zapewniając o tym, jak będzie wyglądała przyszłość lub jaki jest obecnie stan wiedzy o świecie i naszej planecie. A niestety pewne jest jedno: śmierć i podatki, jak mówił Benjamin Franklin.

Zima AI jest zdefiniowanym pojęciem, media i eksperci straszą co jakiś czas tym branżę, ale zamiast się bać lub próbować przewidzieć, czy i kiedy nastąpi, warto zastanowić się, jak być anty-kruchym i odpornym na wstrząsy, które są częścią natury i kultury i w zasadzie bywają bardzo potrzebne.

Artykuł Zima AI pochodzi z serwisu Biznes Myśli.

Jak Google i DeepMind wspierają służbę zdrowia?

Vladimir — Mon, 08 Jun 2020 02:57:14 +0000

Innowacja nieodłącznie wiąże się z licznymi wyzwaniami, bo wymaga pokonywania nierzadko bardzo wielu barier, zmiany utartych tematów i sposobu myślenia. O tym i nie tylko miałem okazję porozmawiać z Joanną Chwastowską z Google, która przedtem pracowała w DeepMind, jeszcze wcześniej w startupie i znów w Google.

Joanna ma bardzo ciekawe doświadczenie w różnych obszarach. Dzisiaj m.in. opowiemy o tym, jak wygląda służba zdrowia w Wielkiej Brytanii, jakie tam są podstawowe problemy związane z komunikacją pomiędzy lekarzami, pielęgniarkami i innymi osobami, które np. robią badania. Jak przekazywane są między nimi informacje?

Dość często nadal są używane pagery lub fax. Ciekawe, że to nadal jeszcze funkcjonuje. Wyobraź sobie taką sytuację, że lekarz np. chirurg pracował przez kilka godzin, jest po zabiegu i bardzo zmęczony, wychodzi i na pagerze czeka na niego 5, 10, 20, 50 różnych wiadomości, które nie są w żaden sposób spriorytetyzowane i musi je wszystkie przeglądnąć, by zweryfikować, czy któraś z nich jest bardzo ważna i wymaga natychmiastowej reakcji. Tego typu problemy są do rozwiązania m.in. poprzez aplikację Streams tworzoną w DeepMind.

Jak mówimy o DeepMind, to od razu na myśl przychodzi nam sztuczna inteligencja. Z DeepMind kojarzy się również AlphaGo, więc od razu widzimy jakieś zaawansowane algorytmy. Prawda jest taka, że najpierw trzeba pewne rzeczy ustabilizować i dopiero później można wprowadzać kolejne elementy związane z automatyzacją pewnych procesów, prognozowaniem i sugerowaniem pewnych rzeczy, które można zrobić lub nawet podejmowaniem odpowiednich decyzji.

To jest ciekawa historia, bo wiele firm ma przekonanie, że wprowadzanie innowacji to np. użycie uczenie maszynowego. Problem zwykle jest szerszy i m.in. chodzi o:

infrastrukturę, którą firma posiada,
ludzi, którzy pracują w tej firmie (na ile ten zespół jest przygotowany na to, żeby takie rozwiązania wdrożyć),
kulturę firmy, na ile ta firma jest otwarta na nowe rzeczy, na ile tam jest hierarchia bardziej czerwona (czyli hierarchia kiedy z góry pewne decyzje propagują się na dół i tego kierunku nie da się zmienić).

Z tej rozmowy dowiesz się:

czym zajmuje się Google Health,
jak dzięki technologii można przewidywać występowanie uszkodzenia nerek,
jak aplikacja Streams zrewolucjonizowała brytyjską medycynę,
z jakimi wyzwaniami wiąże się rozwijanie innowacji,
jakich zmian w służbie zdrowia możemy się spodziewać w najbliższych 10 latach.

Cześć Asia. Przedstaw się: jak się nazywasz, skąd jesteś, czym się zajmujesz?

Witaj Vladimir. Nazywam się Joanna Chwastowska. Pochodzę z Tarnowa, a teraz mieszkam w Londynie. Zajmuję się budowaniem rozwiązań technologicznych, jestem inżynierem i prowadzę zespół inżynierów w Google w Londynie.

Podziel się proszę, jaką książkę ostatnio przeczytałaś i dlaczego warto ją polecić?

Jedną z ciekawszych pozycji, które czytałam ostatnio, jest „Essentialism: The Disciplined Pursuit of Less” Grega McKeowna. O tyle jest to ciekawa lektura, że skupia się właśnie na tym, na czym powinniśmy się skupiać w swoim życiu. Pomaga odpowiedzieć na pytanie, co jest tak naprawdę dla nas ważne i którym rzeczom w życiu powinniśmy mówić „tak”, a które rzeczy priorytetyzować i odrzucać. Wydaje mi się, że w kontekście np. dużych projektów informatycznych często się zdarza, że próbujemy zrobić na raz za dużo, a w tej książce znajdziemy podpowiedź, jak zrobić jedną rzecz dobrze, z całą naszą uwagą. Zdecydowanie polecam.

Podoba mi się cytat z tej książki:

„Jeżeli nie jest na pewno na tak, to jest na pewno na nie”.

Właśnie tak. Dużo bardziej agresywnie niż do tego podchodzimy w codziennym życiu, prawda?

Tak, bardzo przydatne. Porozmawiajmy na początek o Twojej karierze zawodowej. Jak wyglądała ta ewolucja? Jak znalazłaś się w tym miejscu, w którym jesteś teraz?

Zaczęłam od studiowania informatyki na Akademii Górniczo-Hutniczej w Krakowie. W 2007 r. Google otworzył się w Krakowie i moja najlepsza przyjaciółka Ilona zaproponowała, żebyśmy tam zaaplikowały. Oczywiście na tamtym etapie, będąc praktycznie świeżo po studiach, nie bardzo zakładałyśmy, że się dostaniemy, ale sam proces rekrutacji był wtedy wystarczająco interesujący dla nas, aby warto było spróbować.

Po wielu etapach różnych pytań i zadań okazało się na końcu, że spełniamy wymagania i zostałyśmy przyjęte. W związku z tym budowałyśmy biuro krakowskiego Google’a od samego początku. To był okres w historii informatyki, w którym dużo firm zaczęło eksplorować różne obszary, którymi można by się było zajmować. W związku z tym miałyśmy okazję pracować nad bardzo szeroką gamą różnych projektów na przestrzeni lat, aż dochodzimy do 2015 r., kiedy to Google zdecydował, że krakowskie biuro zostaje połączone z biurem w Warszawie.

Ja, z powodów osobistych, zdecydowałam się nie przenosić i zostałam w Krakowie. To jest kolejny ciekawy okres, kiedy w Krakowie otworzyliśmy razem z grupą innych osób, które odchodziły wtedy z Google’a, biuro startupu Spring. Zajmował się budowaniem rozwiązań commerce. Główna siedziba firmy znajdowała się w Nowym Jorku, a my w Krakowie otworzyliśmy biuro inżynieryjne i budowaliśmy dla nich rozwiązania.

To był też bardzo ciekawy okres, bo startup to zupełnie inny świat w porównaniu do Google. Duża firma z całym zapleczem, podejściem do projektów, dużo szybsze warunki pracy, dużo więcej skupienia na wypuszczaniu poprawek do systemu, udogodnień dla użytkowników, nowych funkcjonalności. Bardzo fajne doświadczenie.

Po dwóch latach zdarzyło się tak, że DeepMind odezwał się do mnie z pytaniem, czy nie chciałabym dołączyć do zespołu w Londynie, a ponieważ w pierwszych 5 minutach rozmowy rekruter wspomniał to, że pracują nad projektami w obszarze służby zdrowia, to skradł moje serce i tak spakowałam się razem z rodziną i przenieśliśmy się do Londynu. Tak jesteśmy tu do dziś.

Od dziecka interesowała Cię dziedzina zdrowia, czy były inne motywacje do podjęcia pracy właśnie w tym obszarze?

To jest bardzo dobre pytanie. Wydaje mi się, że powodów jest wiele i to jest tak, że na przestrzeni lat we wszystkich tych firmach i projektach, gdzie pracowałam, zawsze był jakiś powód albo kilka powodów, dla których to było właściwe miejsce i czas. Tutaj się tak złożyło, że obszar healthcare i DeepMind zakreśliły dużo checkboxów.

Z jednej strony jak chodzi o impact tego, nad czym można pracować, to wydaje się, że budowanie rozwiązań, które pomagają ludziom albo powrócić do zdrowia, albo uniknąć problemów, jest jednym z takich obszarów, w których można mieć największy wpływ na świat. Z drugiej strony to zawsze był dla mnie niezwykle ciekawy obszar.

Jak pewnie większość ludzi, będąc dzieckiem, bawiliśmy się w lekarzy, dawaliśmy zastrzyki lalkom i na pewno jakbym miała wybierać jakąś inną karierę (nie informatyka), to ten lekarz gdzieś byłby tam na liście. Z trzeciej strony jest jeszcze aspekt ograniczeń i wyzwań związanych z wprowadzaniem bardzo innowacyjnych rozwiązań. Wydaje się, że w obszarze służby zdrowia tych wyzwań jest ciągle bardzo dużo. To jest niesamowite, że mamy tyle rozwiązań technologicznych, a nasze szpitale i systemy diagnostyczne często jeszcze są tak bardzo do tyłu.

Wynika to też z tego, że żeby móc wprowadzać dużo bardziej nowoczesne rozwiązania, to cały otaczający te rozwiązania prawny krajobraz i regulacje odnoszące się do wprowadzania tych rozwiązań, też muszą być gotowe na technologie. Teraz jest właśnie taki okres, że zaczynamy dopiero rozmawiać o tym, co by było wymagane, żeby można było te rozwiązania wprowadzać bezpiecznie.

Sądzę, że to jest taki trzeci aspekt, gdzie można przez pracę (wydaje mi się, że takie większe firmy mają dużo większą szansę) wpływać na te regulacje tak, żeby one wspierały cały ekosystem, w którym te rozwiązania będą budowane i żeby to były rozwiązania bezpieczne, sprawdzone i potwierdzone. Żebyśmy wiedzieli tak naprawdę, co robimy.

W przypadku wdrażania innowacyjnych projektów często widzi się tylko jego skutki, natomiast ludzie nie zdają sobie sprawy, jakie tak naprawdę bariery trzeba pokonać, żeby dotrzeć do mety. Powiedz dokładniej, czym się zajmuje dział Google poświęcony ochronie zdrowia. Co już udało się osiągnąć? Czym Twój zespół albo zespoły pokrewne się zajmują?

Dział poświęcony zdrowiu w Google powstał stosunkowo niedawno. Powiedziałabym, że to jest na przestrzeni ostatnich 12-18 miesięcy jako byt formalny. Natomiast te projekty, które wchodzą w jego skład, one oczywiście były rozwijane na przestrzeni 3-5 lat co najmniej.

To jest też troszeczkę nawiązanie do tego, co mówiłam na początku, jaka jest motywacja, dlaczego ludzie chcą pracować nad zdrowiem. Ludzie są zmotywowani często swoimi wcześniejszymi historiami, przeżyciami, tym że ktoś w rodzinie miał problem, którego nie udało się rozwiązać. Dlatego też ludzie, którzy pracują w technologii teraz, bardzo często myślą o tym, jak te tworzone rozwiązania, mogłyby być zastosowane do tego obszaru.

Stworzenie działu Google Health wynikało z tego, że te projekty już się toczyły i tak naprawdę, żeby mogły się toczyć lepiej i lepiej ze sobą współpracować, to zostały wciągnięte pod jeden parasol.

To są bardzo różnorodne projekty. Mamy bardzo duży dział research, który skupia się na tym, w jaki sposób można np. poprawić diagnostykę, w jaki sposób można lepiej klasyfikować poszczególne problemy do takich rozwiązań jak te projekty, które my prowadziliśmy wcześniej w ramach DeepMind Health.

Byliśmy wtedy nastawieni na budowanie rozwiązań bezpośrednio dla lekarzy, które pozwalają im każdego dnia poprawiać standard opieki dostarczanej pacjentom. Teraz one wszystkie znajdują się pod jednym dachem. W środku jest prawdopodobnie ten największy obszar, w którym Google ma doświadczenie, tzn. to, co robimy bezpośrednio dla naszych użytkowników, czyli np. w obecnej sytuacji pandemii i COVID-19 to, że użytkownicy są w stanie znaleźć rzetelną informację.

Informację nie tylko, która sieje panikę albo jest niezweryfikowana, ale właśnie informację, która pochodzi bezpośrednio z systemu opieki zdrowotnej, dużych jednostek naukowych. Wtedy te rozwiązania budujemy we współpracy z innymi działami Google, np. YouTube, Search. One są wbudowane w te produkty, ale my wnosimy jako zespół zrozumienie obszaru ochrony zdrowia, doświadczenie medyczne tak, żeby te produkty były lepsze.

Jednym z takich przykładowych produktów, który jest budowany przez ten zespół, jest wykrywanie retinopatii towarzyszącej cukrzycy. To jest projekt, który zaczął się w obszarze badawczym naszej firmy od tego, że zaczęto budować modele do tego, żeby ze skanu oka być w stanie wykryć, że u pacjenta występuje retinopatia towarzysząca cukrzycy.

To jest schorzenie, które z jednej strony może prowadzić do ślepoty, z drugiej strony np. 18% ludzi z cukrzycą obecnie w Indiach ma już to zagrożenie wzroku spowodowane cukrzycą. Jest to bardzo duży problem – mówimy o powyżej 400 mln ludzi na świecie zagrożonych ślepotą z powodu retinopatii. Od tego projektu badawczego i od tego, czy da się tę chorobę wykrywać ze skanu, przechodzimy do planu działania, czyli do tego, w jaki sposób jesteśmy w stanie ten model dostarczyć tam, gdzie jest w stanie zmieniać sytuację pacjentów. Tutaj jest zbudowane urządzenie, które nazywa się ARDA: Automated Retinal Disease Assessment.

W tym momencie, jest testowane bezpośrednio w klinikach w Indiach w celu lepszego wykrywania tych schorzeń i pomocy ludziom. Interesujące jest to, że jeżeli wystarczająco wcześnie wykryjemy, że pojawia się problem, to jesteśmy tym pacjentom w stanie pomóc. Tak naprawdę impact tego projektu będzie mierzony w tym, że duża część z tych osób ma szansę nie stracić wzroku, co wydaje się być dość istotne.

Bardzo fajny przykład, można więcej przeczytać o tym na blogu Google. Tam między innymi było też wspomniane o 415 mln, czyli prawie 0,5 mld potencjalnych pacjentów, którzy mają to ryzyko.

Ta skala daje do myślenia i robi wrażenie, jeżeli chodzi o możliwości tego rozwiązania. W innym miejscu czytałem, że tam było coś więcej niż tylko wykrywanie retinopatii, bo w oczach można znaleźć różnego rodzaju choroby albo pewne objawy tych chorób.

Tak, tam tak naprawdę są dwa obszary, tzn. jest jeden projekt badawczy, który wykrywał 50 najczęściej występujących chorób oczu ze skanów. Natomiast ten pojedynczy projekt skupia się konkretnie na wykrywaniu retinopatii i byciu w stanie wykorzystania tego modelu bezpośrednio już w klinikach. Także jest to zawężony obszar wykrywania, ale potencjalnie dużo większy zasięg, jak chodzi o dostępność projektu i rozwiązania w klinikach.

To jest też praktyczne, tzn. jeżeli chcemy rozwiązać pewien problem, to warto na nim jednym się skupić, bo pewnie pojawi się mnóstwo wyzwań, niekoniecznie technologicznych, ale jeżeli ich nie pokonamy, to inaczej to się po prostu nie będzie nadawać.

Aplikacja Streams powstała najpierw w DeepMind, w tej chwili ten projekt jest już pod parasolką Google. Czym ona jest i jak to się stało, że ta aplikacja w ogóle się pojawiła? Jaki problem ma na celu rozwiązać?

Streams to jest aplikacja, która pomaga lekarzom i pielęgniarkom podejmować decyzje o opiece nad pacjentami, o tym, że wymagają oni opieki wcześniej, tzn. próbujemy sprawić, żeby pomoc mogła nastąpić wcześniej niż następuje w tym momencie i żeby dzięki temu rezultaty leczenia były lepsze.

Streams na samym początku skupił się na bardzo konkretnym schorzeniu – ostrym uszkodzeniu nerek. Schorzenie to polega na tym, że nerki pacjenta przestają działać poprawnie. Często występuje jako dodatkowy problem, który pojawia się, gdy pacjent jest już w szpitalu.

Oznacza to, że często to nie jest jego główny symptom, tylko np. przeszedł operację i w konsekwencji operacji, w trakcie powracania do zdrowia po operacji, zaczynają się problemy z nerkami. To jest bardzo częste schorzenie. Szacuje się, że dotyka 1/5 pacjentów szpitali w Stanach Zjednoczonych i w Wielkiej Brytanii.

Ono znowu jest takim ciekawym schorzeniem, ponieważ nawet 30% przypadków można by było zapobiec, jeżeli lekarz wystarczająco wcześnie wiedziałby, że jest problem i na niego zareagował. Niestety często zdarza się tak, że ponieważ pacjent np. jest już ciężko chory albo pooperacyjny, bardzo późno lekarz zauważa, że występuje ten problem i przez to pacjent kończy np. na dializie nerek.

Może się to zakończyć również śmiercią pacjenta. Aplikacja Streams zajęła się wykrywaniem tego uszkodzenia nerek (ono może mieć 3 poziomy, od lekkiego do bardzo poważnego) i informowaniem lekarzy o tym, że po wykonaniu ostatniego badania krwi istnieje zagrożenie dla nerek. Jednocześnie skupiając się na tym, co możemy zrobić tu i teraz, czyli informowaniu lekarza o tym, że ten problem jest i należy podjąć działanie, zaczęliśmy przyglądać się projektem badawczym na to, czy bylibyśmy w stanie poinformować lekarza wcześniej, tzn. nie w sytuacji, w której już nastąpiło uszkodzenie nerek, ale np. z wyprzedzeniem, mówiąc że ten pacjent jest w grupie podwyższonego ryzyka.

Wcześniejsza interwencja jest możliwa i bezpieczna. Ona np. może polegać na podaniu pacjentowi większej ilości płynów albo zastosowaniu osłony antybiotykowej, żeby zapobiec komplikacjom. Ten projekt badawczy też jest opublikowany i jesteśmy w stanie wykrywać uszkodzenie nerek, które nastąpi za 24-48 godzin, co jest tak naprawdę bardzo dużą poprawą w stosunku do obecnego algorytmu, który jest używany powszechnie, np. w brytyjskiej służbie zdrowia, który wykrywa to uszkodzenie w momencie, w którym pacjent już jest w pogorszonym stanie i nerki są już uszkodzone.

Zaczęliśmy od obudowania tego pojedynczego problemu i stworzenia rozwiązania dla niego. Natomiast w tym momencie aplikacja pozwala lekarzom zobaczyć dodatkowy kontekst danego pacjenta tak, żeby ta decyzja o procesie leczenia uwzględniała cały obraz kliniczny pacjenta i tak, żeby lekarze byli w stanie podejmować lepsze decyzje.

To bardzo inspirujące. W praktyce oznacza to, że po pierwsze jest bardzo duża grupa osób, u której ten problem może wystąpić. Po drugie nawet u ⅓ przypadków można zareagować dzięki temu wcześniej i uprzedzić poważne skutki, wynikające z późnej diagnozy.

Innowacja w projektach to jednak nie jest po prostu dołożenie do nich elementu machine learning czy sztucznej inteligencji i natychmiastowe otrzymanie rewolucyjnych efektów. Istnieje wiele wyzwań związanych z infrastrukturą, regulacjami prawnymi, które należy uprzednio przygotować. Z jakimi wyzwaniami musieliście się zmierzyć w Waszych projektach?

Jeszcze ciągle bardzo brakuje takich rozwiązań prawnych i regulacji, które we właściwy sposób pozwalałyby bezpiecznie wprowadzać takie bardzo innowacyjne rozwiązania. W tym momencie są regulacje do urządzeń medycznych, które były tworzone przez długie lata i one dość sensownie działają, natomiast nie tak dobrze odnoszą się do rozwiązań software’owych, jako urządzenie medyczne.

Oczywiście są tutaj wprowadzane zmiany i ulepszenia i to prawo próbuje nadążać, natomiast często jeszcze wprowadza bardzo dużo ograniczeń, które tak naprawdę koniec końców szkodzą pacjentowi. Jako przykład: bardzo długi okres pomiędzy tym, że pewna poprawka została zaimplementowana, a tym, gdy może zostać wdrożona do użycia na szeroką skalę, sprawia, że po pierwsze okres nim pacjent realnie zostanie objęty lepszą ochroną się bardzo wydłuża, a po drugie też tak naprawdę podnosi to koszt całego procesu wytwarzania oprogramowania. Tak naprawdę firmy, które zajmują się dostarczaniem tych rozwiązań, muszą mieć duży zapas kapitału i być w stanie działać przez długi okres bez przychodu, bez swojego rozwiązania wdrożonego na rynku.

To w duży sposób dyskryminuje wszystkie małe firmy, które mogłyby działać w tym obszarze albo zmusza je do robienia rzeczy, które są na granicy tego, co jest legalne albo tego, co jest dobre dla pacjenta. Jeden z obszarów to są przede wszystkim właśnie te regulacje, które wymagają tego, żeby były cały czas uaktualniane i nadążały za rozwojem technologii.

Po drugie oczywiście jest współpraca firm technologicznych z jednostkami służby zdrowia, które często są jednostkami rządowymi. Pojawia się tu dysonans pomiędzy firmą technologiczną, która ma środki i chciałaby w szybki sposób wprowadzać jakieś rozwiązanie, a np. szpitalem, który z jednej strony też chciałby to rozwiązanie jak najszybciej wdrożyć, ale z drugiej jest bardzo ograniczony, jak chodzi o personel techniczny, prowadzi wiele projektów, które muszą dziać się natychmiastowo.

Jest też duża odpowiedzialność na firmach technologicznych wprowadzających te rozwiązania, żeby swoim partnerom, docelowym jednostkom, być w stanie pomóc poprawnie je wdrożyć w bezpieczny sposób.

Powiedziałabym, że to są takie dwa główne obszary, na których się musieliśmy skupić – w jaki sposób zrobić to bezpiecznie i w jaki sposób zrobić to tak, żeby nasi partnerzy byli w stanie wykorzystać te rozwiązania jak najlepiej.

Oczywiście jest tutaj też ten trzeci aspekt, który jest warty wspomnienia. Nasza aplikacja w tym momencie nie ma w sobie rozwiązań, które można by było sklasyfikować jako AI. Wszystkie używane algorytmy są opublikowane jako standardy opieki zdrowotnej, np. w Wielkiej Brytanii. W związku z tym to są obliczenia, które następują zawsze w ten sam sposób, jest jasne, skąd te wyniki pochodzą.

Oczywiście prowadzimy badania nad tym i publikujemy te modele, które są w stanie wykrywać te rzeczy wcześniej, natomiast pomiędzy tym, że teraz jesteśmy w stanie pokazywać wyniki konkretnego algorytmu, a tym, że będziemy w przyszłości w stanie pokazywać nasze przewidywania co do stanu zdrowia pacjentów, jest jeszcze bardzo daleka droga.

Takie problemy jak np. kwestia odpowiedzialności – prawdopodobnie trochę mniej istotne w Europie, ale jak pomyślimy o Stanach Zjednoczonych to nabiera to ważności Wyobraźmy sobie, że aplikacja pokazuje jakąś informację lekarzowi, np. że uszkodzenie nerek nastąpi w ciągu najbliższych 24 godzin z 80% prawdopodobieństwem, lekarz podejmuje jakąś akcję i ta akcja w konsekwencji kończy się pogorszeniem stanu zdrowia pacjenta.

Zawsze jeśli jest podejmowana jakaś interwencja medyczna, nawet tak prosta jak podanie antybiotyku, może nastąpić reakcja, która będzie zagrażała życiu pacjenta. Teraz pojawia się pytanie: czy lekarz zrobił dobrze, czy to jest uzasadnione? Przy jakiej procentowej wartości pewności tego algorytmu, lekarz może podjąć decyzję na podstawie tej wskazówki, a przy jakiej powinien to odrzucić? Pojawia się również pytanie, czy to firma, która dostarcza ten algorytm jest odpowiedzialna za tę rekomendację, która została wygenerowana?

Czy to jest tylko dodatkowa informacja, którą pokazujemy lekarzowi i lekarz sam musi podjąć decyzję? Oczywiście pojawia się też cały problem czarnej skrzynki AI i tego czy lekarz jest w stanie zrozumieć, skąd w ogóle algorytm pokazał taki wynik.

Możemy do tego wrócić, to jest bardzo ciekawy temat. Skupiając się na tych problemach, które w tym momencie pojawiają się z użyciem takiego rozwiązania AI, bezpośrednio w podejmowaniu medycznych decyzji – pojawia się bardzo dużo otwartych pytań. Powinny istnieć regulacje, które w jasny sposób określają, jakie są wymagania wobec algorytmów i nie chodzi tylko o wymagania na poziomie pewności algorytmu, ale tak naprawdę wydaje mi się, że również powinniśmy prowadzić szeroko zakrojone badania, które pokazują, że koniec końców, dzięki użyciu danego algorytmu w sytuacji medycznej, tak naprawdę rezultaty dla pacjentów są lepsze na końcu.

Także dużo właśnie tego typu pytań. Może tylko jako przykład podam, że w przypadku aplikacji Streams, nawet pomimo tego, że ona w tym momencie nie używa AI, od samego początku bardzo skupiliśmy się właśnie na tym, żeby być w stanie pokazać te potencjalne, pozytywne efekty dla pacjenta.

Tak przez pierwszy rok, kiedy Streams był w użyciu, była przeprowadzona ewaluacja (również opublikowana), która pokazała, że te najcięższe przypadki miały uwagę lekarza, lekarz przeglądnął dane pacjenta i zweryfikował, jakie są następne kroki medyczne w ciągu 15 minut, w porównaniu z czasem kilku godzin, jako control group.

Często zdarza się tak, że wyniki, które idą do laboratorium, wracają, pojawiają się w systemie, ale lekarz przez długi czas jeszcze nie będzie wiedział, że one tam są albo nie będzie miał czasu na nie popatrzeć i podjąć jakąkolwiek decyzję. Skrócenie tego czasu, zdecydowanie wpływa na poprawę zdrowia pacjenta, ponieważ jest w stanie otrzymać właściwą opiekę wcześniej.

Dodatkowo udało się pokazać, że zredukowaliśmy nie wykryte przypadki uszkodzenia nerek z ponad 12% do 3%. W końcu, tak naprawdę nie tylko dla pacjentów, ale dla całego systemu zdrowia, pojawiła się również oszczędność, tzn. zredukowany jest koszt per pacjent, u którego wystąpiło uszkodzenie nerek, o 17%, co tak naprawdę może prowadzić do oszczędności rzędu miliarda funtów rocznie dla brytyjskiego systemu zdrowia.

Wydaje mi się, że jest istotnym, żeby również mówić o tym, w jaki sposób mierzymy wpływ budowanych produktów na końcowego użytkownika.

Zdecydowanie. Rozwiń jeszcze proszę sposób funkcjonowania aplikacji i jej roli w całym procesie, tak aby każdy mógł zrozumieć, jak to wygląda w praktyce.

Streams jest aplikacją mobilną, tzn. jest dostępna na telefonach dla lekarzy i pielęgniarek w wybranych szpitalach w Wielkiej Brytanii. Gdy pacjent się pojawia, to szpital ma jakieś swoje rozwiązanie informatyczne, tzn. system, który przechowuje wszystkie dane pacjentów i który jest tym centralnym systemem do zarządzania pacjentami.

Pacjent zostaje przyjęty, jego dane są wprowadzone do systemu, przechodzi przez ręce różnych lekarzy. Natomiast jak już dochodzi do etapu, gdzie jest w szpitalu i jest pod opieką konkretnego lekarza lub pielęgniarki, będą oni na telefonie widzieć listę swoich pacjentów, za których są odpowiedzialną.

Dla każdego z tych pacjentów będą widoczne wyniki ich badań laboratoryjnych (tj. badania krwi), ich obserwacje, czyli pomiary, które pielęgniarka zwykle pobiera od pacjenta z dość dużą regularnością, podczas gdy jest w szpitalu: temperatura, ciśnienie, stan świadomości, rozkojarzenia – te parametry, które mówią lekarzom na bieżąco, czy pacjent czuje się dobrze, czy czuje się gorzej.

Mają w ten sposób dostęp do wszystkich danych medycznych pacjenta, a dodatkowo jeżeli stanie się coś poważnego (np. wrócą wyniki badań, w których pacjent ma wykryte uszkodzenie nerek, jak również może to być wykrycie sepsy, która pojawia się w organizmie), to lekarz zostanie o tym poinformowany dodatkowo. Dostanie notyfikację na telefonie i będzie w stanie w szybki sposób, zweryfikować cały obraz kliniczny pacjenta i podjąć konkretną decyzję.

Jak to wyglądało wcześniej?

Infrastruktura służby zdrowia jest często nie tak nowoczesna, jakbyśmy sobie tego życzyli. Są ku temu istotne powody. Przede wszystkim pieniądze idą na leczenie pacjentów, a nie na poprawienie infrastruktury, ale również zmiany w infrastrukturze są trudne.

Trzeba upewnić się, że one są na pewno bezpieczne dla wszystkich. Lekarze ciągle używają pagerów. Pager to jest taki bardzo upośledzony telefon, który potrafi tylko powiedzieć, że ktoś próbuje się z Tobą skontaktować i żeby się dowiedzieć czego od Ciebie chce, to należy oddzwonić na konkretny numer.

Co jest oczywiście o tyle problematyczne, że jeżeli lekarz wychodzi z sali operacyjnej, w której spędził ostatnie 3 godziny, to może tam mieć np. 20 wiadomości, które w żaden sposób nie są spriorytetyzowane. Będzie musiał przejść przez nie po kolei, bo nie ma żadnych dodatkowych informacji. Dodatkowo mogę powiedzieć, że np. NHS, brytyjska służba zdrowia, jest największym odbiorcą faksów (urządzeń do przesyłania papieru na świecie). Jest to zabawne, ale też problematyczne, bo pokazuje, jak dużo rzeczy jednak ciągle dzieje się na papierze.

źródło: giphy.com

Często, nawet w bardzo rozwiniętych szpitalach, część procesu ciągle jeszcze odbywa się na papierze. Każdy, kto był w polskim szpitalu, pamięta te kartki wiszące na nogach łóżka, które pokazują nasze obserwacje w ciągu doby. To sprawia, że dostęp do informacji jest powolny, bo zamiast sprawdzić dane w konkretnym systemie, to często trzeba po prostu pójść i znaleźć ten konkretny papier, na którym ta informacja jest zapisana.

Trzecią rzeczą wartą wspomnienia jest stan urządzeń. Jak mówię o technologiach mobilnych i wprowadzeniu aplikacji na telefon, to pomyślmy, co znaczyły technologie mobilne wcześniej w wielu szpitalach – to jest to komputer na kółkach (COW – computer on wheels).

Jest to komputer postawiony na małej szafce, którą lekarze lub pielęgniarki pchają z sali do sali i w ten sposób są w stanie używać swoich systemów i uzupełniać informacje o pacjentach. To jest stan służby zdrowia w jednym z bardziej rozwiniętych krajów.

NHS jest tak naprawdę rozpoznawane jako jeden z najlepszych systemów zdrowotnych na świecie i ciągle, nawet tam, pojawiają się wszystkie te problemy.

Wydaje się, że wprowadzenie bardziej nowoczesnych rozwiązań jest o tyle istotne, że ten wpływ (z jednej strony na pacjentów, a z drugiej strony na cały system i zaoszczędzanie części kosztów systemowi) sprawia, że jesteśmy w stanie te środki realokować i poprawiać tę infrastrukturę.

A propos efektywności, na początku powiedziałaś, że środki zwykle są przekazywane na poprawę zdrowia pacjentów a nie na infrastrukturę i to wszystko brzmi logicznie.

Jednakże rozwiązując problem infrastruktury nie dość, że pacjent zyskuje na zdrowiu (np. alert pójdzie z większym wyprzedzeniem i nerki będzie można uratować), to przy okazji miliardy funtów będzie można zaoszczędzić. Prawdopodobnie to jest problem projektów innowacyjnych, że systemy biurokratyczne nie są w stanie wprowadzać innowacji, a jednocześnie ich potrzebują.

Często jest mylone to, na czym polega wprowadzenie innowacji i jak często pewne kroki są pomijane. Na przykład: słyszy się, że można zrobić innowację wdrażając uczenie maszynowe, to próbujemy je na siłę wdrożyć, tylko nie ma infrastruktury podstawowej, żeby to wdrożyć. Jak przygotowywałem się do tej rozmowy i czytałem o Streams, to byłem pod ogromnym wrażeniem, że to już funkcjonuje.

Najpierw trzeba wszystko ustabilizować, żeby infrastruktura technologiczna była przygotowana na rozwiązanie ML-owe, a później jak dane zbieramy w sposób spójny, to możemy przekazać je do trenowania modelu. Co jest ważne, nawet jak ten model powstanie, to na co on wpłynie?

Jak chodzi o wdrożenie AI, to musimy pamiętać, że żeby modele dobrze działały, to potrzebują szerokich danych. To nie jest tak, że na podstawie samych wyników krwi, jesteśmy w stanie wykrywać, że stan pacjenta znacznie się pogarsza. Oczywiście będziemy w stanie, ale jeżeli dodatkowo będziemy mieć pełne wyniki laboratoryjne, wszystkie obserwacje, nawet notatki, które lekarze robią o stanie zdrowia pacjenta, to taki model będzie dużo skuteczniejszy.

Jak dużo z tych informacji, w obecnym stanie w danej placówce szpitalnej, znajduje się na papierze? Jakbyśmy tego modelu nie trenowali, to, oczywiście bez jakiegoś rozpoznawania tekstu, on nie będzie czytał tych papierów zwłaszcza, że nie będzie miał do nich dostępu. Pierwszym aspektem jest taka technologiczna gotowość, czy w ogóle da się wprowadzać rozwiązania oraz przygotowanie środowiska, w którym model będzie działał.

Drugim istotnym aspektem jest to, że musimy pamiętać, że wiele systemów, z którymi my pracujemy, to są systemy publiczne, tzn. jak mówimy o brytyjskiej służbie zdrowia, to to jest służba zdrowia finansowana ze środków publicznych. Istotne jest to, że wydatki idące na tę służbę zdrowia, muszą być akceptowane przez szeroko rozumiane społeczeństwo.

Z jednej strony, Ty używasz argumentu, że tak na logikę to oczywiście ma sens, żeby inwestować w infrastrukturę, żeby tworzyć lepsze rozwiązania i one w konsekwencji sprawią, że pacjenci będą dostawać lepszą opiekę. Z drugiej jak zapytasz przeciętnego obywatela na ulicy w ankiecie: czy uważa, że te pieniądze powinny pójść do dużej firmy technologicznej, żeby stworzyła lepsze rozwiązanie, czy powinny pójść jako wynagrodzenie dodatkowych pielęgniarek, żeby tę opiekę poprawić, to wydaje mi się, że ciągle jeszcze, w dużej mierze ludzie będą za tym, żeby dofinansowywać bezpośrednio.

Bardzo ciężko jest łatać te dziury, które mamy na poziomie dużej grupy ludzi albo społeczeństwa i myśleć strategicznie. Wydaje mi się, że do tego właśnie są potrzebne dodatkowe, konkretne jednostki działające przy rządzie, które skupiają się właśnie na innowacji. W Wielkiej Brytanii przykładem takiego ciała jest NHSX, które skupia się właśnie na tym, jak te nowoczesne technologie wprowadzać do służby zdrowia, jak budować warstwę, w której następuje wymiana danych pomiędzy jednostkami ochrony zdrowia tak, żeby każdy pacjent będący w takim miejscu jak i jego lekarz mieli dostęp do pełnej historii.

Z trzeciej strony w jaki sposób umożliwiać te innowacje? Wiele z projektów, nad którymi pracowaliśmy, zarówno w ramach DeepMind, jak teraz w Google, nie zdarzyłoby się, gdyby duże szpitale nie chciały pracować z firmami, nie udostępniałyby danych do celów badań. Oczywiście to są dane bez informacji identyfikacyjnych pacjentów, natomiast ciągle te ogromne zbiory danych, które te szpitale posiadają, sprawiają, że jesteśmy w stanie budować dużo lepsze modele, które w przyszłości wraz z rozwojem infrastruktury, będą w stanie być używane bezpośrednio do pomocy pacjentom.

Dotknijmy jeszcze jednego wątku a propos tworzenia projektów innowacyjnych, bo to jest temat, który trzeba poznać i zrozumieć. Powiedziałaś, że zaczęliśmy bardziej rozmawiać z lekarzami, pielęgniarkami, żeby lepiej ich zrozumieć.

Przypomina mi się tutaj anegdotka, która krąży wśród programistów: „nie po to studiowałem 5 lat informatykę, żeby rozmawiać z ludźmi”. Czasem to jest po prostu paradygmat życia wielu osób. Dążę do tego, że innowacje są możliwe, tylko i wyłącznie wtedy, kiedy zespół się interdyscyplinarny, czyli ma wiele różnych specjalizacji. Ludzie zajmują się zupełnie innymi rzeczami, np. lekarz, programista, ktoś od badań, od strony UX, prawnik itd.

W tym zespole trzeba jakoś się komunikować, żeby znaleźć wspólny język i to prawdopodobnie jest wyzwaniem. Na czym polegają największe praktyczne problemy i jak sobie z tym radzisz?

Zespoły interdyscyplinarne są zdecydowanie tym, co jest kluczowe w tym momencie przy tego typu innowacyjnych projektach, które są w obszarach, gdzie jeszcze nie ma podobnych rozwiązań. Tu nie ma czegoś do skopiowania, jakiegoś szablonu, którym się można posłużyć. W związku z tym wiele zagadnień jest bardzo otwartych.

Oczywiście, służba zdrowia dodatkowo nakłada bardzo wysokie wymagania. To nie jest tylko to, co jest wymagane prawnie, ale my chcemy też dla samych siebie mieć pewność, że to, co robimy i jak to robimy, to jest najlepszy, najbezpieczniejszy możliwy sposób zbudowania tego rozwiązania. Jak myślimy o takich tradycyjnych projektach informatycznych, to zwykle myślimy o grupie inżynierów.

Pewnie dokładamy do tego testerów, mamy product managera, który definiuje to, co się dzieje. Może mamy program managera, który zarządza tym, w jaki sposób projekt się posuwa do przodu. Jak mówimy o służbie zdrowia, to to się bardzo rozszerza, bo to nie jest tylko user experience designers, to jest bardzo duża grupa user experience researchers, czyli ludzi, którzy pracują i testują pomysły bezpośrednio z końcowym użytkownikiem. Streams jest przykładem takiej aplikacji, która przechodzi przez wiele cykli testowania z użytkownikami, zanim dany kawałek funkcjonalności zostanie zbudowany w aplikacji.

Musimy sobie zdać sprawę, że to, co w normalnych komercyjnych projektach byśmy robili, czyli np. A/B testing poszczególnych rozwiązań, pomysłów i udogodnień – tutaj nie może zostać zastosowane. Jeżeli budujemy jakieś rozwiązanie, to musimy mieć pewność, że na daną chwilę to jest najlepsze możliwe rozwiązanie, jakie możemy dostarczyć w ręce lekarzy.

Częściowo ten A/B testing przeprowadzamy wcześniej, tzn. to nie jest nawet A/B testing, to po prostu jest 10 różnych możliwych rozwiązań, które testujemy pod kątem najniższego poziomu błędu. Musimy wziąć pod uwagę to, że produkt będzie np. używany w sytuacji, w której życie pacjenta jest zagrożone. Lekarz stoi nad łóżkiem i musi podjąć decyzję na przestrzeni sekund. Tam nie może być miejsca na niepewność i wątpliwości np. co do oznaczeń. Standardy wytwarzania oprogramowania też są inne.

Wracając do różnych ról, pojawia się rola lekarza, osoby doświadczonej wykształconej w obszarze dostarczania ochrony zdrowia, bo wiele pytań wymaga odpowiedzi nie tylko product managera, który definiuje dlaczego, to budujemy i jak to robimy, ale tak naprawdę osoby, która jest w stanie powiedzieć, w jaki sposób to będzie używane oraz czy to jest bezpieczne i dobre rozwiązanie.

W końcu mamy cały obszar regulacji, tzn. information governance, które wymaga tego, żeby dostęp do niesamowicie istotnych, wrażliwych medycznych danych pacjentów był odpowiednio chroniony przez cały okres tworzenia tego oprogramowania i po wdrożeniu rozwiązania.

Jakie są główne problemy?

Powiedziałabym, że główny problem jest taki, że jak myślimy o zespołach inżynierskich, to jest określona ilość metodologii, którymi one pracują, ale ogólnie to większość z nich są to zespoły, które w jakiś sposób definiują, co chcą zbudować, potem to budują, testują i wypuszczają.

To podejście zderza się z ludźmi, którzy przychodzą z obszaru policy i regulatory, czyli definiowania tego sposobu pracy w obszarach ściśle regulowanych, czyli właśnie urządzenia medyczne, próby leków, gdzie to doświadczenie jest zupełnie inne. To jest dużo bardziej model standardowego waterfall, gdzie projekt przechodzi przez konkretne stany. Na końcu każdego stanu znajduje się ściśle określony sposób jego weryfikacji i tego, czy wszystkie wymagania zostały spełnione.

Okres pomiędzy tym, kiedy dany projekt się zaczął i kiedy zostały spisane wymagania, a kiedy on zostaje wdrożony, jest dużo dłuższy. Zderzają się te dwa podejścia, w jaki sposób to łączymy i w jaki sposób będziemy to robić bezpiecznie, ale jednocześnie tak, żebyśmy byli w stanie szybko dostarczać te rozwiązania. Do tego zupełnie dodatkowy aspekt, gdzie zderza się podejście ludzi, którzy pracując w firmach technologicznych, mają pewne oczekiwania i mają swoje standardy pracy.

Dla mnie część rzeczy jest oczywista, np. to, że w komunikacji w firmie jest bardzo wysoki poziom transparency, tego, że wiemy nad czym pracują poszczególne osoby, nawet jeżeli nie musimy tego wiedzieć, że informacja szybko przekazywana, że można zadawać pytania swoim szefom, że można nawet kwestionować ich wybory. To zderza się z ludźmi, którzy przychodzą z dużo bardziej hierarchicznej organizacji. Zdecydowanie służba zdrowia jest dużo bardziej hierarchiczna.

Jak główny chirurg mówi, że tak będziemy przeprowadzać tę operację, to stażysta nie podniesie ręki i nie powie: „a bo ja myślałem, że może byśmy zrobili to trochę inaczej”. To jest dużo bliższe strukturom wojskowym, gdzie jednak hierarchia ma bardzo duże znaczenie. Jest też taki istotny kulturowy aspekt tego, w jaki sposób pracujemy, w jaki sposób się komunikujemy ze sobą. Czy to jest komunikacja szeroka i wysyłamy wszelkie informacje, czy to jest dużo bardziej zawężone i tylko te osoby, które muszą o czymś wiedzieć, to będą o tym wiedziały.

Moja rola polega nie tylko na tym, żeby wesprzeć zespół inżynierów i pomóc im tworzyć konkretne rozwiązanie, ale głównie też na tym, żeby słuchać tak naprawdę. Rozumieć, w jaki różny sposób się komunikują te różne grupy i być w stanie budować mosty komunikacyjne, ułatwiać nam zrozumienie siebie.

Piękno pracy w tych projektach związanych ze służbą zdrowia jest takie, że wszyscy ludzie przychodzą do nich naprawdę silnie zaangażowani. Ludzie naprawdę chcą tego, co najlepsze dla projektu, dla pacjentów i przez to każdy jest bardzo zaangażowany.

Jak każdy uważa, że to, co on mówi, jest bardzo istotne dla sukcesu tego projektu, to musimy znaleźć sposób, żeby się dogadać i być w stanie jakoś jasno rozmawiać o tym, co jest krytyczne, a co jest ważne, a co tak naprawdę jest tylko dodatkowe i w jaki sposób te priorytety pomiędzy różnymi grupami rozumieć.

Warto tu wspomnieć o książce „Pracować inaczej” Frederica Laloux. Wyjaśniono w niej różne struktury organizacji oraz ich klasyfikacje kolorystyczne.

„Pracować inaczej” Frederica Laloux

Była tam np. czerwona organizacja tj. taka bardziej wojskowa hierarchia, kiedy wszystko musi iść z góry na dół i nie ma możliwości, żeby było inaczej. Sprawa z taką organizacją jest bardzo ciężka i trudna. Warto sobie uświadomić czasem, że niektórych rzeczy się nie da zrobić albo będą wymagały znacznie więcej cierpliwości, czasu, pieniędzy itd., żeby pewne innowacje tam zacząć wprowadzać.

Porozmawialiśmy od tej strony bardziej biznesowej, strategicznej, że taka aplikacja jak Streams wydaje się być bardzo pomocna, bo po pierwsze zarządza logistyką. Wbrew pozorom te problemy, choć już powinny być opanowane, to nadal nie są albo właśnie teraz zostały dopiero zaadresowane.

Po drugie już ogarniając logistykę, czyli przygotowując fundamenty technologiczne, można będzie myśleć o tym, żeby wpiąć tam uczenie maszynowe i dzięki temu podejmować lepsze decyzje. Z punktu widzenia zwykłego pacjenta, czego można się spodziewać za 5-10 lat?

Trudne pytanie, bo to nie zależy tylko do tego, co technologia może. To też zależy bardzo od tego, jaka będzie sytuacja na świecie. Nawet obecna sytuacja z koronawirusem jest świetnym przypomnieniem tego, że nie mamy kontroli nad wszystkim.

Jakbym miała prognozować, to myślę, że w perspektywie najbliższych kilku lat wyraźniej będziemy widzieć rozwiązania bardzo punktowe. Pojedynczy problem jest modelowany i w pojedynczym miejscu sprawdzamy skuteczność danego modelu. Sprawdzamy, czy jesteśmy w stanie, w jakiś sposób wpłynąć na środowisko, coś lepiej zrobić w danym obszarze.

Mam nadzieję, że w perspektywie tych 10 lat te pojedyncze interwencje zaczną się zmieniać w coś, co jest dużo bardziej skalowalne. To wymaga rozwiązania wielu poważnych problemów.

Wymaga tego, żebyśmy byli w stanie bezpiecznie przenosić model ze środowiska, w którym on się uczył, na inne środowiska, w których będzie używany i które mogą być nieco inne niż to środowisko, w którym został stworzony. Jak budowaliśmy część z modeli odpowiedzialnych za wykrywanie ostrego stanu nerek, to jedną z jednostek badawczych był Veteran Affairs Hospital w Stanach Zjednoczonych.

Z jednej strony to jest bardzo dobre miejsce, bo posiada szeroki zbiór danych, długi okres czasowy, to bardzo wysokiej jakości placówka. Z drugiej strony populacja, która leczy się w tej placówce to jest głównie personel wojskowy albo powojskowy. W związku z tym ta różnorodność płciowa, rasowa i konkretne warunki życiowe, przez które ci ludzie przechodzili, są bardzo jednolite.

W jaki sposób model wytrenowany na tych danych będzie się aplikował do zastosowania w Meksyku, w środowisku zupełnie innym, w zupełnie innej grupie społecznej? To jest jeden z ciekawych problemów, na które będziemy musieli odpowiedzieć w ciągu tych najbliższych 10 lat, jeżeli chcemy, żeby te rozwiązania były nie tylko teoretyczne, żebyśmy nie tylko byli w stanie publikować ciekawe rozwiązania tylko, żeby te rozwiązania służyły wszystkim ludziom.

Taki powinien być nasz cel. Mam nadzieję, że w tym czasie bardzo poprawi się screening, czyli wczesne wykrywanie. Obyśmy byli w stanie przesiewowo badać całe społeczeństwo, bo wówczas wprowadzając automatyzację do tego procesu to to, co jest teraz ograniczeniem (czyli czas zwykle doświadczonego lekarza potrzebny do tego, żeby przeanalizować dane wyniki i określić, czy ten pacjent jest podwyższonego ryzyka), to się uda zredukować. Gdyby nam się udało osiągnąć nawet tylko to, to już będzie gigantyczna zmiana.

Przesuwamy tu całą ochronę zdrowia z tego, że ktoś ma raka i leczymy raka do tego, że jest w bardzo wczesnym stadium i to jest coś, co podejrzewamy, że stanie się rakiem i jesteśmy to w stanie usunąć i żadna dodatkowa terapia nie będzie potrzebna. Począwszy od programów pilotażowych, jakie teraz prowadzimy, gdzie właśnie w Indiach będziemy potencjalnie redukować ilość ludzi tracących wzrok, wyobraźmy sobie, że to będzie się działo w każdym szpitalu, każdym gabinecie, gdzie przeprowadzane są te badania. Jakbym miała prognozować, to mam nadzieję, że screening jako główne rozwiązanie będzie dużo powszechniejszy.

Bardzo dziękuję Asiu za podzielenie się Twoim doświadczeniem, opiniami, przemyśleniami. Trzymam kciuki, żeby technologię (w szczególności uczenie maszynowe, ale też całą dziedzinę IT, która się bardzo szybko rozwija) udało się połączyć w różnych strefach w taki sposób, żeby ostatecznie to człowiek na tym skorzystał.

Chodzi o zdrowie i o inne wymierne korzyści, które można by było do tego odnieść. Jeżeli tak nad tym pomyślimy trochę głębiej, to chyba tylko o to chodzi ostatecznie, jak nie będzie człowieka, to nie będzie komu z tego korzystać.

Super, bardzo Ci dziękuję za rozmowę.

Gdy maszyny popełniają błędy, zwykle jest im trudniej wybaczyć niż ludziom. Nawet jeżeli tych błędów będzie mniej. Z punktu widzenia logicznego wydaje się, że trzeba się pogodzić z tym, że algorytmy potrafią lepiej pewne rzeczy przewidywać.

Czuję, że to ma sens, jeżeli chodzi o nauczenie algorytmów w ten czy inny sposób, żeby statycznie rzecz biorąc, popełniać mniej błędów. Mało tego, jest też szereg zalet. Ten algorytm jak raz się nauczy, to on już jest dostępny wszędzie. Lekarz, który przez 5, 10, 20, 50 lat się uczy to jest po prostu jeden człowiek, który ma dość ograniczoną uwagę i nie może się rozproszyć po całym świecie, a taki program jak najbardziej może.

To oznacza, że warto pójść w tym kierunku, żeby zaufać coraz bardziej maszynom, bo te algorytmy wskazują technicznie, że mogą sobie poradzić całkiem dobrze. Wszystko wskazuje na to, że ten trend zmienia się i w tym kierunku to będzie szło, że maszyny będą podejmować coraz bardziej odważniejsze decyzje. Oczywiście będą również popełniać błędy.

Myślę, że też to się zmieni w taki sposób, że dla osób w młodszym wieku będzie to już oczywiste, że tak jest, a osoby w starszym wieku nie będą miały aż tak dużo do wyboru. Po prostu to jest tzw. przesunięcie decyzyjności w czasie, że coraz młodsze pokolenie decyduje. W ten sposób to się przesunie.

Wyobraźmy sobie taką sytuację, że nastąpił ten moment, kiedy algorytmy przejęły władzę, jeżeli chodzi o podejmowanie decyzji. Mówimy teraz o temacie medycznym, że potrafimy zaprognozować tę czy inną chorobę, zarekomendować użycie wybranego leku.

Człowiek łatwo się przyzwyczaja, jest dość leniwy i to oznacza, że coraz mniej osób będzie studiować np. medycynę. Tu pojawia się właśnie kluczowe pytanie, czy to jest dobrze, że to dąży w tym kierunku? Z jednej strony wydaje się, że w tej chwili byłoby bardzo głupim rozwiązaniem, żeby całkowicie ignorować automatyzację, nie wykorzystywać tej technologii, którą już dysponujemy. Z drugiej strony skrajność, w której tylko maszyny podejmują decyzje, może być również przerażająca. Jakie jest Twoje zdanie?

Artykuł Jak Google i DeepMind wspierają służbę zdrowia? pochodzi z serwisu Biznes Myśli.

Sztuczna inteligencja i robotyzacja

Vladimir — Mon, 02 Mar 2020 04:00:00 +0000

Sztuczna inteligencja znajduje swoje zastosowanie w wielu dziedzinach. Tym razem poruszę temat robotyzacji. Mój gość, Marek Cygan z Nomagic, opowie o oprogramowaniu przygotowywanym w specjalnym projekcie, a także o możliwościach, jakie niesie wykorzystanie sztucznej inteligencji w tym obszarze.

Ogłoszenia

Za 2 tygodnie rusza kurs „Praktyczne uczenie maszynowe od podstaw”, dzięki któremu dowiesz się, jak zacząć działać z machine learningiem we właściwy sposób i jak stosować go w praktyce. To jest mój autorski kurs online, który przerobiło już 500 uczestników. Gorąco Cię zapraszam.

Już 14 marca odbędzie się pierwsze spotkanie Biznes Myśli na żywo. Będą goście, którzy występowali wcześniej. Bardzo ciekawa grupa osób. Gorąco zapraszam.

Cześć Marek. Przedstaw się: kim jesteś, czym się zajmujesz, gdzie mieszkasz.

Cześć. Nazywam się Marek Cygan. Pracuję w firmie Nomagic oraz na Uniwersytecie Warszawskim. Pracuję w Warszawie, natomiast mieszkam również w Toruniu.

Co fajnego ostatnio przeczytałeś i dlaczego uważasz, że jest to warte polecenia?

To zależy, o jakiego typu książkach mówimy. W zakresie zarządzania zespołem polecam „Radical Candor” autorstwa Kim Scott oraz „What You Do Is Who You Are” Bena Horowitza – związana z prowadzeniem startupów, bardzo polecam. Natomiast jeśli chodzi o książki mniej związane z pracą, to czytałem „Homo deus” Yuval Noah Harari – również polecam.

Dzięki za polecenia, bardzo ciekawe pozycje. Wspomniałeś, że pracujesz w Nomagic. Tak naprawdę zajmujesz się wieloma rzeczami i masz sukcesy w różnych obszarach, ale zacznijmy od Nomagic. Czym się zajmujecie?

W Nomagic zajmujemy się robotyką. Natomiast to nie jest bardzo szeroka robotyka. Interesuje nas aplikowanie najnowszych osiągnięć uczenia maszynowego w robotyce, aby stworzyć usługę, z której będą mogli korzystać nasi klienci. Mówiąc usługę mam na myśli to, że nie budujemy robotów w naszym laboratorium.

Kupujemy roboty i produkujemy dla nich oprogramowanie, które korzysta z metod sztucznej inteligencji, przetwarzania obrazów i różnych innych nowoczesnych technologii. Wdrażamy następnie te roboty u klientów, a one wykonują dla nich konkretne usługi. W tej chwili działamy w segmencie logistycznym. To są duże magazyny przeładunkowe głównie firm z handlu internetowego.

Wybraliście robotykę i jedno zagadnienie z tego obszaru. Dlaczego akurat robotyka?

W momencie, w którym zaczynaliśmy naszą przygodę (działo się to już ponad 3 lata temu), skontaktował się ze mną Kacper Nowicki. Bardzo chciał założyć startup w Warszawie. Zastanawialiśmy się, jaka mogłaby być dziedzina, w której użyjemy metod uczenia maszynowego. Punktem wyjścia było to, że chcieliśmy użyć najnowszych osiągnięć w dziedzinie uczenia maszynowego tak, żeby mieć komercyjny produkt. Mam tutaj na myśli konkretnie produkt, a nie projekt.

Nie chcieliśmy tworzyć firmy, która zajmowałaby się wykonywaniem konsultacji czy konkretnych projektów pod klientów. Nie pojedyncze przedsięwzięcia, lecz zunifikowany produkt, który można sprzedawać w wielu egzemplarzach. Chcieliśmy zbudować w ten sposób firmę, która ma szansę się rozwijać do bardzo dużych rozmiarów.

Żeby wybrać rynek, na którym taki produkt może zaistnieć, trzeba wziąć pod uwagę bardzo wiele czynników. Głównym czynnikiem dla nas była konkurencja dużych firm, które mają bardzo wiele danych. Jeśli spojrzymy na zagadnienia, które można wykonywać przy przetwarzaniu obrazu, dźwięku to Google czy Facebook mają ogromne ilości danych.

Uznaliśmy, że bardzo ciężko byłoby nam konkurować z nimi na tym konkretnym rynku. Szczególnie że w momencie, w którym prowadziliśmy nasze rozważania (2016 r. lato), te przełomowe wyniki w uczeniu maszynowym, przetwarzaniu obrazów już się wydarzyły parę lat wcześniej. Była duża szansa, że bylibyśmy spóźnieni próbując zakładać firmę w tej konkretnie dziedzinie.

Tak się zdarzyło, że niezależnie Kacper i ja natknęliśmy się na prace (artykuły naukowe publikowane przez grupę z Google Brain i inne grupy badawcze), które wykorzystywały uczenie maszynowe w robotyce. Obu nas te metody bardzo zainteresowały. Zaczęliśmy się zastanawiać, co można z tym zrobić.

Na początek, zebraliśmy parę osób, które chciały zreprodukować wyniki jednej z takich prac po to, żeby nauczyć się jak te metody działają i czy jest to coś, co nas interesuje. Zebraliśmy zespół 5-6 osobowy, przy czym to było takie założenie, że każdy z nas będzie się tym zajmował tylko przez 20% swojego czasu. Ja pracowałem wtedy na Uniwersytecie, a Kacper pracował w innej firmie w Berlinie.

Osoby, które do nas dołączyły, też miały albo pracę, albo studia. Posuwaliśmy się dość powoli, ale stabilnie do przodu. Po paru miesiącach takiej pracy uznaliśmy, że jest to dla nas na tyle interesujące, że chcemy się tym zająć na poważnie. W związku z tym, że pracując w tempie odpowiadającym poświęcaniu 20% czasu poruszaliśmy się stosunkowo wolno, to uznaliśmy, że albo robimy to na poważnie, albo wcale.

Wtedy zdecydowaliśmy, że chcemy założyć firmę. To był marzec 2017 r. Ustaliliśmy, że będzie to kwestia około kwartału, aż założymy formalnie spółkę i znajdziemy pierwszych pracowników. Formalnie otworzyliśmy biuro w czerwcu 2017 r.

Ciekawa przygoda. Nakreślmy aktualną sytuację w obszarze robotyzacji. Jakich metryk się używa i jak mierzy się stopień zautomatyzowania danego społeczeństwa? Jak należy to interpretować?

Standardową miarą używaną do oceny stopnia robotyzacji danego społeczeństwa jest gęstość robotów w przeliczeniu na 10 tys. pracowników. Czyli dla średniej grupy 10 tys. pracowników, ile wśród nich jest robotów? Używając takiej miary za rok 2018 w Polsce robotów było 42.

W poprzednich latach były to odpowiednio mniejsze ilości. Dla porównania, średnia gęstość robotyzacji na świecie, wynosi 99 (czyli ponad dwukrotnie więcej niż w Polsce), dla Europy – 114. To są dane za rok 2018, nie widziałem jeszcze raportów za rok 2019. Jeśli mówimy o tej metryce, to tutaj jest bardzo istotna kwestia, dlatego że w poszczególnych branżach ten stopień zrobotyzowania musi być diametralnie różny.

Prym wiedzie przemysł motoryzacyjny. W Polsce, tak jak gęstość robotów wynosi 42, to w sektorze motoryzacyjnym to już jest 190. Czyli jest ponad pięciokrotnie większa gęstość w tym sektorze. Jest to taki współczynnik, który tak samo stosuje się na świecie, tzn. w sektorze motoryzacyjnym w niektórych krajach ta liczba robotów na 10 tys. pracowników, przekracza nawet 1 tys.

Natomiast jeśli chodzi o gęstość robotyzacji nie tylko w motoryzacji ale ogółem, to nasza liczba w Polsce to jest 42. Tutaj wypadamy słabiej niż inne kraje regionu typu Słowacja, Czechy. Tam te liczby oscylują w okolicach 150. Wynika to też z faktu, że w tym obszarze przemysł motoryzacyjny jest proporcjonalnie dużo większy niż w Polsce (nawet w liczbach bezwzględnych jest większy, a w przeliczeniu na liczbę pracowników, to już jest dużo większy).

Natomiast globalnie liderem robotyzacji jest Singapur, gdzie liczba robotów na 10 tys. pracowników, przekracza 800. Niemcy przekroczyli 300, a średnia dla świata to około 100.

Temat robotyzacji jest pełen mitów. Jeżeli dołożymy do tego tzw. science-fiction, który się łączy i przecina, ludzie czasem się gubią, nie wiedzą, gdzie jesteśmy teraz i jak to się posuwa. Na przykład, słynny robot od firmy Boston Dynamics, który potrafi robić przeróżne cuda, skakać, biegać i robić obroty w bardzo niestandardowy sposób. Jak to oglądasz, to czujesz, że ten terminator już jest coraz bliżej.

Z drugiej strony istnieje taka inicjatywa zorganizowana przez Darpa – Darpa Robotics Challenge. Na zadaniach w tym projekcie roboty z Boston Dynamics nie wyglądają już tak efektywnie i skutecznie. Tu od razu się przypomina tzw. Paradoks Moraveca, gdzie czynności, które dla człowieka wydają się proste, dla robota nagle okazują się niesamowicie skomplikowane i bardzo trudne w rozwiązaniu.

Człowiek nawet nie jest w stanie sobie uświadomić, dlaczego tak się dzieje, że te inputy, które docierają do nas (w szczególności przez kanały marketingowe), z jednej strony wyglądają tak, że roboty już potrafią robić takie cuda, a z drugiej strony tak naprawdę jest za daleko, żeby stwierdzić, że ten robot już będzie się zachowywać jak terminator, którego wrzucasz na dowolny teren w mieście i będzie wchodzić np. do budynku, szukać odpowiedniego pomieszczenia, otwierać właściwe drzwi. To może być duże wyzwanie.

Dlaczego są tak duże zróżnicowania i gdzie faktycznie jesteśmy teraz?

Główny problem polega na tym, że w świadomości ludzkiej nie mamy zrozumienia, jak trudne obliczeniowo problemy nasz mózg jest w stanie rozwiązywać bardzo szybko – problemy związane głównie z przetwarzaniem tego, co widzimy, planowaniem naszych ruchów, reagowaniem na bodźce.

Nasz mózg metodą ewolucji został dostosowany i jest bardzo efektywny pod tym względem. Robi na nas wrażenie, jak komputer potrafi mnożyć liczby, które mają miliony czy miliardy cyfr, natomiast nie potrafimy zrozumieć, jak to jest, że przez długi czas komputer nie był w stanie rozpoznać, czy na zdjęciu jest kot czy pies.

Tego typu problemy potrafimy niezawodnie rozwiązywać dopiero od kilku lat. Jeśli chodzi o roboty, to tutaj takim przykładem jest robot Atlas z firmy Boston Dynamics. Ten robot potrafi wykonać np. salto do tyłu i się nie wywrócić, co wygląda bardzo efektownie. W momencie, w którym ten robot ma wykonać jakieś zadanie, w którym ma się odnaleźć w środowisku i wykonać jakąś konkretną akcję (doprowadzić do jakiegoś określonego rezultatu), to sprawa wygląda dużo trudniej.

Robot musi umieć odnaleźć się w środowisku, którego nie zna. Właśnie ta umiejętność odnajdywania się i działania w zmiennym środowisku jest bardzo trudne. Jest to ciężkie do zrozumienia. Związane jest to z tym, że sposób, w jakim komputer przetwarza obrazy, polega na przetwarzaniu wszystkich pikseli danego obrazu.

To, jak te piksele kodują dany obraz, bardzo się zmienia w zależności od oświetlenia, ustawienia. Niezwykle trudno jest opracować metody, które potrafią rozpoznawać obiekty niezawodnie w bardzo różnorodnych warunkach.

Przez wiele lat dominowały ręczne metody przetwarzania obrazów. Można o tym myśleć jak o różnych filtrach, które stosuje się w programach do cyfrowej obróbki zdjęć. W ostatnich latach tę dziedzinę zdominowały metody opierające się na trenowaniu modeli. Oznacza to, że zbieramy dane np. kilka milionów zdjęć i wiemy, co na każdym z nich się znajduje.

Czy na tym zdjęciu jest kot, pies czy jakiś inny obiekt. Dla każdego zdjęcia, musimy zapisać sobie tę informację. Potem konstruujemy sieć neuronową, tj. taki matematyczny obiekt, który ma w sobie masę parametrów. O takiej sieci neuronowej można myśleć jako o ciągu wykonywanych operacji na tych obrazach. Tak jak mamy różne efekty w programach do obróbki zdjęć, np. wykrywanie krawędzi, przyciemnianie, rozmazywanie.

Okazuje się, że jeśli złożymy ze sobą odpowiednio dużo tego typu transformacji i użyjemy w nich odpowiednich parametrów, to na końcu będziemy w stanie uzyskać odpowiedź, czy na danym zdjęciu jest kot, pies czy inny obiekt. Natomiast znalezienie tych parametrów jest bardzo trudne, bo w sieci neuronowej potrafi ich być od kilku milionów do kilku miliardów.

Żeby poprawnie ustawić te wszystkie parametry w sposób automatyczny (ręcznie jest to niemożliwe do zrobienia) metodami optymalizacji (które za pomocą algorytmów komputerowych poprawiają te parametry z każdym krokiem uczenia naszej sieci), musimy dysponować odpowiednią mocą obliczeniową i odpowiednio dużymi zbiorami danych.

Dopiero od kilku lat te trzy rzeczy jednocześnie są dostępne, czyli odpowiednio duża moc obliczeniowa, odpowiednio duże zbiory danych, odpowiednie algorytmy i modele matematyczne, które są w stanie te problemy rozwiązywać. Połączenie tych trzech składników pozwala rozwiązywać problemy przetwarzania obrazów. Natomiast jeżeli chodzi o samego robota, to robotyka to dużo więcej niż przetwarzanie obrazu.

Jak wchodzimy do pokoju i chcemy np. napić się kawy, to nie jest tak, że wchodzimy do pokoju, oglądamy cały pokój, lokalizujemy, gdzie jest czajnik, kubek, po czym zamykamy oczy i idziemy w ciemno w to miejsce nie reagując na bodźce. Robotyka bardzo długo w ten sposób działała, że w momencie pojawienia się odpowiednich metod przetwarzania obrazów, robot zbierał obrazy z otoczenia, próbował wymodelować całe otaczające go środowisko, po czym planował swoje akcje.

To tak jakbyśmy weszli do pokoju, rozejrzeli się dookoła i zaplanowali sobie, że musimy zrobić 5 kroków do przodu, obrót w prawo, dwa kroki do przodu, otworzyć górną szafkę, wyciągnąć kubek. Ten robot robi to często z zamkniętymi oczami i nie kontroluje tego, czy znajduje się w miejscu, w którym myślał, że będzie się znajdował. Nie kontroluje tego, czy środowisko się zmieniło albo czy w pierwotnej ocenie sytuacji pojawił się błąd.

Dopiero w ostatnich 2 latach pojawiły się artykuły o robotach sterowanych w tzw. układzie zamkniętym, czyli takim gdzie reagujemy z odpowiednią częstotliwością – np. 10 razy na sekundę uaktualniamy nasz plan w zależności od tego, co widzimy dookoła.

Jest jeszcze jeden duży, nierozwiązany problem – w jaki sposób poradzić sobie ze zmysłem dotyku? Jest to kolejny zmysł ludzki, którego nie umiemy jeszcze wykorzystać w robotach. Umiemy wykryć, że nastąpił kontakt z otoczeniem, natomiast bardzo trudno jest w sposób elastyczny dostosować się do otoczenia na podstawie doświadczanego kontaktu z otoczeniem. Szczególnie jeśli przedmioty, z którymi mamy do czynienia, są miękkie i potrafią się deformować.

Wracając do początku firma Darpa ogłosiła konkurs Darpa Robotics Challenge, który trwał między 2012 r., a 2015 r. W ostatnim roku trwania tego konkursu zadaniem była ewakuacja z budynku. Robot miał wejść do budynku, co wiązało się z otwarciem drzwi, zlokalizowaniem zaworu, zamknięciem zaworu, wejściem po schodach i wyjściem z budynku.

Żaden robot nie był w stanie wykonać w pełni tego zadania. W Internecie możemy obejrzeć różne nagrania, w których te roboty w fascynujący sposób się wywracają. To jest ten sam robot – Atlas z firmy Boston Dynamics. Ten sam, który wcześniej potrafił wykonywać akrobatyczne sztuczki, nie potrafił wykonać prostego zadania, jakim było otwarcie drzwi. Pomimo tego że w ostatnich latach widzimy tutaj postępy, moim zdaniem nie zobaczymy robotów w życiu codziennym w ciągu najbliższych kilku lat, gdyż te roboty najpierw będą się pojawić w takim segmencie jak logistyka.

W magazynach gdzie trzeba przetwarzać różne paczki albo pakować zamówienia w magazynach sklepów internetowych, gdzie zakres produktów jest bardzo szeroki sięgający nawet 100 tys. różnych produktów lub jak w przypadku największych magazynach Amazona – 1 mln produktów. Mówiąc o różnych produktach mam na myśli milion różnych kodów kreskowych.

Ta różnorodność to jest coś, co powodowało, że robotów w logistyce było dużo mniej niż np. w sferze motoryzacyjnej. W sektorze motoryzacyjnym w momencie, w którym jest zbudowana linia budująca samochody, roboty będą budować dokładnie takie same samochody przez cały dzień i całą noc (nawet przez kilka lat z rzędu). Tutaj to środowisko się w ogóle nie zmienia. Roboty wykonują cały czas te same zadania.

Oczywiście robi to wrażenie, bo potrafią podnosić bardzo duże ciężary. Często muszą być zsynchronizowane ze sobą, czyli jest kilka robotów spawających dany fragment. Jak się na to patrzy, to robi to duże wrażenie, ale cały wysiłek był w synchronizowaniu tych robotów i ręcznym ustawieniu różnych parametrów, bo ten robot nie jest w stanie dostosować się do żadnych zmian w tym środowisku.

W momencie, w którym ktoś chciałby tego robota przesunąć nawet o 5 cm, to dużą część pracy trzeba wykonać od nowa, tak żeby wszystkie je zsynchronizować i ustawić.

My w ramach Nomagic, wdrażamy nasze roboty w sektorze logistycznym (głównie w magazynach handlu internetowego) i na tym się skupiamy. Naszym celem jest wdrożenie 1 tys. robotów w ciągu 5 lat. Jest to bardzo ambitny cel, ale wierzę, że będziemy w stanie tego dokonać.

Kolejnym obszarem, w którym moim zdaniem możemy zobaczyć roboty już wkrótce, jest bezpieczeństwo, monitorowanie przestrzeni, ochrona. Będą to roboty, które nie będą w stanie wchodzić w interakcje ze swoim otoczeniem (lub interakcja będzie bardzo ograniczona).

Będą to takie maszyny, które będą poruszać się po otoczeniu, skanować je w poszukiwaniu nieoczekiwanych zmian. W momencie, w którym te nieoczekiwane zdarzenia będą miały miejsce, będzie wzywany człowiek i to człowiek będzie reagował na te zdarzenia, gdyż ludzie bardzo dobrze reagują w nowych sytuacjach, a roboty niestety jeszcze nie.

Bardzo ciekawa analogia z zamkniętymi oczami odnośnie do tego, jak działa robot. To faktycznie umożliwia znacznie lepiej zrozumieć, gdzie są wyzwania. Czasem jak ludzie wchodzą do pokoju, też zamykają oczy, jak idą po kawę. Różnie to się kończy i może być wyzwaniem, w szczególności jeśli środowisko zmienia się w czasie, np. ktoś otwiera szafkę. Ale to daje też do myślenia, na czym polega ta różnica.

Powiedziałeś, że macie bardzo ambitne plany wdrożyć 1 tys. robotów w ciągu 5 lat. Czy już macie przynajmniej jednego robota wdrożonego?

Tak, dokonaliśmy już naszych pierwszych wdrożeń. Mogę powiedzieć, że naszym pierwszym klientem była francuska firma CDISCOUNT, tj. największa firma handlu internetowego we Francji obok Amazona. Jest to konkurent Amazona działający lokalnie na rynku francuskim. To był nasz pierwszy klient, z którym współpracowaliśmy już od lutego 2018 r. Nasz pierwszy robot był zainstalowany na jesieni 2018 r.

Od tamtego czasu robot obsługiwał już prawdziwe zamówienia i pakował produkty dla klientów. Natomiast przez pierwszych kilka miesięcy robot był pod obserwacją, czyli cały czas jeden z naszych pracowników był obok tego robota i monitorował co robi, zbierał informacje, tak abyśmy mogli poprawić jego działanie. Weszliśmy w taki tryb produkcyjny, w którym ten robot wykonuje swoje działania w zadowalający sposób (kwiecień 2019 r.). To jest ten moment, kiedy moim zdaniem możemy mówić o pierwszym wdrożeniu.

Rozmawiamy teraz z kolejnymi klientami, ale nie mogę się podzielić szczegółami. Mogę powiedzieć, że koncentrujemy się na rynku europejskim – niemieckim, francuskim i sąsiednich regionach. W Polsce na wdrożenia jest jeszcze za wcześnie głównie z ekonomicznego punktu widzenia, tzn. koszty pracy w wymienionych krajach są dużo wyższe niż w Polsce. To powoduje, że opłacalność wdrożenia w tych krajach jest dużo wyższe niż w Polsce, więc skupiamy się w tej chwili tylko i wyłącznie na rynkach zagranicznych.

Bardzo ciekawe. Pierwszy wdrożenie już działa. Jak natomiast wyglądał proces pracy przed jego pojawieniem się? Jeżeli jesteś w stanie wymienić liczby, to będzie jeszcze bardziej namacalne, czyli ile osób tam było zaangażowanych? Co dokładnie te osoby robiły? Jaka była ich wydajność w jednostce czasu (np. w ciągu doby, tygodnia)? Czy masz takie liczby?

Nie mogę wszystkiego dokładnie powiedzieć, ale mogę podzielić się informacjami na temat pierwszego wdrożonego robota. Tutaj nasz klient też jawnie prezentował nasze rozwiązania na konferencji, więc mogę o tym opowiedzieć (w tym o różnych liczbach, związanych z tym robotem). O kolejnych wdrożeniach niestety już nie będę mógł mówić. Wracając do naszego pierwszego wdrożenia dla firmy CDISCOUNT, jest to taka firma, w której na platformie internetowej klienci dokonują zamówień i potem te produkty są wysyłane pocztą czy kurierem do domów tychże klientów.

To, co się dzieje pomiędzy momentem zamówienia na stronie internetowej, a momentem, w którym paczka opuszcza magazyn, to kompletowanie zamówienia. Ono odbywa się w trzech fazach. Najpierw dany produkt musi zostać znaleziony na półce w magazynie, czyli jest osoba, która porusza się po tym magazynie (albo na piechotę, albo korzystając z jakiegoś wózka), zbiera produkty z półek i odkłada je do zbiorczego koszyka, w którym są produkty z bardzo wielu zamówień.

Potem taki koszyk trafia na kolejne stanowisko, gdzie produkty są sortowane. Koszyk wygląda mniej więcej tak, jak koszyki w supermarketach (z siatki metalowej) i jest w nim dość duży bałagan, gdyż te produkty są wkładane do nich bezpośrednio z półek. Kolejny etap to wyjmowanie tych produktów z koszyka i wkładanie do pudełek, które w trzecim etapie są automatycznie pakowane, oklejane i wysyłane do klientów. Zautomatyzowaliśmy etap drugi.

W momencie w którym do naszego stanowiska doprowadzony zostanie koszyk z produktami, robot będzie te produkty po kolei wyjmował, skanował ich kody kreskowe (aby zidentyfikować dany produkt i zamawiającego), pakował do kartonowego pudełka, które następnie będzie odkładane na taśmociąg. Tym taśmociągiem produkt jest dostarczany dalej do części, która już była wcześniej zautomatyzowana (czyli zamykanie pudełka, oklejanie), a następnie wędruje do firmy kurierskiej, która rozwozi te zamówienia.

Jeśli chodzi o to, jaka jest wydajność systemu, to tutaj mierzy się to liczbą przedmiotów, które ten system jest w stanie przetwarzać na godzinę. Przy czym ten parametr, bardzo mocno zależy od tego, co dokładnie robot ma robić. W tym przypadku koszyk, z którego produkty są wyjmowane jest duży (objętość ok. 1m3). Tutaj człowiek nawet nie pracuje zbyt szybko, bo trzeba produkty kolejno wyjmować, skanować kody kreskowe i odkładać do pudełka.

Takim punktem wyjścia była liczba między 200 a 250 przedmiotów na godzinę. Był to cel postawiony przez naszego klienta, a my go zrealizowaliśmy. Im szybciej robot pracuje, tym lepszą wydajność uzyskujemy i jest to zysk klienta w stosunku do tego, jakby na tym stanowisku pracował człowiek (mamy bardziej wydajne stanowisko).

Tutaj też pojawia się oczywiście kwestia pomyłek. Jest bardzo istotnym, czy robot będzie wykonywał mniej czy więcej pomyłek niż człowiek. Jednym z problemów jest to, że trudno jest zmierzyć, ile dokładnie człowiek tych błędów popełnia. W tego typu magazynach znana jest globalna liczba pomyłek, tzn. ile przedmiotów zostaje zgubionych na całym etapie pakowania. Trudno jest o liczby dotyczące poszczególnego stanowiska, gdyż w tym celu musiałby być bardzo skrupulatny monitoring każdej części systemu, co często bywa nieopłacalne.

My przekonujemy, że nasz system działa na poziomie tak dobrym jak człowiek. Mamy tutaj różne metody monitorowania, czy nasz system popełnił błąd. Jednym z takich błędów, których należy się bardzo wystrzegać, jest spakowanie dwóch przedmiotów zamiast jednego. Przedmioty potrafią się skleić ze sobą, jeden mniejszy potrafi się ukryć w drugim.

Nie zawsze są to prostopadłościenne opakowania, czasami są różne zabawki albo karty podarunkowe, elektronika i tutaj różne rzeczy mogą się ze sobą złączyć. Szczególnie jeśli mówimy o wydarzeniach, które mają miejsce raz na 1/1000 lub 1/10000 przypadków. Radzenie sobie i obsługa tego typu rzadkich przypadków jest największym wyzwaniem w całym naszym przedsięwzięciu.

Nawet jeśli nasz system będzie popełniał błąd 1/1000 razy (co wydaje się dość rzadko), to jeśli ten błąd powoduje, że np. robot byłby w stanie zniszczyć jakiś przedmiot (np. telefon komórkowy, który miał zostać wysłany do klienta) to szkody, które się pojawiają raz na 1 tys. powtórzeń, kompletnie niwelują całą pracę, którą robot wcześniej wykonał. Tutaj jest bardzo ważna obsługa rzadkich sytuacji.

Kiedy kupowałem sobie MacBooka jakiś czas temu (w Polsce) to zamiast jednego, przyszły do mnie dwa. Ja akurat zwróciłem nadprogramowy, ale sklep nawet się nie zorientował. Musiałem pisać do nich e-maile i wytłumaczyć, że jestem wdzięczny za ich prezent, ale prawdopodobnie nie są świadomi tego, że wysłali mi dwa zamiast jednego.

Bardzo ciekawa sytuacja. Z naszego doświadczenia wynika, że raz na 1 tys. zdarzeń, tego typu rzecz może mieć miejsce. Jeśli jesteśmy w stanie to zdarzenie odpowiednio wcześnie wykryć, to można zapobiec wysłaniu tych przedmiotów do klienta. Można sobie wyobrazić, że strata tego typu produktu może być druzgocąca.

Z punktu widzenia technicznego to, czym się zajmujecie, brzmi w miarę prosto. Trochę upraszczając jest to taki computer vision: wystarczy zamontować kamerkę, rozpoznać obiekt, złapać go, przenieść w odpowiednie miejsce i do tego dochodzi ewentualnie samo uczenie computer vision. Czyli samo uczenie nadzorowane, a jeżeli to nie wystarczy, to ewentualnie możemy wziąć uczenie ze wzmocnieniem. Jednak jeżeli mówimy o takich praktycznych zastosowaniach a nie tylko prostych prototypach, to sprawa w życiu realnym jest znacznie bardziej skomplikowana. Dlaczego tak jest? Jak sobie z tym radzić?

Nie mogę ujawniać wszystkich naszych sekretów, natomiast zarówno uczenie nadzorowane i uczenie ze wzmocnieniem to są metody, które stosuje się w robotyce obecnie. Bardzo istotnym komponentem jest radzenie sobie z rzadkimi sytuacjami, wykrywaniem anomalii. Kolejnym wyzwaniem jest to, aby robot poruszał się odpowiednio szybko, tak żeby dostosował swoje ruchy do przynoszonych przedmiotów.

Inaczej powinniśmy przenosić ciężki przedmiot, a inaczej lekki. Inaczej przedmiot, który łatwo może się otworzyć albo wygiąć, a inaczej sztywny przedmiot. Dostosowanie się do tych bardzo różnorodnych warunków i wykrywanie sytuacji bardzo rzadkich to są dwie kategorie, które powodują, że całe to przedsięwzięcie jest bardzo trudne. Jest to powód, dla którego tych robotów wcześniej nie było, a pojawiają się dopiero, jak wdrażamy je w halach magazynów.

W firmie CDISCOUNT nasz pierwszy robot miał być we wszystkich jej magazynach. Wcześniej nie było tam żadnego robota, co wiąże się zwykle z różnymi wyzwaniami również wynikającymi z tego, że klient jest nieprzygotowany. Nie wie, jak wygląda praca z robotami, jak z nimi postępować, czego można się po nich spodziewać, jak wygląda ich konserwacja okresowa.

W momencie, w którym my wprowadzamy pierwszego robota do danego przedsiębiorstwa, to tę pracę musimy wykonać. Tutaj też jest praca w dziedzinie edukacji – to jest jeden aspekt. Drugim aspektem jest wytłumaczenie klientowi, że w optymalnym scenariuszu nie bierzemy stanowiska, w którym aktualnie pracuje człowiek i montujemy tam robota, tylko trzeba przemyśleć architekturę całego magazynu albo kawałka linii, gdzie dana osoba pracuje po to, żeby dostosować ten kawałek magazynu do zalet robotów.

Roboty mają inne zalety niż ludzie i żeby w pełni wykorzystać ich potencjał, trzeba te linie produkcyjne i magazynowe projektować w troszkę inny sposób. Roboty są bardzo precyzyjne, potrafią podnosić ciężkie rzeczy. Ludzie nie są ani precyzyjni, ani nie potrafią podnosić bardzo ciężkich przedmiotów. Bardzo dobrze za to sobie radzą w sytuacjach, w których nasze środowisko się zmienia – roboty już nie. Także tutaj wymagane jest odpowiednie dostosowanie stanowiska pracy do tego, aby robot mógł tam optymalnie zostać wykorzystany.

Pracujesz na Uniwersytecie Warszawskim. Jak trudno było zmienić sposób myślenia, który miałeś będąc tylko w środowisku akademickim i teraz będąc w środowisku biznesowym, startupowym? Czy to był trudny proces, czy przeszedł bardzo naturalnie? Jak to było w Twoim przypadku?

W firmie Nomagic pracuję na stanowisku CTO, czyli zajmuję się głównie technologią. Nie zajmuję się bezpośrednio definiowaniem produktu, natomiast jako jedna z osób, które zakładały firmę, oczywiście cały czas również nad tym myślę. W momencie, w którym zakładaliśmy firmę z Kacprem Nowickim, doskonale wiedzieliśmy, że żaden z nas nie ma doświadczenia w strategii budowania produktu. Znaleźliśmy trzeciego wspólnika, który razem z nami założył firmę Nomagic – Tristan d’Orgeval. Przeprowadził się do nas z Francji z całą rodziną i razem z nami rozpoczął tę przygodę.

Tristan jest tą osobą, która ma największe doświadczenie produktowe i ja od niego się bardzo dużo nauczyłem w tych ostatnich latach. W związku tym, że zajmuję się głównie stroną technologiczną, to ta zmiana nie była zbyt trudna. Natomiast oczywiście te różnice pomiędzy środowiskiem akademickim, a środowiskiem startupowym są duże. Główna różnica polega na zmienności i umiejętności nieustannego dostosowania się do tego, co się dzieje.

Startup nie jest firmą, która ma jasno zdefiniowaną przyszłość. Ta przyszłość (szczególnie w początkowym okresie) cały czas podlega nieustannym zmianom. Plany dotyczące jej trzeba ciągle uaktualniać, zmieniać, dostosowywać na podstawie bieżących informacji i nowych odkryć.

To jest zupełnie inne środowisko pracy niż uniwersytet, gdzie prowadzi się badania, wytycza się plan badawczy, który można sobie wyznaczyć nawet na parę lat do przodu, a potem go realizować. W startupie to jest oczywiście nie do pomyślenia. To tempo zmian jest główną różnicą pomiędzy środowiskiem akademickim i startupem. Drugi aspekt, który można by powiedzieć, że z mojego punktu widzenia był nawet ważniejszy – ja prowadzę badania podstawowe.

Są to badania, które mają na celu zrozumienie świata, wyjaśnienie różnych zjawisk, poprawienie różnych algorytmów. Natomiast wszystko jest w dziedzinie badań podstawowych, czyli rozwiązywania abstrakcyjnych problemów, które mają posunąć naukę i nasze rozumienie świata do przodu, ale bez aspektu komercyjnego. Badania podstawowe mają to do siebie, że one nawet nie powinny mieć bezpośredniego przełożenia komercyjnego. Startup to dokładna odwrotność.

Pierwszym, wręcz jedynym celem jest zbudowanie produktu, który będzie miał znaczenie komercyjne. Tak żeby ten produkt dostarczał wartość dla klientów i żeby w oparciu o niego można było zbudować firmę. Tutaj musiałem zmienić swój sposób myślenia, czyli nie tylko zastanawiać się jak wyjaśnić zjawiska, które występują dookoła, ale jak wykorzystać metody naukowe do zbudowania produktu, który będzie miał realną wartość dla klienta.

Jakie najciekawsze, najtrudniejsze lekcje wyciągnąłeś po kilku latach pracy w Nomagic? Jak te sytuacje wpływają na to, czy nadal jesteś Markiem takim, jakim byłeś? Jak się odnajdujesz, identyfikujesz w życiu po tych lekcjach?

Bardzo cennym doświadczeniem jest zrozumienie tego, jak działa świat biznesu i świat komercyjny. On jest różny od środowiska akademickiego. Bardzo często jest tak, że osoby albo pracują po jednej stronie, albo po drugiej. W momencie, kiedy dwie osoby z różnych światów się spotykają, jest taka naturalna bariera utrudniająca zrozumienie. Będąc po obu stronach rozumiem teraz, jak działają oba światy. Tak przynajmniej mi się wydaje. Dzięki temu rozumiem realia i cele, które mają przed sobą postawione osoby po obu stronach tej niewidzialnej bariery. To było bardzo cenne doświadczenie.

Drugie doświadczenie to zarządzanie zespołem. Na uniwersytecie pracowałem w zespole, czy mam swój zespół, natomiast prowadzenie takiego zespołu w środowisku uniwersyteckim, a prowadzenie zespołu w firmie to są jednak dwa różne światy. W środowisku akademickim w naturalny sposób, daje się pracownikom więcej swobody, każdy realizuje własne cele.

One oczywiście powinny być spójne z określonym planem badawczym, ale swoboda, jaką każdy dostaje na uniwersytecie, jest dużo większa niż swoboda w firmie, gdzie osoby muszą ze sobą dużo bardziej współpracować. W momencie, w którym pojawiają się problemy, trzeba je bardzo szybko rozwiązywać. Zarządzanie takim zespołem w środowisku komercyjnym jest moim zdaniem dużo trudniejsze niż zarządzanie zespołem w środowisku uniwersyteckim.

Dzięki za podzielenie się wskazówkami, inspiracjami, doświadczeniem. Powiedziałeś na początku naszej rozmowy, że koncentrujecie się głównie na krajach zachodnich, gdzie wdrażanie robotów jest bardziej opłacalne niż w Polsce. Jak myślisz, czy są zmiany w tym kierunku? Czy porównując 2017 i 2020 rok prawdopodobieństwo wystąpienia zapotrzebowania na takie rozwiązania na rynku polskim teraz jest większe?

Na podstawie moich informacji oceniam, że jeśli mówimy o perspektywie 5 lat, jest bardzo prawdopodobne, że ta opłacalność w Polsce zdecydowanie wzrośnie. Jednym z czynników, który to napędza jest nieustanny wzrost wynagrodzeń. To jest zarówno wzrost średniego wynagrodzenia, jak i minimalnego. Mówi się o tym, że rząd ma takie plany, żeby wynagrodzenie minimalne wynosiło 4 tys. zł na przestrzeni następnych 4 lat Niezależnie od tego, czy stanie się to za 4 lata czy 6, to jest to istotna różnica. W tej chwili minimalne wynagrodzenie w poprzednim roku wynosiło 2350,00 zł. W tym roku 2600,00 zł.

Każda taka zmiana powoduje, że zatrudnienie nowego pracownika jest coraz bardziej kosztowne. W związku z tym zastąpienie pracy ludzkiej na danym stanowisku przez pracę robota jest coraz bardziej opłacalne. Natomiast oprócz czysto ekonomicznego rachunku jest jeszcze drugi aspekt. W niektórych regionach Polski już tak naprawdę zaczyna brakować rąk do pracy. Z demografii bardzo dobrze wiemy, ile osób będzie wchodzić na rynek pracy przez najbliższe 15 lat, bo te wszystkie osoby się już urodziły.

Dokładnie wiemy, ile ich jest. Przepływy pomiędzy krajami nie zmienia się w drastyczny sposób w tej chwili, więc można dość dokładnie przewidzieć, ile osób wejdzie na rynek pracy w następnych latach. Widać, że w niektórych regionach Polski tych osób brakuje już teraz. Więc sytuacja zdecydowanie będzie szła w tę stronę. Liczba osób w wieku produkcyjnym w Polsce będzie spadała w kolejnych latach.

W związku z tym żeby zachować wydajność gospodarki, automatyzacja jest nieunikniona. To jest proces, który w innych krajach np. w Japonii od wielu lat postępuje. Tam starzejące się społeczeństwo od wielu lat coraz bardziej się automatyzowało. Myślę, że w Polsce sytuacja będzie bardzo podobna.

Odnośnie braku rąk do pracy to też osobiście doświadczyłem takiej rozmowy. Kiedy pomagałem jednej z największych firm energetycznych w konsultacjach z wdrożeniem projektu związanego z uczeniem maszynowym, to m.in. zapytałem, czy celem tego projektu jest zmniejszenie ilości osób, które są zaangażowane teraz w te działania. Odpowiedź była właśnie w drugą stronę.

Wbrew pozorom problem, który w tej chwili mają firmy energetyczne, jest taki, że wiele osób, które teraz tam pracują na poszczególnych szczeblach, to są ludzie w wieku powyżej 50 lat. Nie ma młodych osób, które chciałyby ich zastąpić. Tak naprawdę może się okazać, że za 5, 10, 15 lat nie będzie “chętnych” do pracy w zakresie tego obszaru.

Co więcej zdobyte przez wieloletnich pracowników doświadczenie przepadnie, a ciężko będzie zaczynać wszystko od nowa. Idea była taka, żeby tę wiedzę zacząć już gromadzić teraz i w pewnych miejscach zacząć wprowadzać automatyzację. To rozwiązanie wcale nie jest tańsze, ale chodzi o to, żeby móc dalej funkcjonować. Jeżeli będzie brakować rąk, to są potrzebne mechanizmy, które to uzupełnią.

Tak, w pełni się zgadzam. To jest bardzo zgodne z moimi obserwacjami.

Jakie są dalsze plany dla Nomagic?

Na koniec 2019 r. zamknęliśmy naszą pierwszą rundę inwestycyjną, która wiązała się z emisją akcji. Wcześniej byliśmy finansowani ze środków założycieli, a potem przez tzw. Aniołów Biznesu. Teraz już mamy inwestycje z funduszy inwestycyjnych typu venture capital.

Jest to inwestycja ponad 8 mln $, więc pozwala nam myśleć o przyszłości w dłuższej perspektywie, gdyż daje nam to 2 lata czasu na rozwój naszej technologii i dopracowanie naszego produktu, tak żeby był gotowy do wdrożeń na różne rynki w dużej skali. Naszym celem jest wdrożenie 1 tys. robotów w ciągu 5 lat i teraz już wiemy, że przez następne 2 lata mamy środki na rozwój naszej technologii.

Nasz zespół w tej chwili liczy 25 pracowników. Będziemy go sukcesywnie powiększać. Stoją przed nami bardzo ciekawe wyzwania. Szukamy osób, które chciałyby dołączyć do naszego zespołu.

Załóżmy, że spotkamy się za 10-15 lat i zapytam Cię, co ciekawego się dzieje w robotyce, w sztucznej inteligencji. Co mi odpowiesz?

Na początku zaznaczę, że to jest wróżenie z fusów, gdyż jeśli spojrzymy do tyłu, co się działo 10 lat temu, to bardzo trudno było przewidzieć to, co dzieje się w tej chwili. Tak samo myślę, że w tej chwili bardzo trudno będzie nam przewidzieć to, co będzie działo się za 10 czy 15 lat. Natomiast myślę, że będziemy świadkami kolejnych odkryć i przełomowych wyników w robotyce i dziedzinie sztucznej inteligencji, które będą prowadzić do coraz to nowszych zastosowań i wdrożeń na rynku komercyjnym. Tak jak przez ostatnią dekadę widzieliśmy, jak bardzo Internet poszerzał swój teren. Ludzie spędzają coraz więcej czasu w świecie cyfrowym.

Myślę, że kolejny etap to jest to, że te nowe narzędzia i nowe technologie zaczną zastępować świat rzeczywisty. Czyli tak jak wcześniej ten świat wirtualny stał się równoległym światem do świata rzeczywistego, tak teraz te technologie już pozwalają modyfikować i działać w świecie rzeczywistym.

My tutaj właśnie mówimy o procesie automatyzacji stanowisk czy różnych zawodów. Można sobie zadawać pytania o to, które zawody najbardziej się zmienią w następnych latach. Nie będą to tylko i wyłącznie zawody, które wymagają niewykwalifikowanej pracy. Zaryzykowałbym stwierdzenie, że bardziej narażone są zawody, w których wymagane jest szkolenie (czy bardzo długi proces edukacji), ale końcowa specjalizacja jest bardzo wąska.

Przykładem jest diagnostyka obrazowa w medycynie, czyli opisywanie zdjęć z rezonansu magnetycznego czy z tomografii komputerowej. Żeby to umieć dobrze wykonywać, potrzebne są lata szkoleń i doświadczenia. Komputery radzą sobie z tym coraz lepiej i można już powiedzieć, że w niektórych zastosowaniach są na równi z ludźmi z wieloletnim doświadczeniem.

Można się spodziewać, że ten proces będzie jak najbardziej postępował. Takie właśnie zawody, w których ludzie wykonują bardzo wąsko zdefiniowane działania, będą pierwszymi do automatyzacji.

Jeśli spojrzymy na takie prace czysto manualne to np. naprawa urządzeń będzie czynnością dużo trudniejszą do automatyzacji. Tam znów ta różnorodność zjawisk, która występuje, będzie dużo większa i stopień skomplikowania czysto manualnych operacji jest bardzo duży. Jeśli mówimy o takich zawodach jak opisywanie zdjęć rentgenowskich czy opisywanie zdjęć tomografii komputerowej, to to jest praca z ekranem, którą wykonuje człowiek, ale komputery już w tej chwili radzą sobie z tym równie dobrze.

Można sobie wyobrazić, że takie podstawowe czynności czy w księgowości, czy wśród prawników będą wykonywane przez komputer. Praca ludzka, która w tej chwili jest wykonywana poprzez różnego rodzaju asystentów, będzie zautomatyzowana i komputer będzie nam odpowiadał na pytania, które aktualnie zadajemy współpracownikom.

Bardzo dziękuję Marek za to, że znalazłeś czas aby podzielić się swoim doświadczeniem, przemyśleniami i rozważaniami. W szczególności w tej branży robotyzacji. Mogliśmy poruszać się w różnych obszarach, bo jesteś aktywny w wielu, ale wydaje się, że w tym momencie Nomagic jest jedną z tych firm w Polsce, która aktywnie się uruchomiły i działają.

Dla mnie inspirujące i ciekawe jest to, że firma buduje się od zera. Osoby z uniwersytetu pomyślały, że mogą coś takiego zrobić i że jest to możliwe. Dla mnie to jest przykład dla innych, że nie ma co się bać i warto działać. Z Twojej strony było kilka ciekawych, bardzo ważnych wskazówek m.in. to, jak zaangażowaliście trzecią osobę, która wzmocniła stronę produktową. Dzięki temu jesteście mocni na każdym polu. To jest przykład do wzorowania i naśladowania. Dzięki wielkie. Do usłyszenia, do zobaczenia.

Dziękuję, do usłyszenia.

W trakcie naszej rozmowy wspomniałem o Paradoksie Moraveca. Mówiłem o nim już kiedyś we wcześniejszych artykułach, ale przypomniałem pewną historię. Młodzi rodzice z 1,2,3-letnimi dziećmi widzą, jak bardzo ciekawy okres jest to okres. Jak zaczynasz obserwować dziecko z boku, to wiele ciekawych wniosków od razu się nasuwa. Osobiście mam to szczęście, że mam dwójkę dzieci i obserwuję, jak ciekawie działa ludzki mózg.

Mimo tego, że ten malutki człowiek ma dopiero roczek, potrafi robić rzeczy, których bardzo skomplikowane algorytmy, mocne komputery, nadal nie są w stanie zrobić. To jest bardzo ciekawa inspiracja. W Paradoksie Moraveca chodzi o to, że my – ludzie często nie doceniamy rzeczy w naszym życiu, które wydają nam się przeciętne, bo powtarzamy je wielokrotnie.

Nie zdajemy sobie sprawy, jak bardzo skomplikowane one są. Z drugiej strony, próbujemy patrzeć na rzeczy, które tak naprawdę nie są nam potrzebne. Tę analogię można też przełożyć na inne obszary, jak często nie doceniamy tego, co mamy – cudze chwalimy, swego nie znamy. Chciałem zostawić Cię z tą myślą, nawet niekoniecznie o robotach, tylko pomyśl przez chwilę, czego nie doceniasz, a tak naprawdę ma największy wpływ na Twoje życie.

Artykuł Sztuczna inteligencja i robotyzacja pochodzi z serwisu Biznes Myśli.