DeepMind – Biznes Myśli

Jak Google i DeepMind wspierają służbę zdrowia?

Vladimir — Mon, 08 Jun 2020 02:57:14 +0000

Innowacja nieodłącznie wiąże się z licznymi wyzwaniami, bo wymaga pokonywania nierzadko bardzo wielu barier, zmiany utartych tematów i sposobu myślenia. O tym i nie tylko miałem okazję porozmawiać z Joanną Chwastowską z Google, która przedtem pracowała w DeepMind, jeszcze wcześniej w startupie i znów w Google.

Joanna ma bardzo ciekawe doświadczenie w różnych obszarach. Dzisiaj m.in. opowiemy o tym, jak wygląda służba zdrowia w Wielkiej Brytanii, jakie tam są podstawowe problemy związane z komunikacją pomiędzy lekarzami, pielęgniarkami i innymi osobami, które np. robią badania. Jak przekazywane są między nimi informacje?

Dość często nadal są używane pagery lub fax. Ciekawe, że to nadal jeszcze funkcjonuje. Wyobraź sobie taką sytuację, że lekarz np. chirurg pracował przez kilka godzin, jest po zabiegu i bardzo zmęczony, wychodzi i na pagerze czeka na niego 5, 10, 20, 50 różnych wiadomości, które nie są w żaden sposób spriorytetyzowane i musi je wszystkie przeglądnąć, by zweryfikować, czy któraś z nich jest bardzo ważna i wymaga natychmiastowej reakcji. Tego typu problemy są do rozwiązania m.in. poprzez aplikację Streams tworzoną w DeepMind.

Jak mówimy o DeepMind, to od razu na myśl przychodzi nam sztuczna inteligencja. Z DeepMind kojarzy się również AlphaGo, więc od razu widzimy jakieś zaawansowane algorytmy. Prawda jest taka, że najpierw trzeba pewne rzeczy ustabilizować i dopiero później można wprowadzać kolejne elementy związane z automatyzacją pewnych procesów, prognozowaniem i sugerowaniem pewnych rzeczy, które można zrobić lub nawet podejmowaniem odpowiednich decyzji.

To jest ciekawa historia, bo wiele firm ma przekonanie, że wprowadzanie innowacji to np. użycie uczenie maszynowego. Problem zwykle jest szerszy i m.in. chodzi o:

infrastrukturę, którą firma posiada,
ludzi, którzy pracują w tej firmie (na ile ten zespół jest przygotowany na to, żeby takie rozwiązania wdrożyć),
kulturę firmy, na ile ta firma jest otwarta na nowe rzeczy, na ile tam jest hierarchia bardziej czerwona (czyli hierarchia kiedy z góry pewne decyzje propagują się na dół i tego kierunku nie da się zmienić).

Z tej rozmowy dowiesz się:

czym zajmuje się Google Health,
jak dzięki technologii można przewidywać występowanie uszkodzenia nerek,
jak aplikacja Streams zrewolucjonizowała brytyjską medycynę,
z jakimi wyzwaniami wiąże się rozwijanie innowacji,
jakich zmian w służbie zdrowia możemy się spodziewać w najbliższych 10 latach.

Cześć Asia. Przedstaw się: jak się nazywasz, skąd jesteś, czym się zajmujesz?

Witaj Vladimir. Nazywam się Joanna Chwastowska. Pochodzę z Tarnowa, a teraz mieszkam w Londynie. Zajmuję się budowaniem rozwiązań technologicznych, jestem inżynierem i prowadzę zespół inżynierów w Google w Londynie.

Podziel się proszę, jaką książkę ostatnio przeczytałaś i dlaczego warto ją polecić?

Jedną z ciekawszych pozycji, które czytałam ostatnio, jest „Essentialism: The Disciplined Pursuit of Less” Grega McKeowna. O tyle jest to ciekawa lektura, że skupia się właśnie na tym, na czym powinniśmy się skupiać w swoim życiu. Pomaga odpowiedzieć na pytanie, co jest tak naprawdę dla nas ważne i którym rzeczom w życiu powinniśmy mówić „tak”, a które rzeczy priorytetyzować i odrzucać. Wydaje mi się, że w kontekście np. dużych projektów informatycznych często się zdarza, że próbujemy zrobić na raz za dużo, a w tej książce znajdziemy podpowiedź, jak zrobić jedną rzecz dobrze, z całą naszą uwagą. Zdecydowanie polecam.

Podoba mi się cytat z tej książki:

„Jeżeli nie jest na pewno na tak, to jest na pewno na nie”.

Właśnie tak. Dużo bardziej agresywnie niż do tego podchodzimy w codziennym życiu, prawda?

Tak, bardzo przydatne. Porozmawiajmy na początek o Twojej karierze zawodowej. Jak wyglądała ta ewolucja? Jak znalazłaś się w tym miejscu, w którym jesteś teraz?

Zaczęłam od studiowania informatyki na Akademii Górniczo-Hutniczej w Krakowie. W 2007 r. Google otworzył się w Krakowie i moja najlepsza przyjaciółka Ilona zaproponowała, żebyśmy tam zaaplikowały. Oczywiście na tamtym etapie, będąc praktycznie świeżo po studiach, nie bardzo zakładałyśmy, że się dostaniemy, ale sam proces rekrutacji był wtedy wystarczająco interesujący dla nas, aby warto było spróbować.

Po wielu etapach różnych pytań i zadań okazało się na końcu, że spełniamy wymagania i zostałyśmy przyjęte. W związku z tym budowałyśmy biuro krakowskiego Google’a od samego początku. To był okres w historii informatyki, w którym dużo firm zaczęło eksplorować różne obszary, którymi można by się było zajmować. W związku z tym miałyśmy okazję pracować nad bardzo szeroką gamą różnych projektów na przestrzeni lat, aż dochodzimy do 2015 r., kiedy to Google zdecydował, że krakowskie biuro zostaje połączone z biurem w Warszawie.

Ja, z powodów osobistych, zdecydowałam się nie przenosić i zostałam w Krakowie. To jest kolejny ciekawy okres, kiedy w Krakowie otworzyliśmy razem z grupą innych osób, które odchodziły wtedy z Google’a, biuro startupu Spring. Zajmował się budowaniem rozwiązań commerce. Główna siedziba firmy znajdowała się w Nowym Jorku, a my w Krakowie otworzyliśmy biuro inżynieryjne i budowaliśmy dla nich rozwiązania.

To był też bardzo ciekawy okres, bo startup to zupełnie inny świat w porównaniu do Google. Duża firma z całym zapleczem, podejściem do projektów, dużo szybsze warunki pracy, dużo więcej skupienia na wypuszczaniu poprawek do systemu, udogodnień dla użytkowników, nowych funkcjonalności. Bardzo fajne doświadczenie.

Po dwóch latach zdarzyło się tak, że DeepMind odezwał się do mnie z pytaniem, czy nie chciałabym dołączyć do zespołu w Londynie, a ponieważ w pierwszych 5 minutach rozmowy rekruter wspomniał to, że pracują nad projektami w obszarze służby zdrowia, to skradł moje serce i tak spakowałam się razem z rodziną i przenieśliśmy się do Londynu. Tak jesteśmy tu do dziś.

Od dziecka interesowała Cię dziedzina zdrowia, czy były inne motywacje do podjęcia pracy właśnie w tym obszarze?

To jest bardzo dobre pytanie. Wydaje mi się, że powodów jest wiele i to jest tak, że na przestrzeni lat we wszystkich tych firmach i projektach, gdzie pracowałam, zawsze był jakiś powód albo kilka powodów, dla których to było właściwe miejsce i czas. Tutaj się tak złożyło, że obszar healthcare i DeepMind zakreśliły dużo checkboxów.

Z jednej strony jak chodzi o impact tego, nad czym można pracować, to wydaje się, że budowanie rozwiązań, które pomagają ludziom albo powrócić do zdrowia, albo uniknąć problemów, jest jednym z takich obszarów, w których można mieć największy wpływ na świat. Z drugiej strony to zawsze był dla mnie niezwykle ciekawy obszar.

Jak pewnie większość ludzi, będąc dzieckiem, bawiliśmy się w lekarzy, dawaliśmy zastrzyki lalkom i na pewno jakbym miała wybierać jakąś inną karierę (nie informatyka), to ten lekarz gdzieś byłby tam na liście. Z trzeciej strony jest jeszcze aspekt ograniczeń i wyzwań związanych z wprowadzaniem bardzo innowacyjnych rozwiązań. Wydaje się, że w obszarze służby zdrowia tych wyzwań jest ciągle bardzo dużo. To jest niesamowite, że mamy tyle rozwiązań technologicznych, a nasze szpitale i systemy diagnostyczne często jeszcze są tak bardzo do tyłu.

Wynika to też z tego, że żeby móc wprowadzać dużo bardziej nowoczesne rozwiązania, to cały otaczający te rozwiązania prawny krajobraz i regulacje odnoszące się do wprowadzania tych rozwiązań, też muszą być gotowe na technologie. Teraz jest właśnie taki okres, że zaczynamy dopiero rozmawiać o tym, co by było wymagane, żeby można było te rozwiązania wprowadzać bezpiecznie.

Sądzę, że to jest taki trzeci aspekt, gdzie można przez pracę (wydaje mi się, że takie większe firmy mają dużo większą szansę) wpływać na te regulacje tak, żeby one wspierały cały ekosystem, w którym te rozwiązania będą budowane i żeby to były rozwiązania bezpieczne, sprawdzone i potwierdzone. Żebyśmy wiedzieli tak naprawdę, co robimy.

W przypadku wdrażania innowacyjnych projektów często widzi się tylko jego skutki, natomiast ludzie nie zdają sobie sprawy, jakie tak naprawdę bariery trzeba pokonać, żeby dotrzeć do mety. Powiedz dokładniej, czym się zajmuje dział Google poświęcony ochronie zdrowia. Co już udało się osiągnąć? Czym Twój zespół albo zespoły pokrewne się zajmują?

Dział poświęcony zdrowiu w Google powstał stosunkowo niedawno. Powiedziałabym, że to jest na przestrzeni ostatnich 12-18 miesięcy jako byt formalny. Natomiast te projekty, które wchodzą w jego skład, one oczywiście były rozwijane na przestrzeni 3-5 lat co najmniej.

To jest też troszeczkę nawiązanie do tego, co mówiłam na początku, jaka jest motywacja, dlaczego ludzie chcą pracować nad zdrowiem. Ludzie są zmotywowani często swoimi wcześniejszymi historiami, przeżyciami, tym że ktoś w rodzinie miał problem, którego nie udało się rozwiązać. Dlatego też ludzie, którzy pracują w technologii teraz, bardzo często myślą o tym, jak te tworzone rozwiązania, mogłyby być zastosowane do tego obszaru.

Stworzenie działu Google Health wynikało z tego, że te projekty już się toczyły i tak naprawdę, żeby mogły się toczyć lepiej i lepiej ze sobą współpracować, to zostały wciągnięte pod jeden parasol.

To są bardzo różnorodne projekty. Mamy bardzo duży dział research, który skupia się na tym, w jaki sposób można np. poprawić diagnostykę, w jaki sposób można lepiej klasyfikować poszczególne problemy do takich rozwiązań jak te projekty, które my prowadziliśmy wcześniej w ramach DeepMind Health.

Byliśmy wtedy nastawieni na budowanie rozwiązań bezpośrednio dla lekarzy, które pozwalają im każdego dnia poprawiać standard opieki dostarczanej pacjentom. Teraz one wszystkie znajdują się pod jednym dachem. W środku jest prawdopodobnie ten największy obszar, w którym Google ma doświadczenie, tzn. to, co robimy bezpośrednio dla naszych użytkowników, czyli np. w obecnej sytuacji pandemii i COVID-19 to, że użytkownicy są w stanie znaleźć rzetelną informację.

Informację nie tylko, która sieje panikę albo jest niezweryfikowana, ale właśnie informację, która pochodzi bezpośrednio z systemu opieki zdrowotnej, dużych jednostek naukowych. Wtedy te rozwiązania budujemy we współpracy z innymi działami Google, np. YouTube, Search. One są wbudowane w te produkty, ale my wnosimy jako zespół zrozumienie obszaru ochrony zdrowia, doświadczenie medyczne tak, żeby te produkty były lepsze.

Jednym z takich przykładowych produktów, który jest budowany przez ten zespół, jest wykrywanie retinopatii towarzyszącej cukrzycy. To jest projekt, który zaczął się w obszarze badawczym naszej firmy od tego, że zaczęto budować modele do tego, żeby ze skanu oka być w stanie wykryć, że u pacjenta występuje retinopatia towarzysząca cukrzycy.

To jest schorzenie, które z jednej strony może prowadzić do ślepoty, z drugiej strony np. 18% ludzi z cukrzycą obecnie w Indiach ma już to zagrożenie wzroku spowodowane cukrzycą. Jest to bardzo duży problem – mówimy o powyżej 400 mln ludzi na świecie zagrożonych ślepotą z powodu retinopatii. Od tego projektu badawczego i od tego, czy da się tę chorobę wykrywać ze skanu, przechodzimy do planu działania, czyli do tego, w jaki sposób jesteśmy w stanie ten model dostarczyć tam, gdzie jest w stanie zmieniać sytuację pacjentów. Tutaj jest zbudowane urządzenie, które nazywa się ARDA: Automated Retinal Disease Assessment.

W tym momencie, jest testowane bezpośrednio w klinikach w Indiach w celu lepszego wykrywania tych schorzeń i pomocy ludziom. Interesujące jest to, że jeżeli wystarczająco wcześnie wykryjemy, że pojawia się problem, to jesteśmy tym pacjentom w stanie pomóc. Tak naprawdę impact tego projektu będzie mierzony w tym, że duża część z tych osób ma szansę nie stracić wzroku, co wydaje się być dość istotne.

Bardzo fajny przykład, można więcej przeczytać o tym na blogu Google. Tam między innymi było też wspomniane o 415 mln, czyli prawie 0,5 mld potencjalnych pacjentów, którzy mają to ryzyko.

Ta skala daje do myślenia i robi wrażenie, jeżeli chodzi o możliwości tego rozwiązania. W innym miejscu czytałem, że tam było coś więcej niż tylko wykrywanie retinopatii, bo w oczach można znaleźć różnego rodzaju choroby albo pewne objawy tych chorób.

Tak, tam tak naprawdę są dwa obszary, tzn. jest jeden projekt badawczy, który wykrywał 50 najczęściej występujących chorób oczu ze skanów. Natomiast ten pojedynczy projekt skupia się konkretnie na wykrywaniu retinopatii i byciu w stanie wykorzystania tego modelu bezpośrednio już w klinikach. Także jest to zawężony obszar wykrywania, ale potencjalnie dużo większy zasięg, jak chodzi o dostępność projektu i rozwiązania w klinikach.

To jest też praktyczne, tzn. jeżeli chcemy rozwiązać pewien problem, to warto na nim jednym się skupić, bo pewnie pojawi się mnóstwo wyzwań, niekoniecznie technologicznych, ale jeżeli ich nie pokonamy, to inaczej to się po prostu nie będzie nadawać.

Aplikacja Streams powstała najpierw w DeepMind, w tej chwili ten projekt jest już pod parasolką Google. Czym ona jest i jak to się stało, że ta aplikacja w ogóle się pojawiła? Jaki problem ma na celu rozwiązać?

Streams to jest aplikacja, która pomaga lekarzom i pielęgniarkom podejmować decyzje o opiece nad pacjentami, o tym, że wymagają oni opieki wcześniej, tzn. próbujemy sprawić, żeby pomoc mogła nastąpić wcześniej niż następuje w tym momencie i żeby dzięki temu rezultaty leczenia były lepsze.

Streams na samym początku skupił się na bardzo konkretnym schorzeniu – ostrym uszkodzeniu nerek. Schorzenie to polega na tym, że nerki pacjenta przestają działać poprawnie. Często występuje jako dodatkowy problem, który pojawia się, gdy pacjent jest już w szpitalu.

Oznacza to, że często to nie jest jego główny symptom, tylko np. przeszedł operację i w konsekwencji operacji, w trakcie powracania do zdrowia po operacji, zaczynają się problemy z nerkami. To jest bardzo częste schorzenie. Szacuje się, że dotyka 1/5 pacjentów szpitali w Stanach Zjednoczonych i w Wielkiej Brytanii.

Ono znowu jest takim ciekawym schorzeniem, ponieważ nawet 30% przypadków można by było zapobiec, jeżeli lekarz wystarczająco wcześnie wiedziałby, że jest problem i na niego zareagował. Niestety często zdarza się tak, że ponieważ pacjent np. jest już ciężko chory albo pooperacyjny, bardzo późno lekarz zauważa, że występuje ten problem i przez to pacjent kończy np. na dializie nerek.

Może się to zakończyć również śmiercią pacjenta. Aplikacja Streams zajęła się wykrywaniem tego uszkodzenia nerek (ono może mieć 3 poziomy, od lekkiego do bardzo poważnego) i informowaniem lekarzy o tym, że po wykonaniu ostatniego badania krwi istnieje zagrożenie dla nerek. Jednocześnie skupiając się na tym, co możemy zrobić tu i teraz, czyli informowaniu lekarza o tym, że ten problem jest i należy podjąć działanie, zaczęliśmy przyglądać się projektem badawczym na to, czy bylibyśmy w stanie poinformować lekarza wcześniej, tzn. nie w sytuacji, w której już nastąpiło uszkodzenie nerek, ale np. z wyprzedzeniem, mówiąc że ten pacjent jest w grupie podwyższonego ryzyka.

Wcześniejsza interwencja jest możliwa i bezpieczna. Ona np. może polegać na podaniu pacjentowi większej ilości płynów albo zastosowaniu osłony antybiotykowej, żeby zapobiec komplikacjom. Ten projekt badawczy też jest opublikowany i jesteśmy w stanie wykrywać uszkodzenie nerek, które nastąpi za 24-48 godzin, co jest tak naprawdę bardzo dużą poprawą w stosunku do obecnego algorytmu, który jest używany powszechnie, np. w brytyjskiej służbie zdrowia, który wykrywa to uszkodzenie w momencie, w którym pacjent już jest w pogorszonym stanie i nerki są już uszkodzone.

Zaczęliśmy od obudowania tego pojedynczego problemu i stworzenia rozwiązania dla niego. Natomiast w tym momencie aplikacja pozwala lekarzom zobaczyć dodatkowy kontekst danego pacjenta tak, żeby ta decyzja o procesie leczenia uwzględniała cały obraz kliniczny pacjenta i tak, żeby lekarze byli w stanie podejmować lepsze decyzje.

To bardzo inspirujące. W praktyce oznacza to, że po pierwsze jest bardzo duża grupa osób, u której ten problem może wystąpić. Po drugie nawet u ⅓ przypadków można zareagować dzięki temu wcześniej i uprzedzić poważne skutki, wynikające z późnej diagnozy.

Innowacja w projektach to jednak nie jest po prostu dołożenie do nich elementu machine learning czy sztucznej inteligencji i natychmiastowe otrzymanie rewolucyjnych efektów. Istnieje wiele wyzwań związanych z infrastrukturą, regulacjami prawnymi, które należy uprzednio przygotować. Z jakimi wyzwaniami musieliście się zmierzyć w Waszych projektach?

Jeszcze ciągle bardzo brakuje takich rozwiązań prawnych i regulacji, które we właściwy sposób pozwalałyby bezpiecznie wprowadzać takie bardzo innowacyjne rozwiązania. W tym momencie są regulacje do urządzeń medycznych, które były tworzone przez długie lata i one dość sensownie działają, natomiast nie tak dobrze odnoszą się do rozwiązań software’owych, jako urządzenie medyczne.

Oczywiście są tutaj wprowadzane zmiany i ulepszenia i to prawo próbuje nadążać, natomiast często jeszcze wprowadza bardzo dużo ograniczeń, które tak naprawdę koniec końców szkodzą pacjentowi. Jako przykład: bardzo długi okres pomiędzy tym, że pewna poprawka została zaimplementowana, a tym, gdy może zostać wdrożona do użycia na szeroką skalę, sprawia, że po pierwsze okres nim pacjent realnie zostanie objęty lepszą ochroną się bardzo wydłuża, a po drugie też tak naprawdę podnosi to koszt całego procesu wytwarzania oprogramowania. Tak naprawdę firmy, które zajmują się dostarczaniem tych rozwiązań, muszą mieć duży zapas kapitału i być w stanie działać przez długi okres bez przychodu, bez swojego rozwiązania wdrożonego na rynku.

To w duży sposób dyskryminuje wszystkie małe firmy, które mogłyby działać w tym obszarze albo zmusza je do robienia rzeczy, które są na granicy tego, co jest legalne albo tego, co jest dobre dla pacjenta. Jeden z obszarów to są przede wszystkim właśnie te regulacje, które wymagają tego, żeby były cały czas uaktualniane i nadążały za rozwojem technologii.

Po drugie oczywiście jest współpraca firm technologicznych z jednostkami służby zdrowia, które często są jednostkami rządowymi. Pojawia się tu dysonans pomiędzy firmą technologiczną, która ma środki i chciałaby w szybki sposób wprowadzać jakieś rozwiązanie, a np. szpitalem, który z jednej strony też chciałby to rozwiązanie jak najszybciej wdrożyć, ale z drugiej jest bardzo ograniczony, jak chodzi o personel techniczny, prowadzi wiele projektów, które muszą dziać się natychmiastowo.

Jest też duża odpowiedzialność na firmach technologicznych wprowadzających te rozwiązania, żeby swoim partnerom, docelowym jednostkom, być w stanie pomóc poprawnie je wdrożyć w bezpieczny sposób.

Powiedziałabym, że to są takie dwa główne obszary, na których się musieliśmy skupić – w jaki sposób zrobić to bezpiecznie i w jaki sposób zrobić to tak, żeby nasi partnerzy byli w stanie wykorzystać te rozwiązania jak najlepiej.

Oczywiście jest tutaj też ten trzeci aspekt, który jest warty wspomnienia. Nasza aplikacja w tym momencie nie ma w sobie rozwiązań, które można by było sklasyfikować jako AI. Wszystkie używane algorytmy są opublikowane jako standardy opieki zdrowotnej, np. w Wielkiej Brytanii. W związku z tym to są obliczenia, które następują zawsze w ten sam sposób, jest jasne, skąd te wyniki pochodzą.

Oczywiście prowadzimy badania nad tym i publikujemy te modele, które są w stanie wykrywać te rzeczy wcześniej, natomiast pomiędzy tym, że teraz jesteśmy w stanie pokazywać wyniki konkretnego algorytmu, a tym, że będziemy w przyszłości w stanie pokazywać nasze przewidywania co do stanu zdrowia pacjentów, jest jeszcze bardzo daleka droga.

Takie problemy jak np. kwestia odpowiedzialności – prawdopodobnie trochę mniej istotne w Europie, ale jak pomyślimy o Stanach Zjednoczonych to nabiera to ważności Wyobraźmy sobie, że aplikacja pokazuje jakąś informację lekarzowi, np. że uszkodzenie nerek nastąpi w ciągu najbliższych 24 godzin z 80% prawdopodobieństwem, lekarz podejmuje jakąś akcję i ta akcja w konsekwencji kończy się pogorszeniem stanu zdrowia pacjenta.

Zawsze jeśli jest podejmowana jakaś interwencja medyczna, nawet tak prosta jak podanie antybiotyku, może nastąpić reakcja, która będzie zagrażała życiu pacjenta. Teraz pojawia się pytanie: czy lekarz zrobił dobrze, czy to jest uzasadnione? Przy jakiej procentowej wartości pewności tego algorytmu, lekarz może podjąć decyzję na podstawie tej wskazówki, a przy jakiej powinien to odrzucić? Pojawia się również pytanie, czy to firma, która dostarcza ten algorytm jest odpowiedzialna za tę rekomendację, która została wygenerowana?

Czy to jest tylko dodatkowa informacja, którą pokazujemy lekarzowi i lekarz sam musi podjąć decyzję? Oczywiście pojawia się też cały problem czarnej skrzynki AI i tego czy lekarz jest w stanie zrozumieć, skąd w ogóle algorytm pokazał taki wynik.

Możemy do tego wrócić, to jest bardzo ciekawy temat. Skupiając się na tych problemach, które w tym momencie pojawiają się z użyciem takiego rozwiązania AI, bezpośrednio w podejmowaniu medycznych decyzji – pojawia się bardzo dużo otwartych pytań. Powinny istnieć regulacje, które w jasny sposób określają, jakie są wymagania wobec algorytmów i nie chodzi tylko o wymagania na poziomie pewności algorytmu, ale tak naprawdę wydaje mi się, że również powinniśmy prowadzić szeroko zakrojone badania, które pokazują, że koniec końców, dzięki użyciu danego algorytmu w sytuacji medycznej, tak naprawdę rezultaty dla pacjentów są lepsze na końcu.

Także dużo właśnie tego typu pytań. Może tylko jako przykład podam, że w przypadku aplikacji Streams, nawet pomimo tego, że ona w tym momencie nie używa AI, od samego początku bardzo skupiliśmy się właśnie na tym, żeby być w stanie pokazać te potencjalne, pozytywne efekty dla pacjenta.

Tak przez pierwszy rok, kiedy Streams był w użyciu, była przeprowadzona ewaluacja (również opublikowana), która pokazała, że te najcięższe przypadki miały uwagę lekarza, lekarz przeglądnął dane pacjenta i zweryfikował, jakie są następne kroki medyczne w ciągu 15 minut, w porównaniu z czasem kilku godzin, jako control group.

Często zdarza się tak, że wyniki, które idą do laboratorium, wracają, pojawiają się w systemie, ale lekarz przez długi czas jeszcze nie będzie wiedział, że one tam są albo nie będzie miał czasu na nie popatrzeć i podjąć jakąkolwiek decyzję. Skrócenie tego czasu, zdecydowanie wpływa na poprawę zdrowia pacjenta, ponieważ jest w stanie otrzymać właściwą opiekę wcześniej.

Dodatkowo udało się pokazać, że zredukowaliśmy nie wykryte przypadki uszkodzenia nerek z ponad 12% do 3%. W końcu, tak naprawdę nie tylko dla pacjentów, ale dla całego systemu zdrowia, pojawiła się również oszczędność, tzn. zredukowany jest koszt per pacjent, u którego wystąpiło uszkodzenie nerek, o 17%, co tak naprawdę może prowadzić do oszczędności rzędu miliarda funtów rocznie dla brytyjskiego systemu zdrowia.

Wydaje mi się, że jest istotnym, żeby również mówić o tym, w jaki sposób mierzymy wpływ budowanych produktów na końcowego użytkownika.

Zdecydowanie. Rozwiń jeszcze proszę sposób funkcjonowania aplikacji i jej roli w całym procesie, tak aby każdy mógł zrozumieć, jak to wygląda w praktyce.

Streams jest aplikacją mobilną, tzn. jest dostępna na telefonach dla lekarzy i pielęgniarek w wybranych szpitalach w Wielkiej Brytanii. Gdy pacjent się pojawia, to szpital ma jakieś swoje rozwiązanie informatyczne, tzn. system, który przechowuje wszystkie dane pacjentów i który jest tym centralnym systemem do zarządzania pacjentami.

Pacjent zostaje przyjęty, jego dane są wprowadzone do systemu, przechodzi przez ręce różnych lekarzy. Natomiast jak już dochodzi do etapu, gdzie jest w szpitalu i jest pod opieką konkretnego lekarza lub pielęgniarki, będą oni na telefonie widzieć listę swoich pacjentów, za których są odpowiedzialną.

Dla każdego z tych pacjentów będą widoczne wyniki ich badań laboratoryjnych (tj. badania krwi), ich obserwacje, czyli pomiary, które pielęgniarka zwykle pobiera od pacjenta z dość dużą regularnością, podczas gdy jest w szpitalu: temperatura, ciśnienie, stan świadomości, rozkojarzenia – te parametry, które mówią lekarzom na bieżąco, czy pacjent czuje się dobrze, czy czuje się gorzej.

Mają w ten sposób dostęp do wszystkich danych medycznych pacjenta, a dodatkowo jeżeli stanie się coś poważnego (np. wrócą wyniki badań, w których pacjent ma wykryte uszkodzenie nerek, jak również może to być wykrycie sepsy, która pojawia się w organizmie), to lekarz zostanie o tym poinformowany dodatkowo. Dostanie notyfikację na telefonie i będzie w stanie w szybki sposób, zweryfikować cały obraz kliniczny pacjenta i podjąć konkretną decyzję.

Jak to wyglądało wcześniej?

Infrastruktura służby zdrowia jest często nie tak nowoczesna, jakbyśmy sobie tego życzyli. Są ku temu istotne powody. Przede wszystkim pieniądze idą na leczenie pacjentów, a nie na poprawienie infrastruktury, ale również zmiany w infrastrukturze są trudne.

Trzeba upewnić się, że one są na pewno bezpieczne dla wszystkich. Lekarze ciągle używają pagerów. Pager to jest taki bardzo upośledzony telefon, który potrafi tylko powiedzieć, że ktoś próbuje się z Tobą skontaktować i żeby się dowiedzieć czego od Ciebie chce, to należy oddzwonić na konkretny numer.

Co jest oczywiście o tyle problematyczne, że jeżeli lekarz wychodzi z sali operacyjnej, w której spędził ostatnie 3 godziny, to może tam mieć np. 20 wiadomości, które w żaden sposób nie są spriorytetyzowane. Będzie musiał przejść przez nie po kolei, bo nie ma żadnych dodatkowych informacji. Dodatkowo mogę powiedzieć, że np. NHS, brytyjska służba zdrowia, jest największym odbiorcą faksów (urządzeń do przesyłania papieru na świecie). Jest to zabawne, ale też problematyczne, bo pokazuje, jak dużo rzeczy jednak ciągle dzieje się na papierze.

źródło: giphy.com

Często, nawet w bardzo rozwiniętych szpitalach, część procesu ciągle jeszcze odbywa się na papierze. Każdy, kto był w polskim szpitalu, pamięta te kartki wiszące na nogach łóżka, które pokazują nasze obserwacje w ciągu doby. To sprawia, że dostęp do informacji jest powolny, bo zamiast sprawdzić dane w konkretnym systemie, to często trzeba po prostu pójść i znaleźć ten konkretny papier, na którym ta informacja jest zapisana.

Trzecią rzeczą wartą wspomnienia jest stan urządzeń. Jak mówię o technologiach mobilnych i wprowadzeniu aplikacji na telefon, to pomyślmy, co znaczyły technologie mobilne wcześniej w wielu szpitalach – to jest to komputer na kółkach (COW – computer on wheels).

Jest to komputer postawiony na małej szafce, którą lekarze lub pielęgniarki pchają z sali do sali i w ten sposób są w stanie używać swoich systemów i uzupełniać informacje o pacjentach. To jest stan służby zdrowia w jednym z bardziej rozwiniętych krajów.

NHS jest tak naprawdę rozpoznawane jako jeden z najlepszych systemów zdrowotnych na świecie i ciągle, nawet tam, pojawiają się wszystkie te problemy.

Wydaje się, że wprowadzenie bardziej nowoczesnych rozwiązań jest o tyle istotne, że ten wpływ (z jednej strony na pacjentów, a z drugiej strony na cały system i zaoszczędzanie części kosztów systemowi) sprawia, że jesteśmy w stanie te środki realokować i poprawiać tę infrastrukturę.

A propos efektywności, na początku powiedziałaś, że środki zwykle są przekazywane na poprawę zdrowia pacjentów a nie na infrastrukturę i to wszystko brzmi logicznie.

Jednakże rozwiązując problem infrastruktury nie dość, że pacjent zyskuje na zdrowiu (np. alert pójdzie z większym wyprzedzeniem i nerki będzie można uratować), to przy okazji miliardy funtów będzie można zaoszczędzić. Prawdopodobnie to jest problem projektów innowacyjnych, że systemy biurokratyczne nie są w stanie wprowadzać innowacji, a jednocześnie ich potrzebują.

Często jest mylone to, na czym polega wprowadzenie innowacji i jak często pewne kroki są pomijane. Na przykład: słyszy się, że można zrobić innowację wdrażając uczenie maszynowe, to próbujemy je na siłę wdrożyć, tylko nie ma infrastruktury podstawowej, żeby to wdrożyć. Jak przygotowywałem się do tej rozmowy i czytałem o Streams, to byłem pod ogromnym wrażeniem, że to już funkcjonuje.

Najpierw trzeba wszystko ustabilizować, żeby infrastruktura technologiczna była przygotowana na rozwiązanie ML-owe, a później jak dane zbieramy w sposób spójny, to możemy przekazać je do trenowania modelu. Co jest ważne, nawet jak ten model powstanie, to na co on wpłynie?

Jak chodzi o wdrożenie AI, to musimy pamiętać, że żeby modele dobrze działały, to potrzebują szerokich danych. To nie jest tak, że na podstawie samych wyników krwi, jesteśmy w stanie wykrywać, że stan pacjenta znacznie się pogarsza. Oczywiście będziemy w stanie, ale jeżeli dodatkowo będziemy mieć pełne wyniki laboratoryjne, wszystkie obserwacje, nawet notatki, które lekarze robią o stanie zdrowia pacjenta, to taki model będzie dużo skuteczniejszy.

Jak dużo z tych informacji, w obecnym stanie w danej placówce szpitalnej, znajduje się na papierze? Jakbyśmy tego modelu nie trenowali, to, oczywiście bez jakiegoś rozpoznawania tekstu, on nie będzie czytał tych papierów zwłaszcza, że nie będzie miał do nich dostępu. Pierwszym aspektem jest taka technologiczna gotowość, czy w ogóle da się wprowadzać rozwiązania oraz przygotowanie środowiska, w którym model będzie działał.

Drugim istotnym aspektem jest to, że musimy pamiętać, że wiele systemów, z którymi my pracujemy, to są systemy publiczne, tzn. jak mówimy o brytyjskiej służbie zdrowia, to to jest służba zdrowia finansowana ze środków publicznych. Istotne jest to, że wydatki idące na tę służbę zdrowia, muszą być akceptowane przez szeroko rozumiane społeczeństwo.

Z jednej strony, Ty używasz argumentu, że tak na logikę to oczywiście ma sens, żeby inwestować w infrastrukturę, żeby tworzyć lepsze rozwiązania i one w konsekwencji sprawią, że pacjenci będą dostawać lepszą opiekę. Z drugiej jak zapytasz przeciętnego obywatela na ulicy w ankiecie: czy uważa, że te pieniądze powinny pójść do dużej firmy technologicznej, żeby stworzyła lepsze rozwiązanie, czy powinny pójść jako wynagrodzenie dodatkowych pielęgniarek, żeby tę opiekę poprawić, to wydaje mi się, że ciągle jeszcze, w dużej mierze ludzie będą za tym, żeby dofinansowywać bezpośrednio.

Bardzo ciężko jest łatać te dziury, które mamy na poziomie dużej grupy ludzi albo społeczeństwa i myśleć strategicznie. Wydaje mi się, że do tego właśnie są potrzebne dodatkowe, konkretne jednostki działające przy rządzie, które skupiają się właśnie na innowacji. W Wielkiej Brytanii przykładem takiego ciała jest NHSX, które skupia się właśnie na tym, jak te nowoczesne technologie wprowadzać do służby zdrowia, jak budować warstwę, w której następuje wymiana danych pomiędzy jednostkami ochrony zdrowia tak, żeby każdy pacjent będący w takim miejscu jak i jego lekarz mieli dostęp do pełnej historii.

Z trzeciej strony w jaki sposób umożliwiać te innowacje? Wiele z projektów, nad którymi pracowaliśmy, zarówno w ramach DeepMind, jak teraz w Google, nie zdarzyłoby się, gdyby duże szpitale nie chciały pracować z firmami, nie udostępniałyby danych do celów badań. Oczywiście to są dane bez informacji identyfikacyjnych pacjentów, natomiast ciągle te ogromne zbiory danych, które te szpitale posiadają, sprawiają, że jesteśmy w stanie budować dużo lepsze modele, które w przyszłości wraz z rozwojem infrastruktury, będą w stanie być używane bezpośrednio do pomocy pacjentom.

Dotknijmy jeszcze jednego wątku a propos tworzenia projektów innowacyjnych, bo to jest temat, który trzeba poznać i zrozumieć. Powiedziałaś, że zaczęliśmy bardziej rozmawiać z lekarzami, pielęgniarkami, żeby lepiej ich zrozumieć.

Przypomina mi się tutaj anegdotka, która krąży wśród programistów: „nie po to studiowałem 5 lat informatykę, żeby rozmawiać z ludźmi”. Czasem to jest po prostu paradygmat życia wielu osób. Dążę do tego, że innowacje są możliwe, tylko i wyłącznie wtedy, kiedy zespół się interdyscyplinarny, czyli ma wiele różnych specjalizacji. Ludzie zajmują się zupełnie innymi rzeczami, np. lekarz, programista, ktoś od badań, od strony UX, prawnik itd.

W tym zespole trzeba jakoś się komunikować, żeby znaleźć wspólny język i to prawdopodobnie jest wyzwaniem. Na czym polegają największe praktyczne problemy i jak sobie z tym radzisz?

Zespoły interdyscyplinarne są zdecydowanie tym, co jest kluczowe w tym momencie przy tego typu innowacyjnych projektach, które są w obszarach, gdzie jeszcze nie ma podobnych rozwiązań. Tu nie ma czegoś do skopiowania, jakiegoś szablonu, którym się można posłużyć. W związku z tym wiele zagadnień jest bardzo otwartych.

Oczywiście, służba zdrowia dodatkowo nakłada bardzo wysokie wymagania. To nie jest tylko to, co jest wymagane prawnie, ale my chcemy też dla samych siebie mieć pewność, że to, co robimy i jak to robimy, to jest najlepszy, najbezpieczniejszy możliwy sposób zbudowania tego rozwiązania. Jak myślimy o takich tradycyjnych projektach informatycznych, to zwykle myślimy o grupie inżynierów.

Pewnie dokładamy do tego testerów, mamy product managera, który definiuje to, co się dzieje. Może mamy program managera, który zarządza tym, w jaki sposób projekt się posuwa do przodu. Jak mówimy o służbie zdrowia, to to się bardzo rozszerza, bo to nie jest tylko user experience designers, to jest bardzo duża grupa user experience researchers, czyli ludzi, którzy pracują i testują pomysły bezpośrednio z końcowym użytkownikiem. Streams jest przykładem takiej aplikacji, która przechodzi przez wiele cykli testowania z użytkownikami, zanim dany kawałek funkcjonalności zostanie zbudowany w aplikacji.

Musimy sobie zdać sprawę, że to, co w normalnych komercyjnych projektach byśmy robili, czyli np. A/B testing poszczególnych rozwiązań, pomysłów i udogodnień – tutaj nie może zostać zastosowane. Jeżeli budujemy jakieś rozwiązanie, to musimy mieć pewność, że na daną chwilę to jest najlepsze możliwe rozwiązanie, jakie możemy dostarczyć w ręce lekarzy.

Częściowo ten A/B testing przeprowadzamy wcześniej, tzn. to nie jest nawet A/B testing, to po prostu jest 10 różnych możliwych rozwiązań, które testujemy pod kątem najniższego poziomu błędu. Musimy wziąć pod uwagę to, że produkt będzie np. używany w sytuacji, w której życie pacjenta jest zagrożone. Lekarz stoi nad łóżkiem i musi podjąć decyzję na przestrzeni sekund. Tam nie może być miejsca na niepewność i wątpliwości np. co do oznaczeń. Standardy wytwarzania oprogramowania też są inne.

Wracając do różnych ról, pojawia się rola lekarza, osoby doświadczonej wykształconej w obszarze dostarczania ochrony zdrowia, bo wiele pytań wymaga odpowiedzi nie tylko product managera, który definiuje dlaczego, to budujemy i jak to robimy, ale tak naprawdę osoby, która jest w stanie powiedzieć, w jaki sposób to będzie używane oraz czy to jest bezpieczne i dobre rozwiązanie.

W końcu mamy cały obszar regulacji, tzn. information governance, które wymaga tego, żeby dostęp do niesamowicie istotnych, wrażliwych medycznych danych pacjentów był odpowiednio chroniony przez cały okres tworzenia tego oprogramowania i po wdrożeniu rozwiązania.

Jakie są główne problemy?

Powiedziałabym, że główny problem jest taki, że jak myślimy o zespołach inżynierskich, to jest określona ilość metodologii, którymi one pracują, ale ogólnie to większość z nich są to zespoły, które w jakiś sposób definiują, co chcą zbudować, potem to budują, testują i wypuszczają.

To podejście zderza się z ludźmi, którzy przychodzą z obszaru policy i regulatory, czyli definiowania tego sposobu pracy w obszarach ściśle regulowanych, czyli właśnie urządzenia medyczne, próby leków, gdzie to doświadczenie jest zupełnie inne. To jest dużo bardziej model standardowego waterfall, gdzie projekt przechodzi przez konkretne stany. Na końcu każdego stanu znajduje się ściśle określony sposób jego weryfikacji i tego, czy wszystkie wymagania zostały spełnione.

Okres pomiędzy tym, kiedy dany projekt się zaczął i kiedy zostały spisane wymagania, a kiedy on zostaje wdrożony, jest dużo dłuższy. Zderzają się te dwa podejścia, w jaki sposób to łączymy i w jaki sposób będziemy to robić bezpiecznie, ale jednocześnie tak, żebyśmy byli w stanie szybko dostarczać te rozwiązania. Do tego zupełnie dodatkowy aspekt, gdzie zderza się podejście ludzi, którzy pracując w firmach technologicznych, mają pewne oczekiwania i mają swoje standardy pracy.

Dla mnie część rzeczy jest oczywista, np. to, że w komunikacji w firmie jest bardzo wysoki poziom transparency, tego, że wiemy nad czym pracują poszczególne osoby, nawet jeżeli nie musimy tego wiedzieć, że informacja szybko przekazywana, że można zadawać pytania swoim szefom, że można nawet kwestionować ich wybory. To zderza się z ludźmi, którzy przychodzą z dużo bardziej hierarchicznej organizacji. Zdecydowanie służba zdrowia jest dużo bardziej hierarchiczna.

Jak główny chirurg mówi, że tak będziemy przeprowadzać tę operację, to stażysta nie podniesie ręki i nie powie: „a bo ja myślałem, że może byśmy zrobili to trochę inaczej”. To jest dużo bliższe strukturom wojskowym, gdzie jednak hierarchia ma bardzo duże znaczenie. Jest też taki istotny kulturowy aspekt tego, w jaki sposób pracujemy, w jaki sposób się komunikujemy ze sobą. Czy to jest komunikacja szeroka i wysyłamy wszelkie informacje, czy to jest dużo bardziej zawężone i tylko te osoby, które muszą o czymś wiedzieć, to będą o tym wiedziały.

Moja rola polega nie tylko na tym, żeby wesprzeć zespół inżynierów i pomóc im tworzyć konkretne rozwiązanie, ale głównie też na tym, żeby słuchać tak naprawdę. Rozumieć, w jaki różny sposób się komunikują te różne grupy i być w stanie budować mosty komunikacyjne, ułatwiać nam zrozumienie siebie.

Piękno pracy w tych projektach związanych ze służbą zdrowia jest takie, że wszyscy ludzie przychodzą do nich naprawdę silnie zaangażowani. Ludzie naprawdę chcą tego, co najlepsze dla projektu, dla pacjentów i przez to każdy jest bardzo zaangażowany.

Jak każdy uważa, że to, co on mówi, jest bardzo istotne dla sukcesu tego projektu, to musimy znaleźć sposób, żeby się dogadać i być w stanie jakoś jasno rozmawiać o tym, co jest krytyczne, a co jest ważne, a co tak naprawdę jest tylko dodatkowe i w jaki sposób te priorytety pomiędzy różnymi grupami rozumieć.

Warto tu wspomnieć o książce „Pracować inaczej” Frederica Laloux. Wyjaśniono w niej różne struktury organizacji oraz ich klasyfikacje kolorystyczne.

„Pracować inaczej” Frederica Laloux

Była tam np. czerwona organizacja tj. taka bardziej wojskowa hierarchia, kiedy wszystko musi iść z góry na dół i nie ma możliwości, żeby było inaczej. Sprawa z taką organizacją jest bardzo ciężka i trudna. Warto sobie uświadomić czasem, że niektórych rzeczy się nie da zrobić albo będą wymagały znacznie więcej cierpliwości, czasu, pieniędzy itd., żeby pewne innowacje tam zacząć wprowadzać.

Porozmawialiśmy od tej strony bardziej biznesowej, strategicznej, że taka aplikacja jak Streams wydaje się być bardzo pomocna, bo po pierwsze zarządza logistyką. Wbrew pozorom te problemy, choć już powinny być opanowane, to nadal nie są albo właśnie teraz zostały dopiero zaadresowane.

Po drugie już ogarniając logistykę, czyli przygotowując fundamenty technologiczne, można będzie myśleć o tym, żeby wpiąć tam uczenie maszynowe i dzięki temu podejmować lepsze decyzje. Z punktu widzenia zwykłego pacjenta, czego można się spodziewać za 5-10 lat?

Trudne pytanie, bo to nie zależy tylko do tego, co technologia może. To też zależy bardzo od tego, jaka będzie sytuacja na świecie. Nawet obecna sytuacja z koronawirusem jest świetnym przypomnieniem tego, że nie mamy kontroli nad wszystkim.

Jakbym miała prognozować, to myślę, że w perspektywie najbliższych kilku lat wyraźniej będziemy widzieć rozwiązania bardzo punktowe. Pojedynczy problem jest modelowany i w pojedynczym miejscu sprawdzamy skuteczność danego modelu. Sprawdzamy, czy jesteśmy w stanie, w jakiś sposób wpłynąć na środowisko, coś lepiej zrobić w danym obszarze.

Mam nadzieję, że w perspektywie tych 10 lat te pojedyncze interwencje zaczną się zmieniać w coś, co jest dużo bardziej skalowalne. To wymaga rozwiązania wielu poważnych problemów.

Wymaga tego, żebyśmy byli w stanie bezpiecznie przenosić model ze środowiska, w którym on się uczył, na inne środowiska, w których będzie używany i które mogą być nieco inne niż to środowisko, w którym został stworzony. Jak budowaliśmy część z modeli odpowiedzialnych za wykrywanie ostrego stanu nerek, to jedną z jednostek badawczych był Veteran Affairs Hospital w Stanach Zjednoczonych.

Z jednej strony to jest bardzo dobre miejsce, bo posiada szeroki zbiór danych, długi okres czasowy, to bardzo wysokiej jakości placówka. Z drugiej strony populacja, która leczy się w tej placówce to jest głównie personel wojskowy albo powojskowy. W związku z tym ta różnorodność płciowa, rasowa i konkretne warunki życiowe, przez które ci ludzie przechodzili, są bardzo jednolite.

W jaki sposób model wytrenowany na tych danych będzie się aplikował do zastosowania w Meksyku, w środowisku zupełnie innym, w zupełnie innej grupie społecznej? To jest jeden z ciekawych problemów, na które będziemy musieli odpowiedzieć w ciągu tych najbliższych 10 lat, jeżeli chcemy, żeby te rozwiązania były nie tylko teoretyczne, żebyśmy nie tylko byli w stanie publikować ciekawe rozwiązania tylko, żeby te rozwiązania służyły wszystkim ludziom.

Taki powinien być nasz cel. Mam nadzieję, że w tym czasie bardzo poprawi się screening, czyli wczesne wykrywanie. Obyśmy byli w stanie przesiewowo badać całe społeczeństwo, bo wówczas wprowadzając automatyzację do tego procesu to to, co jest teraz ograniczeniem (czyli czas zwykle doświadczonego lekarza potrzebny do tego, żeby przeanalizować dane wyniki i określić, czy ten pacjent jest podwyższonego ryzyka), to się uda zredukować. Gdyby nam się udało osiągnąć nawet tylko to, to już będzie gigantyczna zmiana.

Przesuwamy tu całą ochronę zdrowia z tego, że ktoś ma raka i leczymy raka do tego, że jest w bardzo wczesnym stadium i to jest coś, co podejrzewamy, że stanie się rakiem i jesteśmy to w stanie usunąć i żadna dodatkowa terapia nie będzie potrzebna. Począwszy od programów pilotażowych, jakie teraz prowadzimy, gdzie właśnie w Indiach będziemy potencjalnie redukować ilość ludzi tracących wzrok, wyobraźmy sobie, że to będzie się działo w każdym szpitalu, każdym gabinecie, gdzie przeprowadzane są te badania. Jakbym miała prognozować, to mam nadzieję, że screening jako główne rozwiązanie będzie dużo powszechniejszy.

Bardzo dziękuję Asiu za podzielenie się Twoim doświadczeniem, opiniami, przemyśleniami. Trzymam kciuki, żeby technologię (w szczególności uczenie maszynowe, ale też całą dziedzinę IT, która się bardzo szybko rozwija) udało się połączyć w różnych strefach w taki sposób, żeby ostatecznie to człowiek na tym skorzystał.

Chodzi o zdrowie i o inne wymierne korzyści, które można by było do tego odnieść. Jeżeli tak nad tym pomyślimy trochę głębiej, to chyba tylko o to chodzi ostatecznie, jak nie będzie człowieka, to nie będzie komu z tego korzystać.

Super, bardzo Ci dziękuję za rozmowę.

Gdy maszyny popełniają błędy, zwykle jest im trudniej wybaczyć niż ludziom. Nawet jeżeli tych błędów będzie mniej. Z punktu widzenia logicznego wydaje się, że trzeba się pogodzić z tym, że algorytmy potrafią lepiej pewne rzeczy przewidywać.

Czuję, że to ma sens, jeżeli chodzi o nauczenie algorytmów w ten czy inny sposób, żeby statycznie rzecz biorąc, popełniać mniej błędów. Mało tego, jest też szereg zalet. Ten algorytm jak raz się nauczy, to on już jest dostępny wszędzie. Lekarz, który przez 5, 10, 20, 50 lat się uczy to jest po prostu jeden człowiek, który ma dość ograniczoną uwagę i nie może się rozproszyć po całym świecie, a taki program jak najbardziej może.

To oznacza, że warto pójść w tym kierunku, żeby zaufać coraz bardziej maszynom, bo te algorytmy wskazują technicznie, że mogą sobie poradzić całkiem dobrze. Wszystko wskazuje na to, że ten trend zmienia się i w tym kierunku to będzie szło, że maszyny będą podejmować coraz bardziej odważniejsze decyzje. Oczywiście będą również popełniać błędy.

Myślę, że też to się zmieni w taki sposób, że dla osób w młodszym wieku będzie to już oczywiste, że tak jest, a osoby w starszym wieku nie będą miały aż tak dużo do wyboru. Po prostu to jest tzw. przesunięcie decyzyjności w czasie, że coraz młodsze pokolenie decyduje. W ten sposób to się przesunie.

Wyobraźmy sobie taką sytuację, że nastąpił ten moment, kiedy algorytmy przejęły władzę, jeżeli chodzi o podejmowanie decyzji. Mówimy teraz o temacie medycznym, że potrafimy zaprognozować tę czy inną chorobę, zarekomendować użycie wybranego leku.

Człowiek łatwo się przyzwyczaja, jest dość leniwy i to oznacza, że coraz mniej osób będzie studiować np. medycynę. Tu pojawia się właśnie kluczowe pytanie, czy to jest dobrze, że to dąży w tym kierunku? Z jednej strony wydaje się, że w tej chwili byłoby bardzo głupim rozwiązaniem, żeby całkowicie ignorować automatyzację, nie wykorzystywać tej technologii, którą już dysponujemy. Z drugiej strony skrajność, w której tylko maszyny podejmują decyzje, może być również przerażająca. Jakie jest Twoje zdanie?

Artykuł Jak Google i DeepMind wspierają służbę zdrowia? pochodzi z serwisu Biznes Myśli.

Uczenie nienadzorowane oczami naukowca z DeepMind

Vladimir — Mon, 13 Apr 2020 03:00:00 +0000

Z tego odcinka dowiesz się:

Co to jest uczenie nienadzorowane? Poznaj fascynujący świat uczenia nienadzorowanego (unsupervised learning) i dlaczego ma ogromny potencjał w przyszłości.
Jak dostać się na doktorat na Oxfordzie? Adam Kosiorek, świeżo upieczony doktor z Uniwersytetu Oksfordzkiego, dzieli się radami, jak aplikować na doktorat i dlaczego warto to zrobić.
Czym jest inteligencja? Odkryj, jak naukowcy, w tym Adam, próbują zrozumieć i zaimplementować inteligencję, oraz dlaczego jest to takie trudne.
Uczenie nienadzorowane a uczenie nadzorowane. Dowiedz się, dlaczego Adam skupia się na uczeniu nienadzorowanym i jakie są jego przewagi nad uczeniem nadzorowanym.
Autoenkodery – co to jest i do czego służą? Poznaj definicję autoenkoderów i ich praktyczne zastosowania, takie jak kompresja zdjęć.
Capsule Networks – nowy sposób na rozpoznawanie obiektów. Odkryj, czym są sieci kapsułkowe (capsule networks) i jak mogą zrewolucjonizować rozpoznawanie obiektów.
Jak eksperymentować w uczeniu maszynowym? Adam dzieli się swoimi doświadczeniami z eksperymentami w uczeniu maszynowym i opowiada o narzędziu Forge, które stworzył, aby je usprawnić.

Chcesz dowiedzieć się więcej o przyszłości AI i inspirujących badaniach? Przeczytaj cały artykuł!

Uczenie nienadzorowane (unsupervised learning) to dziedzina uczenia maszynowego o ogromnym potencjale, która w bliskiej przyszłości będzie nas coraz bardziej zaskakiwać. O tym właśnie rozmawiałem z Adamem Kosiorkiem, doktorem nauk z Uniwersytetu Oksfordzkiego, który obecnie pracuje w DeepMind.

Cześć Adam. Przedstaw się: kim jesteś, czym się zajmujesz, gdzie mieszkasz?

Nazywam się Adam Kosiorek, jestem z Olsztyna. W tej chwili mieszkam w Londynie. Pracuję jako Research Scientist w Google DeepMind (po polsku – badacz). Pracuję nad sztuczną inteligencją i prowadzę badania w tym zakresie.

Dzisiaj będziemy dużo mówić na temat sztucznej inteligencji oraz Twoich badań i publikacji. Zanim do tego przejdziemy, zdradź, co ostatnio ciekawego przeczytałeś? Niekoniecznie musi to być specjalistyczna publikacja.

Czytać akurat lubię. Jedna z ostatnich książek, która bardzo mi się spodobała to „Sapiens” Yuval Noah Harari. Wydaje mi się, że to bardzo ostatnio popularna pozycja. Opowiada o tym, jak staliśmy się ludźmi ze zwierząt, jak wyewoluowaliśmy od małp i prostszych organizmów, jak znaleźliśmy się tu, gdzie teraz jesteśmy. Opowiada o różnych rewolucjach rolniczych, przemysłowych i religii w naszym życiu, roli technologii i wiele więcej. Naprawdę polecam, aczkolwiek jest to nieco dłuższa lektura.

„Sapiens” Yuval Noah Harari

Obecnie, oprócz tego, że pracujesz w DeepMind, robisz doktorat w Oxford. Jak oceniasz te studia, uczelnię, doświadczenie? Czy ciężko jest się dostać?

Zanim odpowiem, sprostuję jedną kwestię. Mniej więcej 2 tygodnie temu, obroniłem się, więc już nie jestem doktorantem, a świeżo upieczonym doktorem. Natomiast prawda, do tej pory byłem na Oxfordzie. Jak się tam dostać? Odpowiedź może brzmieć banalnie. Należy złożyć aplikację. Aplikacja taka wygląda trochę inaczej na studia na poziomie licencjackim, a trochę inaczej na doktorat. Wydaje mi się, że na doktorat jest dużo łatwiej się dostać, niż na licencjat.

Aplikacja składa się z dwóch elementów:

List opisujący, czym byśmy chcieli się zajmować, dlaczego właśnie na Oxfordzie, jakie tematy nas interesują itd.
Druga część tej aplikacji to są referencje od ekspertów w dziedzinie. Najlepiej profesorów, z którymi wcześniej pracowaliśmy, którzy nas znają i dobrze, aby byli dosyć sławni w tej dziedzinie. Najlepiej jest znaleźć możliwości pracy z kimś, kto jest w miarę rozpoznawalny i dać się tej osobie poznać, żeby dostać taką referencję.

Faktycznie, brzmi to w miarę prosto. Czy było warto? Jak to oceniasz to teraz z perspektywy czasu?

Wydaje mi się, że jest warto. Moją drugą najlepszą opcją byłoby zostać na doktoracie na Uniwersytecie Technicznym w Monachium, gdzie zrobiłem swoją magisterkę. Doktorat w Monachium też byłby bardzo dobry, natomiast różnica jest taka, że w Niemczech ludzie często traktują doktoraty jako taką zwykłą pracę, gdzie przychodzą na 09:00, wychodzą o 17:00, nie pracują w weekendy. Natomiast na Oxfordzie jest dużo większa presja, są zazwyczaj przyjmowani bardzo dobrzy ludzie, którzy osiągają bardzo dobre rezultaty.

Poprzez chęć dorównania im wytwarza się presja i ludzie pracują nieco więcej. Niektórym może to nie odpowiadać, natomiast dla mnie jest to coś, czego akurat chciałem i potrzebowałem. Oxford, jeżeli chodzi o machine learning, jest również świetnym miejscem dlatego, że jest tu około 15 grup badawczych na światowym poziomie. Jest mnóstwo ludzi, mnóstwo różnych tematów, nad którymi te grupy pracują, więc jest dosyć duża swoboda pracy. Można też w dosyć łatwy sposób zbudować dobrą siatkę kontaktów z najlepszymi naukowcami na świecie.

Brzmi jak środowisko, które po pierwsze da się łatwo zmobilizować, a po drugie ta sieć kontaktów robi potem swoje i naprawdę później te kilka lat w Oxfordzie procentuje.

Na Twoim Twitterze jest takie zdanie: „próbuję zrozumieć, czym jest inteligencja i ją zaimplementować”. Gdzie jesteś teraz, jeżeli chodzi o inteligencję? Na ile udało Ci się zrozumieć, czym ona jest? Jak wyglądają postępy?

Zacznę od tego, że to stwierdzenie jest nieco naciągane. Nie wiem, czy jest chociaż jedna osoba na świecie, która tak naprawdę rozumie, czym jest inteligencja. To pojęcie jest trudne do zdefiniowania. Wydaje mi się, że obecnie posiadane definicje są zbyt szerokie.

Na przykład, niektórzy definiują inteligencję jako umiejętność rozwiązywania wszelkiego rodzaju problemów, bądź umiejętność szybkiego uczenia się rozwiązywania wszelkiego rodzaju problemów. Natomiast jeżeli pomyślimy o problemach wszelkiego rodzaju, jest to niesamowicie duża przestrzeń problemów.

Jeżeli użyjemy tej definicji, okazuje się, że ludzie wcale nie są inteligentni. Możemy zaprojektować bardzo dużo problemów, które są prawie losowe, gdzie są losowe związki pomiędzy różnymi elementami. Okazuje się, że ludzie są bardzo kiepscy w rozwiązywaniu tego typu problemów. Nawet dosyć ciężko jest zawrzeć intuicyjne rozumienie inteligencji w prostej definicji. To jest jeden punkt widzenia.

Z innego zaś rozumiemy na poziomie mechanicznym czy kalkulacyjnym, jak niektóre mechanizmy w mózgu ludzkim i innych zwierząt pracują. Natomiast bardzo często ta wiedza może nam dać pewną inspirację, jak budować system uczenia maszynowego. Zazwyczaj jest ona jednak zbyt mało precyzyjna, żeby naprawdę powiedzieć nam, jak pewne rzeczy powinny funkcjonować. Nawet jeżeli chodzi o intuicję, zazwyczaj dotyczy to bardzo niskopoziomowych podsystemów mózgu.

Mówiąc krótko, tak naprawdę nie wiemy, czym jest inteligencja i jak ją osiągnąć. Natomiast wiemy, jakie podzespoły znajdują się w mózgu i mniej więcej jakie funkcje różne podzespoły pełnią, co daje nam pierwowzór, na którym możemy się wzorować i który możemy próbować zaimplementować.

Twoje badania zwykle skupiają się na uczeniu nienadzorowanym, czyli unsupervised learning. W szczególności działasz sporo z autoenkoderami. Z jednej strony, domyślam się, że ten wybór podyktowany jest tym, że uczenie nadzorowane jest bardziej ograniczone.

Chciałbym usłyszeć Twoją wersję, podziel się swoją motywacją, dlaczego uczenie tylko nienadzorowane? Jeżeli skupiasz się tylko na tym, to jaką przyszłość możesz zaprognozować tej dziedzinie? Jak to się rozwinie w ciągu najbliższych 3-5 lat na podstawie tej wiedzy, którą już teraz posiadasz?

To prawda, że skupiam się głównie na uczeniu nienadzorowanym. Mam może 3 publikacje, które są również o uczeniu nadzorowanym, natomiast na pewno nie jest to główna część mojego badania. Tak, jak zauważyłeś, uczenie nadzorowane ma pewne ograniczenia, które wynikają głównie z tego, że do uczenia nadzorowanego potrzebujemy danych oznaczonych przez człowieka. Czyli potrzebujemy dane zebrane przez różne sensory (np. zdjęcia) i oznaczenia (czyli np. kwadraciki, narysowane na około twarzy, ludzi na tych zdjęciach).

Żeby dostać takie kwadraciki, zazwyczaj potrzebujemy armii ludzi, która będzie takie kwadraciki rysować. Jest to drogi i czasochłonny proces. Za każdym razem kiedy dostaniemy nowe dane, musimy zatrudnić ludzi i zbierać te oznaczenia. Nie możemy np. wykorzystać setki tysięcy godzin filmów dostępnych na YouTube, żeby nauczyć nasz algorytm, ponieważ mimo że posiadamy dane w postaci tych filmów, to nie mamy do nich oznaczeń, co więcej z biegiem czasu często widziane przez algorytm dane zmieniają się.

Np. jeżeli za tydzień mielibyśmy robota, który działa nieustannie i z biegiem czasu zmienia się sceneria, w której ten robot się przemieszcza (np. rozbudowuje się miasto, zmieniają się budynki itd.), to gdyby taki robot korzystał tylko i wyłącznie z uczenia z nauczycielem, to mógłby mieć problem z dostosowaniem się do nowego wizerunku otoczenia.

Natomiast jeżeli taki robot mógłby uczyć się na bieżąco, to mógłby się dostosowywać. Uczenie na bieżąco oznacza, że nie ma oznaczeń wygenerowanych przez człowieka, w związku z tym musimy wykorzystać uczenie nienadzorowane.

Te wspomniane etykiety są także często nieprecyzyjne. Człowiek sam w sobie jest niedeterministyczny. Ta sama osoba potrafi inaczej oznaczyć tę samą ramkę, a tym bardziej jak jest grono rozproszonych ludzi w świecie, to ten input jeszcze bardziej byłby zaszumiony. Zresztą słynny ImageNet też był robiony w taki sposób, że niektóre obrazki były robione po kilka razy, żeby upewnić się, że to jakoś w miarę się pokrywa, ale to też nie było proste zadanie.

Teraz już wiemy, o co chodzi z uczeniem nienadzorowanym i jaka była Twoja motywacja. To chodźmy dalej w kierunku autoenkoderów. Wyjaśnij i podaj klasyczną definicję autoenkodera. Co to jest? Co on robi? Czy mógłbyś podać jakieś przykłady?

Wydaje mi się, że taka ogólna definicja to byłby model, który potrafi skompresować dane i później dokonać ich dekompresji.

Kompresja to według mnie dobre skojarzenie. Mamy w tym przypadku dwa czynniki. Wiele osób nie miało styczności z autoenkoderami, ale pewnie każdy używał zipa albo inny kompresora danych – czyli wtedy, kiedy pakujemy dany plik w jakąś taką postać “pomiędzy”. To jest nadal plik, ale nie ten oryginalny i zajmuje troszkę mniej miejsca. Później jakiś inny program albo funkcjonalność tego samego programu to odczytuje. Gdzie taki autoenkoder może być użyteczny?

Prostym i dosyć powszechnym przykładem jest np. kompresja zdjęć. Dzisiaj jednym z najpopularniejszych formatów jest .jpg, który jest skompresowanym zdjęciem. Jest to kompresja stratna, która nie zawiera wszystkich informacji, natomiast zdekompresowane zdjęcie wygląda bardzo podobnie do tego przed kompresją.

Jpg jest standardem ręcznie zaprojektowanym, co zajęło wiele lat. Ma jakieś właściwości, jeżeli chodzi o kompresję, natomiast okazuje się, że dzisiejsze autoenkodery wykorzystujące najnowsze osiągnięcia z uczenia maszynowego, potrafią nauczyć się kompresować zdjęcia dużo lepiej niż .jpg, w przeciągu minut, co może spowodować zaoszczędzenie olbrzymiej ilości danych (np. przy przesyłaniu zdjęć przez Internet).

To bardzo fajny przykład. Google też to próbuje stosować, kiedy się wysyła mniejsze zdjęcie i komórka, która pobrała to zdjęcie, potrafi to zdjęcie rekonstruować. W ten sposób to funkcjonuje i faktycznie nie trzeba przesyłać dużych plików. Przy czym po otworzeniu zdjęcia wygląda ono bardzo podobnie do oryginalnego i nie ma za bardzo tej straty. Myślę, że też fajnie wspomnieć o przypadkach związanych z tym, że możemy zaszumić sobie to zdjęcie i potem otworzyć takie, które nie jest zaszumione.

Albo np. przypadki związane z nakładaniem, coś jest na tym zdjęciu wycięte i później można to odtworzyć. Co prawda, to też ma negatywne skutki. Było dość głośno na ten temat, kiedy nagle się okazało, że wszystkie znaki wodne można wyeliminować – to, co potrafi autoenkoder zrobić, czyli odszumić od „niepotrzebnych” rzeczy.

Więc teraz, jak ktoś myśli, że dodając znak wodny do zdjęcia może spać spokojnie, to już te czasy niestety minęły. To się wszystko rozwija, więc trzeba to robić bardziej dynamicznie, niż tylko poprzez dodanie statycznego znaku wodnego.

Podsumowując, jeżeli chodzi o autoenkoder, mamy kawałek tej sieci na wejściu np. zdjęcie, które jest pobierane i robimy wszystko, żeby zredukować wymiary. Zostaje jakiś powiedzmy wektor. Później jest inny kawałek sieci, który próbuje z tego wektora odtworzyć zdjęcie oryginalne.

Ale teraz przejdźmy do tego, nad czym pracujesz więcej, czyli variational autoenkoders (VAE). Wyjaśnij, dlaczego VAE używasz najczęściej? Na czym polega różnica od klasycznego autoenkodera?

Główną różnicą jest to, że autoenkoder wariacyjny jest to model stochastyczny. Zazwyczaj zwykłe autoenkodery są deterministyczne tzn., że mamy coś na wejściu (np. zaszumiony obrazek), później mamy reprezentację tego zaszumionego obrazka na wejściu, który jest wektorem uzyskanym w sposób deterministyczny i później staramy się zrekonstruować z tego wektora odszumiony obrazek, bądź zaszumiony (w zależności od aplikacji).

Jednym z problemów w tym autoenkoderze jest to, że jest tylko jedno poprawne rozwiązanie, czy też istnieje tylko jeden rodzaj poprawnej rekonstrukcji. Nie możemy zawrzeć w tym naszym wektorze, który reprezentuje to zdjęcie, niepewności związanej z tym obrazkiem czy z rekonstrukcją.

Natomiast autoenkoder wariacyjny to model stochastyczny, gdzie ten wektor, który jest reprezentacją naszego obrazka, jest zaszumiony. Dodajemy do niego pewien szum, co pozwala nam zakodować pewną niepewność. Dzięki temu jeden konkretny wektor pozwala nam zrekonstruować wiele różnych wariantów tego obrazka, który mieliśmy na wejściu.

Na tym polega nasz świat. Jak spróbujemy powtórzyć to samo działanie i np. jeżeli komuś przygotujemy przepis i powiemy: „Słuchaj, ja całe życie robiłem tak i tak, więc rób te same kroki, a osiągniesz to samo”, to zwykle tak nie działa, bo życie zawsze gdzieś nas zaskoczy. Tak tylko dodam, że jak mówisz „stochastyczne”, to myślę, że dla osób, które nie są w tej terminologii obeznane, to pewnie słowo „losowy” będzie bardziej zrozumiałe.

Sprowadzamy się do tego, że w tym przypadku przepuszczając przez ten nasz model np. zdjęcie, to w klasycznym autoenkoderze dostajemy ten sam wynik (jeżeli model już jest wytrenowany), a w przypadku autoenkodera wariacyjnego przepuszczając za każdym razem model, wynik może być nieco inny. Czy to jest tak, że też mamy parametry, które umożliwiają ten rozrzut wyników, żeby można było ten model jakoś ograniczyć? Na tym właśnie polega trenowanie tego modelu, że dobieramy te parametry, prawda?

Tak, oba modele zazwyczaj są to dwie sieci neuronowe. Jeżeli chodzi o implementację, to różnica sprowadza się do tego, że w autoenkoderze, enkoder jest jedną siecią neuronową, która daje nam ten wektor będący reprezentacją obrazka na wejściu.

Natomiast w autoenkoderze wariacyjnym, enkoder daje nam nie jeden wektor, ale rozkład prawdopodobieństwa na przestrzeni różnych wektorów, które mogą opisywać bądź reprezentować obrazek na wejściu.

W najprostszym przypadku ten rozkład jest tu po prostu wielowymiarowym rozkładem gaussowskim. Wtedy implementacja polega na tym, że ten enkoder daje nam wektor średni i kowariancję. Kowariancja jest w tym przypadku zazwyczaj macierzą diagonalną, więc możemy ją wyrazić jako wektor. Czyli enkoder daje nam te dwa wektory, dzięki czemu możemy uzyskać ten rozkład gaussowski, z którego próbki później opisują nam to, co mamy na wejściu (czyli ten obrazek).

Ponieważ w tych próbkach jest niezerowa wariancja, możemy zrekonstruować nasz obrazek na wiele różnych sposobów, rekonstruując różne próbki z tego rozkładu prawdopodobieństwa.

Jak mawiali mądrzy ludzie: umiejętność rozpoznawania obiektów i zrozumienia relacji pomiędzy tymi obiektami jest kamieniem węgielnym ludzkiej inteligencji. Spróbujmy najpierw zrozumieć, co to oznacza w praktyce. Ważność rozpoznania obiektów i relacji – dlaczego akurat to jest taki ważny element? Jak to się robi, jeżeli chodzi o uczenie nadzorowane? Większość elementów się skupia na ten moment, używając supervised learning, w szczególności jeżeli mówimy o zastosowaniu w praktyce, bo ta gałąź nienadzorowana dopiero się rozkręca.

My jako ludzie, ale także inne istoty (ożywione i nieożywione), musimy cały czas poruszać się w swoim środowisku i musimy nieustannie wchodzić z nim w interakcje. Wchodzenie w interakcje ze środowiskiem zazwyczaj polega na wchodzeniu w interakcje z różnymi obiektami w tym środowisku. Możemy to zrobić bezpośrednio, gdzie sami wchodzimy w interakcję z tymi obiektami (np. dotykamy ich, przesuwamy) bądź możemy używać do tego narzędzi.

Użycie narzędzi jest to używanie innych obiektów do manipulowania otoczeniem. Żeby to było możliwe i żeby tak naprawdę życie było możliwe, musimy zrozumieć, co znajduje się w naszym otoczeniu. Musimy być w stanie wykryć obiekty, opisać je. Nie musi to być świadome, natomiast musimy wiedzieć, jakie właściwości mają różne obiekty oraz jakie są relacje między nimi.

Na przykład: znamy prawa fizyki i wiemy, że jak coś zrzucimy ze stołu, to spadnie na ziemię, ale z drugiej strony oznacza to, że ten stół podpiera ten przedmiot, który na nim stoi. Używając relacji tego typu, możemy wykorzystywać obiekty w naszym otoczeniu jako narzędzia. Wtedy widząc np. banana wiszącego na drzewie, możemy wziąć krzesło bądź kamień, postawić go pod drzewem, wspiąć się i zerwać tego banana.

A propos tych relacji, chciałem moją obserwację dotyczącą tego, jak się uczymy. Obserwując najpierw synka teraz już bardziej córkę (która ma ponad roczek), zauważyłem, jak uczy się małe dziecko. Najpierw jest w miarę czysta karta i później np. jak moja córka upadła i uderzyła się o łóżko, to trochę ją zabolało.

Teraz jak próbuje położyć się na bok, to wie, że to może zaboleć, zamyka oczy i robi to bardziej delikatnie. Nauczyła się w ten sposób, że to boli. My jako ludzie bardzo często poznajemy ten świat poprzez eksperymenty. Część z nich faktycznie musimy dokonać swoimi rękoma, a części się po prostu domyślamy. Znajdując pewne analogie i wzorce, nie musimy całego świata spróbować, żeby go poznać.

Nie poznamy go w całości, ale przynajmniej takie podstawowe rzeczy, które zdają się bardzo trywialne dla osoby dorosłej. Nie musimy ich wszystkich spróbować. Wiemy, że jak włożymy dwa palce do kontaktu, to kopnie nas prąd, a nie wszyscy to sprawdzili. To jest ciekawa rzecz, jak my jako ludzie uczymy się, jak wyciągamy te relacje. Nie mówię, że to jest kierunek, żeby zdefiniować inteligencję, ale to są powiązane punkt.

Obecne modele, w szczególności związane z uczeniem nadzorowanym, zupełnie nie rozumieją tej relacji. Potrafią jeszcze wykrywać w taki sposób statystyczny, że na danym zdjęciu jest coś (kot, pies itd.), ale nie potrafią zrozumieć, że kot będzie uciekał za chwilę, bo tutaj jest także pies.

W tym przypadku to bym powiedział, że to zależy od danych, jakich używamy do trenowania. Natomiast wydaje mi się, że to, co chciałeś powiedzieć to to, że dzisiejsze algorytmy uczą się wykrywać nie tyle związki przyczynowo-skutkowe, co zależności statystyczne. Dzisiaj to właśnie wykrywanie związków przyczynowo-skutkowych jest bardzo aktywnym obszarem badań. Bardzo wiele publikacji powstaje właśnie w tej dziedzinie.

W 2016 r. naukowcy z DeepMind opublikowali pracę o tzw. AIR (Attend-Infer-Repeat), która przykuła Twoją uwagę. Zresztą też napisałeś potem swoją własną implementację tego algorytmu, który jest dostępny na GitHubie. Później to na tyle Cię zainspirowało, że napisałeś swoją publikację z tzw. sequential. Wyjaśnij troszkę bardziej kontekst – czym jest AIR? Jakie ma wady?

AIR reprezentuje bardzo dużą część moich zainteresowań sztuczną inteligencją i inteligencją jako taką. AIR jest to stochastyczny model, który potrafi opisać różne obrazki, różną ilością zmiennych. Oznacza to, że jeżeli mamy bardzo prosty obrazek np. jabłko na stole, możemy taki obrazek opisać tylko jedną zmienną, która w tym przypadku będzie opisywała to jabłko. Natomiast jeżeli mamy bardziej skomplikowaną scenę, możemy użyć większej ilości zmiennych, gdzie każda z nich będzie opisywała inny element tej sceny.

Jest to fajne, ponieważ pozwala nam to skompresować zdjęcia do rozmiaru, który odpowiada ilości elementów na tym zdjęciu, czyli bardziej skomplikowane zdjęcie, będzie opisane większą ilością zmiennych. Inną równie ciekawą rzeczą jest to, że każda zmienna będzie opisywała inny przedmiot na tym zdjęciu. Jest to ciekawe dlatego, że AIR jest elementem, który uczy się bez nauczyciela.

Żeby opisać różne przedmioty różnymi zmiennymi, AIR musi nauczyć się wykrywać te przedmioty, wyizolować je z tego zdjęcia i opisać. Co ciekawe, w odróżnieniu od innych modeli, które wykrywają obiekty, AIR opisuje obiekt, nie tylko opisując jego położenie na zdjęciu (czyli współrzędne x, y i rozmiary), ale również daje nam wektor, który opisuje bardzo dokładnie wygląd tego obiektu.

Tego typu reprezentacja (tzn. reprezentacja zdjęcia złożona z wielu zmiennych, opisujących różne elementy na nim), pozwala nam wnioskować relacje pomiędzy obiektami na tym zdjęciu i odpowiadać na często dosyć skomplikowane pytania (o to zdjęcie, o przedmioty na nim).

Authors: S. M. Ali Eslami, Nicolas Heess, Theophane Weber, Yuval Tassa, Koray Kavukcuoglu, Geoffrey E. Hinton – Paper , Overview

Brzmi to ciekawie, prawie tak, jakby działa się jakaś magia, że nie mówimy modelowi, co jest na tym zdjęciu, a on sam potrafi się domyślić, zbadać lokalizację tych przedmiotów, a przy okazji reprezentację wektorową. Innymi słowy – jak mam zdjęcie, a którym jest stół, na nim klocki, to on jest w stanie wychwycić te poszczególne klocki i je przenieść, bo może robić różne manipulacje matematyczne, również geometryczne. Prawda?

Tak, to prawda. Niestety ten model ma też sporo wad. Jedną z nich jest to, że ten model działa tylko na bardzo prostych zdjęciach, reprezentujących bardzo proste sceny np. obiekty leżące na stole, cyferki na czarnym tle. Niestety on nie działa z bardziej skomplikowanymi scenami. Natomiast w tej chwili są już publikacje, które prezentują rozszerzenia tego modelu, które są w stanie działać na dosyć skomplikowanych scenach.

Jest też trochę problemów technicznych z jego implementacją. Sam model zawiera wiele komponentów. Trudnością techniczną jest to, że różna ilość zmiennych do opisu różnych wejść (czy obrazków) oznacza, że musimy podjąć decyzję w pewnym momencie, ile tych zmiennych ma być.

Decyzja ta jest związana z pracą z dyskretnym rozkładem prawdopodobieństwa. Obliczanie gradientów pochodnych w rozkładach dyskretnych jest dosyć trudne i wymaga dużej ilości plików. Da się to zrobić, natomiast trenowanie takich modeli jest dużo droższe i niestety te modele nie skalują się tak dobrze do dużych danych.

Powiedziałeś też o kolejnych publikacjach, które te wady częściowo naprawiają. Skupmy się teraz na Twojej publikacji, czyli SQAIR (Sequential Attend, Infer, Repeat). Co udało się osiągnąć? Co udało się naprawić z tej poprzedniej inspiracji, jeśli chodzi o pierwotny model AIR?

Po pierwsze AIR jest modelem, który działa na poszczególnych zdjęciach. Jeżeli użyjemy AIR do opisania zdjęcia kilkoma zmiennymi, dostaniemy zmienne, opisujące różne obiekty. Wszystko fajnie, ale teraz jeżeli mamy wideo i zastosujemy ten model do następnej klatki tego filmu, chcielibyśmy mieć zmienne, które znowu opisują te same obiekty i faktycznie AIR może nam to dać. Niestety nie będziemy mieli żadnego prostego sposobu, żeby powiązać zmienne z jednej klatki do zmiennych z następnej.

Nie będziemy wiedzieli, które zmienne przyporządkować do tego samego obiektu. Jeżeli interesuje nas jakiś konkretny obiekt i chcemy wiedzieć, gdzie on się znajduje, jak się porusza, jak się zachowuje, jakie ma relacje w stosunku do innych obiektów widocznych na filmie, niestety AIR nie będzie nam w stanie tego dać.

Po drugie ponieważ AIR pracuje ze zdjęciami, rozkład tego zdjęcia na różne obiekty jest niejednoznaczny, tzn. jeżeli mamy skomplikowany obiekt (nawet człowieka), AIR może rozbić go np. na nogi i tors, ale też może rozbić człowieka na pół, gdzie jedna zmienna będzie opisywała jedną nogę i jedną rękę, a druga będzie opisywała drugą nogę i drugą rękę.

To dlatego że ten rozkład jest dokonywany tylko i wyłącznie na podstawie pikseli, na podstawie jednego zdjęcia. Jeżeli mielibyśmy algorytm, który działa bezpośrednio na video, moglibyśmy wziąć pod uwagę, które części zdjęcia poruszają się razem, a które nie. Biorąc to pod uwagę, moglibyśmy zaklasyfikować człowieka jako jeden obiekt i wtedy reprezentować go, używając tylko jednej zmiennej, która faktycznie wyrazi, jak ten obiekt zmienia się w czasie na różnych klatkach video.

W SQAIR również dostajemy zmienne, które opisują ten sam obiekt w różnych punktach czasu. Możemy tego użyć do śledzenia obiektów.

Co udało nam się osiągnąć? Udało nam się to zastosować do wideo nagranych na kampusie uniwersyteckim, gdzie nauczyliśmy się wykrywać i śledzić ludzi. Udało nam się zrobić to bez nadzoru człowieka, co do tej pory nie było możliwe.

Grafika podchodzi z artykułu: „Sequential Attend, Infer, Repeat: GenerativeModelling of Moving Objects „, którego Adam Kosiorek jest współautorem.

Tam jeszcze jest jedna rzecz, o której nie wspomniałeś, a mnie to też zaciekawiło w tej publikacji. Mam na myśli przewidywanie, czyli z jednej strony obserwowanie tych zmian w czasie rzeczywistym (że jakiś obiekt się porusza), ale również prognozowanie co będzie dalej. Czyli człowiek jest tam gdzie jest, ale za chwilę pójdzie w zupełnie inną stronę.

Tak, możemy również przewidywać przyszłość. Co ciekawe, ponieważ jest to model stochastyczny (czyli losowy), możemy przybliżyć wiele różnych przyszłości. Dzięki temu, możemy przewidzieć różne rozwiązania. Może to być bardzo istotne, np. w przypadku samojeżdżących samochodów, które muszą podejmować decyzje konserwatywne tak, żeby np. nie wpaść na pieszego. W takim przypadku, jeżeli możemy przewidzieć różne ścieżki, którymi pieszy może się poruszać w przyszłości, możemy mieć samochód, który będzie bardzo bezpieczny.

No właśnie, to już jest bardziej rzeczywiste, że ten świat może mieć wiele scenariuszy i ważne jest, aby umiejętnie się przygotować przynajmniej do części z nich. Uwiarygodni to rozwiązanie na większą skalę.

Zmienię temat i przybliżę się do Twojej ostatniej publikacji (przynajmniej z tych, które są publicznie dostępne, bo nie wiem nad czym jeszcze pracujesz teraz). W roku 2017 Hinton wraz ze swoim zespołem przedstawił światu tzw. capsule networks. Hinton jest słynny z tego, że bardzo mocno krytykuje CNN, czyli sieci konwolucyjne argumentując, że to ma swoje ograniczenia.

Akurat te argumenty, których używa, faktycznie przemawiają do mnie. Ciężko to nazwać inteligencją, to bardziej na poziomie statystyki. Zgaduje pewne rzeczy i dość często trafia. Teraz proszę wyjaśnij, czym są capsule networks. Do czego mogą być przydatne? Czy to działa?

Zacznę od ostatniego pytania, czy to działa? Nie, niestety nie, ale cel jest godny podziwu i być może pewnego dnia zaczną działać. Capsule networks (po polsku byłaby to sieć kapsułkowa) mógłbym przedstawić z kilku punktów widzenia. Jeden z ciekawszych jest ten, że sieci neuronowe w tej chwili działają na podstawie poszczególnych neuronów.

Każdy neuron jest to wartość skalarna, czyli po prostu jedna liczba. Natomiast w capsule networks, jeden neuron jest małym wektorem, który opisuje jakiś obiekt bądź jakąś abstrakcję.

Wróćmy na chwilę do CNN. Convolutional Neural Network działa, ponieważ to, co mamy na wejściu, nie zależy od translacji, tego co dajemy na wejściu. Jeżeli mamy np. zdjęcie i zastosujemy CNN na nim, to jeżeli przesuniemy to zdjęcie, przesunie się również wyjście. Po angielsku mówimy, że CNN są translation equivalent, gdzie translation jest jednym z wielu stopni swobody, w stosunku do których zmiany chcielibyśmy modelować w ten sposób.

Inne stopnie swobody tego typu, to jest np. skala, czyli powiększanie, zmniejszanie obiektów bądź rotacja, czyli obserwator monitoruje przedmiot z innego punktu widzenia itd. CNN tego niestety nie robią, choć ostatnio pojawiają się publikacje, które dają tego typu możliwości. Natomiast są one bardzo skomplikowane matematycznie.

Główną ideą capsule networks jest to, że obiekt, skomplikowany przedmiot jest złożony z części. Relacje geometryczne pomiędzy tym obiektem a jego częściami, są niezależne od punktu widzenia obserwatora. Jeżeli powiedzmy, moja ręka jest przesunięta w jakiś sposób względem mojego środka ciężkości, to to przesunięcie nie zależy od tego, z którego punktu ktoś na mnie patrzy.

Jest to prawdą, tylko jeżeli weźmiemy pod uwagę geometrię trójwymiarową. Nie jest to natomiast prawda, jeżeli mówimy o dwuwymiarowych projekcjach, czyli zdjęciu. Jeżeli przyjmiemy to założenie, że obiekt składa się z części i te relacje między obiektami a częściami obiektu nie zależą od pozycji obserwatora i jeżeli założymy, że części i ich pozycje są łatwiejsze do wykrycia niż całe skomplikowane obiekty, to mogąc wykryć te części na zdjęciu, powinniśmy być w stanie użyć informacji o tych częściach do wykrycia obiektu, z których te części się składają.

Jest to dosyć skomplikowane i nie wiem, czy jestem w stanie to wyrazić w kilku zdaniach.

Geoffrey Hinton – Capsule Networks , York University

Gdzieś tam pojawia się też ten element interpretacji, że rozkładamy sobie na czynniki pierwsze albo na jakieś mniejsze części i coś tam z tym robimy, pojawiają się wektory, które próbują te części opisywać. Pewien kontekst z tego wybrzmiał.

Dążę do tego, że pojawiła się Twoja najnowsza publikacja o nazwie „Stacked Capsule Autoencoders”, w której również Hinton brał udział (albo przynajmniej jest wpisany jako jeden z współautorów). Powiedz trochę więcej, co fajnego udało się osiągnąć tym razem?

Wydaje mi się, że pomysł kapsułek jest nieco zbyt skomplikowany, żeby mógł działać. Natomiast to, co mnie zainteresowało to to, że kapsułki wykorzystują tzw. routing, czyli mamy części i obiekty. Części powinny w pewnym sensie zagłosować na niektóre obiekty. Powoduje to, że potrzebujemy znaleźć ścieżkę, którą informacje powinny popłynąć w takiej sieci neuronowej. Jest to podobne do modelu, który ostatnio stał się popularny w przetwarzaniu języka naturalnego – transformer.

Ja byłem zainteresowany tymi dwoma związkami. Tak się zdarzyło, że akurat byłem na konferencji w Montrealu, gdzie wpadłem na Hintona. Hinton zaprosił mnie na staż do niego do labu. Tak powstało Capsule autoencoders. To, co staraliśmy się osiągnąć, to sieć neuronowa, która byłaby nieco bardziej elastyczna niż oryginalne kapsułki dlatego, że oryginalne kapsułki są bardzo skomplikowane pod względem całej używanej maszynerii.

Grafika pochodzi z publikacji: „Stacked Capsule Autoencoders „, której współautorem jest Adam Kosiorek.

Chcieliśmy mieć model, który pozwoli nam nauczyć się interpretacji wejścia w taki sposób, żeby ta interpretacja dała nam wektory, które przestrzegają pewnych praw. Chcieliśmy mieć takie wektory, które będziemy mogli komponować ze sobą w sposób geometryczny. Trochę tak jak relacje pomiędzy obiektami i ich częściami oraz wektory, które będzie można transformować, używając geometrii trójwymiarowej.

W związku z tym, wzięliśmy sieć neuronową bardzo podobną do kapsułek, natomiast zrobiliśmy ją nieco w drugą stronę.

Kapsułki wcześniej szły od obrazka do wektora prawdopodobieństw przynależności tego obrazka do różnych klas i były wykorzystywane do klasyfikacji obiektów. My zaś odwróciliśmy tę kapsułkę tak, że mogliśmy zacząć od opisu obiektu i mając go, mogliśmy wykorzystać maszynerię podobną do tej, która była w kapsułkach, do wygenerowania obrazka tego obiektu, rozkładając obiekt na różne części i później mapując je bezpośrednio do małych obrazków.

Robiąc to, mogliśmy wziąć tak naprawdę byle jaką sieć neuronową, która mogła się nauczyć reprezentacji oczekiwanych przez nasz dekoder. W związku z tym, otrzymaliśmy model, który uczył się opisywać obrazki bez nauczyciela, gdzie ta reprezentacja, wyuczona przez ten model, przestrzegała zasady geometrii trójwymiarowej.

Grafika pochodzi z publikacji: „Stacked Capsule Autoencoders „, której współautorem jest Adam Kosiorek.

Zostawiłem sobie na koniec jeszcze dwa pytania praktyczne, które myślę, że będą bardzo przydatne dla osób, które po pierwsze – pracują z uczeniem maszynowym, eksperymentują, a po drugie – zamierzają zbudować wokół tego swoją karierę.

Pierwsze pytanie dotyczy eksperymentów w uczeniu maszynowym, bo tego robisz sporo i zresztą jak wspomniałeś w poście na swoim blogu: z czasem jak się robi takie eksperymenty, to człowiek zaczyna się gubić, bo jest dużo wymiarów zmienności. Tutaj z jednej strony są różne dane, parametry, modele i w tym wszystkim można bardzo łatwo się pogubić.

Są pewne biblioteki, które próbują ten problem rozwiązać, ale też zacząłeś implementować swoją własną o nazwie Forge. Pojawiła się ona jakiś czas temu, ale sprawdzałem, że ostatni update był chyba 2 miesiące temu. Dlaczego w ogóle się zdecydowałeś napisać swoją bibliotekę? Co ona robi lepiej? Czy zamierzasz ją rozwijać dalej? Czy używasz jej we własnych projektach? Komu może być przydatna?

Eksperymenty w uczeniu maszynowym dosyć często przysparzają trudności:

związanych z zapisywaniem rezultatów generowanych przez eksperymenty,
zapisywaniem parametrów użytych do przeprowadzenia tych eksperymentów,
zapisywaniem różnych pośrednich rezultatów z tych eksperymentów,
zapisywaniem dokładnego stanu kodu, który został użyty do puszczania tych eksperymentów.

To wszystko powoduje, że czasami po tygodniu, czasami po miesiącu regularnego puszczania eksperymentów w nowym projekcie zostajemy ze stosem plików, który jest bardzo ciężki do obsługi, do jakiekolwiek interpretacji i bardzo ciężko się połapać, co jest gdzie oraz jak odtworzyć jakieś rezultaty.

W związku z tym, od kiedy zacząłem swój doktorat, zacząłem budować narzędzia, które pozwalają mi te wszystkie procesy ułatwić, uprzyjemnić. Są to narzędzia, które zacząłem używać ponownie w kolejnych projektach. Natomiast zazwyczaj to używanie ponowne sprowadzało się do tego, że kopiowałem część kodu z poprzedniego projektu do następnego. Niestety nie jest to skalowalne i z każdym projektem tych narzędzi było coraz więcej.

Cały proces zajmował coraz więcej czasu. Powodował, że miałem kilka różnych wersji tych narzędzi itd. W pewnym momencie postanowiłem napisać małą biblioteczkę, nazwałem ją Forge, która zawiera te wszystkie narzędzia.

Niestety nie ma na rynku narzędzia, które byłoby na tyle lekkie, na ile chciałem, a jednocześnie żeby było na tyle elastyczne i pozwalało użytkownikowi zrobić to, co tak naprawdę chce.

Tak powstał Forge. Działa z różnymi frameworkami. Forge pozwala zapisać rezultaty, wszystkie zmiany w kodzie, parametry użyte do przeprowadzania danego eksperymentu. Gdy już mamy wytrenowany model, Forge pozwala w bardzo łatwy i przyjemny sposób uruchomić taki model, żeby sprawdzić, jak się zachowuje.

A komu polecasz? Jest to narzędzie dla osób, które zajmują się podobnymi rzeczami, które Ty robisz, czyli badaniami?

Tak, to jest głównie do badań. Wydaje mi się, że tego typu biblioteka w zasadzie nie ma zastosowania w produkcji.

Ciekawy jestem, takiego łańcucha wydarzeń. Najpierw była publikacja AIR stworzona z naukowcami z DeepMind. Zainteresowałeś się tą publikacją, zbadałeś, zaimplementowałeś ten kod, który był w niej pisany. Później pojawił się SQAIR, gdzie ta publikacja była całkiem udana i pojawiła się na konferencji NIPS (czyli już wyżej się nie da “skoczyć”).

Teraz pracujesz w DeepMind i tutaj nasuwają się pewne pytania. Czy ten łańcuch, o którym teraz powiedziałem, ma ciąg wydarzeń przyczynowo-skutkowy? Czyli jedno zdarzenie wpłynęło na drugie? Jeżeli tak, czy to był przypadek losowy, czy to jest jakiś plan, który sobie wymyśliłeś i tak budujesz swoją karierę?

Dlaczego o to pytam? Teraz pewnie też nas czytają młodsze osoby, które są przed wyborami życiowymi typu, czy zrobić doktorat, w jaki sposób się dostać do DeepMind. Być może to będzie podpowiedź dla nich. Jak to było u Ciebie?

Nie ukrywam, że ja DeepMindem zainteresowałem się przynajmniej dwa lata wcześniej, zanim zacząłem swój doktorat w 2016 r. Wydaje mi się, że pierwsze publikacje DeepMind zacząłem czytać w 2013 r. W zasadzie od samego początku moim marzeniem było, żeby dostać się do DeepMind. Głównie dlatego, że publikacje, które DeepMind wtedy wypuszczał, były bardzo bliskie moim zainteresowaniom.

Gdy pojawił się AIR, był on również bardzo bliski moim zainteresowaniom i dlatego chciałem nad nim pracować. Natomiast nie wyobrażałem sobie, że praca nad tym przybliży mnie do DeepMind w jakiś sposób. Jak się okazało, bezpośrednią konsekwencją tego, że zaimplementowałem i wypuściłem tę implementację na moim GitHubie było to, że autor tej publikacji zauważył ją i polecił mnie wewnętrznie na staż.

Dzięki temu, po pierwszym roku mojego doktoratu dostałem się na staż do DeepMind. Owocem stażu była oferta powrotu jako pełnoetatowy Research Scientist. Tak, ciąg przyczynowo-skutkowy jest tutaj bardzo wyraźny.

Nie wiem, czy w tej chwili implementacja publikacji DeepMind jest dobrą drogą dostania pracy w tej firmie. DeepMind się bardzo rozrósł i nie zatrudnia aż tyle osób, ile zatrudniał wcześniej, w związku z czym dostanie się może być trudniejsze.

Natomiast jeżeli ktoś jest zainteresowany publikacjami, bardzo polecam implementację publikacji naukowych od zera, bo uważam, że jest to jeden z najlepszych sposobów uczenia się i zdobywania doświadczenia w tym, jak tego typu projekty tworzyć, jak implementować modele uczenia maszynowego, co jest w nich tak naprawdę ważne. Tylko w ten sposób możesz zobaczyć, jak trudne to czasami może być.

A także jak często nie da się powtórzyć tego, co jest napisane w publikacji. Zresztą Andrew Ng zawsze mówi, że jak chcesz się rozwinąć, to bierz pierwszą lepszą publikację i spróbuj to powtórzyć. Często niestety jest tak, że to nie jest takie łatwe. Wynika to z różnych aspektów. Z jednej strony osobie, która próbuje to powtórzyć, brakuje umiejętności albo to, co jest w publikacji, nie zawsze jest powtarzalne, bo wynik jest w pewien sposób nakręcony.

Z tym, że jest nakręcony, w większości przypadków polega na tym, że autor publikacji uzyskał jakiś wynik przypadkowo. Część z tych modeli działa nieco losowo i niektóre wyniki są po prostu wyższe od innych. Nie przypisywał bym temu chęci oszukiwania, natomiast to też się na pewno zdarza.

Dobrze, że to podkreśliłeś. Tutaj miałem na myśli to, że często problemem jest oszacowanie na ile osiągnięty wynik nie jest przypadkowy. To jest jedno z wyzwań, z którym się mierzymy w uczeniu maszynowym.

Bardzo dziękuję Adamie, że znalazłeś czas, żeby podzielić się swoim doświadczeniem i opowiedzieć o tym, czym się zajmujesz. Życzę Ci, żeby udało Ci się zrozumieć, czym jest inteligencja i ją zaimplementować.

Dziękuję bardzo Vladimir. Trzymaj się w tych dziwnych czasach.

Jeżeli chcesz coś osiągnąć, to naprawdę warto eksperymentować. Adam mówiąc o swojej drodze do DeepMind zaznaczył, że chciał tam się dostać, ale nie do końca wiedział którą ścieżką. Eksperymentował i próbował znaleźć otwarte drzwi, żeby ktoś go zauważył i zaprosił do środka.

Nie zawsze da się ten proces zaplanować w 100%, zwykle w ogóle nie da się go zaplanować. Z drugiej strony, kiedy zaczynasz działać, eksperymentować, to nagle zauważasz, że któreś podejście zaczyna funkcjonować i świat naprawdę potrafi zaskoczyć tym, jak zareaguje na nasze działania.

Życzę Ci dużo zdrowia przede wszystkim, ale również eksperymentuj, próbuj nowych rzeczy po to, żeby znaleźć to, co naprawdę potrafi Cię pozytywnie zaskoczyć.

Artykuł Uczenie nienadzorowane oczami naukowca z DeepMind pochodzi z serwisu Biznes Myśli.

Prowadzący naukowiec z DeepMind o rozwoju sztucznej inteligencji

Vladimir — Mon, 05 Nov 2018 04:00:17 +0000

W tym odcinku dowiesz się:

Czym zajmuje się Janusz Marecki oraz jak działa DeepMind?
Co Januszowi udało się osiągnąć pracując w IBM Research
Czym są problemy w całości obserwowalne?
Jakie są przeszkody w procesie konstrukcji sztucznego mózgu?
Czym jest system wieloagentowy (multi-agents system)?
Jaką wartość biznesową możesz uzyskać wdrażając system wieloagentowy do swojej firmy?
Czym jest efektywność Pareto?
Na czym polega „dylemat więźnia” oraz „dylemat społeczny”?
Jak problemy sztucznej inteligencji przekładają się na otaczającą nas rzeczywistość?
Czy w przyszłości będziemy w stanie kontrolować sztuczną inteligencję?
Czym dokładnie jest AGI oraz czy jesteśmy w stanie go osiągnąć?
W jak szybkim tempie technika posuwa się do przodu?
Jakich błędów unikać podczas wyciągania wniosków z „udanych” eksperymentów?
Które dziedziny nauki lub medycyny rozwiną się najbardziej w ciągu kolejnych 5-10 lat?

Na początek szybkie ogłoszenie. Pewnie jak już wiesz, 29 października ruszył mój autorski kurs praktycznego uczenia maszynowego. Natomiast 12 listopada, rusza już drugi, też autorski kurs online w 100%: “Praktyczne prognozy szeregów czasowych”. Czym są szeregi czasowe, opowiedziałem w odcinku 39, który nosi tytuł: “10 przykładów jak uczenie maszynowe może pomóc Twojemu biznesowi”. W skrócie chodziło o to: jeżeli chcesz się nauczyć robić prognozy, na przykład popytu, różnych wartości i innych wymiernych czynników w czasie, to bardzo gorąco Cię zapraszam na ten kurs, gdyż może okazać się, że nagle jesteś w stanie zoptymalizować swój biznes i przedstawić wymierne korzyści, dlaczego uczenie maszynowe działa. To tyle jeśli chodzi o ogłoszenie.

Tu możesz zobaczyć kawałek nagrania z kursu…

Teraz przechodzimy do dzisiejszego gościa, którym jest Janusz Marecki. Pracuje on w DeepMind. Wcześniej pracował w IBM, bardzo ciekawa osoba, z bardzo fajnym, przyjacielskim podejściem do życia. Kiedy już go lepiej poznasz, to bardzo przyjemnie się z nim współpracuje. Osobom, które mniej siedzą w temacie może się wydawać, że Janusz posiada czasem kontrowersyjne poglądy. Z drugiej strony jest to spojrzenie pragmatyczne. Tak, jak to widzi naukowiec pracujący w DeepMind.

Cześć Janusz, przedstaw się: kim jesteś, czym się zajmujesz, gdzie mieszkasz?

Obecnie mieszkam w Londynie. Przedtem mieszkałem przez 10 lat w Stanach Zjednoczonych, w Nowym Jorku i w Los Angeles. Jestem naukowcem prowadzącym w DeepMind. To jest taki startup, który wyrósł już do ponad 1000 ludzi. Jest on częścią Google.

Słyszeliśmy o tym startupie :). A powiedz, co ostatnio ciekawego przeczytałeś?

Ostatnio natknąłem się na taką ciekawą książkę jednego ze słynnych naukowców z dziedziny sztucznej inteligencji, autorstwa Judea Pearl. To była książka zatytułowana “The Book of Why”. W tej książce autor podaje swoje doświadczenia przez całe życie kariery naukowej i argumentował dlaczego powinniśmy budować systemy sztucznej inteligencji, które rozumują nie tylko na podstawie danych. Czyli żeby ten system miał wbudowany algorytm rozumowania a nie tylko żeby próbował z danych te algorytmy wywnioskować. Bardzo ciekawa książka, dość obszerna. Jeszcze jej nie skończyłem, ale polecam.

Akurat tej książki jeszcze nie przeczytałem, ale też mam ją na uwadze. Czytałem o niej artykuł. W ogóle, autor tej książki jest bardzo ciekawą osobą i cała jego biografia też jest inspirująca.

Już wspomniałeś, że mieszkałeś przedtem w New Yorku, Los Angeles i pracowałeś w IBM Watson Research. Domyślam się, że przez 7 lat kiedy tam pracowałeś udało się zrobić wiele ciekawych rzeczy. Widziałem, że między innymi napisałeś książkę Allocation of Continuous Resources in Agent Systems. Proszę, powiedz coś więcej. Co udało się stworzyć właśnie pracując w IBM Research? Oczywiście tyle na ile możesz.

Miałem bardzo fajną okazję pracować z bardzo ciekawymi ludźmi. Jedną z osób z którymi między innymi tam pracowałem był Murray Campbell. Był on szefem tego zespołu Deep Blue, który grał z Kasparowem w szachy. Podobnie, miałem szansę jeszcze pracować z Gerry Tesauro. Jest on jednym z ojców sztucznej inteligencji, gdyż jako pierwszy w 1994 roku zaproponował taki system, mianowicie sieć neuronową, która sama nauczyła się grając ze sobą, grać w Backgammon na poziomie lepszym niż najlepszy człowiek. Te doświadczenia były o tyle ciekawe, że ci właśnie ludzie skierowali mnie na pewną taką dziedzinę. Czym się zajmować, czym się nie zajmować.

Na przykład Murray powiedział, żeby się już nie zajmować systemami, które są tak zwane “complete information problems” czyli w całości obserwowalne. Na przykład gra w szachy jest czymś takim. To, co widzimy na szachownicy, na podstawie tego podejmujemy optymalne decyzje, bo tego typu problemy, jak on już kiedyś sugerował będą rozwiązane, i widzieliśmy to na przykład w DeepMindzie kiedy nasz system wygrał w jeszcze trudniejszą grę “Go” z mistrzem świata. Podobnie Gerry powiedział mi żeby się nie zajmować systemami, które są “model free”, czyli bez modelu, ponieważ są to rzeczy, które już teraz da się zrobić przez co to nie będzie przyszłościowe.

Tych właśnie dwóch naukowców skierowało mnie na taką fajną drogę, żeby zajmować się problemami, które są tylko częściowo obserwowalne i żeby się uczyć modelu. Właśnie dlatego zacząłem wtedy pracować nad modelami sztucznego mózgu. To są bardzo ciekawe modele, które wywodzą się z zupełnie nowego podejścia w AI i tym się bawiłem przez przez wiele, wiele lat. Byliśmy finansowani przez Department of Homeland Security. Bardzo dobrze ten czas wspominam, a już szczególnie to, że Ci sławni ludzie z AI powiedzieli mi czym się warto zajmować, więc od tego czasu przez ostatnie 10 lat zajmuje się taką generalną sztuczną inteligencją, która zakłada, że musimy nauczyć się modelu świata, że zajmujemy się problemami które są tylko częściowo obserwowalne, i tak dalej. Bardzo ciekawe rzeczy.

Sztuczna inteligencja sama w sobie jest popularnym hasłem. Sztuczny mózg, chyba niekoniecznie. Czy mógłbyś troszkę dodać, co chciałeś osiągnąć stwarzając sztuczny mózg? Jak to próbowałeś sam sobie tłumaczyć?

Jest to o tyle ciekawe, że obecnie jeśli ludzie używają tego “termu” sztuczna inteligencja – AI, to prawie zawsze mają na myśli sztuczne sieci neuronowe. Nawet nie biologiczne, ale sztuczne sieci neuronowe, które są pewnego rodzaju aproksymatorami funkcji. To jest fantastyczne narzędzie, które nadaje się do wielu problemów. Natomiast to co teraz właśnie opisuję w mojej publikacji która będzie za niedługo dostępna to jest to, że to narzędzie niestety ma pewne ograniczenia w przypadku, gdy próbujemy je stosować do rozwiązania problemu generalnej sztucznej inteligencji.

Oczywiście, nie każdy naukowiec się z każdym zgadza, więc są naukowcy którzy uważają, że wszystko rozwiążemy sieciami neuronowymi. Ja uważam, że nie dlatego że są właśnie te ograniczenia i te ograniczenia próbuję już od ponad 10 lat rozwiązać właśnie przy pomocy sztucznego mózgu, który tak naprawdę wzoruje się na cortexie (korze mózgowej) człowieka. Więc są to bardzo zaawansowane badania, ale tak jak wspomniałeś, one nie są mainstreamowe. Aktualnie, jeśli chodzi o badania mainstreamowe mamy do czynienia ze sztucznymi sieciami neuronowymi. One są bardzo popularne, więc budowanie sztucznego mózgu to jest rzecz na następne 5-10 lat, ale nie na jutro.

Brzmi to bardzo interesująco. Wspomniałeś, że jesteś prowadzącym naukowcem w DeepMind i pracujesz już od ponad 3 lat. Powiedz w skrócie, czym się zajmujesz?

W DeepMindzie zajmuję się między innymi systemami wieloagentowymi. Ciekawą rzeczą jest to, że nawet jak znajdziemy kiedyś rozwiązanie do generalnej sztucznej inteligencji, to podejrzewam, że będziemy mieli wielu takich właśnie agentów, którzy będą ze sobą współegzystować. Pojawia się pytanie, co należy zrobić, żeby ci agenci którzy mogą mieć o wiele większą zdolność rozumowania, planowania, i tak dalej, w jaki sposób mają oni ze sobą współdziałać? Czy to będą takie egoistyczne jednostki, tacy “dyktatorzy”, którzy wszystko przejmą, czy też stworzymy takie jakby środowisko, takie society agentów. To czym się próbuję zajmować w DeepMindzie, to z jednej strony właśnie próba zbudowania tego, tak zwanego master algorithm, czyli, tak zwanej sztucznej inteligencji na podstawie sztucznego mózgu, a drugą rzeczą jest, co zrobić żeby ci agenci którzy już są inteligentni mogli ze sobą współegzystować. Nie jest trywialne zagadnienie. Mamy na ten temat kilka ciekawych publikacji.

Kilka pytań mi od razu przyszło do głowy, ale może najpierw wyjaśnijmy czym jest system wieloagentowy, ang. (multi-agents system). Co to takiego jest?

Spróbuję podać przykład. Weźmiesz system, który rozwiązuje równania liniowe. To jest system jednoagentowy. Jest to jeden agent, algorytm, który rozwiązuje układ wielu równań i on ma dostęp do wszystkich możliwych danych. Komunikuje się sam ze sobą i sam rozwiązuje dany problem. W systemie wieloagentowym mamy do czynienia z rozproszeniem danych. Dane należą prywatnie do agentów z rozproszenia tego systemu, który rozumuje pomiędzy danymi i to samo rozwiązanie w sobie nie musi być skupione. One może też być rozproszone. Dobrym przykładem jest mrowisko. Kiedy mamy mrowisko w którym są dziesiątki tysięcy mrówek to jest to system wieloagentowy, ponieważ tam nie ma centralnego mózgu. Tam indywidualni agenci, (w tym przypadku to są właśnie te mrówki) podejmują lokalnie jakieś decyzję.

Na podstawie lokalnej obserwacji wymieniają się informacją na podstawie powiedzmy feromonów. które zostawiają na ziemi, a rezultatem tego są niesamowite konstrukcje, takie jak na przykład mrowisko. To jest właśnie ten rezultat systemu agentowego, który jest możliwy do stworzenia tylko jak mamy całą populację agentów. Co jest ciekawe, w tej populacji każdy agent jest taki sam. Niesamowitą rzeczą jest to, że to nie jest tak, że to jest populacja powiedzmy dziesiątek typów agentów. W tym przypadku to jest populacja jednego typu agenta, ale tych agentów jest strasznie dużo. Czym to się różni? System scentralizowany ma scentralizowaną wiedzę i rozumowanie, natomiast system wieloagentowy ma zdecentralizowaną wiedzę i zdecentralizowane problemy decyzyjne, czy procesy decyzyjne w takim dużym skrócie.

Brzmi to ciekawie. A jaką wartość biznesową może dać używanie systemów wieloagentowych?

Podam może taki przykład którym zajmowaliśmy się jeszcze jak byłem na uniwersytecie w Stanach Zjednoczonych. Chodziło o rozwiązanie problemu harmonogramowania, to znaczy chodziło o to, żeby w danej grupie badawczej naukowcy mogli się dogadać i wspólnie ustalić kiedy będziemy mieli spotkanie. Wydaje się, że to jest taki prosty problem. Wcale nie jest taki prosty. Problem jest taki, że co jeśli nie każdy użytkownik chce każdemu powiedzieć kiedy będzie dostępny. Powiedzmy, że jest 10 osób i chcemy się umówić na jakieś spotkanie na godzinkę, ale to nie jest tak, że każdy z każdym wymienia kalendarze. Problemem jest koordynacja. Jak optymalnie zorganizować meeting, kiedy agenci czyli ludzie nie wymieniają się informacją, na przykład kiedy są dostępni a kiedy nie. Problem ten właśnie można rozwiązać z wykorzystaniem systemu wieloagentowego. W tym przypadku zastosowaliśmy systemy rozproszonej optymalizacji. To jest jeden z przykładów. Innym przykładem może być na przykład problem komiwojażera. Można go rozwiązać z wykorzystaniem algorytmu zwanego “Ant Colony Optimization”. Jest to algorytm, który mrówki stosują do optymalizacji znalezienia najkrótszej trasy między dwoma punktami. Kolejny system wieloagentowy i okazuje się, że można rozwiązać bardzo skomplikowane problemy takie jak, na przykład problem komiwojażera.

Pozwolę sobie teraz trochę zmienić temat, ale akurat to, co wytłumaczyłeś jest nam potrzebne aby pójść dalej. Czytałem Twoją publikację Multi-agent Reinforcement Learning in Sequential Social Dilemmas, która została opublikowana w roku 2017. Dla Ciebie pewnie to jest taka sprawa codzienna, ale żeby każdy zrozumiał, to musimy jeszcze kilka takich pojęć wyjaśnić. Pierwsza rzecz, czym jest efektywność Pareto, lub tak zwane Optimum Pareto. Mógłbyś nam to wytłumaczyć na kilku przykładach?

Można tutaj podać przykład lotu samolotem. Wyobraź sobie, że lecisz na wakacje i musisz się dostać z Krakowa do Tunezji, ale nie ma już lotu bezpośredniego. Są tylko loty, które mają jedną przesiadkę. Teraz, co jeśli się okaże, że jest jeden lot który leci przez jakieś miasto, powiedzmy przez Frankfurt i ten lot trwa 5 godzin
i kosztuje 1000$, a może się okazać, że jest inny lot, który odbywa się przez zupełnie inne miasto, kosztuje tyle samo i trwa dokładnie tyle samo. W tym przypadku mamy do czynienia z dwoma rozwiązaniami. Są to zupełnie różne rozwiązania, które mają taki sam czas i taką samą cenę. Możemy powiedzieć, że tego typu rozwiązania są Pareto optymalne. Można podać jeszcze troszeczkę inne przykłady. Ogólnie, chodzi tutaj o to, że na przykład w tym przypadku mamy dwa kryteria. Pierwszym z nich jest jak najtańszy lot, a drugi, jest jak najkrótszy lot.

Może się okazać, że mamy dwa rozwiązania. Jeden jest troszkę dłuższy, ale kosztuje mniej, a drugi jest krótszy, ale kosztuje więcej. Teraz pytanie. Które rozwiązanie jest optymalne dla nas. To jest właśnie ten problem, że są dwa rozwiązania i obydwa są optymalne w sensie, że jedno jest najtańsze a drugie jest najszybsze. To są dwa rozwiązania i nie możemy jednoznacznie powiedzieć, że jedno jest lepsze od drugiego. Obydwa są najlepsze w swojej dziedzinie, także są Pareto optymalne.

Na czym polega problem z teorii gier dylemat więźnia (lub uogólniona wersja dylemat społeczny)?

Kolokwialnie się na to mówi, że jest to jest taki problem jak nie być “nabranym w balona”, jak nie być wykiwanym. Posłużę się tutaj takim przykładem. Jeśli na przykład jeździmy pociągami gdzieś w Polsce to może się okazać, że jadąc w pociągu za który zapłaciłem znajdziemy kogoś kto za bilet nie zapłacił. Ten ktoś nie zapłacić, a tak samo przejedzie jak my. Może się okazać, że jak taki człowiek jest pojedynczy to wszystko będzie w porządku. Nikt nie chce być tym takim, jak to się mówi “nabranym w balona”, więc jak ja bym zauważył wiele takich ludzi, stwierdziłbym, po co mam płacić. Przestałbym płacić i też bym jeździł tym pociągiem na gapę, ale jeśliby się okazało, że większa ilości ludzi jeździłaby na gapę, to niestety ten pociąg by albo przestał jeździć, albo nie byłoby pieniędzy na kupienie nowych wagonów, i tak dalej.

Na tym polega ten problem więźnia. To znaczy tutaj mamy do czynienia z dwoma więźniami i optymalne rozwiązanie jest takie, żeby ci więźniowie współpracowali. Czyli w przypadku takiego przejazdu pociągiem optymalnym rozwiązaniem jest, żeby każdy płacił nie dużo za bilet. Natomiast drugim rozwiązaniem jest, że nikt nie płaci za bilet. To też jest rozwiązanie, ale wtedy obydwoje wychodzimy na nim jak najgorzej. Najgorsze jest to, podobnie jak w dylemacie więźnia, że przez to, że ludzie sobie nie ufają, nie ufają, że ten drugi człowiek zapłaci za bilet i przez tę ich nieufność też nie płacą. W idealnym świecie każdy by rzeczywiście płacił bardzo małą cenę i miał świetne pociągi, ale w praktyce tak nie jest ponieważ sobie nie ufamy i wybieramy tę opcję w której nie ufamy drugiemu człowiekowi, nie płacimy za bilet, nie ma w ogóle nowych wagonów w pociągu. Ja to mniej więcej tak rozumiem.

Powiedz troszkę więcej o regułach gry, które zastosowaliście w „gathering game”.

To była taka gra, w której agenci musieli zbierać jabłka. Sęk w tym, że nie mieli pojęcia, że mają do czynienia z jabłkami, więc tak naprawdę agenci byli zainteresowani zbieraniem zielonych kwadracików, które symbolizowały jabłka. Te kwadraciki, kiedy się je zjadło to się odnawiały. Te jabłka wirtualne wyrastały na nowo po jakimś czasie. W tej grze mieliśmy do czynienia z kilkoma agentami, którzy byli jednocześnie umieszczeni w danym środowisku i uczyli się jak w tym środowisku się zachować, żeby zmaksymalizować swoją funkcję w celu zjedzenia jak największej ilości jabłek. I takie były właśnie reguły. Problem jeszcze był taki, że te epizody w których ci agenci grali były ograniczone. Powiedzmy, że każdy epizod trwał 2 albo 3 minuty i teraz: jak się powinien zachować agent żeby w ciągu tych trzech minut skonsumował jak największą ilość jabłek. Co było ciekawe, agenci mogli też się eliminować z gry na jakiś czas. Mogli wykorzystywać tak zwany laser, przy pomocy którego jeśli dany agent został trafiony, to powiedzmy szedł do kąta na kilka sekund, czyli tracił czas podczas którego mógł zbierać jabłka. Na tym polegały reguły tej gry.

To jest właśnie esencja tego, dlaczego w ogóle zacząłem o tym mówić. Mi osobiście bardzo spodobały się wyniki. W przypadku jeżeli tych jabłuszek było wystarczająco dużo, to agenci stwierdzali w jakiś tam sposób, że w sumie się nie opłaca używać tego lasera i niższych cen konkurencji, bo po co? I tak jabłuszek jest wystarczająco dużo. Ale z drugiej strony, jak już zaczynało być ich mniej to zaczynali wtedy konkurować i o to walczyć. Mi od razu przypomniała się taka historia, która jakby z jednej strony jest zupełnie o czymś innym, ale przypomina ten sam kontekst.

Sytuacja miała miejsce w Krakowie. Pamiętam, jak stałem na przystanku i okazało się, że coś się popsuło. Przez pół godziny tramwaje nie jeździły, więc ludzi było coraz więcej, a sytuacja odbywała się rano, przed pracą, studiami. Po chwili tramwaj wreszcie przyjechał, ale jest pełny ludzi. W dodatku drugie tyle czekało na przystanku. Ci ludzie próbują tam wejść i zaczyna się tam dziać nieprzyjemne sytuacje. Krzyki, jakieś szarpaniny, i tak dalej. Ciekawostka tej historii była taka, że wystarczyło podejść trochę dalej, tam gdzie nie było tego zatoru, nie było korku i tam tramwaje kursowały normalnie. Nie ma tam tak dużego tłumu i ludzie są spokojni.

To dla mnie było takim zaskoczeniem Jeszcze 5 minut temu prawie każdy zachowywał się jak bardzo spokojny i uprzejmy człowiek, a wystarczyło troszkę skomplikować warunki dookoła żeby ludzie zaczęli się zachowywać agresywnie. I w waszym eksperymencie właśnie potwierdziło się coś podobnego. Dla mnie to była mega inspirujące, i pytanie: czy to oznacza, że to jest prawo natury? Czy po prostu tak działa nasz świat?

Wydaje mi się, że niestety takie właśnie jest prawo natury, ale z kolei nasz świat nie musi tak działać. Co przez to rozumiem? Chodzi tutaj o to, że można stworzyć pewne protokoły dzięki którym ludzie będą bardziej skłonni żeby, powiedzmy się ze sobą nie szarpać, ale żeby bardziej ze sobą współpracować. Więc te protokoły jak ja je rozumiem: na przykład, jak lecisz samolotem to często linie lotnicze sprzedają więcej biletów, niż jest miejsc w samolocie. Dlaczego to robią? Dlatego, że przeważnie ktoś się spóźnia na samolot, ktoś odwołuję lot i nie chcą żeby samoloty były puste. Ale na czym tutaj polega ta sytuacja tego protokołu? Na tym, że jeśli nie byłoby żadnego protokołu to ci pasażerowie czekający na samolot którzy by się nie dostali do samolotu prawdopodobnie by się pobili, prawda?

Ale właśnie w tym przypadku linie lotnicze już dawno wpadły na pomysł żeby wynagradzać tych pasażerów którzy odstępują swój bilet, czyli tych którzy zdecydują się, że poczekają na następny samolot. Kiedy kończyłem doktorat miałem taką sytuację. Właśnie byłem w Seattle, wracałem do Los Angeles, ale pisałem pracę doktorską i też się okazało, że samolot był w całości sprzedany. Nie było miejsca, więc zdecydowałem się odstąpić swój bilet, polecę późniejszym samolotem, popracuję trochę nad pracą doktorską. Okazało się, że dostałem za to darmowy lot na Alaskę na tydzień. Więc jeśli takie protokoły stworzymy w których agenci czy ludzie będą bardziej skłonni aby odstąpić to miejsce, to może się okazać, że nie będzie tej kłótni, albo ci którzy odstąpią, dostaną coś w zamian. Więc tak właśnie jest. Ty na przykład wspomniałeś, że czekałeś na następny tramwaj, więc też odstąpiłeś, poczekałaś, podszedłeś troszkę dalej na następny i w nagrodę był on pusty. Więc tego typu sytuacja. Wydaje mi się, że prawo natury już takie jest. Niestety ci ludzie będą agresywni, będą ze sobą walczyć. Natomiast jak te protokoły się dobrze stworzy, to będą mieli większą incentive, czyli większą, jak to się mówi skłonność do tego żeby nie być agresywni, żeby odstępować te rzeczy, bo dostaną coś w zamian.

Kiedy rozmawialiśmy o multi agentach to wspomniałeś, że idea jest taka aby nie doszło do sytuacji kiedy pojawia się jeden, taki sztuczny dyktator, tylko żeby jednak ci agenci współpracowali ze sobą. Zastanawiam się, czy ten protokół o którym teraz mówisz, czy w nim chodzi o aspekt wytworzenia się sztucznego społeczeństwa? Myślę, że tak mogę to nazwać. Czy ten protokół będzie dyktowany w tym przypadku? Czy też chodzi po prostu o ludzi. Czy jakoś to można przenieść na życie prostych ludzi?

Szczerze nie wiem, jak jest z tym protokołem. Fajnie go stworzyć jak mamy do czynienia z konkretnym problemem, na przykład problem przelotu samolotem i overbookingu. Natomiast jeśli chodzi o generalne podejście to jest troszkę trudniej. Mamy tutaj w DeepMind pewne bardzo ciekawe badania odnośnie protokołów dla agentów, którzy są wynagradzani, jeśli rozwiązania które oni proponują są bardziej egalitarne, czyli jeśli nie ma tej ogromnej różnicy pomiędzy bogactwem agentów, więc da się zmodyfikować tę funkcję celu, żeby agenci starali się taką strategię wybierać w której nie ma takiego ogromnego rozstrzału pomiędzy tym bogactwem agentów. Są oni w miarę równi, więc wydaje mi się, że jest możliwość zaproponowania takich agentów, którzy we własnej funkcji celu mają wbudowany taki system w którym są wynagradzani za to, żeby nie dochodziło do takich ogromnych różnic między dyktatorem a resztą. Oczywiście, da się tak to zmodyfikować. Jest możliwość stworzenia takiego systemu agentów, który będzie bardziej egalitarny, mniej dyktatorski. Natomiast czy ten system później się nie przeprogramuje? Tego już nie wiemy, ale da się stworzyć takie właśnie protokoły, które są bardziej generalne i prowadzą do agentów którzy są mniej skłonni aby być dyktatorami.

Wprowadziliście pojęcie “sequential social dilemmas”, wyjaśnij proszę co to jest?

W klasycznej teorii gier mamy do czynienia z taką matrycą gry. Jest taka jedna gra, w której agenci podejmują w tym samym czasie jedną decyzję i to wszystko. Natomiast to rzadko oddaje rzeczywistość. W rzeczywistości jest troszkę inaczej. Są agenci, którzy podejmują jedną decyzję która zmienia trochę środowisko. To prowadzi do nowej konfiguracji i agenci znowu podejmują jakąś decyzję. Potem następuje kolejny krok i kolejny. Powstaje cała sekwencja decyzji. Taka sekwencja jest o tyle ciekawa, że pierwsza decyzja niekoniecznie jeszcze mówi o tym czy ci agenci ze sobą współpracować, czy może ze sobą będą konkurować. Może się okazać, że dopiero przy setnej czy tysięcznej decyzji wychodzi na jaw, że ta strategia jest konkurencyjna. Dla przykładu mamy taki problem. Po angielsku mówi się na to tragedy of the commons, czyli tragedia wspólnoty.

Jest to taka ciekawa rzecz w której agenci mogą podjąć decyzje, że zbierają i zjadają jakieś zasoby. Cały czas wszystko jest dobrze. Nauczą się żeby zjadać zasoby i to będzie optymalna strategia, natomiast jak wprowadzimy sekwencyjność, to będziemy widzieli, że po jakimś czasie, jeśli powiedzmy przez 10 kolejnych epok, albo dni, albo miesięcy ci agenci cały czas zjadają wszystkie dostępne zasoby, to tych zasobów może zabraknąć w systemie.

Może ich być zbyt mało aby ten system się odnowił. Dla przykładu: mamy jakiś sad i w tym sadzie możemy zjadać wszystkie jabłka. Możemy na raz, w ciągu jednego dnia zjeść wszystkie jabłka. Wszyscy się świetnie najedzą, natomiast nie będzie możliwości żeby ten sad się odnowił. Wprowadzenie tej sekwencyjności pozwala nam na przeanalizowanie o wiele bardziej ciekawych problemów w których dopiero po którymś tam kroku zmienia się środowisko. To są bardzo ciekawe rzeczy i one są bardzo widoczne właśnie w naszym codziennym życiu, ponieważ jak weźmiemy taki problem więźnia, to niekoniecznie przekłada się on od razu na rzeczywistość. Natomiast taki sekwencyjny problem, czy powiedzmy ten tragedy of the commons, czy też problem szukania zasobów w danym środowisku, albo wspólnego polowania na kogoś, tego typu problemy powodują, że mamy do czynienia z sekwencyjnością, ale dalej interesujemy się takimi właśnie problemami społecznymi w których mamy sekwencję wydarzeń.

Kolejna rzecz, która przykuła moją uwagę, to jak badaliście jakie czynniki wpływają na to, że agenci chcą współpracować. Powiedz trochę więcej o wynikach tego badania.

Mieliśmy taką jedną grę która była nazywana “Stag-hunt”. To jest coś w stylu takiego wspólnego polowania. Tam, na przykład zauważyliśmy, że agenci którzy byli w środowisku w którym musieli znaleźć daną ofiarę i na nią polować szybko przekonali się, że pojedynczo ciężko jest zapędzić tę ofiarę do rogu mapy. Bardzo szybko się nauczyli, że muszą ze sobą współpracować, czyli musi być dwóch albo trzech agentów, którzy będą koordynować swoje ruchy tak, żeby zapędzić ofiarę czy jakąś owieczkę, czy jakiegoś innego agenta do rogu, i potem, powiedzmy go skonsumować, czy dostać jakąś nagrodę. Szkoda, że jak skonstruujemy tak środowisko w którym pojedynczy agent nie będzie dostawał nagrody jeśli sam będzie jakiś cel próbował osiągnąć. Powiedzmy, jeśli sam będzie próbował na kogoś polować, a tak to skonstruujemy, że potrzeba jest więcej agentów, to ci agenci mają możliwość żeby się nauczyć właśnie ze sobą współpracować. Co jest ciekawe, prowadziliśmy dosyć podobne badania jeszcze w Kalifornii ze współpracą z departamentem straży pożarnej w Los Angeles, w którym trenowaliśmy takich głównodowodzący operacją gaszenia pożarów, gdzie mają wysyłać jednostki straży pożarnej.

Mieliśmy taki symulator, taką grę komputerową i właśnie ci głównodowodzący bardzo szybko się uczyli. Nie wysyłali wszystkich jednostek do różnych pożarów, tylko koncentrowali to. Czyli koncentrowali wiele straży pożarnych na jednym pożarze. Potem przechodzili do następnego. Ten system wieloagentowy jest w stanie się nauczyć takiej samej strategii, jaką się posługiwał głównodowodzący straży pożarnej w Los Angeles. Właśnie takiej, aby wspólnie te jednostki wysyłać do jednego pożaru. Jeśli się stworzy środowisko dosyć dobrze, to można zacząć obserwować tę współpracę agentów. W tym przypadku jest to albo współpraca tych jednostek straży pożarnej, które razem gaszą pożary, albo współpraca takich, powiedzmy wilków, które chcą zapędzić do rogu owcę i ją pożreć.

Czy myślisz że uda się stworzyć coś takiego, żeby środowisko w którym ta sztuczna inteligencja będzie istnieć, będzie zmuszało ją do współpracy w ten czy inny sposób? Cały czas podkreślałeś słowo środowisko. Żeby odpowiednio je (środowisko) skonstruować, to agenci szybko się zorientują, że muszą jednak współpracować. Czy ja dobrze myślę, że to jest jeden ze sposobów, jak nawet inteligentny system, który może być mądrzejszy niż my, ludzie, będzie nadal pod kontrolą, bo musi współpracować między sobą?

Masz rację, tak, ale jeszcze bym to troszeczkę rozwinął. To znaczy, jeśli budujemy system generalnej sztucznej inteligencji i ten system żyje w jakiejś symulacji, w jakiejś wirtualnej maszynie, wirtualnej maszynie, wirtualnej maszynie na komputerze, to nawet jeśli nie będziemy w stanie go kontrolować, to w najgorszym wypadku przejmie całą pamięć w danej maszynie wirtualnej, czyli wszystko skonsumuje, ale to żaden problem. Problem pojawia się dopiero wtedy, kiedy chcemy taki system na sztucznej inteligencji generalnej wypuścić na zewnątrz, a to co bardzo fajnie tutaj robimy w DeepMindzie, to jest to, że próbujemy ten problem zaatakować z dwóch stron.

To znaczy, z jednej strony mamy niesamowity nacisk na te światy wirtualne. Wszyscy nasi agenci żyją wirtualnie w tych światach, więc to są bardzo bezpieczne światy z których ci agenci się nie mogą wydostać, bo nie wiedzą, że żyją w ogóle w symulacji, a z drugiej strony mamy niesamowicie dużo badań naukowych odnośnie tego jak zrobić żeby to środowisko zmodyfikować w punkcie celów, lub agentów, żeby ci agenci zaczęli być altruistyczni, żeby współpracowali ze sobą, i tak dalej, Ale to nie jest oczywiste. To jest tak, że obserwuje się agentów, oni się uczą żeby zachłannie coś robić i po chwili nie ma koordynacji. Więc trzeba krok po kroku zmieniać funkcje celu, zmieniać środowiskom zmieniać te parametry, zmieniać te, protokoły, żeby ci agenci ucząc się dla nich optymalnej strategii sami na to wpadli że najwięcej osiągną, jak będą ze sobą współpracowali, kiedy się nie będa eliminowali. Próbujemy ten problem atakować z dwóch stron.

Z jednej strony cały czas budując te bardzo realistyczne światy wirtualne, żeby ci agenci się nie wydostali, a z drugiej strony właśnie robiąc ogromne analizy, co się stanie właśnie w systemie agentowym, jak zmienimy funkcję w celu, jak zmienimy parametry środowiska, zmienimy protokoły, żeby znaleźć właśnie te protokoły, które są generalne i które powodują, że agenci ze sobą współpracują. To się da znaleźć i próbujemy to robić.

Zajmujesz się tematami związanymi z ogólną sztuczną inteligencją (general AI), lub AGI. Bardzo ciekawy jestem, jak definiujesz czym jest ten AGI, a najciekawsze jest to, jak zrozumiemy albo poznamy, że udało się już osiągnąć ten poziom?

Zawsze się mówiło, że będziemy mieli test Turinga i na podstawie testu Turinga zorientujemy się, że osoba z którą rozmawiamy nie jest biologiczną osobą, tylko jest agentem. Na przykład, jeśli nie będziemy w stanie tego zrozumieć to się okazuje, że mamy już tę generalną sztuczną inteligencję. Dla przykładu, teraz ze mną rozmawiasz i pytanie, czy ja jestem już tą sztuczną inteligencją, czy nie, i czy Cię już przekonałem, że nie jestem agentem tylko osobą biologiczną. Jednym z takich testów jest właśnie taka rozmowa, która może trwać 10, 15, 20 minut, na podstawie której sędziowie mogą stwierdzić, czy ten system rzeczywiście już jest inteligentny, że jest nierozróżnialny od człowieka. Okazuje się, że ten test prawdopodobnie przejdziemy zanim będziemy mieli taką generalną sztuczną inteligencję. Przywołam tutaj film, który mi się bardzo podoba.

Wiele razy go oglądałem. “Ex Machina” z roku 2014 albo 2015. W tym właśnie filmie jest podany przykład, jak możemy zweryfikować, czy już mamy tą generalną sztuczną inteligencję. I to nie jest tylko rozmowa. To jest pytanie, czy ten system jest w stanie naśladować ludzkie odruchy, emocje, przekonywanie, kłamanie, i tak dalej. Wydaje mi się, że test Turinga sam w sobie to był dobry początek, ale żebyśmy mieli pewność, że już mamy taką generalną sztuczną inteligencję, to musimy zrobić coś, co było wcześniej przedstawione w tym filmie “Ex Machina”. Czyli po prostu musimy mieć takiego agenta, który pokazuje, że potrafi nie tylko rozmawiać, ale również kłamać, oszukiwać, symulować. Tego jeszcze nie mamy, ale wydaje mi się, że w pewnym momencie jeśli ktoś będzie twierdził, że już ten algorytm posiada do generalnej sztucznej inteligencji, to trzeba będzie ten algorytm przetestować, a sam test Turinga nie wystarczy. Potrzeba będzie coś bardziej skomplikowanego.

Na ile szybko przesuwamy się w kierunku tego poziomu? Powiedzmy, jeśli mielibyśmy porównać naszą wiedzę o 5 lat wstecz do tej, którą mamy obecnie?

Zawsze jest tak, że jak ktoś robi taki sondaż i pyta się naukowców: kiedy to będziemy mieli tą generalną sztuczną inteligencję, to średnia odpowiedź brzmi 20 lat. Dlaczego? Dlatego, że jak jest powyżej 20 lat, to już mało kogo to interesuje, a jak jest mniej niż 20 lat, to istnieje ryzyko, że ten który robi przepowiednie pomyli się. Więc to jest taka ciekawa rzecz, że mimo to, że pytaliśmy naukowców w roku 1990, 2000 kiedy to będziemy mieli i zapytamy dzisiaj, to średnio wszyscy mówią dalej 20 lat. To się nie zmienia. Co się za to zmienia, na przykład Ray Kurzweil, który przez całe życie zajmuje się prognozą procesów technologicznych, prognozą postępów nauczania maszynowego, sztucznej inteligencji, on na przykład śledzi to od wielu, wielu lat i mówi, że w latach 90 średnia wynosiła 50 lat, teraz średnio wynosi to około 20 lat, ale co jest ciekawe, jak próbujemy tą średnią zbadać, to naukowcy patrzą liniowo, czyli jeśli postęp będzie taki jak jest dzisiaj, to to nastąpi powiedzmy za 50 lat. Jak się ich zapytamy dzisiaj kiedy to będziemy mieli, to mówią to samo. Będzie to za 20 lat zakładając dzisiejszy postęp technologiczny, ale zakładając, że ten postęp technologiczny idzie cały czas do przodu, czyli przyspiesza.

To może nastąpić szybciej. W ogóle, na przykład co mnie zszokowało ostatnio. Ray Kurzweil, który jest właśnie dyrektorem Google Brain sprecyzował, że nastąpi to za 11 lat. To są oczywiście przepowiednie. To może być 100 lat, może być 50, 20, ale to, że osoba która cały czas śledzi te procesy technologiczne podejmuje się takiego ryzykownego zadania, żeby przepowiedzieć coś za 11 lat, to już o czymś świadczy. Jeśli chodzi o mnie, wydaje mi się, że możemy mieć to za szybciej niż 20 lat. Podejrzewam około 10 lat, z tym że nie sądzę, że do tego dojdziemy z wykorzystaniem aktualnych narzędzi, które mamy. Wydaje mi się, że to nas może nawet trochę spowalniać.

Właśnie to jest rzecz, o którą też chcę zapytać. Czyli o obecne algorytmy, ten słynny deep learning, ewentualnie reinforcement learning. Co powinno się stać żeby ten AGI udało się osiągnąć? Jak Ty to widzisz?

Tutaj akurat nie ma konsensusu. To znaczy, naukowcy uważają że wystarczy przeskalować narzędzia, które mamy na większej ilości danych, na największej ilości problemów i wtedy dojdziemy do tej sztucznej inteligencji generalnej. To może być prawda. Ja osobiście uważam, że nie, że do tego nie dojdziemy. Przez wiele problemów, o których właśnie piszę teraz w nowej publikacji. Uważam, że nie mamy jeszcze tego algorytmu. To, co mamy dzisiaj, czyli właśnie ten deep learning, machine learning. Mamy systemy, które bardzo fajnie dopasowują pewne funkcje do danych treningowych, czyli mamy systemy, które można wytrenować. Mamy aproksymatory. Aproksymatory, które są w stanie zaproksymować pewien problem. Na przykład, mogą zaproksymować problem wkładania wtyczki do gniazdka i różne tego typu rzeczy. Wydaje mi się, że nie mamy algorytmu takiej prawdziwej sztucznej inteligencji, a próbujemy stosować niesamowicie silne aproksymatory żeby przybliżać pewne funkcje kognitywne, więc w teorii wystarczy przybliżyć setki tysięcy różnych funkcji kognitywnych i będziemy mieli sztuczną inteligencję generalną.
W praktyce jednak okazuje się, że może po prostu do tego za mało danych i jest to nieefektywne podejście.

Ja osobiście uważam, że narzędzia które są świetne, są to niesamowite narzędzia, które się przyczynią do postępu w medycynie, i tak dalej. One niestety nie wystarczą, według mnie oczywiście do tej generalnej i sztucznej inteligencji. Ja właśnie próbuję to rozwiązać stosując coś zupełnie innego dlatego, że nie mam wiary w te narzędzia z których korzystamy, ponieważ widzę jakie są ich ograniczenia. Natomiast o tych ograniczeniach nie zawsze się mówi. Przeważnie widzimy jakiś system, który nauczył się robić to, albo wykrywa raka na zdjęciach.

Dzisiaj przeczytałem artykuł o systemie, który lepiej analizuje tak zwane non-disclosure agreement. Jest on dokładniejszy od prawników. Cały czas widzimy te rzeczy, ale nie widzimy tych ograniczeń. A jeśli byśmy się naprawdę skupili na ograniczeniach, to moglibyśmy stracić wiarę, że właśnie tym podejściem dojdziemy do generalnej sztucznej inteligencji. Wielu się ze mną zgadza. Na przykład Ray Kurzweil, który jest dyrektorem w Google Brain, albo Jeff Hawkins, który jest założycielem Palm Computing.

Wydaje mi się, że ludzie którzy już dużo osiągnęli w tej dziedzinie, jak Ray albo Jeff, którzy są w sumie niezależni, którzy są już znani na świecie, raczej próbują robić coś zupełnie innego. Jeśli chodzi o inne podejścia, wydaje mi się, że są to młodsi naukowcy, którzy chcą się wykazać. Staramy się robić to, co jest bardziej sprawdzone, dlatego jesteśmy jeszcze trochę sceptycznie nastawieni do tego, że rozwiążemy ten problem z wykorzystaniem aktualnych narzędzi. Nawet ostatnio czytałem artykuł, w którym było wspomniane, że powinniśmy od nowa zacząć badania na temat sztucznej inteligencji. Jak tego typu sławni ludzie i ojcowie sztucznej inteligencji o tym piszą, to daje do myślenia, mimo iż ogromne fundusze są na to przeznaczane, artykuły w gazetach, w telewizji, wszyscy wieszczą, że będzie koniec świata, to jednak założyciele tego fieldu AI, oni robią coś innego. Podobnie ja próbuję czegoś zupełnie innego ponieważ uważam, że jest taka potrzeba.

Bardzo interesujące i bardzo konkretne. Będzie to na pewno wartościowe dla wielu osób. A co do słynnych osób, Yann Lecun w swoich ostatnich prezentacjach dość często wspomina, że uczenie nienadzorowane ma zdecydowanie większy potencjał niż jest wykorzystywany teraz i to jest kierunek przyszłościowy. Jaka jest Twoja opinia na ten temat?

Jak najbardziej. Całkowicie się zgadzam z Yannem. Może jeszcze dodam, że ja już się w ogóle nie zajmuje systemem supervised, czyli wszystko jest nienadzorowane. Ludzie się uczą też uzupełnienie nienadzorowani. Czasem się uczą z wykorzystaniem przykładów, ale przeważnie to jest uczenie się nienadzorowane. Dodam jeszcze, że ja osobiście zajmuje się systemami, które są dyskretne, czyli to nie są systemy różniczkowalne, którymi wszyscy się zajmują. To nie jest dopasowywanie funkcji ciągłej do danych, tylko są to systemy dyskretne. Więc uważam, że duży potencjał leży w systemach, które uczą się właśnie bez tego nadzoru, to po pierwsze, a po drugie systemy, które są dyskretne dlatego, że jak mamy system, który jest różniczkowalny, to możemy go wytrenować, ale też musimy dopasować tę funkcję w danych i ta funkcja musi być ciągła. Nie każda funkcja jest ciągła, więc mam dużą wiarę w systemy dyskretne i uważam, że właśnie w tym tkwi sedno.

Według mnie procesy myślowe, które zachodzą w mózgu jesteśmy w stanie symulować z wykorzystaniem procesów dyskretnych, a co jest jeszcze ciekawe, jak mamy procesy dyskretne, to w ogóle nie wykorzystujemy na przykład tego gradient descent, czyli nie wykorzystujemy metody planowania sieci, którą każdy wykorzystuje i nie musimy wpadać w pułapkę, która jest generowana właśnie przez tego typu algorytm. Na przykład, nie musimy mieć modelu, który jest różniczkowalny. Nie musimy zakładać wielkości tego modelu, ponieważ niczego nie będziemy różniczkowali. Możemy zrobić tak, żeby były tylko aproksymowane. Więc w dużym skrócie, jak najbardziej się zgadzam z Yannem. Ciekawym jest to, że Yann był szefem Facebook Research, a od pewnego czasu już nie jest. Wrócił na uniwersytet. Czyli on też widzi, że coś jest jeszcze do zrobienia. Nie tylko systemy, które się uczą bez nadzoru, tylko też systemy, które są dyskretne. Wydaje mi się, że analiza procesów dyskretnych nie jest teraz popularna, gdyż jest trudna, jest bardzo mało intuicji geometrycznych.

Więc aktualnie olbrzymi nacisk kładziony jest na systemy różniczkowalne z intuicją geometryczną, aproksymatory, ponieważ widzimy tę strukturę funkcji, którą musimy aproksymować tej funkcji ciągłej, ale niestety wydaje mi się, że musimy wejść na głęboką wodę, czyli systemy które nie mają tego supervisor’a, tego nadzoru i są systemami dyskretnymi. Tego typu system i automaty komórkowe dyskretne, to jest naprawdę ciężka sprawa, ale moim zdaniem one są przyszłością.

Ciekawy jestem jeszcze Twojej opinii o kolejnym zagadnieniu, czyli zastosowania tak zwanego uczenia ze wzmocnieniem albo reinforcement learning. Pytanie jest następujące: Jak myślisz, czy to rozkwitnie w ciągu najbliższych 5-10 lat i będzie używane gdzieś w rzeczywistości? Aktualnie jest dużo publikacji, które coraz częściej się pojawiają na konferencjach, na prezentacjach, ale prawie nie ma takich prawdziwych wdrożeń na produkcję. Czy to się zmieni?

Osobiście uważam, że będzie niesamowity postęp z tego typu algorytmami wykorzystywanymi w grach komputerowych. Naprawdę, to zawsze w grach komputerowych mamy do czynienia z nieograniczoną ilością danych treningowych, z symulatorem, z pewnego rodzaju zamkniętym środowiskiem, i w tego typu właśnie środowiskach zamkniętych, które możemy symulować, w których jest mnóstwo danych treningowych, w tego typu środowiskach, systemy deep reinforcement potrafią świetnie działać. Jeśli teraz chodzi o to, o co pytasz, czy zobaczymy jakieś zastosowanie w świecie rzeczywistym? Podejrzewam, że tak, ale nie od razu. Dlatego, że transferowalność tych rozwiązań z jednej dziedziny do drugiej nie jest trywialna. To znaczy, jak wytrenujemy system, na przykład w symulatorze żeby jeździł samochodem i potem ten sam system wstawimy do samochodu i będziemy jeździć normalnie po drodze, to nie jest oczywiste, że on się będzie dobrze zachowywał. To prawda, że jest to czasem nieintuicyjne, ale tam są pewnego rodzaju problemy, na przykład ten system może nie do końca transferować swoją wiedzę. Jeśli chodzi o zastosowania, to na pewno będziemy mieli takowe.

Już mamy deep reinforcement learning w takiej dziedzinie jak, na przykład finanse. W finansach mamy do czynienia z ogromną ilością danych, z rynkiem finansowym w którym możemy mieć symulatory. Tam ci agenci mogą się uczyć jak handlować, co sprzedawać, co kupować. Na przykład wiemy, że w zeszłym roku JPMorgan Chase wytrenował agenta, który tam sobie grał i optymalnie wykonywał pewną egzekucję na transakcje finansowe. Te systemy już w rzeczywistości są w świecie finansowym. Jeśli chodzi o inne dziedziny, to transferowalność jest dużym problemem. W ogóle transferowalność tych rozwiązań z jednej dziedziny do drugiej, i przez to nie wiem czy będziemy mieli od razu takie spektakularne wyniki jakie mamy bez tego reinforcement learning. Z reinforcement learningiem jest też taki problem, że te systemy potrzebują strasznie dużo danych treningowych i to jest właśnie bolączką tych systemów. Jeśli tych danych treningowych nie ma, to wtedy w świecie rzeczywistym możemy nie mieć tylu tych danych treningowych i te systemy nie będą się rozwijać.

Dla przykładu podam taką rzecz z książki “The Book of Why”, Judea Pearl’a. On tam podaje przykład, czy da się w ogóle wytrenować agenta, który będzie rozwiązywał problem wyciągnięcia pończochy ze szprych koła w rowerze. To jest prosta rzecz. Jak ja bym pokazał jak to zrobić, na przykład Tobie, to byś popatrzył na te szprychy, popatrzyłbyś na tę pończochę i byś to wyciągał. Jeśli weźmiemy takiego agenta deep reinforcement learning, to musiałbyś go wytrenować na ogromnej ilości zadań typu: wyciągnij pończochę z roweru. Niekoniecznie tego typu zadania będziesz miał pod ręką, więc to jest ten problem, że mamy zawężone środowisko. Na przykład, handlowanie akcjami z użyciem systemu deep reinforcement learning działa już dzisiaj. One są już w świecie rzeczywistym i operują ogromną ilością pieniędzy. Jeśli chodzi o przykładowo jazdę autem, możemy wytrenować system, który będzie świetnie jeździ autem w bardzo realistycznej grze komputerowej. Na przykład Grand Theft Auto 5.

Czy ten system będziesz świetnie jeździł w rzeczywistości? Podejrzewam, że w 99% przypadków tak, ale pozostaje ten jeden procent, ten nieszczęśliwy 1% albo jedna dziesiąta procenta, albo jedna setna, która będzie będzie powodowała, że będziemy chcieli tego człowieka mieć koło siebie. To jest ten problem. W dużym skrócie: te systemy deep reinforcement learning już są stosowane w świecie rzeczywistym, np. w handlowaniu. Próbują być stosowane przy self-driving cars z różnymi rezultatami i poczekajmy i zobaczymy. Wydaje mi się, że jak mamy z symulator z ogromną ilością danych, to w tym przypadku te systemy mogą działać. Natomiast jak symulatora nie mamy, nie mamy dużej ilości danych, to tego systemu nie wytrenujemy na różnych wariacjach i przez to transferowalność może nie działać.

Wygląda na to, że reinforcement learning już można zacząć stosować tylko wymaga troszkę innych umiejętności niż taki klasyczny ML. Jakie są twoje najbardziej bolesne porażki z uczeniem maszynowym, lub innymi słowy, na co należy uważać?

Wydaje mi się, że największym problemem jest wyciąganie przedwcześnie pochopnych wniosków, typu: czego dany system się nauczył i co już potrafi zrobić. Próba generalizowania rezultatów jest największym problemem. Na przykład, weźmiemy sobie system, który gra w jakąś grę komputerową. Na przykład w taką grę Pong. Można wyciągnąć taki wniosek, że system się nauczył grać w tę grę. Jednak tak naprawdę ten system się nauczył wykonywać optymalną akcje na podstawie konfiguracji kilku punktów na ekranie. On się nie nauczył gry w Pong. On się nauczył wykonywać optymalną akcje na podstawie danych wejściowych, które są ściśle zdefiniowane. Dużym problemem jest to, jak próbujemy to generalizować. Czyli mówimy, że ten system nauczył się na przykład jeździć autem po jakieś autostradzie w Phoenix w Arizonie, i wtedy generalizujemy, że mamy już samoprowadzący się samochód. To nie jest prawda. Ta pułapka jest tym największym problemem, że próbujemy wyciągać pochopne wnioski odnośnie tego, czego system się nauczył. Czasem nawet nie wiemy czego się nauczył. Czasem jest tak, że wyciągamy takie wnioski, że nauczył się, powiedzmy rozumować, nauczył się abstrakcyjnego myślenia, nauczył się planować, a on może na przykład tego nie umie. On może tylko znaleźć jakiś punkt, jakieś piksel na podstawie którego podejmuje dobrą decyzję i nam się wydaje, że czegoś się nauczył. Trzeba być ostrożnym przy analizowaniu czego system się już nauczył. Generalizacja jest wielką pułapką.
W takim dużym skrócie, to jest największa bolączka.

Czy masz jakąś taką check listę? To znaczy, w jaki sposób próbujesz sam siebie dopytywać, czy to rozwiązanie, które mi się wydaje faktycznie, że jest już rozwiązaniem, czy tylko jednym konkretnym przypadkiem. Kiedy model działa dobrze? Jakie pytania sobie zadajesz, żeby upewnić się, że to co udało się osiągnąć faktycznie jest tym czym się wydaje?

Masz na myśli pewne rozwiązanie deep reinforcement learning?

Bardziej mi chodzi o sposób myślenia. Teraz powiedzmy czytają to osoby, które też wdrażają takie rozwiązania i patrzą na przykład na metrykę sukcesu. Może im się wydawać, że to działa dobrze. Bardzo się cieszą, wrzucają taki model na produkcję, i tak dalej. Jak być jeszcze takim bardziej pragmatycznym? Jakie pytanie warto sobie jeszcze raz zadać, żeby się potem nie oparzyć?

Wydaje mi się, że nie powinniśmy stosować tego samego zbioru testowego wielokrotnie. Podam dla przykładu: mamy stworzyć system, który rozpoznaje cyfry, czyli zbiór treningowy MNIST i on jest podzielony na dwie części: na część treningową i część testową. Część treningowa składa się z 50000 liczb, a część testowa z 10000 liczb.

Co się okazuje? Trenujemy jakiś system. Testujemy różnego rodzaju konfiguracje tej sieci neuronowej, różne hyperparametry, jedne, drugie, trzecie. Za każdym razem trenujemy to na tym zbiorze treningowym, a potem uruchamiamy na zbiorze testowym i patrzymy jak się zachowuje. To jest nieuczciwe dlatego, że my optymalizujemy go pod kątem danego zbioru testowego. Nawet jak sieć tego nie widziała. Przez to, że robimy analizę i przeszukiwanie tych hyperparametrów, i możemy jednocześnie sprawdzać dziesiątki tysięcy modeli, każde z nich jest trenowane na zbiorze treningowym po to, żeby wybrać ten jeden, który się najlepiej zachowuje na zbiorze testowym. Tak naprawdę, mamy do czynienia z takim timingiem, w którym ta sieć jest wytrenowana pod kątem tego danego zbioru testowego, i to jest ta pułapka. Jak już budujemy jakiekolwiek zaawansowane systemy, które chcemy wdrożyć w produkcji, to nie róbmy tego tak, że mamy jakiś zbiór testowy i analizujemy różnego rodzaju konfiguracje sieci danych treningowych, a potem patrzymy jak się zachowują na zbiorze testowym i wybieramy najlepszy. Zbiór testowy powinniśmy testować tylko na jednym problemie

Super! Taka bardzo prosta, ale mega trafna wskazówka. Jeszcze pytanie bardziej już takie wizjonerskie. Jak myślisz, jak ten świat w którym żyjemy teraz może się zmienić w ciągu najbliższych 5-10 lat? Troszkę o tym już wspomniałeś, ale chciałbym żebyś wszystko jeszcze raz podsumował.

Gdziekolwiek nie patrzę jak czytam jakieś artykuły w gazetach czy w internecie, jest taka wizja, że ta sztuczna inteligencja jest tuż za rogiem i wszystkie prace znikną, albo będzie ogromne bezrobocie. Ja osobiście nie jestem przekonany, że tak zaraz będzie gdyż widzę, jakie są ograniczenia tych systemów, które mamy, i przez te właśnie ograniczenia, w ciągu najbliższych 5 i 10 lat nie sądzę żeby znikły wszystkie te prace dookoła. Nawet nie widzę żebyśmy mieli samochody, które same się sterują. Wydaje mi się, że tej technologii nie mamy, więc ja bym nie był takim pesymistą, że nagle będą załamania społeczne, bezrobocie. Natomiast co się może zmienić, to ogromny postęp w medycynie. Dlaczego o tym wspominam? Prowadzę badania naukowe wykorzystujące sieci neuronowe rekurencyjne do predykcji, na przykład zwijania białek i to pozwala i dzięki temu jesteśmy w stanie szybciej zasymulować jak dane białka się będą zawijały, właśnie z wykorzystaniem sieci neuronowej i jednocześnie przyspieszyć proces badania, czy dane białko doprowadzi do czegoś pozytywnego. Na podstawie tego jesteśmy w stanie o wiele szybciej generować i próbować różnego rodzaju leki, więc wydaje mi się, że postęp w medycynie będzie teraz niesamowity. Właśnie przez to, że będziemy w stanie badać o wiele większą ilość różnych leków o wiele szybciej właśnie z wykorzystaniem deep learningu.

Co mnie trochę martwi to jest to, że te narzędzia jednocześnie się świetnie nadają do inwigilacji, do obserwowania społeczeństw. Na przykład, wiesz że teraz w Chinach już jest wdrożony system, który świetnie rozpoznaje ludzkie twarze i rejestruje gdzie, kto był w danym momencie na podstawie obrazu z kamer. Wydaje mi się, że rządy będą próbowały wykorzystać te fantastyczne narzędzia które mamy, te sieci neuronowe do zwiększenia kontroli nad społeczeństwem. Więc z jednej strony, jestem bardzo optymistycznie nastawiony, jeśli chodzi o postęp w medycynie w ciągu najbliższych pięciu lat, a z drugiej strony boję się, że te narzędzia będą wykorzystane właśnie do zmniejszenia prywatności, do zwiększenia inwigilacji nad społeczeństwami. Ale zobaczymy. Bądźmy dobrej myśli.

Dzięki wielkie za Twoją opinie. Ostatnie pytanie na dzisiaj: Jak można znaleźć ciebie w sieci w przypadku gdy ktoś chciałby się z tobą się skontaktować?

Najlepiej po prostu wpisać w Google moje imię nazwisko i kliknąć “I’m feeling lucky” :). Powinienem się pojawić na górze. Mam też stronę internetową www.januszmarecki.com/. Jestem też na LinkedIn. Zapraszam do internetowej dyskusji ze mną.

Super! Dzięki wielkie za Twój czas który znalazłeś, za chęć podzielenia się wiedzą i też wyróżnienie takich punktów, które są mega przemyślane, gdyż cały czas tym się zajmujesz, ale jednocześnie nie są tak otwarte ani spopularyzowane w mediach i bardzo się cieszę, że udało mi się tego wszystkiego dowiedzieć. Dzięki wielkie!

Dzięki, mam nadzieję, że każdy z tego w jakiś sposób skorzysta.

Dziękuję Ci bardzo za poświęcony czas. Ten odcinek wyszedł troszkę dłuższy. Jeśli spodobał Ci się ten odcinek, jak i również inne, to napisz recenzję w iTunes. Sprawi mi to wielką przyjemność i jednocześnie podcast stanie się bardziej dostępny dla innych osób w przypadku, gdy szukają czegoś do wysłuchania. Dzięki wielkie! Do usłyszenia, do zobaczenia! Cześć!

Artykuł Prowadzący naukowiec z DeepMind o rozwoju sztucznej inteligencji pochodzi z serwisu Biznes Myśli.

Naukowiec Computer Vision z DeepMind – Mateusz Malinowski

Vladimir — Mon, 28 Aug 2017 03:00:42 +0000

Gartner opublikowała tak zwany hype cycle 2017, po polsku pewnie to brzmi jako cykl szumu albo cykl dojrzałości technologii. Hype cycle został wymyślony przez Gartner w 1995 roku i składa się z pięciu faz: najpierw pierwsze informacje na temat technologii, druga faza to dużo szumu i wielkie oczekiwania, trzecia faza rozczarowania, bo wykrywają się pewne ograniczenia, czwarta faza naprawa tych ograniczeń i znów oczekiwania. Piąta i ostatnia faza stabilizacja. Mówi się, że wtedy technologia dojrzała i oczekiwania są połączone z możliwościami.

Cycle Hype | Gartner | 2017

Dla przykładu, na samym początku, czyli w fazie jeden jest tak zwany smartdust, po polsku to zabrzmi jako “inteligentny kurz”. W dużym uproszczeniu, wobraź sobie ziarno piasku, a teraz pomyśl, że tam jest mini-procesor, bateria i sensory. Bateria jest ładowana poprzez słońce lub inne naturalne źródła energie. Takie cząstki mogą robić wiele różnych rzeczy, obserwować otoczenia, mierzyć różne parametry i nawet szpiegować. Stanisław Lem, jeszcze w roku 1964, pisał w “Niezwyciężony” podobną wizję. Teraz o tym mało się mówi, ale wiele się robi w miejscach, o których też mało się mówi :).

Dla przykładu. Pamiętasz o swoich uczuciach kilka czy kilkanaście lat temu, kiedy po raz pierwszy wyszedł w publiczność ekran dotykowy. Wtedy to zrobiło wrażenie. Natomiast jest stosunkowa stara technologia, która już była znana co najmniej w latach 70-tych. ubiegłego stulecia. Podobnie do smartdust jest 4D printing, który też jest w pierwszej fazie. Jednym słowem 4D printing można wytłumaczyć jako – “transformer”. Wyobraź sobie, że został wydrukowany jakiś obiekt, który może transformować w inny obiekt z czasem. To ma wiele obszarów zastosowań w biznesie. Ale temat rzeka, podziel się swoją opinią czy chcesz więcej dowiedzieć się na temat technologii przyszłości jak smartdust lub 4D Printing?

Wracając do cyklu dojrzałości (hype cycle). Zwykle technologia przesuwa się w czasie od lewej strony do prawej, czyli od fazy numer 1 do fazy numer 5. Dla każdej technologii to potrzebuję różną ilość czasu od kilka lat do 10 (czy nawet więcej). Machine learning po raz pierwszy pojawił się w cyklu dojrzałości 3 lata temu (przed tym były tematy powiązane takie jak data science lub bigdata). Przez trzy lata (włączając rok 2017) machine learning jest cały czas jest w fazie numer 2 (czyli dużo szumu). Ciekawostką jest, że 3 lata temu machine learning był bliżej fazy trzeciej niż w roku 2017.

A co to oznacza w praktyce? Kilka wniosków. To, że jesteśmy na etapie, kiedy ilość szumu rośnie. Temat jest bardzo nagrzany i zawiera sporo magii. Kolejny wniosek jest taki, że oczekiwania rosną znacznie szybciej niż biznes jest gotów je wykorzystać. Stąd płynie kolejny wniosek, że po fazie drugiej jest faza trzecia – czyli rozczarowania wynikające z błędnego rozumienia możliwości. Postaram się pomóc Ci przejść z fazy drugiej w fazę trzecią z najmniejszą stratą jak materialną tak i moralną i przygotuję na to osobny odcinek. Już mam kilka pomysłów jak to można zrobić, ale chętnie posłucham Twoje przemyślenia na ten temat.

Naukowiec Computer Vision

Gościem dzisiejszego odcinku jest naukowiec z DeepMind – Mateusz Malinowski. W drugim odcinku podcastu już wspomniałem o turing test, również o tym rozmawialiśmy w innych odcinkach podcastu, np. w 10-ym z Aleksandrą Przegalińską. Natomiast Mateusz kilka lat temu zdefiniował Visual Turing Test, który nabiera coraz większą popularność i ważność.

Mateusz Malinowski

DeepMind i AlphaGo

Kilka słów o DeepMind. To jest brytyjska firma zajmująca się sztuczną inteligencją założona w roku 2010. Która za 4 lata została przyjęta przez Google za 500 mln. dolarów. Firma stała się bardzo znana ze swoich osiągnięć gry w Go. DeepMind zaimplementował gracza o nazwie AlphaGo i bardzo głośnie po wygranej Lee Sedola w marcu 2016.

Lee Sedol w roku 2003 zwiększył swój ranking z 4 danu do 9 danu (najwyższy). Nie ma jednego rankingu gry w Go, ale zgodnie z jednym z nich na moment gry Lee Sedol zajmował 4-tą pozycję w świecie. Już w tym roku, czyli w maju 2017 odbyła się gra Ke Jie. To jest Chińczyk, który ma teraz 20 lat i który zajmuje pozycję numer 1 przez ostatnie trzy lata. Ale AlphaGo wygrało Kei Jie. Po tym wydarzeniu CEO DeepMind, Demis Hassabis powiedział, że AlphaGo może teraz wyjść na emeryturę, bo cel został osiągnięty, a zespół, który nad tym pracował będzie robił inne projekty.

Wyzwania sztucznej inteligencji

AlphaGo naprawdę zrobiło ogromne wrażenie i już wydaje się, że sztuczna inteligencja staje się coraz bardziej mocniejsza. A w tym czasie nadal są problemy które dla sztucznej inteligencji są bardzo trudne. Między innymi znane jako paradoks Moraveca. Jak mówił jeszcze Marvin Minsky:

Marvin Minsky

Generalnie, najmniej jesteśmy świadomi tych rzeczy, które nasze umysły robią najlepiej. Jesteśmy bardziej świadomi prostych procesów, które nie działają dobrze, niż złożonych procesów, które działają bezbłędnie.

No właśnie i taki jeden z przykładów, gdzie sztuczna inteligencja wygląda albo wyglądała bardzo słabo to rozumienie relacji. Prosty przykład. Jest stół gdzie stoi szklanka wody, kubek i talerz. Każdy z nich ma położenie, materiał, z którego zbudowany i kształt.

Załóżmy talerz stoi za kubkiem. Jeżeli zapytam dziecko, które ma kilka lat lub mniej: “Co jest za kubkiem?”. Odpowiedź będzie — talerz. Dla nas to zadanie brzmi absurdalnie proste, ale jest bardzo trudne dla maszyny. Rozumienie, takich rzeczy przez maszyny jest koniecznie dla zbudowanie mocnej sztucznej inteligencji i dlatego między innymi DeepMind pracuję nad tym. Mateusz to jeden z naukowców, który pracuje nad tym problem. Zapytałem go, czy nadal to jest wyzwaniem i jakie są postępy. Mateusz powiedział:

Można powiedzieć, że było wyzwaniem. W celu takiego relacyjnego wnioskowania przez maszyny, stworzyliśmy moduł, który nazwaliśmy Relation Networks. Jest to sieć neuronowa, która rozważa dwa obiekty na obrazie, porównuje te obiekty ze sobą za pomocą kilku warstwowej sieci neuronowej, a następnie agreguje wszystkie te reprezentacje takich par w celu stworzenia jednej reprezentacji globalnej całego obrazu. Za pomocą tak zbudowanej sieci neuronowej otrzymaliśmy wyniki, które są w zasadzie lepsze niż ludzkie odpowiedzi.

Więcej o tym i innych tematach dowiesz się w naszej rozmowie.

Na samym końcu również powiem, jak możesz dostać bezpłatnie bilet na konferencję zorganizowaną przez Google. Google organizuję trzy konferencji GDD w roku, pierwsza, jak zwykle odbywa się w stanach (już była), druga w Europie (tym razem w Krakowie) i trzecia w Azji. Konferencja odbędzie się 5 i 6 września (oryginalny koszt biletu jest 250 dolarów).

Zapraszam do wysłuchania…

Cześć Mateusz, przedstaw się kim jesteś i co studiowałeś, gdzie pracujesz, gdzie mieszkasz?

Cześć Vladimir, nazywam się Mateusz Malinowski. Obecnie jestem naukowcem w DeepMind i pracuję nad uczeniem maszynowym, a w szczególności nad tak zwanym widzeniem maszynowym (po ang. computer vision). DeepMind jest placówka nukową, która jest związana z Google i która stała się słynna między innymi za sprawę wygraną w Go. Obecnie mieszkam w Londynie, studiowałem informatykę na Uniwersytecie Wrocławskim, ukończył magisterskie studia z informatyki na Uniwersytecie Saarlandskim w Niemczech, doktorat obroniłem z widzenia maszynowego w Instytucie Maxa Plancka.

Code Boy | Mateusz Malinowski

Myślę że DeepMind faktycznie jest znaną firmą, o którą wiele razy wspominałem w podcaście i nie tylko. Jeszcze porozmawiamy o tym później. Co ciekawego ostatnio przeczytałeś i dlaczego to jest warte polecenia?

Przyznam szczerze, że głównie czytałem fachową literaturę. Aczkolwiek z tych artykułów, które ostatnio przeczytałem i które są w miarę przystępne, zaciekawiła mnie seria artykułów na trochę prowokujący temat “Czy neuronaukowcy potrafią zrozumieć mikroprocesorów” (Could a Neuroscientist Understand a Microprocessor? oraz Neuroscience Needs Behavior: Correcting a Reductionist Bias).

Zaciekawiły mnie głównie ze względu na to, że od pewnego czasu męczy mnie to, w jaki sposób powinniśmy podejść do budowania inteligentnych maszyn. Czy powinniśmy zastosować podejście redukcjonistyczne, gdzie tworzymy zrozumiały dla nas jakiś mały element, a potem te rzeczy skalujemy.

Czy może lepiej jest podejść od całkowicie odwrotnej strony, zastanowić się nad klasą problemów do rozwiązania, w pewnym sensie opisać czego oczekujemy od takiej inteligentnej maszyny w formie funkcjonalnej, a potem stworzyć metodę, która rozwiązuje tą klasę problemów.

O sztucznej inteligencji jest bardzo dużo mitów, dodatkowa jeszcze dziennikarze dolewają oliwy do ognia, można wspomnieć chociaż komentarz, o tym że Facebook wyłącza AI. Jesteś naukowcem, osobą która wie jak to jest z własnego doświadczenie. Mam nadzieje, że uda się nam trochę odczarować mity i pokazać praktyczne osiągnięcie oraz wyzwania. Najpierw co to jest tak zwana sztuczna inteligencja?

Czyli zaczynamy od podstaw. To prawda, że niektóre dziennikarze zamiast informować społeczeństwo, niepotrzebnie zaogniają sytuację poprzez takie interpretacje. Co do Twojego pytania, dla mnie sztuczna inteligencja jest dyscypliną, którą zadaniem jest stworzenie maszyn, będących na co najmniej ludzkim kognitywnym poziomie.

Oznacza to, że takie maszyny muszą organizować oraz interpretować różne nieustrukturyzowane sygnały i takie sygnały jak, na przykład, język, wizja na co najmniej ludzkim poziomie. Następnie, mając te sygnały, maszyny powinne w jakiś tam sposób reagować na nie i podejmować decyzje, biorąc pod uwagę sygnały wizyjne oraz językowe.

Teraz może będę miał trudność, jeżeli chodzi o terminologię, ale chcę zapytać o tak zwany Symbolic AI i Sub-Symbolic AI. Proszę wyjaśnij na przykładach co to jest i na czym polega różnica? Jakie mają wady i zalety?

Symboliczne AI i Subsymboliczne AI, to są dwa z pozoru odmienne podejścia do tworzenia, budowania inteligentnych maszyn. Historycznie rzecz biorąc symboliczne AI dominowało. A głównym produktem symbolicznego podejścia do AI są tak zwane systemy eksperckie. Symboliczne AI bazuje na hypotezie, że inteligencja to głównie przetwarzanie symboli.

W praktyce, osoba (nazwijmy tą osobę inżynierem AI) tworzy zbiór wiedzy, a także zbiór reguł, który przetwarzają tą wiedze na nową wiedzę. Tutaj dobrym przykładem jest sylogizm logiczny. Jeżeli wszyscy ludzi są śmiertelni (to jest nasza właśnie wiedza), Vladimir jest człowiekiem (to znów jest nasza wiedza), to Vladimir jest śmiertelny i to jest nasza nowa wedydukowana, albo stworzona na podstawie jakiś reguł, wiedza.

Jest sporo wyzwań, które stoją przed tworzeniem takich systemów, przede wszystkim skalowalność oraz pewna tolerancja na błędy. Na przykład, ciężko jest zebrać całą wiedzę świata w postacie formalnej, w takiej postaci która byłaby zrozumiała dla maszyny, podobnie ciężko jest stworzyć wszystkie reguły na których świat się opiera. Nasza wiedza, dotycząca wszystkich reguł jakimi człowiek się posługuje w języku angielskim, jest w najlepszym wypadku nie pewna, a być może nawet troszeczkę błędna.

Sytuacja jest dużo gorsza z mniej popularnymi oraz mniej zbadanymi językami, takimi jak na przykład język polski. Idąc dalej tym torem zapytajmy się czym jest kod, w jaki sposób formalnie opisać taki obiekt, jakim jest kod i tak dalej. To nie jest taka prosta sprawa. Ostatecznie, oprócz zgromadzenia oraz sformalizowania całej wiedzy, przetwarzanie symboliczne zgromadzonej wiedzy także jest ciężkim, wymagającym procesem z perspektywy obliczeń. Jeżeli chodzi o tolerancje, to te systemy mają często problemy, na przykład, jeżeli podana wiedza jest błędna.

Z drugiej strony subsymboliczne AI nastawia się raczej na takie rozmowy, bym powiedział, miękkie oraz bardziej indukcyjne. Tutaj przykładem są metody statystyczne oraz coraz bardziej popularne sieci neuronowe, a szczególnie głębokie uczenie maszynowe czyli deep learning. Z grubsza, szczególnie metody uczenia maszynowego polegają na stworzeniu ogromnych danych treningowych, mogą to być obrazki z oznaczoną kategorią.

Na przykład, obrazek, który przedstawia kota razem z kategorią że to jest kot, obrazek przedstawiający psa z kategorią że to jest pies. Następnie uczymy takie maszyny na podstawie takich danych treningowych. Może brzmi to trochę magicznie, ale cały ten proces ostatecznie można formalnie i ładnie opisać za pomocą matematyki. Można także myśleć, że takie systemy uczą się pewnych wzorców za pomocą których potrafią rozwiązywać problemy, które tym systemem zadaliśmy.

W pewnym sensie subsymboliczne AI jest przeciwieństwem tego symbolicznego AI i wiele z tych problemów, które wcześniej wymieniłem, tutaj nie istnieją. Pojawiają się za to nowe problemy, taki jak, na przykład, potrzeba zbudowania odpowiednich zbiorów treningowych. Tę modele też ciężej się interpretuje co jest dosyć oczywiste, ponieważ w symbolicznych metodach same wymyśliliśmy reguły, wobec tego wiemy czym te reguły są, co one znaczą.

Oba nurty można obrazowo podzielić ze względu na reprezentacje myśli. Symboliczne AI sądzi, że myśl ma reprezentacje symboliczną. Z drugiej strony, szczególnie nutr głębokiego uczenia maszynowego, sądzi że myśl jest wektorem aktywacji sztucznych neuronów. Jeżeli chodzi o przyszłość AI, to osobiście nie wierze, że systemy symboliczne były tu przyszłością.

Pewnie w zawęrzonych i dobrze zrozumiałych dziedzinach, takich jak, na przykład, pomóc przy naprawie komputera czy pomóc w naprawie samochodu, mogą się sprawdzać, ale wątpię żeby takie systemy uogolniały – skalowały się na świat w którym żyjemy. Widzę więcej nadziei w systemach subsymbolicznych, tak jak głębokie uczenie maszynowe, które ostatnio stało się bardzo popularne lub w systemach mieszanych, które łączą zalety obu podejść do AI.

Dałeś szerszą odpowiedź, fajnie. Chciałem tylko dodać o pierwszym przypadku Symbolic AI, problem który pamiętam, który jeszcze w latach 60h się pojawił – tak zwana eksplozja reguł, czyli tych reguł stało się tak dużo, i z każdym krokiem robiło się coraz więcej, przy czym nawet dla dla bardzo prostych problemów. Ale jak powiedziałeś, przyszłość leży gdzieś na wykorzystaniu Sub-symbolic i jednak trochę Symbolic AI.

Jesteś bardzo mocno zaangażowany w tak zwany “Machine perception”, “Computer Vision” i w szczególności “Visual Recognition” oraz “Visual Question Answering”? Będziemy dzisiaj zgłębiać ten temat, tylko zaczniemy od wyjaśnienia na prostych przykładach co to jest?

Machine perception – to jest dyscyplina, której zadaniem jest stworzenie maszyn, które interpretują i organizują docierające sygnały, jak, na przykład, dźwiękowe czy też wizyjne.

Computer vision czyli widzenie maszynowe – to jest dyscyplina, której celem jest stworzenie maszyn, które widzą świat w taki sposób jaki my widzimy, czyli trochę podobnie do machine perception, bo też chodzi o budowę maszyn które organizują i interpretują sygnały, ale są to sygnały głównie wizyjne.

Visual recognition – to jest podkategoria computer vision i sprowadza się w zasadzie do kategoryzacji obiektów ze zdjęć, na przykład, klasyfikacja zdjęć.

Visual Recogniation

Visual Question Answering – to jest całkiem niedawno przedstawiona pod-dziedzina computer vision, która została najpierw zapoczątkowana przez Visual Turing Test podczas mojej pracy doktorskiej. Celem jest zbudowanie maszyn, które odpowiadają na pytania dotyczące świata wizyjnego, jak, na przykład, o to co się znajduje na obrazku lub o to co się znajduje na video.

Visual Question Answering

Computer vision nie jest tak naprawdę nowym tematem. Już w latach 60-tych na MIT były pierwsze próby pracować z rozpoznawaniem obiektów na zdjęciu. To był stosunkowo prosty przypadek związany z rozpoznawaniem geometrii, a przede wszystkim krawędzi w 3D obiektach… Natomiast prawdziwy rozkwit computer vision nastąpił 5 lat temu. No właśnie co takiego się stało 2012 roku?

Tak, sporo się zmieniło między latami 60-mi i 2012 rokiem, jeżeli chodzi o computer vision. Tak jak powiedziałeś, w latach 60h eksperymenty były prowadzone na obrazach o stosunkowo małej złożoności, głównie to były idealne figury geometryczne z bardzo prostą semantyką. Przez semantykę tutaj mam na myśli że było kilka kategorii, takie jak stożki, szcześciany i tak dalej, i te kategorie są łatwe do odróżnienia.

Obecnie, w dzisiejszych czasach, prowadzimy eksperymenty na prawdziwych obrazach, czyli takich obrazach, które można zobaczyć na Facebooku, Flickerze i tak dalej. Tutaj złożoność takich obrazów jest znacznie większa i samo odseparowanie obiektów od tła jest większym wyzwaniem. Semantyka tych obrazów jest dużo bardziej skomplikowana, jest dużo więcej obiektów na takim obrazie, mamy dużo więcej kategorii. Samo pytanie czym jest obiekt jest także skomplikowane.

Na przykład, czy traktować człowieka jako całość, czy to jest kompozycja z jakichś części prostszych typu nogi, ręce i tak dalej, czy może człowiek czy ogólnie obiekty są bardziej zdefiniowane przez kontekst, przez otoczenie czy może to wszystko na raz. To jest dużo bardziej skomplikowany problem niż te problemy, które badaliśmy w latach 60h. I tak jak wspomniałeś, w latach 60h można było stworzyć systemy regułowe, które rozpoznawały to co się dzieje na obrazach, a w dzisiejszych czasach na prawdziwych obrazach to jest zajęcie bardzo ciężkie i prawdopodobnie nie możemy się zdawać na systemy regułowe.

A skoro pytasz o rok 2012, to w tym roku nastąpił przełom w rozpoznawaniu obiektów na obrazach. W największym ówcześnie konkursie na najlepszy system rozpoznający obiekty na obrazach tak zwane ImageNet, pewna metoda, która bazowała na konwolucyjnych sieciach neuronowych (po ang. convolutional networks) zdeklasowała pozostałe systemy o jakieś 10% i wygrała. I następujące rzeczy się zmieniły, tak to można podsumować.

Przeszliśmy od metod symbolicznych do metod subsymbolicznych, a dokładniej przeszliśmy do metod głębokiego uczenia maszynowego. Wytrenowaliśmy wspomniane metody na dużo większych zbiorach danych treningowych. Pojawianie się takich zbiorów treningowych jak właśnie ImageNet, który zbiera bardzo dużo obrazków jest kluczowe, żeby wytrenować maszyny, które rozpoznają obiekty na obrazach.

Rozwój sprzętu do gier komputerowych czyli karty graficzne także się przyczyniły rozwojowi AI. W szczególności umożliwiły one wytrenowanie głębokich sieci neuronowych na dużych zbiorach treningowych o których wspomniałem.

Technicznie jest to spowodowane tym, że sieci neuronowe dobrze się opisuje za pomocą operacji macierzowych, a te z kolei są także bardzo ważne w grach komputerowych, a za tym te operacje zostały dobrze zoptymalizowane w karty graficzne i przez to także są wykorzystywane do trenowania głębokich sieci neuronowych.

Zapytałem już o computer vision. Nieco podsumowując, wracają do konkursu ImageNet, czyli konkurs gdzie algorytm próbuje klasyfikować obiekty które są na zdjęciu. Ludzi robią to z dokładnością 95% innymi słowami błąd jest 5%.

Pokażę teraz dynamikę rozwoju. W roku 2010 (kiedy konkurs rozpoczął się) każdy z uczestników uzyskał wynik ponad 25% błędu, za 2 lata w słynnym roku 2012 najlepszy wynik był (AlexNet) już był 16%, trzy lata później, czyli 2015 udało się osiągnąć trochę mniej niż 5% (3.57% top 5 error) a w 2017 już 29 z 38 drużyn miał wynik mniej niż 5%. Postępy są gigantyczne. Powtórzę, że algorytm robię to lepiej niż ludzi (dla pewnych kategorii).

Postępy z ImageNet | Zródło: David Yanofsky

Pytanie analogiczne, ale będzie dotyczyło innego obszaru. A jak wyglądają postępy z przetwarzaniem i rozumieniem tekstu (NLP/NLU)?

Jeżeli chodzi o przetwarzanie języka naturalnego, to z tą dziedziną jestem dużo mniej zaznajomiony, więc nie mogę to tak ładnie podsumować. Ale z grubsza mogę powiedzieć , że obecnie wielu problemów z przetwarzania tekstu daje się rozwiązać za pomocą głębokiego uczenia maszynowego czyli za pomocą głębokich sieci neuronowych.

W pewnym sensie to jest bardzo fajne, bo, jak widzisz, podobne metody, które są stworzone do przetwarzania lub klasyfikacji obrazów także nadają się do przetwarzania lub klasyfikacji tekstu. Mamy w pewnym sensie unifikacje, czyli korzystamy z podobnych metod do rozwiązywania z pozoru odmiennych problemów.

Wracając do tematy, to tak zrbusza, ostatnio takie metody jak word2vec albo rekurencyjne sieci neuronowe, takie jak LSTM udowodniają swoją pozycję przy rozwiązywaniu pewnych problemów z przetwarzania języka naturalnego. Działają one bardzo dobrze na poziomie słów lub krótszych zdań. Te metody, a szczególnie rekurencyjne sieci neuronowe także wykorzystywałem w swojej prace doktorskiej.

O Turing Test już wspomniałem kilka razy w poprzednich odcinkach, ale proszę wyjaśnij czym jestem Visual Turing Test, jaki jest sens tego (albo inaczej, jakie jest zastosowanie, jakie potencjalnie problemy to może rozwiązać) i na koniec jaki jest postęp (zgodnie z estymacją kiedy będzie zaliczony)?

O tym mogę długo opowiadać. Visual Turing Test to jest problem, który zaproponowałem razem z moim opiekunem w czasie swojego pobytu na studiach doktorskich w Instytucie Maxa Plancka. Jest to problem, w którym maszyna dostaje zbiór pytań w języku naturalnym na temat danego obrazu. To mogą być pytania w stylu “ile jest krzeseł przy stole” albo “jaki przedmiot leży w kącie tego pokoju”.

Następnie maszyna, która dostaje takie pytanie, musi odpowiedzieć na nię, a my automatycznie sprawdzamy poprawność udzielonej odpowiedzi. Podsumowując można powiedzieć, że Visual Turing Test jest o tworzeniu takich maszyn, które jednocześnie rozumieją język naturalny, oraz widzenie (na przykład, rozumieją obrazy, zdjęcia, wideo). A to rozumienie mierzymy w sposób automatyczny przez porównanie otrzymanej odpowiedzi do odpowiedzi oczekiwanej.

Podczas pracy doktorskiej, nie tylko zaproponowałem taki test i opisałem kierunek jego rozwoju, także zaproponowałem konkretny zbiór danych DAQUAR, stworzyłem pierwsze metody, które odpowiadają na pytania o obrazy, jedną będącą połączeniem takiego symbolicznego AI z uczeniem maszynowym, a druga metoda, która już należy do nurtu subsymbolicznego (a dokładniej do głębokiego uczenia maszynowego).

Zbiór danych DAQUAR

Także zaproponowałem kilka metryk, które automatycznie sprawdzają jakość otrzymanych odpowiedzi. Problem okazał się z jednej strony bardzo trudny, a z drugiej – ciekawy, do tego stopnia, że wiele innych uniwersytetów, a także firm potwierdziły ten pomysł i kontynuują badania w tym kierunku.

Chciałbym opowiedzieć również o początkach Visual Turing Test, bo to jest dosyć istotne do zrozumienia. Problem ten powstał częściowo ze względu na moje niezadowolenie z postępów w tak zwanym image captioningu, gdzie zadaniem maszyny jest opisanie obrazu. Dużym problemem w image captioningu jest automatyczna ewaluacja (ocenianie jakości działania modelu) opisów wyprodukowanych przez maszynę.

Tutaj pojawia się problem: żeby automatycznie stwierdzić czy maszyna poprawnie opisała obraz, potrzebujemy innej maszyny, która rozumie i opis i obraz. Czyli mamy takie zapętlenie, aby sprawdzić czy maszyna rozumie problem musimy mieć maszynę, która już rozumie problem. W praktyce, oczywiście, korzysta się z jakichś tam heurystyk, ale wyniki ewaluacji nie zawsze są zgodne z naszymi intuicjami, a czasami ciężko się te metody interpretuje. A co byłoby, gdybyśmy zadawali bardziej skomplikowane pytania o to co się znajduje na obrazie, ale w taki sposób, aby dostać w miarę prostą odpowiedź.

Na przykład, jeżeli zadam pytanie “czy po mojej prawej stronie znajduję się szklanka”, z jednej strony wymagasz od systemu by ten zrozumiał obiekt szklanka, by zrozumiał pewne relacje w przestrzeni, by zrozumiał samo pytanie, ale sama odpowiedź jest już bardzo prosta – jest to “tak” albo “nie”. W praktyce okazało się, że ewaluacja nie jest aż taka prosta, ze względu na różne możliwości w interpretacji obrazu lub pytania, ale i tak te problemy są znacznie mniejsze niż w problemie image captioningu.

Kolejnym problemem tych metod, które opisują jest to, że jest im łatwiej oszukiwać, ze względu na to, że nie oczekujemy od takich metod niczego konkretnego, a jest wiele możliwych opisów tego samego obrazu (jedne są bardziej konkretne, inne – bardziej abstrakcyjne), a z dodatkowo pewną tendencją ludzi do antropomorfizacji powodują, że metody opisujące obraz, nie muszą być bardzo precyzyjne. Jeśli takie metody wykryją gdzieś żyrafy i opiszą obraz, jako żyrafa na trawie, to jest to duża szansa, że taki opis jest ostatecznie poprawny.

Te metody mogą opisać obraz bez głębszego rozumienia tego, co się znajduje na obrazie i stworzyłem Visual Turing Test, który podchodzi do podobnego problemu w inny sposób. Bo wiem, by maszyny zrozumiały to co się dzieje wokół w sposób znacznie głębszy niż to jest wymagane od problemów, w których metoda opisuje obrazy, i to jest robione poprzez zadawanie pytań o dane elementy tego obrazu.

Jeszcze z innej strony na taki test można spojrzeć jak na zbiór wielu indywidualnych problemów, nie tylko takich jak klasyfikacja obiektów na obrazie lecz tak jak klasyfikacja czynności, zrozumienie emocji czy też może atrybutowa charakteryzacja obiektów. Każdy taki problem jest sparametryzowany pytaniem. I to, uważam, jest bardzo ważna rzecz, bo wiem, jeżeli myślimy faktycznie o zbudowaniu prawdziwego AI, to musimy pójść w kierunku dywersyfikacji, czyli taka maszyna nie tylko powinna rozwiązać problem A, ale i problem B itd.

Jeszcze z innej strony Visual Turing Test jest odejściem od standardowego paradygmatu widzenia maszynowego, zgodnie z którym maszyny badały zrozumienie sceny zdjęć poprzez detekcje objektów albo segmentację obrazów i to odejście jest na rzecz prostszego w ewaluacji problemu, który nie wymaga specyficznej reprezentacji, takich jak, na przykład, opisanie obiektu prostokąt czy klasyfikacji poszczególnych pikseli. Ewaluacja jest dokonywana na podstawie ostatecznego celu jaki ma maszyna wykonać, czyli w tym wypadku – odpowiedzi na pytanie o obraz.

Object Detection

Jeżeli chodzi o postęp – jest on bardzo duży, biorąc pod uwagę, że ten problem jest całkiem nowy. Przede wszystkim powstało wiele zbiorów danych nasz DAQUAR był pierwszy, najbardziej znaną bazą jest VQA. Wielkość jest na tyle istotna, że obecne metody uczenia maszynowego do efektywnego nauczania wymagają ogromnej liczby danych. Są także inne zbiory danych, takie jak MovieQA gdzie pytania są na temat wideo, i jest taka baza danych syntetyczna CLEVR, którą ostatnio eksperymentowałem w DeepMind.

Przykłady ze zbioru danych VQA

Jeżeli chodzi o estymacje, to ciężko powiedzieć kiedy rozwiążemy taki problem. Tutaj też warto odizolować sam problem Visual Turing Test od konkretnej bazy danych, która dany problem ukonkretnia. Myślę że Visual Turing Test w najszerszym znaczeniu równoważy z General AI.

Z kolei pewne bazy danych mogą zostać rozwiązane w najbliższej przyszłości. Na przykład, wspomniana baza CLEVR (baza z syntetycznymi obrazami i syntetycznymi pytaniami) została rozwiązana w DeepMind.

Zapytam jeszcze o Turing Test. Alan Turing nie zdefiniował dokładnie co ma nastąpić, żeby powiedzieć że to faktycznie się stało. Teraz jest sporo spekulacji, bo jedni uważają że już udało się osiągnąć Turing Test, drudzy mówią, że udało się przez to że nie został dobrze zdefiniowany i nastolatek z Ukrainy czy inne chatboty, które udają że są inteligentne.

Tak naprawdę tylko bardziej próbują się poruszać w bardzo ograniczonej dziedzinie. Zapytam się właśnie o Visual Turing Test, czy też prawdopodobnie będzie taka spekulacja czy jednak jest to bardziej sformalizowane, bo tego nie do końca zrozumiałem.

Może nie nazwałbym to spekulacją, jest to powiedzmy odkrywanie bazy danych, która jest dobrym odzwierciedleniem tego Visual Turing Test. Może tutaj powtórzę, że na początku, jak tworzyłem test, stworzyłem go z bazą danych DAQUAR i można powiedzieć, że to jest pewna instancja Visual Turing Test. W jednej ze swoich publikacji określiłem mniej więcej co mam na myśli poprzez Visual Turing Test i to jest coś trochę bardziej ogólnego.

W pewnym sensie jasno jest to, że to zależy od innych naukowców czy też innych ludzi, jaka jest konkretna baza danych, która odzwierciedla ten Visual Turing Test, więc pod tym względem jest trochę spekulacji. To co jest dla mnie ważne w odróżnieniu od oryginalnego Turing Testu, zdefiniowanego przez Alana Turinga, jest to, że tutaj bardziej skupiamy się na wizji, na obrazach i przez to ten problem staje się bardziej konkretny od Turing Testu, bo tutaj zadaje konkretne pytania “czym jest ten obiekt” albo “ile mamy obiektów na stole” i td. I nie oczekujmy tutaj abstrakcyjnych odpowiedzi.

Ten problem antropomorfizacji czyli takiego nadawania ludzkiego znaczenia rzeczom, które niekoniecznie mają wiele sensu nie jest tak problematyczny, jak w Teście Turinga. Tak jak wspomniałeś że taki robot może udawać dziecko albo inną osobę i zaczynamy wierzyć w to. Tutaj to wszystko jest bardziej konkretne.

To się cieszę. Warto czasami mieć konkrety, chociaz z drugiej strony, jeżeli chodzi o Turing Test, ten test nie ma już aż tak dużo znaczenia, po prostu warto iść do przodu, niż próbować z kimś dyskutować, albo robić kolejną wojnę czy ktoś wygrał ten test czy nie.

Chodźmy dalej, bo jest jeszcze wiele ciekawych rzeczy. Tylko wspomnę jeszcze o image caption czy podpisy zdjęć. Pamiętam że kilka tygodni czy miesiąc temu czytałem artykuł o ograniczeniach Deep Learning i tam było między innymi zdjęcie, gdzie dziewczynka z szczoteczką stoi i algorytm rozpoznał, że to jest bejsbol. Jeżeli chodzi o geometrie, to przypomina, ale każdy człowiek zrozumie, że to była szczoteczka.

Dziecko ze szczoteczką

Tak, to prawda, więcej jest takich sytuacji i oni są związane z tym, że sieci neuronowe nie mają głębokiego zrozumienia obrazu i raczej działają na pewnych korelacjach, na pewnych związkach statystycznych. Czasami te metody dają świetne rezultaty i możesz być zaskoczony że dany obrazek został w taki sposób opisany, ale też jest dużo wypadków gdzie opis obrazka jest zupełnie błędny.

To widać też na Visual Turing Test, bo wiele metod, które daje się wykorzystać do opisania obrazów także się daje trochę zmienić i wykorzystać do Visual Turing testu. Przy takich trudniejszych pytaniach, które są wcale nie aż takie trudne, te metody tak dobrze nie działają.

Zgłębię te tematy, bo jak już powiedzieliśmy na początku – pracujesz w DeepMind, ale może warto zaznaczyć, że nie reprezentujesz firmę jako taką, tylko wyrażasz swoją prywatną opinie, ale jednak porozmawiajmy o tym…

Zwycięstwo AlphaGo jest bardzo słynne. To było bardzo duży krok do przodu jeżeli chodzi o możliwości komputera. Ale wiem, że DeepMind robi kolejny duży krok do osiągnięcia tak zwanego General AI.

Algorytmy już całkiem dobrze sobie radzą z wykrywaniem kota czy psa na zdjęciu, ale algorytm nie zdaje sobie sprawę, że pies goni kota (chociaż czasem też była odwrotnie).

Dla człowieka to jest oczywiste. Innymi słowa tak zwanej sztucznej inteligencji po prostu brakuje, jak to czasem mówi się, rozumieniu o życiu, o relacjach (po angielsku common sense knowledge).

Czyli jeszcze raz, na dzień dzisiejsze uczenie maszynowe fantastycznie sobie radzi z wykrywaniem wzorców, ale nie jest w stanie wyjaśnić dlaczego jest tak… nie ma głębszego rozumienia. W dużym uproszczeniu, możemy powiedzieć, że student też może “wykuć” na pamięć materiał i nawet zdać egzamin, ale ta wiedza jest po prostu zbiór reguł w głowie i prawie zero zrozumienia.

Jesteś zaangażowany w jeden z projektów DeepMind, gdzie właśnie próbuję się wyjść na inny poziom sztucznej inteligencji. Proszę wyjaśnij jak podchodzisz do tego tematu w DeepMind. Co już udało się osiągnąć? Również poproszę w miarę prostym, mało technicznym językiem z przykładami.

W DeepMind pracowałem nad relation networks i tak jak wspomniałeś, sieci neuronowe o ile dobrze potrafią rozpoznawać obiekty na obrazach, to z pewnymi rzeczami, takimi jak relacje pomiędzy różnymi obiektami to jest dużo ciężej. Głównym celem tego projektu jest zmiana tego stanu rzeczy.

Już jakiś czas temu chyba wspomniałem o zbiorze CLEVR, który jest zbiorem składającym się z trójek pytanie-odpowiedź-obraz, więc można powiedzieć że to także jest część większego projektu, który został zapoczątkowany przez Visual Turing Test czyli także do niego należy albo Vision Question Answering.

Ale w odróżnieniu od zbioru DAQUAR tutaj mamy syntetyczne pytania oraz syntetyczne obrazy, które się składają z kilku figur geometrycznych. Więc pod tym względem te bazy danych są trochę podobne do baz danych MIT z lat 60-yh, ale CLEVR jest położony głównie na takie relacyjne myślenie, czyli pytania są w stylu “ile jest innych rzeczy, które mają taki sam materiał jak żółty sześcian” itd.

Przepraszam, że Cię przerywam, ale myślę, że warto to trochę rozszerzyć i podać przykład co to znaczy w praktyce, bo mamy stół albo jakąś powierzchnię i tam są różne przedmioty, na przykład, sześcian, stożek, kula i też mają różne kolory. Pytanie jest takie – ile jest przedmiotów tego samego koloru albo czy jest ten sam materiał jak na stożku, prawda?

Zbiór danych CLEVR

Tak. Aczkolwiek pytania mogą być znacznie bardziej skomplikowane. Na przykład, ile jest gumowych stożków, które stoją naprzeciwko zielonego sześcianu, który jest po lewej stronie od czerwonej rzeczy.

To jest ciekawe, bo jak mówimy o sztucznej inteligencji, deep learning, to zawsze jest takie zachwycenie, że właśnie wygrała AlphaGo, ale tak jak rozmawialiśmy na początku – jest to wyzwanie z common sense knowledge, albo rozumieniem ogólnym, albo powiązaniem tych relacji i to, co potrafi robić nastolatek albo 5-latek, w tej chwili dla algorytmu nadal jest wyzwaniem albo było wyzwaniem. Powiedz, jakie są postępy?

Można powiedzieć, że było wyzwaniem. W celu takiego relacyjnego wnioskowania przez maszyny, stworzyliśmy moduł, który nazwaliśmy Relation Networks. Jest to sieć neuronowa, która rozważa dwa obiekty na obrazie, porównuje te obiekty ze sobą za pomocą kilku warstwowej sieci neuronowej, a następnie agreguje wszystkie te reprezentacje takich par w celu stworzenia jednej reprezentacji globalnej całego obrazu.

Za pomocą tak zbudowanej sieci neuronowej otrzymaliśmy wyniki, które są w zasadzie lepsze niż ludzkie odpowiedzi. Tutaj muszę zaznaczyć, że wszystko jest na zbiorze danych CLEVR i ten zbiór jest wizyjnie prosty, ma skomplikowane relacje, skomplikowane pytania, ale ta percepcja jest prosta. Ale w każdym bądź razie, nasz system potrafi według metryk odpowiadać lepiej niż ludzie, na tej bazie danych. Dlatego można powiedzieć, że rozwiązaliśmy problem rozumienia relacyjnego, przynajmniej w stosunku bazy danych CLEVR.

To co jeszcze jest ważne. Mimo tego, że powiedziałem, że ten moduł porównuje dwa obiekty, to te obiekty nie muszą jawnie być podane, ta sieć neuronowa sama rozstrzyga czym jest dany obiekt na podstawie danych treningowych. To jest w zasadzie taka sieć neuronowa, gdzie się podaje tylko i wyłącznie obrazy, podaje się skomplikowane pytania, podaje się odpowiedzi (w zbiorze treningowym, oczywiście), i ona na postawie tych trójek zaczyna rozumieć obiekty i zaczyna rozumieć relacje.

To my, jako ludzkość zrobiliśmy kolejny krok w kierunku tak zwanej GAI czyli ogólnej sztucznej inteligencji. Tutaj warto jeszcze dopytać Twoją opinie na temat, jakie są wyzwania na dzień dzisiejszy w uczeniu maszynowym, jakie są największe i które da się pokonać w najbliższe 5 lat?

Jest dużo wyzwań. Myślę, że bardzo ważnym jest to, aby sieci neuronowe zaczęły dobrze sobie radzić w momencie, kiedy nie ma tak dużo danych treningowych. Jak opowiadałem o tym zbiorze danych CLEVR i rozumieniu relacyjnym, to to wszystko dobrze działa, bo mamy dużo zbiorów treningowych. W świecie rzeczywistym ciężko się buduje takie zbiory treningowe, szczególnie na wielką skalę.

Jesteśmy ograniczeni o takie naturalne rzeczy, jak zasoby pieniężne, ludzki, jak czas i tak dalej. I w takich skomplikowanych problemach, jak Visual Turing Test, ciężko jest zbudować takie bazy danych, które by zawierały wszystkie możliwe pytania ze wszystkimi możliwymi odpowiedziami. A my – ludzie, jakoś sobie radzimy, poprzez moze jakąś kompozycję, a być może mamy jakieś inne umiejętności, dzięki którym potrafimy tworzyć nowe zdania i potrafimy rozumieć zdania, albo całe zbiory zdań, które wcześniej nie słyszeliśmy.

I to jest, moim zdaniem, bardzo duże wyzwanie dla sieci neuronowych. Jak zbudować taką sieć neuronową, która jest bardzo silna do rozwiązywania problemów, ale jednocześnie nie wymaga się od niej takiego dużego zbioru treningowego, że ona potrafi na bazie kilku przykładów zrozumieć co się dzieje.

Mogę potwierdzić takim trochę z życia przykładem. Mam małe dziecko i zawsze się fascynuje, jak pokazuje w jednej książce krowę, czy inny obiekt, dosłownie jeden czy dwa razy, a później biorę inna książkę, gdzie ta krowa wygląda zupełnie inaczej i pytam “gdzie jest krowa?”, a on pokazuje prawidłowo.

I dla mnie to jest fascynujące. Jak to jest możliwe, bo pokazałem tylko jeden raz i zupełnie czegoś innego, ale od razu się nauczył. Tutaj widać że mózg człowieka działa znacznie lepiej niż nowoczesne algorytmy, przynajmniej na dzień dzisiejszy.

Tak, dokładnie i na dzień dzisiejszy musiałbyś pokazać 100 instacji żeby sieć neuronowa zrozumiała czym jest krowa.

Teraz przejdźmy do tematów, może trochę etycznych, albo o odpowiedzialności.

Mówi się, że jesteśmy teraz na etapie, kiedy algorytmy rozwiązują coraz bardziej złożony zagadnienia, ale my jako ludzi nie do końca mamy kontrole nad tym co tam się dzieje. W ogólnym sensie tego słowa rozumiemy jak to działa (że jest tam sieć neuronowa i różne funkcję transformujące sygnał). W pewnym sensie, to jest podobnie jak to, że wiemy, że jest Słońca, Ziemia i inne planety. Jest grawitacja i inne prawa fizyki, ale myślę, że każdy fizyk który spędził swoje życie na naukę pod koniec życie mógł stwierdzić, że wiem sporo, ale nadal nie wiem jak to działa w całości.

Jak mówił Arystoteles „Całość jest czymś więcej niż sumą części”. No właśnie jest kilka pytań w tym obszarze.
Najpierw może wyjaśnię dlaczego to jest problemem w mojej opinii. Jeżeli zastanowić się na chwilę, to łatwo stwierdzić też nie mamy kontrolę nad ludźmi z każdym krokiem (i to oczywiście dobrze), czyli nie wiemy dokładnie co Jan Kowalski czy Adam Nowak chce zrobić dzisiaj czy jutro (chociaż, w większości przypadków to jest łatwo przewidzieć, bo ludzi płyną zgodnie z prądem).

Z drugiej strony, mamy odpowiedzialność, jeżeli zrobią coś złego, to na nich będzie czekała kara. Nie powiem, że osobiście podoba mi się taki model relacji, mam inne zasady wewnętrzne. Ale mniejsza o to… chodzi o to, że jest to jakiś mechanizm który reguluję działania innych. W przypadku sztucznej inteligencji. Jaka może być dla niej kara? Brzmi trochę bez sensu :). Dlatego jest potrzebna kontrola, żeby rozumieć każdy jej krok. Czy potrzebna jest taka kontrola wg Ciebie? Bo to brzmi fajnie, że możemy kontrolować, ale to pewnie bardzo ogranicza rozwój. Jaka jest Twoja opinia najpierw jako naukowca?

Tutaj zdecydowanie będzie moja prywatna opinia. Jeżeli chodzi o kwestie rozumienia, szczególnie głębokich modeli uczenia maszynowego, jak głębokie sieci neuronowe, to warto jednak podkreślić dwie rzeczy. Do pewnego stopnia my, jako środowisko, rozumiemy te modele, które tworzymy.

Są oczywiście rzeczy, które słabo rozumiemy i często oni są natury technicznej. Na przykład, intuicyjnie mogłoby się wydawać że taka głęboka sieć neuronowa, która ma ok. 60 mln parametrów, która jest trenowana za pomocą stochastic gradient descent nie powinna dobrze działać, ale praktyka pokazuje na odwrót. Ten mechanizm nie jest do końca całkowicie poznany, brakuje szerszej teorii, która mogłaby zasugerować w jaki sposób budować kolejne modele. W konsekwencji czego, budowanie sieci neuronowych jest zajęciem często empirycznym.

Mamy także do czynienia z innym poziomem rozumienia sieci neuronowych, że nie do konca jestesmy w stanie w jednożnaczy sposób ustalić dlaczego dana konkretna sieć neuronowa podjęła takie a takie decyzje. Jak to się stało, że z obrazka, który przedstawia kolor zielony, ma jeszcze inne kolory i jakieś proste kształty, sieć neuronowa doszła do tego, że to jest obraz przedstawiający kwiat. I w tej ostatniej kwestii pojawia się wiele badań jak akademickich tak i badań, które w jakiś tam sposób związane z firmą. I tutaj jest kilka takich nurtów. Jeden nurt, to wizualizacja.

Sieć neuronowa uczy się rozpoznawać obiekty na obrazie poprzez filtry, które wykrywają pewne wzorce i te filtry do pewnego stopnia można zwizualizować, zinterpretować za wykrycie jakiego wzorca ten filtr odpowiada. I w taki sposób można się dowiedzieć, że w dolnej warstwie sieci neuronowej realizują filtry Gabora i są odpowiedzialne za znajdowanie prostych kształtów. Innym ciekawym nurtem jest zapożyczenie narzędzi z psychologii kognitywnej do tego by badać sieci neuronowej.

Przykłady co wpływa na decyzji DeepNetwork

I w ten sposób można określić pewne tendencje, która ma sieć neuronowa. Czyli, na przykład, sieć neuronowa kieruje się bardziej kształtem obiektu niż kolorem obiektu do tego żeby rozpoznać dany obiekt.

Są także inne metody które próbują w języku naturalnym wyjaśnić taką sieć neuronową. Żeby to zilustrować, wróćmy do Visual Question Sign zadaje pytanie “co się znajduje po prawej stronie od mojego laptopa”, i taka sieć neuronowa patrzy na obrazek, patrzy czy to pytanie i mi odpowiada na to pytanie, i wtedy się pyta “dlaczego doszła do takich a takich wniosków ” i wówczas ta sieć neuronowa próbuję się wytłumaczyć, tak jak człowiek to robi.

Jak ty mnie zapytasz, dlaczego podjełem taką decyzje, to próbuje ten cały proces decyzyjny Ci przedstawić w postaci języka naturalnego. Tak samo tutaj jest kierunek badań, który próbuje stworzyć sieci neuronowe, które same się wyjaśniają dlaczego doszło do takiego a takiego rozwiązania.

Zapytam Cię jeszcze o jedną poradę, tym razem dla młodszego pokolenia. Którzy teraz są na studiach, albo skończyły je i zastanawiają się co robić dalej. Co możesz im doradzić? Ewentualnie zdradź kilka wskazówek, jak taki młody człowiek może zacząć pracować w DeepMind?

W mojej historii studia doktoranckie były bardzo ważnym okresem w życiu, ogólnie studia były bardzo ważnym okresem w życiu. Myślę, że w czasie studiów warto jest chłonąć wiedzę z wielu różnych dziedzin. Na kierunkach ścisłych także warto nabrać pewnych umiejętności, są to rzeczy, które stają się później ważne, aby móc inspirować, przekonywać inne osoby do pewnych projektów, do pewnych idei.

Myślę, że bardzo ważne jest także aby balansować teorie z praktyką. Z jednej strony teoria jest bardzo istotna, nie zmienia się ona tak często jak inne rzeczy i poprzez nią budujemy pewny warsztat kognitywny, dzięki któremu jesteśmy w stanie zrozumieć inne bardziej konkretne rzeczy.

Z drugiej strony warto wzmacniać tą wiedzę teoretyczną jakąś praktyką lub różnymi eksperymentami w taki sposób, aby ta teoria była bardziej namacalna. Szczególnie jeżeli chodzi o uczenie maszynowe, starałbym każdą wiedzę teoretyczną wzmocnić jakimś argumentem empirycznym, czyli po prostu stworzenie implementacji pewnej rzeczy, która nas interesuje.

Jeżeli chodzi o firmę, to nie skusiłabym się na budowaniu swojego CV pod konkretną firmę. Jak ktoś teraz zaczyna studia, to prawdopodobnie je skończy za jakieś 5 lat, może później, jeżeli zdecyduje się na studia doktoranckie i ten rynek może się zmienić. Ale wydaje mi się że jest ważne by w pewnym okresie swojego życia stać się osobą, która ma unikalne umiejętności, które są także cenione na rynku pracy, i jeżeli tak się stanie, to firmy same zaczną się zgłaszać po taką osobę.

Osobiście polecam wyjazdy na dobre uczelnie zagraniczne lub do dobrych firm, często zagranicznych, na praktyki. I takie wyjazdy otworzyły mi oczy na pewne dziedziny wiedzy, które wcześniej były mi obce, a stały się kluczowe w mojej karierze.

Także warto uczestniczyć w programach mentorskich, jeżeli takie programy są dla studenta dostępne.

Czyli tak nieco w skrócie mieć otwarte oczy, umysł, być przygotowanym na wyzwania i iść do przodu.

Dokładnie, trzeba być dzielnym, odważnym.

Czego mogę Tobie życzyć?

Zbudowania AI

W takim razie życzę Ci zbudowania AI. A na jakim poziomie, porównywalnym do ludzi czy wyższym?

A myślę, że niekoniecznie musimy myśleć w takich kategoriach. Być może zbudowanie AI, które w jakiś tam sposób jest komplementarne do ludzi czyli uzupełnia nas w jakiś tam sposób.

Czyli taki pomocnik, który robi za nas te rzeczy, które niekoniecznie ludzie lubią robić, a my skupiamy się na najbardziej ciekawych elementach tego życia.

Tak, ale to także pomaga w rzeczach które lubimy robić. Pomaga nam w badaniach naukowych albo w eksploracji kosmosu.

Tam gdzie faktycznie mózg ludzki nie jest najlepszym jak liczenie.

Na przykład. Albo dostęp do wiedzy. To jest tak, że teraz wiedzy jest bardzo dużo, teoretycznie mamy do niej dostęp, ale nie mamy dostępu do tej wiedzy naraz, w jednym momencie. Więc taka sztuczna inteligencja, która ma ten dostęp i potrafi odfiltrować te rzeczy, które dla nas są istotne i w odpowiedni sposób wnioskować. Może nam pozostawić ostateczną decyzje, ale zasugerować pewne rzeczy.

Rozmawialiśmy z Tobą prawie godzinę, ale nadal widać, że sztuczna inteligencja ukrywa w sobie bardzo dużo różnych wątków. Życzę Tobie żeby udało się zrealizować to co planujesz. A jak można z Tobą skontaktować w razie zainteresowania?

Można się ze mną skontaktować tradycyjnie, czyli mailem. Można wysłać maila obecnie na mateuszmalinowskiai [małpka] gmail.com. Jeżeli ktoś jest zainteresowany moimi publikacjami, to można je znaleźć albo na mojej stronie internetowej, albo na Google Scholar czy Linkedin.

Dziękuję, Mateusz bardzo za Twój czas i chęć podzielenia się swoim doświadczeniem.

Także dziękuję za rozmowę.

Duża dawka wiedzy? Być może część poruszonych tematów dla Ciebie była trochę trudna i zawierała skróty czy inne nieznana terminologia.

Mateusz jest pasjonatem swego dzieła, dlatego myślę, że jeszcze wiele dokonań jest jeszcze przed nim. Po naszej rozmowie zastanawiałem się nad tym, o ile my jesteśmy architektami swego losu. Czasem może się wydawać, że pracować w firmie jak DeepMind jest kosmicznie trudno. Na przykładzie z Mateuszem, można zobaczyć, że wystarczy konsekwentnie robić swoje. Dlatego życzę Ci, osiągać swoje cele również skutecznie, jak to robi Mateusz.

Dziękuję za wszystkie informację zwrotne. Przypominam, że możesz kontaktować się ze mną przez dowolny wygodny kanał dla Ciebie: twitter, facebook, linkedin, strona kontaktu na biznesmysli.pl.

Mam dobrą nowość dla Ciebie. W tym roku Google Developers Day Europe będzie zorganizowany w Krakowie 5-6 września. To jest ciekawe wydarzenie dla osób które interesują się technologiami rozwijanymi przez Google. Osobiście bilet kupiłem już kilka misięcy temu (mówię dlatego, żeby pokazać ważność dla mnie tego wydarzenia), ale dzięki współpracy z Google mam do rozdania trzy bilety dla najbardziej chętnych. Przypomnę, że wartość takiego biletu jest 250 dolarów.

Google Developers Day Europe

Chcesz dostać takie bilet za darmo? A może chcesz się spotkać z ludźmi z Google, które rozwijają innowacyjne produkty (będzie również sporo osób z Doliny Krzemowej)? A możliwie chcesz ze mną porozmawiać osobiście?

Dołącz się do grupy DataWorkshop na Facebook.
Udostępnij baner GDD Europe ze swoim komentarzem, dlaczego chcesz pójść na konferencje.
Zaangażuj również swoich znajomych i może się okażę, że pójdziecie razem.

Masz na to 3 dni. Następnie, w czwartek z rano (31 sierpnia), wybiorę 3 najbardziej wartościowe powody (wg. mojej skromnej opinii) i skontaktuję się z tymi osobami przez wiadomość prywatną i do końca czwartku będę oczekiwał na informację zwrotną od wybranych osób.

Również będę na tym wydarzeniu, więc jeżeli wybierasz się, proszę daj mi o tym znać.

Dziękuję Ci bardzo za Twój czas, Twoją energię i chęć do rozwoju.

Życzę wszystkiego dobrego i do usłyszenia.

Artykuł Naukowiec Computer Vision z DeepMind – Mateusz Malinowski pochodzi z serwisu Biznes Myśli.