computer vision – Biznes Myśli

Dobre praktyki i sztuka nazywania rzeczy w Machine Learning

Vladimir — Sat, 24 Jul 2021 15:25:19 +0000

Witam w kolejnym podcaście Biznes Myśli. Dzisiaj goszczę Marcina Możejko. To jest bardzo ciekawy, pozytywny człowiek. Marcin ma bogate doświadczenie zawodowe – z jednej strony twarde, wiedza matematyczna, z drugiej strony programistyczne, a z trzeciej strony to wszystko jeszcze łączy Data Science jako inżynier i próbuje być na krawędzi tych światów, które wcale nie jest tak łatwo połączyć.

Marcin opowiada, dlaczego to robi i jak to sobie definiuje.

Ostatnio pracował w TCL – chińska firma, która ma oddział w Warszawie. Akurat odszedł stamtąd. Dlaczego odszedł i co robi teraz – o tym wszystkim będzie dzisiaj. Ta rozmowa mogłaby być jeszcze dłuższa i myślę, że warto byłoby ją jeszcze kontynuować, bo niektórych wątków jeszcze w ogóle nie poruszyliśmy z Marcinem, a bardzo by się chciało je poruszyć. Też bardzo jestem ciekawy Twojej opinii, więc zapraszam do wysłuchania i czekam na informację zwrotną.

Dzisiaj będzie gorąco, ale to nie tylko z powodu temperatur za oknem, zapowiada się bardzo ciekawa rozmowa.

Cześć Marcin. Przedstaw się kim jesteś, czym się zajmujesz i gdzie mieszkasz?

Cześć, nazywam się Marcin Możejko. Aktualnie jestem i mieszkam w Warszawie, a zajmuję się Machine Learningiem w bardzo szerokim podejściu, ponieważ mam to szczęście, że w chwili obecnej jestem bardziej w Akademii, ale przez wiele lat pracowałem zarówno w Akademii jak i biznesie, więc można powiedzieć, że byłem zarówno inżynierem jak i researcherem, ale też dosyć mocno zahaczyłem się o biznes. Bardzo dziękuję za zaproszenie i mam nadzieję, że będziemy mogli podzielić się swoimi doświadczeniami w tych tematach.

Właśnie porozmawiamy i o Akademii, o doświadczeniu, o propozycji, którą miałeś i jaka była decyzja. Ale powiedz tak na początek: co ostatnio ciekawego przeczytałeś i dlaczego warto to przeczytać?

Propozycja, którą bym tutaj polecił to są „Niewidzialne miasta” Italo Calvino. Jest to pozycja literacka bardzo ciekawa. Książka ma bardzo ciekawą formę. Składa się z 64 krótkich opowieści, które też mają określoną, matematyczną, strukturę. 64 jest związane z szachownicą, w związku z tym są różne sugestie czytania tej książki. Fabuła opowiada o tym, że Marko Polo wędruje do Chin, tam spotyka Cesarza Chińskiego i opowiada mu o miastach, które odwiedził. Każde z tych 64 opowiadań jest opowiadaniem o jednym mieście. Bardzo chciałbym gorąco polecić tę książkę, ponieważ ona wbrew pozorom jest bardzo matematyczna. Wydaje mi się, że opowiada o takiej bardzo ciekawej przestrzeni pomiędzy kreatywnością a strukturą. Kreatywność to jest ten wędrowiec, a struktura to jest spotkany cesarz i jest dyskusja pomiędzy tymi dwoma końcami spektrum. Ja byłem zachwycony, więc na pewno gorąco polecam również inżynierom, wydaje mi się, że każdy wyciągnie z niej coś bardzo ciekawego.

Doświadczenie Machine Learning & Data Science

Bardzo dziękuję za to polecenie. Teraz Marcin opowiedz troszkę więcej o swoim doświadczeniu Data Science, Machine Learning. Jakie projekty miałeś okazję wykonywać do tej pory, w jakich branżach pracowałeś? Wiem, że masz ogromne doświadczenie.

Miałem szczęście zaczynać swoją karierę w czasach, w których inżynierów w Warszawie było bardzo mało. W związku z tym, kiedy było się inżynierem to parało się bardzo dużą ilością projektów z różnych źródeł. Uważam to za olbrzymie szczęście. Zaczynałem w ogóle w PwC firmie konsultingowej, gdzie pracowaliśmy z danymi stricte finansowymi albo klienckimi. Tam pracowaliśmy nad churn’em w banku wówczas, ale też mieliśmy okazję robić anomaly detection na czujnikach.

Pracowaliśmy też dużo w wizji komputerowej dla dronów. Po PwC miałem krótką przerwę w Microsofcie, gdzie pracowaliśmy nad rozpoznawaniem języka naturalnego. Byłem w zespole tłumaczeń i budowałem model, który oceniał ryzyko takich tłumaczeń z pewnym komponentem tłumaczenia decyzji.

A później przez 2 lata pracowałem jako główny inżynier w konsultingu w Warszawie, firma nazywała się Sigmoidal. Tam też pracowaliśmy nad bardzo dużą ilością projektów, które wchodziły zarówno w wizję komputerową, jak i rozpoznawanie mowy. Przede wszystkim natomiast był to język naturalny, ale też zdarzały się projekty typowo researchowe, nawet z takich fundacyjnych zagadnień Machine Learningu.

Równolegle do tej pracy, w wolnych godzinach też pracowałem akademicko. Miałem absolutorium, ale pisałem magisterkę. Pracowaliśmy właśnie nad projektami związanymi z wykrywaniem raka jelita grubego na zdjęciach. Później też w ramach współpracy z Uniwersytetem pracowaliśmy nad modelami generatywnymi, w których generowaliśmy białka antybakteryjne. Mam jeszcze jedne doświadczenie, ale podejrzewam, że pogadamy o nim później, więc to zostawię na później

Ostatnia firma, w której pracowałeś – chińska firma TCL, która ma oddział w Warszawie. Co ciekawego tam robiłeś?

Wydaje mi się, że jak wspomniałem wcześniej, że miałem dużo szczęścia w pracy z różnymi projektami to ten projekt był chyba największym szczęściem, który mi się przytrafił. Często jest tak, że w biznesie projekty są bardziej researchowe lub bardziej biznesowe, ten projekt był zarówno płodny biznesowo, jak i płodny badawczo, więc było to olbrzymie szczęście.

A sam projekt dotyczył neural architecture search czyli inteligentnego przeszukiwania architektur. Jednym słowem, tworzyliśmy algorytmy albo sieci neuronowe, które modyfikowały lub tworzyły inne sieci neuronowe. Celem tego projektu było to, że TCL jest firmą, która produkuje bardzo szerokie portfolio urządzeń – od telewizorów przez smartfony, nawet klimatyzatory, kuchenki – wszystko właściwie tam jest.

Każde z tych urządzeń miało jakiś określony chip, każdy z tych chipów miał określony silnik wykonywania inferencji sieci neuronowych, więc naszym zadaniem było stworzenie silnika, który znając to urządzenie, jak i znając ten silnik stworzy taki bardzo szybki algorytm (szczególnie do wizji komputerowej), rozwiązujący zadanie. Jest to problem o tyle ważny, ponieważ kiedy myślimy szczególnie o wizji komputerowej to takim dominującym podejściem jest podejście transfer learningowe czyli, że mam jakiś określony zbiór bazowych architektur, te architektury jakoś tam ubogacamy tak, żeby rozwiązywały nasze zadanie.

Natomiast tych architektur wydaje mi się, jest wciąż stosunkowo mało. W związku z tym, my w pewnym sensie wypełnialiśmy luki pomiędzy tymi architekturami i dzięki temu byliśmy w stanie dotrzeć do większej ilości urządzeń i rozwiązywać większą ilość zadań, co było potwornie satysfakcjonujące.

Tutaj jeszcze tylko wspomnę dla słuchaczy – o AutoML mamy osobny odcinek 101. Tam co prawda było na temat takiego klasycznego uczenia maszynowego, a nie poszukiwania sieci.

Powiedz jeszcze trochę więcej na temat ciekawych wyzwań, które udało się znaleźć, bo te wyzwanie było całkiem nieintuicyjne. Wymień kilka wyzwań i z czego to wynika, jakie były rozwiązania.

Wydaje mi się, że w chwili obecnej mówimy tutaj o Transfer Learningu, ale taki Transfer Learning jest dwufazowy. W pewnym sensie pierwsza faza jest taka, że ten Transfer polega na tym, że bierzemy konkretną architekturę i ta architektura w pewnym sensie jest wykorzystywana w naszych zastosowaniach, ale jest drugi taki Transfer Learning (nazwijmy to Meta Transfer Learning), który polega na tym, że jest to transfer w pewnym sensie z researchu, badań, Akademii, do biznesu w tym sensie, że to Akademia w pewnym sensie wymyśla problem. Czyli kiedy np. Akademia chce zbudować jakąś konkretną sieć, która zdaniem badaczy jest szybka to wówczas automatycznie to, w związku z tym, że biznes przejmuje te algorytmy od nich to właśnie to jest transferowanie również tego przekonania co do tego, że ta architektura jest szybka.

W chwili obecnej wydaje mi się, że też z powodu tego, że badanie takie ogólne zajmują się ogólnie postawionymi problemami. Takim dominującym wyznacznikiem tego czy sieć jest szybka to jest liczba operacji wykonywanych w danej sieci. Możemy spojrzeć jak np. każda konwolucja jeśli chodzi o sieci konwolucyjne, wykonuje określoną liczbę operacji dodawania czy mnożeń czy operacji na liczbach zmiennych przecinkowych. To ta liczba właśnie jest takim uniwersalnym wyznacznikiem, czy sieć będzie wykonywana szybko czy wolno. Te sieci, które właśnie w Akademii według tego standardu są optymalizowane, żeby właśnie wykonywać szybko to właśnie te sieci przechodzą później do biznesu.

To okazuje się, że generuje wiele problemów bardzo nieintuicyjnych, ponieważ ta sieć dokładnie tyle operacji ile stara nam się uzyskać się uzyskuje, ale okazuje się, że operacja nie jest operacji równa. I tak wiadomo, że na końcu to będzie wykonywane na jakimś konkretnym urządzeniu, konkretnym silniku.

Powiem tutaj parę ciekawostek. Może zacznę od urządzenia. Np. okazuje się, że w chwili obecnej są bardzo określone przeploty np. w sieciach konwolucyjnych czyli np. kiedy używać większych, a kiedy mniejszych filtrów i to z powodu właśnie takich konkretnych optymalizacji niskopoziomowych. Różne przeploty po prostu dają różne wyniki, gdzie możemy mieć sieć, która wykonuje dokładnie taką samą liczbę operacji, ale z racji powiedzmy gdzie, jak głęboko w sieci, jakie operacje są wykonywane – te sieci będą miały zupełnie różne czasy wykonania.

Drugą warstwą, o której też wydaje mi się, że mało się mówi jest też warstwa konkretnego silnika. Np. jeśli chodzi o smartfony to możemy właśnie też na różnych urządzeniach wykonywać sieci przy pomocy różnych silników. Takie dwa podstawowe to bardzo popularny w chwili obecnej to TF Lite, który towarzyszy TensorFlow’owi. To jest właśnie taki silnik wykonujący obliczenia w sieciach neuronowych na wielu urządzeniach. Ale też jest np. taki silnik, który nazywa się SNPE i jest związany z chipami Snapdragona.

Okazuje się, że dokładnie dwie takie same sieci, wykonują się w zupełnie różnych czasach albo nawet nie to, że w zupełnie różnych, ale nie ma korelacji pomiędzy czasem wykonania. Wiadomo, że któryś silnik może być silniejszy, drugi wolniejszy. Okazuje się, że pojawia się tam potwornie dużo dziwnych czynników, które wpływają na wykonanie tej sieci. Taka chyba najbardziej ciekawa rzecz jest taka, że są pewne określone liczby filtrów, które każdy silnik preferuje np. TF Lite z naszych doświadczeń preferuje ilości filtrów w konwolucjach, które są podzielne przez 4 czyli np. intuicyjnie przejście z 4 filtrów do 3 filtrów może będzie się wykonywało tyle samo.

W związku z tym kontrintuicyjnie zmniejszenie sieci może wręcz czasem nawet wolniej, bo rzeczy, które się dzieją w silniku sprawiają, że jednak z tych 3 filtrów nagle jakoś robią się 4, w związku z tym dodatkowa operacja też zabiera czas. W związku z tym może dochodzić do takich kontrintuicyjnych sytuacji, że zmniejszenie sieci spowoduje jej zwolnienie.

Natomiast SNPE jest znacznie ciekawsze. Mianowicie SNPE preferuje ilość filtrów podzielną przez 32 i każda inna ilość filtrów jest źle wspierania. Czasami okazuje się, że zmniejszenie tej sieci albo nawet zwiększenie filtra dosłownie o 1 może totalnie wywrócić czas inferencji do góry nogami. W związku z tym jest tam bardzo duże pole do popisu, bardzo duże pole do optymalizacji. Wiele z tych rzeczy wydaje mi, że wręcz trzeba odkrywać. Jest to taka dodatkowa przestrzeń w optymalizacji modeli, która wydaje mi się być fascynująca, a podejrzewam nie do końca powszechnie znana.

Powiedz, czym się skończył ten projekt? Jak się z tym czujesz, kiedy Twój model albo model, którego w jakiś tam sposób dotknąłeś, kręci się na milionach urządzeń?

My właśnie rozwijaliśmy te algorytmy, które miały optymalizować te modele pod kątem różnych urządzeń. Co najmniej jeden model z tego co wiem. Niestety miesiąc temu odszedłem z TCL, więc na 100% wiem na pewno o jednym. Ale właśnie skończyło się to bardzo sprawnie działającym zespołem jak i również silnikiem do przeszukiwania tych architektur, który teraz nadal jest rozwijany i kilkanaście modeli już jest w kolejce do deploy. To uczucie jest potwornie satysfakcjonujące.

Też mieliśmy takie zadanie z poprawianiem zdjęć w galerii więc wydaje mi się, że to na pewno jest mega przyjemne, kiedy po prostu ktoś będzie mógł w wolnej chwili delikatnie poprawić swoje zdjęcie, korzystając z mojego algorytmu. Muszę przyznać, że robi mi się zawsze ciepło na sercu, kiedy o tym myślę. A tutaj mam przynajmniej milion powodów, żeby coś takiego się działo.

Nagrywając ten odcinek, używamy kamery. Właśnie widzę za Twoimi plecami dużo różnych książek. Są książki matematyczne, techniczne. Próbuje tak zrozumieć kim bardziej jesteś – czy chcesz się rozwijać w kierunku matematyka czy inżyniera? Bawiąc się architekturą, wybierając lepszą optymalizację to jest bardziej taka praca inżyniera. Jak się czujesz?

To pytanie, które ja sobie musiałem w końcu kiedyś zadać osobiście. Zauważyłem, że w różnych miejscach czułem, że nie do końca pasuję. Kiedy studiowałem matematykę, zaczynałem z takiej bardzo inżynieryjnej strony, natomiast na pewno samo piękno matematyki, wręcz estetyczne i syntetyczne mnie zachwyciło. Natomiast kiedy bardziej poszedłem w tę stronę, to też czułem, że czegoś mi brakuje – brakowało tej technicznej strony.

Zacząłem się nad tym głębiej zastanawiać i doszedłem do wniosku, że można te rzeczy właściwie ze sobą połączyć. Odnalazłem to połączenie. Dużą częścią pracy inżyniera jest umiejętność odpowiedniego nazywania rzeczy i wręcz wydaje mi się, że dobre nazwy, dobre zrozumienie rzeczy, nadanie im takiego sensu przez nazwę, pomaga rozwiązywać wiele problemów. Tak np. kiedy pracowaliśmy bardziej z biznesem, czyli z konkretnymi klientami, to np. nazywanie było potwornie istotne z perspektywy tego, żeby bardzo można było dokładnie określić problem, czyli zrozumieć, jakie są oczekiwania.

Umiejętność nazywania rzeczy jest kluczowa, żeby znaleźć wspólny język i żeby tak naprawdę wiedzieć, co jest ważne i co tak naprawdę musimy osiągnięcia.

Jeżeli spojrzymy sobie na to z innej strony, istotne jest także zbudowanie (pracując jako inżynier) też w takich biznesowych pipeline’ach to potwornie istotne było odpowiednie pokazywanie kroków, które tam się dzieją. Wówczas od tamtych nazw oczekiwaliśmy pewnie jakiejś separowalności, żeby też one brały pod uwagę urządzenia na jakich będą się wykonywały, ale też np. fajnie by było, żeby te różne nazwy wiązały się z czymś co potencjalnie później da się radę wykorzystać.

Zauważyłem, że właśnie jeśli się odpowiednio nazywa rzeczy, np. jeśli odpowiednio się powie, że ten komponent służy temu, że jeśli odbiorę ten tekst to ten tekst zwróci mi tę informację, to wówczas te nazwy nam pozwalają osiągnąć po pierwsze znacznie większą czytelność, a po drugie znacznie większą reużywalność.

Schodząc znowu poziom niżej, te poszczególne komponenty wiadomo, że trzeba zakodować korzystając z konkretnych frameworków, konkretnych języków itd. Podobnie jak mamy umiejętność nazywania w kodzie obiektów, interfejsów, to wiadomo, że to jest potwornie ważne, natomiast taką, wydaje mi się ważniejszą rzeczą, którą może trochę mniej się eksploruje, a którą odkryłem to jest to, że np. bardzo ważna jest separacja poszczególnych nazw od siebie. Mamy zazwyczaj do czynienia z co najmniej dwoma rodzajami nazw czyli takim nazwami naszymi czyli kiedy rozwiązujemy jakiś model oparty o tekst, pewnie mamy jakieś teksty, może czytelników. Pojawia się mnóstwo obiektów, które towarzyszą temu problemowi.

Natomiast wiadomo, że wszystko to trzeba w jakimś tam języku napisać, więc pewnie korzystamy Kerasa, Scikita, TensorFlow itd. Np. zauważyłem, że dobre nazwy są to takie odseparowane nazwy. Takie, które w pewnym sensie pozwalają odseparować te dwa światy, ponieważ kiedy te nazwy są nadmiernie związane ze sobą to zazwyczaj powoduje bardzo dużo problemów w dalszej części.

Jak to się wiąże z tymi książkami? Wydaje mi się, że dobre nazwy są pomieszaniem ponownie dwóch takich sprzecznych światów. Zazwyczaj im prostsze są jakieś i np. w jakimś sensie skracają zapis, tym są przyjemniejsze. Natomiast z drugiej strony wiadomo, że ta estetyka nie do końca wiąże się z użytecznością. Wiadomo, że na koniec dnia te nazwy mają być przede wszystkim użyteczne.

W związku z tym, kiedy ja odkryłem, że zarówno mam problem z tą taką bardziej inżynieryjną częścią i z taką bardziej estetyczną czyli, że nie lubię przebywać w takiej syntetycznej przestrzeni, w której te nazwy są czyste. W tym wypadku przez tę syntetyczną przestrzeń, takie akademickie podejście do programowania obiektowego, które wydaje mi się jest bardzo syntetyczne albo właśnie takie podejścia stricte akademickie do problemów to np. lubię, podobają mi się, ale z drugiej strony wydaje mi się, że często one są oderwane od takiej konkretnej praktyki.

Z kolei w tej praktyce to jest taka ciężka inżynieryjna praca, że ciężko jest podnieść głowę i spojrzeć na to, ponieważ jesteśmy skupieni na dowożeniu konkretnych zadań. Z tym też się nie do końca odnajdywałem, więc właśnie znalazłem sobie taką niszę pomiędzy. Właśnie mając szczęście, żeby pracując zarówno w biznesie jak i w akademii, jak i zarówno projektując jak i rozwiązując zadania, ogromnym szczęściem i radością dla mnie jest to, że udało mi się zaobserwować bardzo wiele złych nazw, dobrych nazw i właśnie w takim estetyczno-praktycznym procesie mogę tworzyć teraz swoje, co jest na pewno dla mnie wielkim szczęściem.

Słuchając Ciebie aż się chce wykorzystać tę umiejętność nazywania rzeczy. Wróćmy jeszcze na moment do chińskiej firmy TCL. Jak to się stało, że z jednej strony zrobiłeś bardzo fajny projekt, czuć tę satysfakcję i nawet jak nie widać twarzy to czuć w głosie, że jesteś bardzo dumny z tego, ale z drugiej strony odszedłeś. Spróbujmy to nazwać, co to się stało?

To jest bardzo ciekawe zjawisko. Odszedłem dlatego, że dostałem bardzo dobrą propozycję doktoratu i współpracy z grupą onkologii obliczeniowej na Wydziale MIM w Warszawie. Muszę przyznać, że z powodów osobisto-zawodowych, nie podjąłem doktoratu, chodziło również o rzeczy materialne.

Natomiast przez wiele lat to było moim marzeniem, żeby pójść na ten doktorat, więc teraz ta okazja się przytrafiła, z czego byłem szczęśliwy. Natomiast ten projekt był bardzo interesujący, zadowalający, więc to była na pewno bardzo trudna decyzja. Ale ostatecznie stwierdziłem, że w związku z tym, że są to tematy medyczne i okazja do zrobienia czegoś dobrego dla ludzi, którzy zmagają się z chorobami, to stwierdziłem, że jeśli dałoby radę wykorzystać tę radość (nazwijmy to radość nazywania, modelowania również w takim szczytnym celu) to wówczas wydaje mi się, że to przyniosłoby mi znacznie więcej spełnienia.

Natomiast jeśli chodzi o takie nazywanie to właśnie nazwałbym to taką ciężką decyzją, w której wydaje mi się, że takie długofalowe, zewnętrzne motywy wzięły górę.

Czuć, jak mocno rezonuje pomaganie. Myślę, że też to jest to bardzo sensowne, logiczne, aby ten potencjał, który technologia wytwarza wykorzystywać w odpowiednim kontekście. Tutaj wielkie brawa.

Świta AI w Chinach

Ale jeszcze domknę wątek odnośnie chińskiej firmy TCL. Świat Chin jest dość zamknięty i z jednej strony wiadomo, że tam dużo się dzieje. Pracowałeś w firmie, w której miałeś styczność z chińczykami, wyczułeś trochę tą różnicę jak oni myślą, jak oni działają. Powiedz o takich swoich przemyśleniach, czym się różni takie klasyczne podejście europejskie od chińskiego?

Może zacznę od takiej rzeczy, która może wydawać się anegdotyczna. Jednak większość firm w Polsce jeśli współpracuje z zagranicą taką dalszą, to są jednak te firmy w Stanach Zjednoczonych. Jest to o tyle ciekawe, że tam jest przesunięcie takie, że kiedy tam jest wcześnie, to tam jest późno. W związku z tym taki klasyczny tryb pracy programisty, który raczej mimo wszystko eksploruje późniejsze godziny jest naturalnie wykorzystywany. Natomiast w tym wypadku różnica jest w drugą stronę. W związku z tym główne godziny takiego przecięcia, które mieliśmy z naszymi współpracownikami z Chin były godziny ranne. W związku z tym no właśnie głównie management zajmował się kontaktem z Chinami.

Natomiast te godziny dostępności były też znacznie dłuższe, ponieważ pierwszą rzeczą, którą na pewno warto o Chinach wiedzieć to to, że te godziny pracy są tam znacznie dłuższe. Faktycznie pracuje się do znacznie późniejszych godzin, w związku z tym też automatycznie to przecięcie z godzinami w Polsce było znacznie większe. Często inżynierowie w Chinach pracowali do takich godzin późnowieczornych.

Co do takich moich obserwacji z ograniczonego kontaktu to taka rzecz, która wydaje mi się wywarła na mnie największe wrażenie, to jest kwestia skali. Nie mówię tego oczywiście w kontekście ilości produkowanych rzeczy albo skali rynku, ale też skali całego środowiska i tego, jak rozwija się technologia. Firma, w której pracowałem – TCL zajmuje się produkcją ekranów i w pewnym momencie wręcz padło stwierdzenie i zachęta ze wszystkich stron, że: „Słuchajcie, wszędzie, gdzie możemy położyć ekran to fajnie byłoby dołożyć do tego jakąś sztuczną inteligencję”.

W związku z tym były to zarówno telefony jak i telewizory, które w naturalny sposób mają ekrany, ale np. jeśli w klimatyzatorze albo jeśli w kuchence możemy wstawić ekran i chip to czemu tam też nie wstawić sztucznej inteligencji. W związku z tym to gdzie to ziarno potencjalnych pomysłów było rozrzucane to było naprawdę imponujące. W sensie skala tych produktów, które były dostępne i w których potencjalnie można było uzyskać wkład była naprawdę imponująca.

Druga rzecz, która zrobiła na mnie olbrzymie wrażenie to mnogość rozmaitych dostawców. Ten rynek jest zamknięty, ale z drugiej strony jest też bardzo duży. W ramach swojej pracy miałem do czynienia z olbrzymią ilością rozmaitych urządzeń, ale też rozmaitych chipów albo dostawców konkretnych fragmentów oprogramowania albo np. z chipami się wiązały różne silniki. Było to dla mnie zaskoczenie. W sensie mimo wszystko z perspektywy takiego europejskiego konsumenta, który ma dostęp do określonych produktów to zazwyczaj to spektrum jest dosyć szerokie, ale na pewno to było znacznie szersze. Więc to na pewno zwróciło moją uwagę.

Z tym wszystkim się wiąże taka rzecz, że tam się pojawia mnóstwo wątków, więc naprawdę liczba wątków czyli takich eksperymentów, prototypów pracy, która właśnie jest wykonywana w próbach nowych zastosowań, eksploracji nowych technologii jest naprawdę fascynująca – jest olbrzymia. Porównując swoje doświadczenie ze współpracy z rynkiem amerykańskim i europejskim to tam to podejście jest takie bardziej skupione. W sensie, że jest wrażenie, że tych projektów eksploruje się mniej, ale eksploruje się je dłużej. Właściwie to jest bardzo dobre pytanie w sensie jak te rzeczy się ze sobą porównują.

Ciężko mi tutaj podać jakąś konkretną odpowiedź, bo z jednej strony chińskie firmy produkują naprawdę olbrzymią ilość urządzeń, toczy się olbrzymia ilość eksperymentów, ilość doświadczeń zdobywanych przy tych rzeczach jest naprawdę niewiarygodna. Też wydaje mi się, że eksplorowane są znacznie często ciekawsze scenariusze, które często brzmią jak science-fiction i może na pierwszy rzut oka właśnie te prototypy nie wyglądają jakoś zachwycająco, ale no naprawdę każda kolejna iteracja jest lepsza.

Taka rzecz, która mi przychodzi do głowy to z tego co pamiętam Xiaomi ostatnio wypuściło prototyp ładowarki, która stoi w pokoju i ładuje telefon bezprzewodowo bez konieczności kontaktu z telefonem. Skojarzyło mi się to dlatego, że ten prototyp działa. Wydaje mi się, że jest to wczesna faza, więc pojawia się wiele problemów, ale mimo wszystko zostało to przedstawione jako ciekawostka i podejrzewam, że prototyp toczy się dalej.

Natomiast mam wrażenie, że właśnie to moje doświadczenie z firmami w Europie jest takie, że owszem tam też w pewnym sensie ilość tych eksperymentów się toczy, natomiast jak już jakieś konkretne eksperymenty wchodzą w grę to ilość uwagi, która jest jej poświęcona jest znacznie większa, bo w związku z olbrzymią ilością skalą eksperymentów i ich zakresem, wydaje mi się, że też znacznie łatwiej jest takie eksperymenty ucinać na rynku chińskim. W związku z tym, też ten czas poświęcony na to jest znacznie krótszy.

Wydaje mi się, że kolejne lata, na pewno obserwacja tego jak te różnice do takich produktów doprowadzą będzie potwornie interesująca. To były takie moje najbardziej poruszające obserwacje.

Każdy z nas, nawet jeżeli ma styczność z tym rynkiem, to jest zawsze taki wycinek, bo skala jest przeolbrzymia i w ogóle spróbować to jakoś usystematyzować co tam się dzieje i dokąd to prowadzi to pewnie nie jest takie łatwe, ale jest takie satysfakcjonujące. Jest taki żywy organizm, który w tej chwili mocno się rozpędza.

To jest taki być może już nastolatek, a już za chwilę będzie bardziej dorosły i czym to się skończy, jak to będzie dalej się rozwijać to pewnie rozmowa na znacznie dłuższą rozmowę, można się nad tym zastanawiać porządnie dokąd to wszystko dąży.

Dobre praktyki w Machine Learning

Zmienię teraz temat. Porozmawiajmy o dobrych praktykach, w szczególności w ML, biznesie, więc powiedz proszę, czym dla Ciebie są dobre praktyki w ML i może najlepiej właśnie w takich punktach, konkretach jakbyś mógł wymienić.

To jest bardzo dobre pytanie, też dlatego, że jest bardzo szerokie. Wydaje mi się, że jest ich wiele w ML, więc może podam jakieś konkretne przykłady w jaki sposób ten ML może się różnić i co uważam w tym jest dobrą praktyką. Wydaje mi się, że taką jedną linią podziału jest to, jaki jest oczekiwany czas ile to nasze rozwiązanie machine learningowe ma żyć.

Wówczas wydaje mi się, że taki prototyp albo taki krótki projekt, wiadomo, że wówczas te projekty są znacznie prostsze, ponieważ jest zdefiniowany dosyć prosty i konkretny cel do osiągnięcia, więc wówczas te projekty toczą się stosunkowo prosto i wydaje mi się, że też, kiedy uczymy się Machine Learningu lub kiedy wchodzimy w Machine Learning, to mamy styczność z takimi projektami, które mają krótki cykl życia. Natomiast wydaje mi się, że znacznie ciekawsze są takie projekty, które mają taki znacznie dłuższy cykl życia i tutaj wydaje mi się, że konieczność tych dobrych praktyk automatycznie jest większa.

W punktach pierwsza rzecz, która wydaje mi się bardzo dobrą praktyką to jest bardzo dokładne zdefiniowanie tego, co chcemy uzyskać. Czyli np. taką konkretną, bardzo dobrą praktyką jest po prostu nawet zrobienie takiego nazwijmy to mechanicznego Turka, którym my udajemy ten algorytm i po prostu ustalenie kontraktu i przeeksplorowanie bardzo konkretnych odpowiedzi na pytania na jakie klienci chcą uzyskać odpowiedzi, wydaje się to być oczywiste, natomiast naprawdę bardzo często może doprowadzać do ciekawych wniosków.

Bardzo często wychodzi mnóstwo różnic w terminologii, w oczekiwaniach. Takim chyba najbardziej klasycznym przykładem to było to, że w jednym momencie, podczas takiej jednej rozmowy klient, który był bardzo przekonany do tego co chce, właściwie totalnie przedefiniował zadanie. Miał to być jakiś problem klasyfikacji, okazało się, że to jest problem klasteringu tak naprawdę. Tych klas miało być 6, wyszło jest ich ponad 10 razy więcej. Okazało się, że skuteczność wcale nie jest taka istotna, żeby powiedzmy te klastry wydawały mu się najbardziej interesujące, wcale nie były takie ważne, a ważne było to, żeby te klastry, które są największe, a właśnie najmniej interesujące, żeby łatwiej odfiltrowywać.

Więc taką na pewno dobrą praktyką jest właśnie rozpisanie i poczucie tego co chcemy osiągnąć. Więc to jeśli chodzi o taką praktykę biznesową.

Taka praktyka niżej poziomowa, którą ja na pewno bardzo gorąco polecam to moje doświadczenie podpowiada mi, żeby bardzo mocno separować takie rzeczy, które są bardzo niskopoziomowo w języku programowania, w którym piszemy od takiej logiki biznesowej. Takie konkretne uwagi to jest tak, że np. bardzo często, kiedy chcemy np. napisać pipeline, w którym konkretne obiekty biznesowe są przekształcane w inne obiekty biznesowe, wydaje mi się, że bardzo trzeba tam unikać obiektów niskopoziomowych, bo to doprowadza do naprawdę olbrzymiego chaosu itd.

Zarówno z takiej perspektywy po prostu czystości tego rozwiązania, ale przede wszystkim modyfikacji czyli przyszłych rozszerzeń albo przyszłych dopasowań do tego. Czyli na pewno bardzo bym doradzał taką totalną separację od tych metryk.

Trzecia praktyka, która wydaje mi się też stosunkowo prosto, aczkolwiek bardzo często może unikać w rozwoju takich algorytmów machine learningowych to jest właśnie w jaki sposób walidować te modele.

Wydaje mi się, że to też trochę dotyczy tego punktu pierwszego, ale wydaje mi się, że przynajmniej taką praktyką, którą ja stosuję przynajmniej w części walidacji modeli biznesowych jest zastanowienie się jak będzie wyglądała pierwsza porcja danych, które ten model dostanie czyli, że w pewnym sensie definicja tego czyli np. czy to będą dane, które ten model będzie dostawał jednego dnia, czy to będą jakieś nowe dane, które po prostu przylecą z jakiegoś serwisu o danej godzinie itd.

Wydaje mi się, że takie wymyślenie sobie jak będzie wyglądał pierwszy dzień albo pierwszy taki atomowy, jednostka czasu użycia tego modelu, niewiarygodnie ułatwia zdefiniowanie tego w jaki sposób ten model należy walidować. Walidacja przebiega w ten sposób, że z części naszych danych po prostu wycinamy sobie taki fragment, który ewidentnie będzie zachowywał się w taki sam sposób i to ustawia nam zarówno strategię tej walidacji, jak i to co tak naprawdę będzie do tego algorytmu wchodzić.

Natomiast taką ostatnią cechą, też związaną z tym nazywaniem rzeczy to wydaje mi się, że właśnie w rozwijaniu takich długofalowych projektów to jest właśnie pamiętanie o takiej w sumie bardziej programistycznej zasadzie czyli pamiętanie o zasadzie otwarty-zamknięty czyli, że dobry kod powinien być otwarty na rozszerzenia, natomiast zamknięty na modyfikację.

Wydaje mi się, że szczególnie w wypadku Machine Learningów, w którym jednak często te modele to są obiekty nie do końca zrozumiałe co robią, często ciężko nam zrozumieć jak one działają. Potwornie jest ważne przygotowanie tego rozwiązania, żeby w pewnym sensie potencjalne zmiany albo rozszerzenia nie wpływały na to co się działo w naszym projekcie dotychczas. W związku z tym, że często jakby te modele wprowadzają bardzo dużo losowości do tego całego naszego pipeline to w momencie, w którym będziemy musieli kontrolować na ile to jest kwestia problemu czy modelu, a na ile to jest kwestia naszych zmian jest bardzo trudne.

W związku z tym, taką konkretną rzeczą, którą bym proponował, to właściwie sprowadza się do takich dobrych praktyk programistycznych jak odpowiednie ponazywanie rzeczy. Zasada otwarty-zamknięty najczęściej dzieje się wtedy, kiedy mamy jakąś czynność, która jest nienazwana i która jest w cyklu tego całego kodu, wykonuje się gdzieś. Wówczas, kiedy będziemy chcieli ją zmienić to jeśli mamy czysto napisany kod to jest wówczas podmiana pewnego interfejsu. Jeśli nazwiemy tę czynność i umieścimy odpowiedni interfejs, który ją wykonuje to wówczas podmiana tego polega na tym, że możemy po prostu wstawić tam nowy element i tworzy się nowa rzecz. W tym sensie jesteśmy otwarci na rozszerzenie. Natomiast jeśli ją zmienimy to moje najgorsze doświadczenie machine learningowe jest takie, że takie jakieś delikatne zmiany w jednym takim miejscu powodują niewiarygodne zmiany w innym.

Podsumowując wydaje mi się, że niewiele mówiłem w sumie o samych modelach, głównie mówiłem o programowaniu. Wydaje mi się, że taką na pewno dobrą praktykę jest też, żeby to wszystko łączyło się (mówię o długofalowych projektach).

Biznes & Akademia – czy mogą współpracować?

Wszystkie punkty, które wymieniłeś są fajne, rezonują bardzo mocno, warto się wsłuchiwać i też pewnie trzeba parę razy się oparzyć, żeby zrozumieć co miałeś na myśli. Powiedziałeś też, że właśnie będziesz robić doktorat w szczytnych celach. Porozmawiajmy też trochę o tym, ale tak trochę z innej strony. Jest sobie świat akademicki i biznes – one dość mocno się różnią od siebie, zupełnie inaczej podchodzą do projektów ML’owych i też jest zupełnie inna dynamika, inne cele wbrew pozorom.

Czy widzisz tu jakąś szansę na efektywną współpracę w polskich warunkach, pomiędzy światem akademickim, a biznesem? Co musi się stać, żeby taka współpraca w ogóle miała miejsce, a jeżeli już ma to co zrobić, aby była efektywna? Być może znasz jakieś konkretne przykłady, kiedy takie współpracy się zaczynają?

Oczywiście tutaj można wymienić NCBR, też zresztą bardzo duże środki w najbliższych latach będą wydane na takie projekty, ale z tego co słyszę to różnie to bywa i zdarza się, że w świecie akademickim pojawia się taki sposób, żeby spełnić pewne warunki formalne niż faktycznie pewne rzeczy wnoszą w taki sposób, że ten projekt raczej zabija się niż się rozwija. Temat jest trudny, być może nawet delikatny, ale chciałbym usłyszeć Twoją perspektywę. Co powinno się stać, aby właśnie te światy zaczęły współpracować, bo ostatecznie myślę, że na tym wszyscy mogą zyskać.

Ja bym trochę to pytanie podzielił i właściwie nawet zaczął od podzielenia jednego z głównych bohaterów tego pytania, czyli tego świata akademickiego. Mi się wydaje, że jeśli chodzi o Machine Learning i świat akademicki, przynajmniej moje doświadczenie podpowiada mi, że są co najmniej 3 takie światy, które wydaje mi się, że warto byłoby rozdzielić i każdemu przyjrzeć się bliżej.

Pierwszy świat – to jest taki świat, w którym traktujemy świat akademicki jako źródło wiedzy, którą student na etapie licencjackim lub magisterskim dostaje i potem w pewnym sensie możemy spytać się jak ta wiedza, którą on zdobywa w tym czasie, transferuje się na konkretny biznes, czy dany system edukacji generuje kandydatów, którzy później idą do biznesu i właśnie się w tym biznesie odnajdują. Wydaje mi się, że z tej perspektywy to odpowiedź jak to w chwili obecnej wygląda jest bardzo rozmyta.

Z jednej strony wydaje mi się, że (też myślę w kategoriach swojego wydziału MIM) z jednej strony każdy kolejny rocznik składa się naprawdę z świetnych programistów, którzy są szanowani na całym świecie. Są to też ludzie, którzy bardzo szybko adaptują się w biznesie, są bardzo cenione, więc z tej perspektywy wydaje mi się, że to jest na pewno super. Z drugiej zaś strony wydaje mi się, że to jest taka cecha przede wszystkim takiego kształcenia IT. Wydaje mi się, że w wypadku Data Science jest troszkę inaczej. Pierwszym problemem, który się tutaj pojawia jest to, że świat akademicki w ramach tego kształcenia akademickiego w naturalny sposób może robić bardzo ograniczoną liczbę projektów.

Widzę takie dwa największe ograniczenia. Pierwsze ograniczenie to jest po prostu czas. Jak rozmawialiśmy o dobrych praktykach i rozwiązaniach machine learningowych, które mają trwać dłużej to zazwyczaj myślimy o systemach, które mają działać wiele lat. Ze swego doświadczenia wiem, że są systemy, które tam żyją po 7, 10 lat itd. i wiadomo, że ciężko jest w ramach 6-miesięcznego kursu czy rocznej magisterki przygotować się do tego. W związku z tym wydaje mi się, że tego trochę nie przeskoczymy.

Natomiast z tego co wiem, tutaj jest bardzo fajna inicjatywa, która została podjęta – od przyszłego roku na MIM-ie rusza nowy kierunek związany ze sztuczną inteligencją i wydaje mi się, że tam bardzo interesującym rozwiązaniem, które się pojawia jest właśnie konieczność odbycia stażu. Z tego co pamiętam jest teraz na rok. Ja bym to nawet rozszerzył na 2 lata, bo wydaje mi się, że im dłużej ludzie współpracują i im dłużej mają styczność z rzeczą, która żyje znacznie dłużej niż te 3 miesiące albo pół roku, a potem się o niej zapomina, tym lepiej i to na pewno uczy zarówno dobrych praktyk i daje dobre intuicje tego co jest ważne, a co nie.

Drugi problem wydaje mi się być troszkę głębszy, ale jak się nad tym zastanowimy to jednak to co dla mnie osobiście jest strasznie fascynujące i przyjemnie w Machine Learningu jest to, że jednak te dane, ten problem wprowadza bardzo dużo losowości. Często rozwiązanie projektu machine learningowego to jest taka przygoda. Jest część nieprzyjemna, w której trzeba czyścić dane, ale na pewno taka umiejętność reakcji, radzenia sobie z niepewnością, zarówno co do danych jak i do samego problemu, jak i do algorytmu, wydaje mi się, że to wymaga takiej pewnej adaptatywności. Kiedy myślimy sobie o takim kursie akademickim to wydaje mi się, że po prostu na taką niepewność, taki trochę chaos na to przesadnie nie ma miejsca, ponieważ Uczelnia albo kurs to jest dokładnie miejsce, w którym w jakiś tam ustrukturyzowany sposób chcemy przekazać wiedzę.

W związku z tym wstrzyknięcie to w takiej umiejętności, żeby te kursy miały tą niepewność to jest to dosyć trudne. Też wydaje mi się, że jeżeli chodzi o matematykę, informatykę jest sprzeczne z aktualnym modelem nauczania, który raczej wiąże się z tym, że my mamy pewną taką naczelną wiedzę czyli wiedzę na temat danych działów matematyki albo danych technologii informatycznych, danych języków programowania itd. i po prostu chcemy tą wiedzę przekazać. Oczywiście to jest świetny początek do tego, natomiast z perspektywy dalszych kroków to może to robić takie wrażenie, że właśnie ta rzeczywistość jest taka dosyć uporządkowana, przewidywalna, że łatwo te problemy znaleźć.

Tutaj na pewno ciężko jest takiego rozwiązywania problemów w takim dużym chaosie się nauczyć. Liczę na to, że ten nowy program i konieczność odbycia stażu pomoże, natomiast wydaje mi się, że tutaj taka transformacja w kierunku takiego radzenia sobie z chaosem i radzenia sobie z takimi rzeczami, które żyją znacznie dłużej jest ważna. Więc to jest jeśli chodzi o taki punkt przygotowywania nowych pracowników i w jaki sposób to się tworzy.

Druga rzeczywistość akademicka, nazwałbym to taką rzeczywistością akademicką klasyczną. Czyli kiedy mówię o takiej rzeczywistości akademickiej klasycznej to myślę o takim profesorze, doktorancie, post docu, który pracuje nad swoją dziedziną, swoje wyniki publikuje w określonych czasopismach, te czasopisma mają proces review dosyć zaawansowany. Wymaga się właśnie w tej przestrzeni akademickiej wysokiej jakości tego rozumowania, wysokiej jakości eksperymentów.

Ten proces oczywiście często trwa długo i w związku z tym przenikanie tych nowych wieści i nowych nowinek trwa dłużej, co jest w sprzeczności z tym trzecim światem, bo to są dwa zupełnie inne światy. To jest też świat akademicki, który jest najbardziej związany z uczeniem maszynowym czyli te niewiarygodnie bujne środowisko badań w Machine Learningu.

Wydaje mi się, że są dwa zupełnie różne światy i wydaje mi się, że na pewno warto byłoby im się przyjrzeć, żeby zrozumieć w jaki sposób one wpływają i dyskutują z biznesem, bo to jest dosyć fascynujące. Ten drugi świat czyli w chwili obecnej ten najgorętszy świat, który bardziej niż w żurnalach żyje na Twitterze, w których artykuł, który ma tyle cytowań, że jest właściwie kluczowy dla danej dziedziny. To jest naprawdę fascynujący świat. Wydaje mi się, że obydwa światy zarówno w różny sposób dyskutują z biznesem, wpływają na niego i oczywiście w drugą stronę. Więc właśnie ja bym podszedł do tego bardziej holistycznie.

Wydaje mi się, że szczególnie jeśli chodzi o ten trzeci świat czyli ten świat najbardziej bujny to jest taka przestrzeń, która paradoksalnie wpływa w chwili obecnej na biznes znacznie bardziej niż ten drugi. Ja lubię sobie o tym myśleć, że ten aktualny świat, najbardziej bujny, lubię sobie często porównywać do Formuły 1 czyli, że to jest taki mega interesujący, wyżyłowany wyścig, w który są kamery z całego świata skierowane. Wszyscy wiedzą co tam się dzieje, znają kierowców, każdy chce z tego świata motoryzacyjnego coś uszczknąć itd. Wszyscy słyszymy, że co chwile jest jakieś nowe rozwiązanie w nowym bolidzie, nowy algorytm tam został stuningowany o te 3%.

Wszyscy są podekscytowani, wydaje mi się, że jest tam bardzo silna atmosfera i dzięki temu istnieje olbrzymia ilość hype na to, to też generuje olbrzymie zainteresowanie inwestorów, olbrzymie nadzieje i to jest ta pozytywna część tego świata.

Natomiast wydaje mi się, że istnieje też taka nie do końca pozytywna. Tutaj takie problemy, na które wydaje mi się, że bym chciał zwrócić uwagę to korzystając z tej metafory, że jednak biznes potrzebuje bardziej samochodu dla mas, dopasowanego do konkretnego transportu niż obserwowania tego najgorętszego show, w którym to jest. Więc pierwsza rzecz, która jest olbrzymim problemem w tym wszystkim to jest brak przenoszenia wyników z tego toru na taki zwykły ruch drogowy, co wydaje mi się być dosyć oczywiste. Tutaj widzę kilka problemów. Pierwszy problem często jest taki, że słyszymy i ludzie w biznesie słyszą, że sztuczna inteligencja rozwiązała problem X.

Ale właściwie co to oznacza? Czy to oznacza, że istnieje jakiś tor w tej Formule 1, na którym te pojazdy wykręciły faktycznie świetne wyniki, które potencjalnie nawet człowiek nie byłby w stanie wykręcić? Tutaj olbrzymi problem, który się pojawia jest to, że właśnie często ta definicja problemów w naturalny sposób w tym świecie najgorętszym, tam problemy nie istnieją w kategorii takich życiowych problemów tylko istnieją w kategorii konkretnych zbiorów danych i konkretnych wyników, na które trzeba to osiągnąć. To niestety się nie transferuje, ponieważ po pierwsze te problemy życiowe czy biznesowe generują zupełnie często inne dane, znacznie bardziej zaszumione, często w zupełnie innej naturze. To jest pierwsze źródło braku transferowalności.

Drugie źródło, które wydaje mi się być znacznie bardziej subtelne to jest to, że mam wrażenie, że wszyscy te tory znają. Strasznie mnie zafascynowało ostatnie badanie, bo kiedy np. pomyślimy sobie o takim zbiorze jak CIFAR-10 to w chwili obecnej wydaje mi się, że ilość treningów na tym CIFAR, szczególnie z bujnym rozwojem neural architecture search czyli ilość modeli, które były trenowane na tym CIFAR podejrzewam, że przekracza już ilość gwiazd w tej części galaktyki. Ostatnio ktoś spróbował zrobić taki prosty eksperyment, w którym po prostu spróbował stworzył nowe dane do tego CIFAR’a, które będą podobne do istniejących danych, ale będą mimo wszystko nowe.

Okazało się, że te wyniki w pewnym sensie drastycznie spadły czyli ewidentnie za każdym razem ścigamy się na tym torze i w ramach tych wyścigów rywalizacja jest uczciwa, natomiast jeśli ten tor delikatnie zmienimy to wówczas pojawiają się problemy i to też bardzo drastycznie wpływa na biznes, bo ten tor jest zupełnie inny i koniec końców doprowadza to bardzo często do zawiedzionych oczekiwań, co mi się wydaje być największym problemem dlatego, że właśnie ta transferowalność jest trudna.

Drugim problemem, który się tutaj tworzy to jest problem hype. Kiedy pracowałem w Sigmoidalu, braliśmy udział w konkursie. Zostaliśmy zaproszeni razem z innymi zespołami do tego, żeby brać udział w konkursie. Nagrodą w tym konkursie było podpisanie kontraktu, żeby rozwijać technologie dla tego klienta. Jeszcze dodam, że to był jeden z takich najbardziej ryzykownych działów dla tego klienta.

W związku z tym, kiedy pojechaliśmy na ten konkurs, który trwał dwa dni, skupiliśmy się bardzo bardzo mocno na tym, żeby te dane odpowiednio opracować, oczyścić je, znaleźć wszystkie potencjalne ryzyka, które się z tym wiążą. Bardzo mocno skupiliśmy się na tym ryzyku. Ostatecznie nie wygraliśmy tego konkursu, bo wygrał zespół, który te całe dwa dni na infrastrukturze klienckiej stawiał BERTa. Więc po dwóch dniach udało mi się w końcu postawić BERTa. Fakt, że ta nowa technologia była bardzo ważna.

Też wiem z takich rozmów z ludźmi, że szczególnie dla menedżerów też jest bardzo często ważne, żeby móc się pochwalić taką technologią. Mi się wydaje, że to generuje olbrzymi problem, ponieważ jednak te algorytmy na końcu są jakie są i też moje doświadczenie mówi, że często te wyniki nie transferują się na konkretne problemy, więc na pewno to powoduje rośnięcie bańki, niemożliwych do zaspokojenia oczekiwań. To powoduje bardzo dużo projektów, które po prostu próbuje się rozwiązywać przy pomocy tych bolidów. Po prostu nie wychodzi, co też automatycznie stanowi problem.

Trzeci problem z tym związany to które bolidy albo które rozwiązania są premiowane. Tutaj taki przykład, który mi przychodzi do głowy, który też jest bardzo pouczający – ja pracuję teraz dużo w modelach generatywnych czyli właśnie w rodzinie modeli, w których są GANy, autoenkodery, ostatnio pojawiła się technika dyfuzji. Przyjrzenie się temu jak wygląda rozwój tej dziedziny będzie bardzo pouczające. Kiedy powstaje jakiś nowy algorytm generatywny to okazuje się, że strasznie ciężko taki model generatywny jest zewaluować. To jest faktycznie prawda, ponieważ to co chcemy to w pewnym sensie chcielibyśmy uzyskać.

Model generatywny to jest taki model, który stara się w pewnym sensie zamodelować rozkład danych czyli jeśli mamy jakieś obrazki to chcielibyśmy model, który pozwoli nam wygenerować nowy obrazek bardzo podobny albo np. ocenić czy dany obrazek jest w miarę wiarygodny. Wbrew pozorom to jest bardzo trudne zadanie, ponieważ ciężko jest tak naprawdę zdefiniować co to znaczy jakiś rozsądny obrazek.

W związku z tym, taką dominującą metryką, która jest stosowana w ewaluacji tych modeli jest to czy obrazki, które są generowane przy pomocy tego modelu wyglądają ładnie czyli czy nie są rozmyte, czy mają odpowiednie tekstury itd. Jak się nad tym zastanowimy to częścią ewaluacji tych modeli jest to, żeby kiedy taki artykuł się pojawia, wygenerował obrazki, które będą miłe dla oka. Ja mogę powiedzieć ze swojego doświadczenia, że zajmuję się rozwijaniem jednej z takiej rodziny modeli i zauważyłem, że wiele innych zespołów, które właśnie korzysta z podobnych rzeczy i też czyta artykuły, które powstają w ten sposób, jedno z naszych doświadczeń jest to, że kiedy troszkę oderwaliśmy od tych obrazków i bardzo dokładnie się przyjrzeliśmy tak matematycznie tym modelom, też co one modelują, udało nam się np. uzyskać znacznie lepsze wyniki w wyborze tych modeli tylko dlatego, że troszkę odeszliśmy od tego, że to nie są obrazki i nie optymalizowaliśmy tych obrazków.

Więc mi się wydaje, że to może powodować konkretne problemy, natomiast samo w sobie pokazuje taki problem, że dosyć istotnym czynnikiem w tym środowisku jest to, żeby właśnie to środowisko odbierało algorytmy dobrze. Nie ma takiej konkretnej walidacji również biznesowej, bo ona po prostu jest bardzo trudna do uzyskania, natomiast też ta presja, żeby te algorytmy były interesujące, nowinkowe, na pewno dosyć mocno na to wpływa.

To środowisko z perspektywy biznesu wydaje mi się z jednej strony wpływa pozytywnie, ponieważ rodzi olbrzymie zainteresowanie, pojawiają się tam duże środki, natomiast właśnie te problemy, o których wspomniałem, dotyczą tego czego ja najbardziej się obawiam czyli takiego rozczarowania i pęknięcia tej bańki. Więc z tej perspektywy to dla mnie rodzi pewną obawę.

Tutaj oczywiście pojawia się ten drugi świat, o którym wspomniałem – klasyczny akademicki, zamkniętego review. W ostatnim czasie pojawiają się jakieś takie delikatne dyskusje pomiędzy tymi światami apropo właśnie tego co to znaczy dobry artykuł itd., więc ta dyskusja jest szalenie ciekawa.

Ja mogę ze swojej strony powiedzieć ciekawą anegdotę, że właśnie też kiedy też w ramach naszych współprac przygotowaliśmy artykuł do journala, w jednym miejscu zastanawialiśmy się dosyć długo czy dana operacja jest uzasadniona matematycznie. To wszystko obracało się w takim frameworku matematycznym, który nazywa się framework wariacyjny, ten framework ma określone założenia.

Tam zrobiliśmy rzecz, która była taka bardzo inżynieryjna, działała, ale ciężko było ją uzasadnić z tej perspektywy wariacyjnej. Zastanawialiśmy się czy to przejdzie przez review, a w tym samym czasie pojawił się artykuł, który zrobił jeszcze bardziej inżynieryjną rzecz, okazało się, że przeszedł przez review, tylko okazało się, że przyniósł naprawdę świetne rezultaty, więc to go obroniło.

Ale to też pokazało mi, że taki klasyczny świat akademicki jest bardzo skupiony na takiej jakości tych rozwiązań, żeby to było też takie spójne, czyste. Pojawia się takie bardzo dobre pytania.. z jednej strony wydaje mi się, że na pewno ta dyskusja pomiędzy tymi światami jest szalenie interesująca, przewiduję coraz większego rozczarowania, ten powrót potencjalnie starych, sprawdzonych metod będzie następował. Moja ocena tego jest taka, że to są dwie skrajności czegoś, co jest bardzo potrzebne.

Właśnie z jednej strony potrzebujemy tego parcia, tego pędu, z drugiej strony potrzebujemy też takiej kontroli, tego żeby te rzeczy były robione w sposób kontrolowany, żeby były też reprodukowalne. Więc po cichu liczę na to, że uda nam się w najbliższym czasie znaleźć bardzo ciekawą syntezę tych światów. Wydaje mi się, że to będzie potwornie ważne z perspektywy biznesu, również dlatego, że na pewno potencjalnie wprowadzenie jakiejś biznesowej walidacji do tego całego procesu będzie dla tego biznesu ważne.

Tak się przedstawia ten mój krajobraz tego środowiska.

Ciekawy był ten przykład z zakrętem, że wystarczy zmienić troszkę zakręt i już benchmark może się rozsypać albo pogorszyć. A w biznesie nie tyle, że zakręt się zmienia, tam rzeka nagle może się pojawić.

To jest też na tyle śmieszne, jak bierzemy sobie np. computer vision i fajnie jak mamy ImageNet, a jeżeli bierzemy sobie zdjęcie z komórki to tam ciemno, rozmazane i jakość nam zdecydowanie spada, a przede wszystkim takie zdjęcia są w dużej ilości robione. Ale jedna rzecz mnie ciekawi. Pierwszy świat na pewno Ciebie nie dotyczy, bo to już minąłeś, ale drugi i trzeci – to Ty dołączasz teraz do którego świata? Drugiego?

Wydaje mi się, że choćby nawet z oczekiwań doktorskich w chwili obecnej jest to raczej drugi świat, ale wydaje mi się, że z upływem czasu te granice zaczną się znacznie przenikać. Pamiętam jak na MIM’ie parę lat temu podejście do Machine Learningu było bardzo ostrożne, teraz to Machine Learning wchodzi w ramach nowego przedmiotu. Po cichu liczę na to, że wchodzimy w przestrzeń tej fuzji, że jednak się jakoś spotkają te światy. Aczkolwiek na pewno wchodzę z perspektywy tego drugiego świata.

Przyszłość Machine Learning

Dzięki za te wszystkie wypowiedzi. Zbliżamy się do końca. Na koniec pobawmy się trochę w futurologa lub marzyciela i spróbujmy dokonać takiej predykcji co może się wydarzyć za jakiś czas. Wiadomo, że różnie z tym bywa, nie zawsze to jest łatwe, ale wydaje mi się, że jak słuchałem Twoją wypowiedź to rozważać tak o przyszłości lubisz, więc myślę, że to pytanie też będzie takie fajnie trafne: jak myślisz jakie kamienie milowe przekroczymy za 5 czy 10 lat w uczeniu maszynowym i co wtedy będzie osiągalne?

To jest bardzo dobre pytanie. Wspominałem, że wydaje mi się, że najbliższe 5 czy 10 lat może się różnić od tych obecnych. To już wydaje mi się powoli widać, chociażby w tym roku pierwszy raz mieliśmy mniejszą ilość aplikacji niż w zeszłym roku czyli pojawiły się pierwsze objawy saturacji też trzeciego świata, najbardziej dynamicznego. Więc mam wrażenie i po cichu liczę też na to, że możliwe, że zmienią się priorytety tego researchu. Wydaje mi się, że takie kolejne kroki milowe będą związane z takimi rzeczami, które teraz są mniej eksplorowane.

Nie wiem czy przewiduję, na pewno bardzo chętnie bym widział z tej takiej perspektywy, np. stworzenie nawet nie kolejnych modeli rozwiązujących kolejne problemy, tylko np. modeli generatywnych (już teraz powstają tzw. work models czyli modele, w których przewidujemy zachowanie środowiska albo rzeczywistości).

Przewiduję, że jeśli faktycznie ten świat najbardziej bujnego rozwoju spowolni i przyjdzie świat refleksji to wydaje mi się, że takim jednym z bardziej kluczowych rzeczy będzie stworzenie takich modeli, które będą dosyć dobrze odwzorowywać pewne rzeczywistości. Przez pewne rzeczywistości myślę, że np. stworzenie modelu, który może nawet w jakimś ograniczonym stopniu, ale będzie mógł wnioskować w sposób zrozumiały dla człowieka i np. w oparciu o to generować obrazy albo teksty potencjalnie nowe.

Wydaje mi się, że na początku to pewnie będzie w ograniczonym stopniu, ponieważ system symboli, nazw często jest dla nas bardzo nieczytelny. Ale liczę na to, że w ciągu 5 lat się uda tak to zrobić, żeby stworzyć takie modele rzeczywistości w jakiś taki sposób, który będzie korzystał ze sztucznej inteligencji. To jest taki kamień milowy w ogólnym rozwoju.

Natomiast to na co bardzo liczę to to się aktualnie już toczy, ale wydaje mi się, że jest taki trochę problem z transferem do danych medycznych, też obrazowych. Np. wydaje mi się, że ten przełam tam następuje, jest coraz szybszy, ale nie jest na pewno aż tak widoczny i tak bujny jak w zdjęciowej wizji komputerowej. Więc liczę na to, że te modele dojadą do tego poziomu, szczególnie, że takie modelowanie obrazowe pójdzie znacznie do przodu.

Trzeci taki kamień milowy to wspominaliśmy o tych systemach. Podejrzewam, że rzeczy związane z ryzykiem, niepewnością, dopuszczeniem, że jednak sztuczna inteligencja może się mylić i zapytaniem jej, kiedy się faktycznie myli i stworzenie technologii, która daje na to faktycznie rozsądną odpowiedź będzie kolejnym kamieniem. To są takie moje 3 przewidywania.

Fajnie, akurat nagraliśmy, zapisaliśmy, zobaczymy za 5-10 lat, sprawdzimy, skomentujemy. Brzmi bardzo ciekawie, w szczególności ten temat związany z obrazkami medycyny to temat, który wiem, że Ciebie bardzo mocno interesuje, więc też tam częściowo się przyłożysz, żeby to też się stało w jakimś tam stopniu.

Marcin, dzięki wielkie za rozmowę. Wyszła troszkę dłuższa, ale bardzo ciekawa. Myślę, że wiele ciekawych wątków tu padło. Nie wszystko w sumie zdążyliśmy omówić, ale myślę, że to jest dobra okazja, aby jeszcze raz się spotkać i przedłużyć przy kolejnym nagraniu. Życzę Ci wszystkiego dobrego, z doktoratem i innymi rzeczami, które chcesz zrealizować. Do usłyszenia, do zobaczenia. Cześć.

Dzięki wielkie za zaproszenie i do zobaczenia, cześć.

Dziękuję za wysłuchanie tego odcinka, wspólnie spędzony czas. Mam nadzieję, że również dla Ciebie to było takie pozytywne doświadczenie. Ciekawy jestem, co myślisz właśnie o tym podejściu, rozważaniu o umiejętności nazywania rzeczy, o tych poradach, które wybrzmiały od Marcina. Czy to są takie rzeczy, które chcesz u siebie w jakiś tam sposób zastosować? Podziel się swoimi przemyśleniami. Zawsze chętnie posłucham Twojej opinii. To tyle na dzisiaj, dzięki wielkie, do usłyszenia.

Artykuł Dobre praktyki i sztuka nazywania rzeczy w Machine Learning pochodzi z serwisu Biznes Myśli.

Różne oblicza Computer Vision

Vladimir — Mon, 16 Mar 2020 04:00:00 +0000

Z tego odcinka dowiesz się:

Wizja komputerowa. Filip Piękniewski, ekspert w tej dziedzinie, opowiada o swojej szerokiej wizji i alternatywnych metodach poza deep learningiem.
Autonomiczne sklepy. Praca Filipa w Accel Robotics przy tworzeniu sklepów bez kasjerów, które automatycznie naliczają opłaty za zakupy, co ma potencjał zrewolucjonizować handel detaliczny.
Przyszłość AI. Dyskusja na temat książki „Rebooting AI” i sceptycznych poglądów na obecne trendy w sztucznej inteligencji.
Paradoks Moraveca. Rozmowa o paradoksie, który mówi, że łatwiej jest nauczyć komputery trudnych zadań intelektualnych niż prostych zadań percepcyjnych, które są łatwe dla ludzi.
Dynamiczna inteligencja. Filip podkreśla potrzebę rozwijania algorytmów uwzględniających dynamikę świata, aby lepiej przewidywać i reagować na zmiany w otoczeniu.
Uczenie nienadzorowane. Jakie są wyzwania i potencjalne korzyści związane z tym podejściem, które pozwala systemom uczyć się z danych bez bezpośredniego nadzoru.
Definicja inteligencji. Refleksje Filipa na temat trudności w zdefiniowaniu inteligencji i różnic między ludzką inteligencją a aktualnymi systemami AI.

Computer vision to dość złożone zagadnienia dotyczące tak zwanej sztucznej inteligencji, wizji komputerowej i przyszłości technologii, zachęcając do głębszej refleksji i dalszego czytania.

Zaczynamy!

Dzisiejszym gościem jest Filip Piękniewski, który bardzo długo zajmuje się tematami związanymi z widzeniem komputerowym, ale robi to nie tylko używając tzw. deep learning, a ma znacznie szerszą wizję. Jego rozważania na temat świata, inteligencji i wiele innych tematów są przepiękne. Prowadzi bardzo fajny blog, na który bardzo gorąco zapraszam.

Cześć Filip. Przedstaw się: kim jesteś, gdzie mieszkasz, czym się zajmujesz.

Nazywam się Filip Piękniewski. Jestem naukowcem zajmującym się wizją komputerową i uczeniem maszynowym. Mieszkam od 10 lat w San Diego, na samym południowym koniuszku Kalifornii. Pochodzę z Torunia, gdzie ukończyłem Uniwersytet Mikołaja Kopernika na wydziale informatyki. Następnie obroniłem doktorat na Uniwersytecie Warszawskim, również z informatyki. Wyemigrowałem 10 lat temu.

Pracowałem najpierw w firmie Brain Corporation, następnie w koreańskiej firmie, zajmującej się wizją komputerową, czyli inspekcją komputerową płytek drukowanych. W tej chwili pracuję w startupie Accel Robotics, w którym zajmujemy się budowaniem autonomicznych sklepów, tzn. sklepów, w których nie będzie kasjera, tylko można będzie sobie wejść, wziąć, co się chce i wyjść. Komputer automatycznie będzie wiedział, co wzięliśmy i automatycznie będzie odpowiedni rachunek wystawiał na kartę kredytową.

Piękne rzeczy. Fajne masz doświadczenie. Bardzo dziękuję, że udało Ci się znaleźć czas na rozmowę. Co ostatnio ciekawego przeczytałeś?

Ostatnią rzeczą, którą przeczytałem jest książka „Rebooting AI” Gary’ego Marcusa. Dosyć ciekawe, sceptyczne podejście do aktualnych trendów w sztucznej inteligencji. Gary Marcus to dosyć ciekawa osoba. Jest naukowcem, pracującym na Uniwersytecie w Nowym Jorku.

Zajmuje się dosyć szeroko pojętą sztuczną inteligencją i z punktu widzenia też psychologii, jest on jednym z dosyć głośnych krytyków tego, co się aktualnie dzieje w sztucznej inteligencji, która została dosyć mocno zdominowana przez tzw. koneksjonizm, czyli sieci neuronowe, których jestem fanem, natomiast też czasem miewam dosyć krytyczne opinie. Być może dlatego, że z tego, co widzę, czasem ludzie mają chyba zbyt wysokie oczekiwania wobec tego, co te systemy będą w stanie robić.

Pokażemy w tej rozmowie nieco inne, bardziej alternatywne, mniej popularne spojrzenie. Fajnie, że o tym powiemy “na głos”. Opowiedz o swoim obecnym miejscu pracy. Czym zajmuje się Accel Robotics i jaka jest w nim Twoja rola?

Ta firma została założona mniej więcej 3 lata temu, więc jest to bardzo świeża organizacja. Założona została przez mojego kolegę, z którym wspólnie pracowaliśmy w Brain Corp. Na początku firma chciała zbudować robota, który miał jeździć po rozmaitych imprezach i fotografować ludzi. Został on stworzony i nawet jakoś to działało, ale okazało się, że nie ma wielkiego zapotrzebowania na taką usługę, więc firma poszukiwała swojego celu (zresztą jak to się często w startupach dzieje).

W pewnym momencie powstał pomysł zbudowania autonomicznego sklepu, w którym nie będzie kasjera, tylko system komputerowy, kamery, sensory. Technologia będzie starała się zobaczyć, co się dzieje, kto wchodzi do sklepu, kto co bierze itd. Jakkolwiek może się wydawać, że to jest dosyć dalekie od robotyki, to wiele problemów jest bardzo podobnych.

Można pomyśleć o autonomicznym sklepie jako o robocie, do którego się wchodzi. Robocie, który nie musi za wiele rzeczy ruszać, natomiast na pewno musi mieć percepcję i musi wiedzieć, co się dzieje w jego środowisku. Sporo problemów percepcyjnych jest w sumie bardzo podobnych. Okazało się, że to zdecydowanie jest coś, na co jest ogromny rynek w tej chwili.

Jest kilka innych firm, które też próbują to zbudować. Technologia wydaje się być na takim poziomie, gdzie realizacja takiego projektu wydaje się być możliwa. Co najważniejsze, jeśli w tym kontekście coś nie zadziała, to najgorsze, co się może zdarzyć to to, że albo ktoś dostanie darmowy batonik, albo ktoś będzie musiał zapłacić za batonik, którego nie wziął. W takim przypadku zawsze można taką transakcję reklamować. Nie ma tu tak jak w samojeżdżących samochodach ryzyka błędu o ogromnych konsekwencjach (komputer się pomyli i zderzy na autostradzie z innym samochodem).

W tym przypadku konsekwencje nie są straszne i nawet jeśli coś złego się stanie, to wszystko da się odwrócić i naprawić. Dlatego myślę, że to jest bardziej realistyczne zastosowanie technologii, które też może znacząco zmienić rynek małych sklepów, które mogłyby istnieć w rozmaitych miejscach, gdyby nie musiały mieć kasjera i mogłyby być otwarte 24 godziny na dobę. To jest, jak się okazuje, ogromny rynek. Być może równie ogromny, jak rynek dla samojeżdżących samochodów.

Ciekawa historia z pierwszym pomysłem Twojego kolegi. Myślę, że Accel Robotics będzie miał zdecydowanie większy popyt. Nie tak dawno dostaliście duże dofinansowanie, więc też pod tym względem macie zasoby na dalsze działanie. Na Waszej stronie jest napisane: „Mamy do czynienia z nowym, wygodnym światem„. Na czym polega ta wygoda? Jakie są pułapki w tym wygodnym życiu? Jaka będzie różnica w zachowaniu człowieka teraz i za 5 lat, kiedy to już się stanie powszechne?

Wygoda polega na tym, że chcemy postawić tego typu sklepy w miejscach, w których w tej chwili istnienie sklepu nie jest opłacalne. W Polsce może nie jest to aż tak dostrzegalne, ale w Ameryce są dosyć duże osiedla, w których nie ma ani jednego sklepu. Jest tzw. zoning, czyli dane strefy czy dzielnice miasta są przeznaczone tylko pod zabudowę mieszkalną i nie można w nich budować sklepów.

W związku z tym często (szczególnie w Kalifornii) żeby kupić zapałki albo nawet najprostszą rzecz potrzebną w domu, po prostu trzeba wsiąść w samochód i po nią pojechać. Część tego problemu oczywiście rozwiązuje sprzedaż wysyłkowa. Amazon, sklepy internetowe pozwalają kupić dużo rzeczy i dostać to następnego dnia, ale jest gdzieś taka dziura na zakupy potrzebne natychmiast np. zabrakło w domu wody mineralnej.

Gdybyśmy mieli takie małe sklepy porozstawiane w różnych miejscach miasta (dużo gęściej niż teraz), byłoby to znacznie wygodniejsze. Można podejść do takiego sklepu, wziąć, co i kiedy potrzeba, bo sklep może być otwarty 24 godz. na dobę. Nawet jeżeli zabraknie mi czegoś o północy, po prostu wyjdę na wieczorny spacer i mogę to kupić.

Również w miejscach, w których normalnie jest mało klientów, często nie opłaca stawiać się dużych sklepów czy płacić za etat kasjera, który przez większość czasu nie ma, co robić. Takim przykładem mogą być parki narodowe, gdzie ruch jest bardzo nierówny – przez większość dnia nikogo nie ma, a zdarza się godzina albo dwie, kiedy nagle pojawia się dużo ludzi. Technologia sklepów autonomicznych, może to zmienić. Także dużo operatorów stacji benzynowych jest tym bardzo zainteresowanych.

Jakie mogą być niebezpieczeństwa z tym związane?

Na pewno podstawowym niebezpieczeństwem jest to, że część kasjerów może stracić pracę. Jest to nieunikniona konsekwencja postępu technologicznego i trudno z tym dyskutować. Sto lat temu, większość ludzi pracowała na farmach, po czym został wynaleziony traktor i od tego czasu wiele osób mieszka w mieście i zajmuje się czymś innym.

Natomiast nawet nie myślę, że to byłby aż tak wielki problem, dlatego że dużo z tych sklepów w tej chwili nawet nie istnieje. Na pewno część kasjerów straci pracę, ale efekt będzie taki, że powstanie więcej sklepów. Myślę, że kasjerzy w większych sklepach raczej nie muszą się martwić dlatego, że jeżeli jest duży sklep, dużo ludzi to nie ma problemu czas pracownika jest dobrze wykorzystany. W takim przypadku dobrze mieć człowieka na miejscu w razie, gdyby klientom potrzebna była jego pomoc.

Drugie niebezpieczeństwo, którym na pewno ludzie się trochę martwią, szczególnie biorąc pod uwagę to, co dzieje się w Chinach, to jest kwestia prywatności, kwestia tego, czy wyjście do takiego autonomicznego sklepu nie spowoduje naruszenia prywatności, bo ktoś będzie obserwował, co kupuję. To jest do pewnego stopnia problem, który trochę istnieje, a trochę nie. Nawet dzisiaj kiedy się wchodzi do sklepu, to często jest się nagrywanym przez monitoring w ramach zabezpieczenia przed kradzieżami. Ludzie nawet często nie zwracają na to uwagi.

Potencjalnie jakby ktoś chciał je obejrzeć, to może podejrzeć, co dokładnie kupowaliśmy. W naszym systemie nie wykorzystujemy rozpoznawania twarzy. Staramy się anonimizować klienta. Nie mamy dostępu do jego karty kredytowej – to się dzieje osobno. To operator karty kredytowej autoryzuje danego klienta. My tylko dostajemy autoryzację od operatora, że daną osobę możemy wpuścić. Nie wiemy natomiast, kto to jest i jedyne, co musimy zrobić, to ostatecznie dostarczyć do operatora karty kredytowej listę rzeczy, którą dana osoba kupiła.

Jakkolwiek pewne niebezpieczeństwa istnieją, to moim zdaniem jeżeli stworzy się odpowiedni proces z zachowaniem zasad bezpieczeństwa, to nie będzie to znacznie różniło od stanu obecnego. Ludzie jakoś się z tym pogodzili i nie jest to większym problemem.

Ten przypadek użycia w Stanach Zjednoczonych faktycznie w Polsce może jest mniej odczuwalny. Ale jest za to inny problem, a mianowicie zaostrzenie zakazu handlu w niedzielę. Jak na razie pojawiają się różne rozwiązania, np. w Krakowie na początku 2020 r. pojawił się samoobsługowy Lewiatan.

To wygląda jak kupowanie jakiś batoników w automacie tylko w znacznie większym rozmiarze. Jest to chyba coś innego, niż to, co Wy próbujecie zrobić, bo faktycznie chcecie wpuszczać człowieka do środka w jakieś większe pomieszczenie niż tylko na zewnątrz, gdzie stoi maszyna, z której wybierasz interesujący Cię produkt.

Jest to w pewnym sensie podobne do takiej maszyny, która wypluwa jakieś rzeczy. Staramy się sprawić, żeby doświadczenie klienta wchodzącego do sklepu było podobnego do tradycyjnego sklepu – produkty leżą na półkach, można je sobie wszystkie swobodnie wziąć, obejrzeć, odłożyć. Jedyną różnicą ma być brak personelu na miejscu.

Oczywiście będą kamery, więc sądzę, że obrabowanie takiego sklepu będzie nawet trudniejsze. Zastanawiamy się, jak to doświadczenie uprzyjemnić. Być może będzie tam stał jakiś robot, który będzie w pewien sposób imitować obsługę. Pojawiają się też ciekawe pytania związane z interakcją użytkownika z maszyną. Jak sprawić, żeby człowiek czuł się swobodnie, żeby się nie bał? Tu pojawia się dużo ciekawych rzeczy związanych z interfejsem.

Tu pojawia się pewien paradoks badany już w Japonii: czym robot staje się bardziej podobny do człowieka, tym bardziej go odstrasza. Chciałbym dopytać o jedną rzecz, która się wydarzyła w Polsce, w Poznaniu, gdzie pojawił się taki sklep i wystąpił pewien problem. Człowiek wszedł do sklepu, rozładował mu się telefon i nie mógł z tego sklepu wyjść. Czy w Waszym przypadku telefon musi być włączony cały czas wizyty w sklepie?

Nie. W naszej technologii trzeba się zidentyfikować przed wejściem do sklepu, więc trzeba mieć kartę kredytową albo aplikację działającą w telefonie. W momencie, w którym ktoś już jest wpuszczony do sklepu, to już nie potrzebuje niczego. My po prostu wyślemy rachunek SMSem.

Jeżeli ten sms nie przyjdzie natychmiast, bo komórka jest wyłączona, to dojdzie później. Nie ma żadnych ograniczeń czasowych. Natomiast tu są restrykcyjne przepisy pożarowe i ktoś będący w takim autonomicznym sklepie, zdecydowanie musi się móc wydostać bez pomocy żadnej elektroniki. To jest raczej tak, że telefon może być potrzebny, żeby wejść do sklepu, a żeby wyjść na pewno nie (nawet ze względów bezpieczeństwa).

Zajmujesz się już długo tematem widzenia komputerowego. To nie zawsze chodzi o deep learning. Wyjaśnij te dwa pojęcia.

To jest długa historia i nie wiem, czy tak naprawdę ktokolwiek do tej pory był w stanie dobrze to zdefiniować. Wyjaśnię, jakie istnieją definicje, jakie problemy się rozwiązuje w wizji i jakich problemów się nie rozwiązuje. Może to pozwoli nam lepiej zrozumieć te pojęcia.

Problem widzenia to jest problem transformacji czegoś, co wchodzi do jakiegoś sensora typu kamera (czyli transformacji obrazu) w informację o tym, co w tym obrazie się znajduje albo w informację, która wpływa np. na akcje robota znajdującego się w środowisku reprezentowanym przez dany obraz. Tu już widać, że to mogą być rozmaite rzeczy, więc tradycyjnie definiuje się problem klasyfikacji obiektów.

To jest dosyć wysokopoziomowy problem, w którym przez ostatnie kilka lat zaobserwowaliśmy duży postęp za sprawą deep learning. To są dosyć duże perceptrony (sieci neuronowe). Klasyfikacja przedmiotu podaje komputerowi zdjęcie i komputer ma wykryć, czy znajduje się na nim przedmiot z ustalonej listy kategorii. Jeśli tam jest, to ma wskazać miejsce, w którym ten przedmiot się znajduje. To jest jeden z problemów wizyjnych, które mogą być rozważane.

Innym problemem jest semantyczna segmentacja. To jest trochę szerszy problem, definiowany w ten sposób, że komputer dostaje obraz i ma go rozdzielić na obszary, które reprezentują pewne klasy. Klasy tutaj zazwyczaj są ustalone z góry. Można sobie wyobrazić dużo problemów semantycznej segmentacji w problemie autonomicznego jeżdżenia. Czyli bierzemy obraz ulicy i chcemy wysegmentować ten obraz i powiedzieć, które piksele na tym obrazie reprezentują drogę, które pobocze, samochody czy pieszych itd. Jest pewien zbiór kategorii, na które chcemy dokonać segmentacji tego obrazu.

Inną kwestią jest śledzenie obiektu. Jest to problem definiowany nie tyle na obrazie pojedynczym, a na sekwencji obrazów. Przykładowo oglądam film i chcę śledzić dany obiekt, który w sekwencji zdjęć się zmienia, następuje jego transformacja i chce ten obiekt śledzić. Ten problem jest trochę inny niż klasyfikacja, chociaż jego część na pewno może być rozwiązana za pomocą klasyfikacji.

Czasem może być tak, że obiekt w czasie się zmienia, a my chcemy nadal utrzymać jego tożsamość. Można sobie wyobrazić, że kogoś śledzimy na sekwencji zdjęć i ten ktoś ubiera maskę, ale chcemy nadal wiedzieć, że to jest ta sama osoba dlatego, że istnieje jakaś ciągłość w tej całej sekwencji.

To jest kolejny możliwy problem – problem widzenia.

Z kolei istnieją inne, prostsze problemy. Być może chcemy zbudować robota, który nie będzie klasyfikować tego, co widzi przed sobą w ludzkich kategoriach, ale może np. chce wiedzieć, czy może przejść przez dany teren. Często to nie są rzeczy, które da się łatwo wyrazić jako problem klasyfikacji. Trudno jest rozważać np. problem klasyfikacji, czy można pokonać dany kamień na drodze.

To nie wydaje się jako coś, co może być wyrażone w terminach klasyfikacji. Zdecydowanie może być wyrażone jako pewien fundamentalny problem wizyjny. Często takie problemy, które wydają się problemami banalnymi (np. możliwość przejścia po danym terenie bez przeszkód), często są dużo trudniejsze niż problemy klasyfikacji. Jest to dosyć paradoksalne.

Dzisiaj będziemy mówić dużo na temat paradoksów. Spróbujmy podsumować myśli. Ciężko jest zdefiniować, czym jest widzenie. Natomiast to, co zabrzmiało w sposób dość zauważalny, to to, że obecne algorytmy (w szczególności uczenia głębokiego) skupiają się tylko na pewnym fragmencie całego obszaru.

Ciągnąc ten wątek, można powiedzieć, że do tego tematu można podejść na różne sposoby. Oprócz deep learningu są prawdopodobnie jeszcze inne sposoby na to, aby próbować ten świat zobaczyć. Opowiadałeś o tym w swojej prezentacji – przybliżysz nam te sposoby?

Na pewno są algorytmy, które są wyspecjalizowane w danym aspekcie, więc bardzo dostosowane do danej aplikacji. Często są to algorytmy, które stosuje się w środowisku kontrolowanym np. w fabrykach, jeżeli chcemy dokonać inspekcji produktu. Często też są stosowane algorytmy, które działają w bardzo wąskiej branży. Praktycznie każdy obraz, który oglądają, jest taki sam. Jedyne, co muszą zrobić, to sprawdzić, czy dany obraz nie ma jakiś defektów, pomyłek.

Tu zazwyczaj można powiedzieć, że uczenie maszynowe byłoby ok. Nie twierdzę, że nie da się zastosować uczenia maszynowego w tej dziedzinie, ale często jest tak, że to, co jest bardziej istotne niż łatwość nauczenia tego algorytmu, czy skonstruowania, to dodatkowe rzeczy, które chcemy wiedzieć o danym obiekcie, czy dokonać jakiś pomiarów. Często łatwiej jest wyrazić wszystkie te rzeczy, programując i wykorzystując przy tym klasyczne algorytmy wizji komputerowej.

Wizja komputerowa to nie jest nowe zjawisko, jest rozwijana od 50 lat. Jest całkiem sporo tzw. klasycznych algorytmów, których da się wykorzystać do niektórych rzeczy. Często to, co jest dobre w tym zastosowaniu, to to, że wiemy dokładnie, co robimy, co ten algorytm rozpoznaje, kiedy zawiedzie, więc specyfikacja tego problemu jest zdecydowanie bardziej restrykcyjna. Problemem uczenia maszynowego jest to, że często działa, ale równie często nie wiadomo dlaczego i jeżeli zawiedzie, to też nie wiadomo dlaczego. W specjalistycznych aplikacjach to nie jest dobra sytuacja.

Uczenie maszynowe w tej chwili najlepiej nadaje się do rozwiązywania problemów, w których potrzebujemy wykorzystać klasyfikację. Często nie da się wyrazić dobrze danego problemu w terminach klasycznych – np. co to znaczy rozpoznać psa danej rasy w zestawie obrazów?

Dla klasycznej wizji komputerowej to problem prawie nie do rozwiązania. Natomiast w uczeniu maszynowym możemy pokazać zestaw przykładów danej kategorii czy danej rzeczy i uczyć system, który będzie to próbował rozpoznać. Jest to inna metodologia działania i w wielu przypadkach rozwiązuje problemy, przy których klasyczna wizja komputerowa już dawno się poddała. Próby szukania rozwiązania mogą być bardzo drogie. Nikt nie będzie zatrudniał programisty i szczodrze go opłacał przez wiele lat po to, żeby napisać wykrywacz psów.

Natomiast uczenie maszynowe pozwala zgromadzić zestaw danych i po rewolucji głębokiego uczenia, od 10 lat wiemy jak budować systemy, uczyć je na kartach graficznych, wiemy które problemy rozwiązują. Tutaj kłopotem jest to, że niestety czasami te systemy zawodzą i kiedy to się stanie, to często nie znamy przyczyny. Sytuacje, w których te systemy zawodzą są czasem dosyć dziwne, a przykłady pokazują, że często nie widzą one świata w taki sposób, w jaki my byśmy go widzieli.

Trzecią kategorią jest wszelaka percepcja dla robotów. Tu często problemy są trudne do zdefiniowania w terminach klasyfikacji. Trudno dokładnie powiedzieć, czego dany robot powinien się uczyć, żeby był w stanie się poruszać w świecie. To są często problemy, które wymagają analizy wideo czy sekwencji klatek, które są zatopione w czasie, a nie są statycznymi obrazami.

Zdarza się, że algorytmy uczenia maszynowego, które w klasycznych aplikacjach klasyfikacji działają dobrze, zaaplikowane do robotów nie funkcjonują prawidłowo – m.in. dlatego że te roboty mają kamery często dostarczające rozmyty obraz z uwagi na poruszanie się maszyny. Tutaj oczywiście częściowo może pomóc taki rodzaj uczenia maszynowego, który bierze to pod uwagę i rozumie, że często kategorie, których trzeba się nauczyć, są inne.

Czwartą kategorią jest biologiczna wizja. Jest pewna grupa osób, która chce zrozumieć, jak biologiczne mózgi procesują sygnał wizyjny i chce modelować to, co jest w stanie w nich zaobserwować. W tej kwestii też mam sporo lat doświadczenia dlatego, że w pierwszej firmie, Brain Corporation, praktycznie przez pierwsze 3 lata dokładnie to próbowaliśmy zrobić. Moim zadaniem było nauczenie się neuronauki. To jest całkiem osobna historia.

Jak wspomniałeś, to często są imponujące modele, ale w praktyce nie działają. Wydaje się, że jeszcze nie wiemy wystarczająco dużo na temat tego, jak mózg działa, żeby móc efektywnie to modelować.

Jest taki słynny projekt w Szwajcarii “Blue Brain Project”. Staram się go obserwować, ale ostatnio jest coraz mniej komunikatów o jego osiągnięciach w roku 2020. Czy wiesz coś na ten temat? Czy jest możliwość, że natrafiono tam już na pewne ograniczenia, które ciężko jest przeskoczyć?

“Blue Brain Project” został w pewnym momencie przemianowany na “Human Brain Project”. Idea była taka, żeby zamodelować istotną część mózgu człowieka. Henry Markram (założyciel projektu) chciał dokonywać rozmaitych obserwacji w biologicznym mózgu, budować mapę neuronów i na tej podstawie budować bardzo skomplikowany model, w którym biochemia impulsu nerwowego będzie zamodelowana.

Nadzieja była taka, że jeśli zbuduje się wystarczająco duży model tego typu, to ten model zacznie przejawiać wyższe cechy poznawcze czy wyższe poziomy odpowiedzi na sygnały, które można by uznać za inteligentne i wykorzystać to ewentualnie do budowy jakiś systemów wizyjnych. Moje doświadczenie w tej dziedzinie jest takie, że jest to z jednej strony bardzo ciekawe, z drugiej zaś jest to coś zupełnie innego niż uczenie maszynowe. Uczenie maszynowe wywodzi się z podejścia statystycznego.

Jest bardzo wyabstrahowane. Idea neuronów w dzisiejszej sieci neuronowej jest tak daleko od biologicznego neuronu, że w zasadzie jest to tylko jakaś daleka analogia. To, co się dzieje w tzw. komputerowych sieciach neuronowych, to jest mnożenie dwóch wektorów i przepuszczanie ich przez nieliniową funkcję. Biologiczne neurony to jest bardzo skomplikowana dynamika, która jest zatopiona w czasie, posiada rozmaite interakcje różnych neuroprzekaźników. Każdy pojedynczy neuron wydaje się być bardzo skomplikowaną maszyną.

Do tej pory nie wiemy tak naprawdę, które cechy tych neuronów są odpowiedzialne za wyższe działanie, za to, który mózg działa lub nie. Jest to ciekawe. Dla mnie to było doświadczenie, które pozwoliło mi lepiej zrozumieć, jak daleko jesteśmy jeszcze od rozwiązania tej zagadki inteligencji. Często się słyszy obecnie, że możemy już budować samojeżdżące samochody, już jesteśmy “za rogiem”.

Przynajmniej moje studia neuronauk pokazują, że sprawa “pod czaszką” jest zdecydowanie bardziej skomplikowana, niż się wydaje. Tak naprawdę nikt nie wie, co tam się dzieje. Tylko powierzchownie przypomina to to, co modelujemy w tzw. sztucznych sieciach neuronowych.

Brzmi to tak, że chcemy ten wątek rozwinąć, ale niestety musimy się skoncentrować i trzymać się pewnego flow. Podsumujmy. Do widzenia komputerowego możemy podejść na co najmniej 4 sposoby:

Pierwszy to customowe podejście, kiedy wpisujemy pewien algorytm i jeżeli on się myli, to wie, gdzie się myli, a jak działa, to też wiemy, gdzie. Jest to bardziej kontrolowane. Mamy większe poczucie bezpieczeństwa.

Drugi sposób to bio.

Trzeci to uczenie maszynowe samo w sobie, takie bardziej klasyczne.

Czwarty to uczenie głębokie, które przede wszystkim jest otwarte na głębokie sieci neuronowe.

Jeszcze wspomniałeś o podejściu robotyzacji i ograniczeniach, które tam występują. Było to dla mnie ciekawe, bo jak analizowałem jedną z Twoich prezentacji, stwierdziłeś, że customowe rozwiązania radzą sobie równie dobrze jak deep learningowe, to na ten moment (jeżeli chodzi o zastosowanie) są bardziej popularne. To nagranie z 2016 r. Teraz minęły już prawie 4 lata od tego momentu. Czy cokolwiek się zmieniło w tym obszarze? Gdzie takie customowe rozwiązania nadal działają i są stosowane powszechnie?

Trudno powiedzieć, czy są bardziej popularne, dlatego że uczenie maszynowe jest teraz dosyć szeroko rozpowszechnione. Podam natomiast kilka przykładów algorytmów czy rozwiązań, które nie są oparte na uczeniu maszynowym albo na ostatniej modzie w uczeniu maszynowym rzeczy, z którymi pracowałem.

Rozpoznawanie twarzy wydaje się być możliwe tylko dzięki głębokiemu uczeniu – jest to nieprawda. Rozpoznawanie twarzy zostało rozwiązane już w latach 90. Istnieje co najmniej kilka algorytmów, które to robią. One nie są zupełnie oddarte od uczenia maszynowego. Często buduje się pewien klasyfikator na zbiorze cech, więc to nie jest tak, że to jest zupełnie oderwane od uczenia maszynowego, ale nie jest to deep learning.

Nie jest to ten paradygmat, w którym wszystko się trenuje. Kiedyś pracowałem z pewnym algorytmem, który nie był komercyjnie dostępny. Ten algorytm pracował na sygnale video w rozdzielczość full HD. Rozpoznawał twarz i robił to na telefonie komórkowym niesamowicie szybko i dokładnie. Do tego stopnia że często te algorytmy zwracają tzw. punkty kluczowe, czyli miejsca gdzie się brwi kończą, dokładny obrys oczu, gdzie jest nos. To jest przykład takiego algorytmu, który naprawdę został rozwiązany. Nie trzeba głębokiego uczenia do tego. Być może dlatego, że po prostu było zapotrzebowanie na rozpoznawanie twarzy. Dużo ludzi się tym interesowało od dawna, więc była motywacja, żeby ten problem rozwiązać.

Kolejne doświadczenie z osobistej kariery – pracowałem w firmie zajmującej się inspekcją płytek drukowanych. Zapoznałem się ze stosowanymi tam algorytmami. Jest to też bardzo wyspecjalizowany algorytm, który bardzo szybko – dosłownie w przeciągu sekundy – jest w stanie sfotografować w bardzo wysokiej rozdzielczości płytkę drukowaną i w przeciągu sekundy dostarcza z 10-20 zdjęć. Na ich podstawie wypracowywana jest rekonstrukcja 3D tej płytki, następnie dokonywana jest analiza połączeń, są wyliczane kąty itd. Nie ma w tym ani grama uczenia maszynowego, a działa naprawdę bardzo imponująco.

Kolejny przykład związany z samojeżdżacymi samochodami to firma Mobileye. Kiedyś Tesla używałą ich mikroprocesory do swoich pojazdów. Potem wydarzył się dramat, wypadek śmiertelny i firma przestała chcieć współpracować z Teslą, ale to jest zupełnie osobna historia. Ich chip z 2014 r. miał minimalny aspekt uczenia maszynowego.

Większość rozpoznawania samochodów i segmentacji drogi była robiona klasycznymi algorytmami. Poniekąd wiadomo na podstawie tego jak ten chip wyglądał i tego, kiedy uczenie maszynowe stało się bardzo popularne, że na pewno za dużo deep learningu tam nie było. Mówię to dlatego, że często potrzeba 3-4 lata, żeby zaprojektować taki mikroprocesor. Jeżeli w 2013 r. wszedł on do użycia to znaczy, że jego zaprojektowanie musiało nastąpić zanim głębokie uczenie stało się popularne. Na pewno nie ma tam istotnej części głębokiego uczenia.

Mam też przykład z lokalnego podwórka. W tej chwili w Accel Robotics głębokie uczenie stosujemy do klasyfikacji, ale już np. śledzenie osób w sklepie czy wykrywanie zdarzeń w sklepie jest w dużej mierze wykonywane za pomocą klasycznych algorytmów. Tych, które po prostu napisaliśmy z wizją tego, co one muszą robić i w jakich warunkach działać. Często jest tak, że algorytmy uczenia głębokiego, żeby działać, w wielu przypadkach potrzebują dosyć sporej karty graficznej i żeby przetwarzać te klatki na bieżąco, ta karta graficzna musi stale działać, przez co konsumuje dużo prądu.

Prąd kosztuje – co jest ostatnią rzeczą, na którą specjaliści od uczenia maszynowego zwracają uwagę. Często myślą, że prąd jest zagwarantowany i ktoś za to płaci. W naszym przypadku dowiedzieliśmy się, że operatorzy małych sklepów nie chcą mieć gigantycznego rachunku za prąd, więc często te algorytmy trzeba też dostosować, żeby były energooszczędne. Czasem jest łatwo dany algorytm napisać, nauczyć i wszystko działa tylko, że zużywa bardzo dużo prądu i to powoduje, że jest niemożliwy do użycia. To się tyczy też często robotów, samojeżdżących samochodów. W tym przypadku szczególnie jest to istotne dlatego, że samochód ma bardzo ograniczony budżet energetyczny. Nie może wieźć za sobą elektrowni, która napędza 10 kart graficznych.

Jak piszesz: “Jestem naukowcem pracującym nad wprowadzeniem dynamiki do uczenia maszynowego, który obecnie jest zdominowany przez statystykę. Dynamika jest konieczna, aby modele mogły wytworzyć dobre “rozumienie” fizycznej rzeczywistości.” Na czym polega ta dynamika? Czym się różni algorytm, który tej dynamiki nie ma i ten, który ją ma?

To jest coś, co w pewien sposób czuję, ale niełatwo to wyrazić. Wydaje mi się, że nie mamy jeszcze dobrego języka, żeby to opisać, ale postaram się jak najlepiej.

Obecnie wiadomo, że uczenie maszynowe działa w ten sposób, że musimy sieci neuronowej pokazać 10 mln. przykładów jednego przedmiotu, 1 mln. przykładów drugiego przedmiotu i za każdym razem trenować – to jest szklanka, to jest długopis itd. To się dzieje przez długi czas. Po wielu milionach interakcji system wytwarza w końcu umiejętność odróżniania tych obiektów. Nie wiadomo dokładnie, jak to się dzieje. Budowane są w tej sieci neuronowej cechy, które ostatecznie pozwalają rozdzielić te kategorie. To jest w sumie dosyć statystyczne, dlatego że tak naprawdę nic nie wiemy o prezentowanych scenach.

O tej sieci neuronowej jedyne, co wiemy to to, że dana scena zawiera dany obiekt, inna scena nie zawiera żadnego obiektu. Poziom informacji, który ta sieć neuronowa ma, jest czysto statystyczny. Nie wie nic o świecie poza tym, że część z prezentowanych obrazów zawiera jeden obiekt, a część zawiera inny. Nie ma żadnego zrozumienia i żadnej motywacji w tej sieci neuronowej, żeby zrozumieć cokolwiek więcej na temat tego świata.

Sieć neuronowa jest zmotywowana jedynie tym, co próbujemy w niej optymalizować. Pracujemy nad rozdzielaniem tych kategorii. Jedyne co ta sieć musi się nauczyć, to jakikolwiek sygnał w tych obrazach, który pozwala jej rozdzielić np. szklankę od długopisu – nic więcej. Nie ma motywacji, żeby rozumieć, że na świecie jest grawitacja i rzeczy opadają w dół. Nie ma motywacji, że świeci słońce, że płyny zachowują się tak, jak się zachowują itd. To jest zupełnie poza sferą zainteresowania tej sieci.

Jeżeli pomyślimy o tym, jak się ludzie czy zwierzęta uczą rozmaitych rzeczy to łatwo jest zauważyć, że uczymy się inaczej. Dziecko nie potrzebuje tysiąca zdjęć kota, żeby zrozumieć, że kot to kot. Dzieci rozumieją co jest kotem, nawet zanim są w stanie go nazwać. Często jest tak, że jeżeli dziecko już się nauczy czegoś o świecie, to bardzo szybko jest w stanie się nauczyć nowych rzeczy. Dziecko może zobaczyć lwa pierwszy raz w życiu, możemy powiedzieć, że to jest lew i że jest rodzajem kota.

W tym momencie dziecko jest w stanie po pierwsze – zapamiętać na podstawie tego jednego przykładu, jak pokażemy nagle inne zdjęcie lwa to już w magiczny sposób, jest w stanie powiedzieć, że to jest lew. W tej chwili w uczeniu maszynowym nie mamy tej możliwości. Nie wiemy nawet jak zacząć to robić. Po drugie – dziecko często jest w stanie generalizować we właściwy sposób, tzn. możemy pokazać dziecku zdjęcie lamparta i nawet 2 latek będzie w stanie powiedzieć, że lampart jest kotem. Jak to się dzieje?

Tego nie wiemy. Natomiast wiemy, że dzieci uczą się, nawet jeżeli nie mają żadnego nadzoru. Po prostu poprzez interakcję ze światem uczą się mnóstwa rzeczy o nim. W momencie, w którym zaczynają uczyć się języka, wiedzą już bardzo dużo o świecie. To coś zupełnie innego niż sieć neuronowa. Mózg zna już otaczająco go świat i jedyne co musi nauczyć się nazywać poszczególne jego elementy. To jest coś subtelnie innego, niż bombardowanie sieci neuronowej milionem obrazów i tłumaczenie jej, co jest czym.

Tutaj dochodzimy do dynamiki. Raz mówimy dziecku, jak nazywa się dany przedmiot i to wystarczy. Ten rodzaj uczenia jest zupełnie niestatystyczny. Nie ma tutaj aspektu częstotliwościowego. Po prostu jedna ekspozycja wystarczy. Pewne aspekty ludzkiej aktywności trzeba ćwiczyć. Granie na pianinie czy jazda na rowerze – to są umiejętności wymagające ćwiczeń. Na pewno jest w ludzkich czy zwierzęcych aktywnościach pewien aspekt statystyczny, ale jest też ogromny aspekt zupełnie niestatystyczny, w którym w jakiś sposób jesteśmy w stanie powiązywać ze sobą fakty na podstawie pojedynczych przykładów.

Wiąże się to z tym, w jakim świecie żyjemy i co to znaczy być inteligentną istotą. Moim zdaniem świat z natury też jest niestatystyczny, niestacjonarny. Świat wydaje się być regularny przez pewien czas, a potem się wszystko całkowicie zmienia. Wiadomo, jak to działa w biznesie: firma działa, wszystko jest pięknie, nagle się pojawia inna firma, wystawia inny produkt i wszystko się zmienia. Wszystkie rozwiązania, które do tej pory działały, nagle są nic niewarte i trzeba wszystko przemyśleć od nowa.

Takie rzeczy dzieją się cały czas. Część z nich w małej skali. Są to drobne rzeczy. Coś się zmieniło w domu i musimy się do tego dostosować. Część rzeczy na dłuższej skali czasowej też potrafi się zmieniać. Historia ludzkości pokazuje, jak dany kraj funkcjonuje i jak się drastycznie zmienia, gdy nadchodzi wojna albo plaga. Trzeba się do tego natychmiast przystosować. To jest o tyle istotne, że nie mamy czasu, żeby się na nowo uczyć tej rzeczywistości tak, jak uczenie maszynowe by się uczyło, tylko trzeba działać od razu.

Trzeba szybko zrozumieć, że coś fundamentalnego się zmieniło i wymaga to innego sposobu funkcjonowania. To jest dynamika, coś co czujesz, że w tej chwili zupełnie w sztucznej inteligencji nie wiadomo jak wykonać. Nie wiemy jak sprawić, żeby coś miało umiejętność zrozumienia, że coś się zmieniło i że dane rozwiązanie od tej pory nie będzie działać zupełnie. Nie wiem, czy to ma sens, ale wydaje mi się, że nie jest to wystarczająco mocno reprezentowane w tej chwili w sztucznej inteligencji.

Czuć Twoją pasję do tego tematu i jak dużo czasu spędzasz na rozważaniach. Nawiązałeś do dziecka. Ja akurat mam to szczęście, że mam dwójkę dzieci i też nad tymi tematami rozważam. Dla mnie było też ciekawe, jak dzieci się uczą, że np. nie mając nawet roku, dziecko jeszcze nie potrafi mówić, a już umie pewne rzeczy rozpoznawać.

Jak wygląda moja zabawa z dzieckiem? Daję jakąś zabawkę i obserwuję, jak wygląda interakcja. Pokazuję jeden ruch i obserwuję co robi dziecko. Może ono powtórzyć po mnie, ale również zaczyna próbować robić inaczej, np. próbuje w to pukać, wyciągnąć którąś stronę, a tego nie pokazywałem.

Zastanawiam się wtedy, skąd dziecko wie, że może robić takie ruchy. Ono próbuje ten nasz świat eksplorować, sprawdzać, co jest możliwe. Jednoroczne dziecko uwielbia zabawy typu „bach” (coś spadnie). Robi świadomie wszystko, żeby coś zrzucić i mówi „bach”. To jest takie imponujące! Nie wiem, co się wtedy dzieje w głowie dziecka, ale odczuwam, że jakieś neurony pewnie się łączą.

Zauważyłem również, że po dzieciach fajnie widać, jak szybko przychodzi nauka otwierania i zamykania przedmiotów. Zrobi to raz, dwa, wie, czym to się kończy, to od razu przestaje się tym bawić. To jest też ciekawe dla mnie odkrycie, jak szybko człowiek potrafi się nauczyć nowych rzeczy i już go to nie bawi.

Z drugiej strony, jak np. pada śnieg i spadnie na rękę, to wygląda to za każdym razem inaczej. Dziecko potrzebuje dużo energii, żeby to przetworzyć, bo przecież to wygląda za każdym razem inaczej. Mózg próbuje to cały czas kalkulować. Albo taki eksperyment – bierzesz herbatę lub kawę, wlewasz do niej mleko i zaczynasz mieszać. Za każdym razem rozlewa się to trochę inaczej. Nasz mózg potrafi się złapać na tym, że odcinamy się od rzeczywistości i obserwujemy.

To jest naprawdę inspirujące, jak dzieci się uczą i na ile to podejście obecne (jeżeli chodzi o deep learning albo sieci neuronowe) uczenia maszynowego jest takim bardziej brutalnym podejściem. Czyli próbujemy złapać wierzchołek góry lodowej i to czasem działa, jeżeli chodzi o problemy biznesowe, to nawet je też rozwiązuje, ale ciężko to nazwać takim podejściem głębszym, jak my-ludzie działamy.

Teraz dochodzimy do bardzo istotnego paradoksu, tzw. Paradoks Moraveca, który był zdefiniowany już ponad 30 lat temu, m.in. przez Hansa Moraveca, Rodneya Brooksa, Marvina Minsky’ego.

Warto teraz przytoczyć książkę „The Language Instincts” napisaną przez amerykańskiego psychologa Stevena Pinkera, w której czytamy, że „za 35 lat (książka z 1994r.) to, czego się nauczyliśmy to to, że trudne problemy są łatwe, a łatwe problemy są trudne”.

Na co Marvin Minsky mówił w ten sposób „rzeczy, które się dzieją nieświadomie u człowieka, to jest ten skarb, którego nie poznaliśmy”. Proszę, wyjaśnij na czym polega Paradoks Moraveca? Gdzie jesteśmy teraz? Czy posunęliśmy się chociaż odrobinę do przodu przez te 30 lat?

Tak, to był Hans Moravec, profesor badawczy na Uniwersytecie Carnegie Mellon. Napisał książkę o psychologii uczenia dziecięcego. Jest w niej taki cytat nazwany Paradoksem Moraveca: „dużo łatwiej jest nauczyć komputery rzeczy, które wydają się wyższymi funkcjami poznawczymi jak granie w gry, niż nauczyć je percepcji i mobilności rocznego dziecka”. To była dosyć ciekawa obserwacja i przez 30 lat mieliśmy niesamowity postęp w technologii komputerowej. Mieliśmy ze 40 lat Prawa Moore’a, więc komputery dzisiaj są, jeżeli nie setki tysięcy to miliony razy bardziej efektywne niż były za czasów Moraveca w 1987 r.

Jednak Paradoks jest nadal w pełni prawdziwy. Też mam 11 miesięczne dziecko. Co trzeba zrobić, kiedy niemowlę porusza się po domu? Trzeba zabezpieczyć szafki z rozmaitymi przedmiotami, dlatego że dziecko bardzo szybko się uczy te szafki otwierać i w nich grzebać. Trzeba pozatykać gniazdka elektryczne, bo dziecko bardzo szybko się uczy, że to jest coś ciekawego i że można tam coś wetknąć. Dzieci po pierwsze spontanicznie poruszają się po mieszkaniu, po drugie zaczynają grzebać w rzeczach, są w stanie otworzyć sobie szafkę, wyciągnąć z niej coś, pooglądać itd. Jak się popatrzy na to, co są w stanie zrobić roboty – nie są w stanie nic z tego zrobić w tej chwili.

Kilka lat temu był konkurs sponsorowany przez Darpa, gdzie najlepsze uczelnie i firmy budowały roboty, które w dużej mierze nie były w stanie za wiele robić. Miały wykonać różne zadania np. odkręcić zawór wodny czy otworzyć drzwi. Wiele z tych robotów, wyposażonych w rozmaite sensory, komputery, nie działało autonomicznie. Tam można było im pomagać tylko, że ten strumień danych, którym można było się z nimi komunikować, był ograniczony do dosyć powolnej prędkości.

Robot nie musiał wykonywać żadnych decyzji wysokopoziomowych. Jak się na to popatrzy, to czasy, kiedy nas sztuczna inteligencja wygoni z domów, są bardzo odległe. Te roboty nie były w stanie dobrze drzwi otworzyć, nie wspominając o bardziej skomplikowanych, manualnych rzeczach jak odkręcenie zaworu wodnego czy przykręcenie śruby wiertarką. Okazuje się, że te rzeczy, które roczne dziecko jest w stanie zrobić, to jest coś, czego dzisiejsze roboty, nadal nie są w stanie wykonać.

To jest paradoks. Jesteśmy w stanie w tej chwili lepiej grać w grę „Go” niż najlepsi ludzie na świecie. Po ostatnim osiągnięciu deepmind jesteśmy w stanie uczyć komputery grać w gry komputerowe, lepiej niż ludzie. Nie jesteśmy jednak w stanie ich nauczyć np. czołgania się po domu i otwierania szafek, tak jak zrobiłoby to roczne dziecko.

Paradoks jest nadal w mocy. Dla mnie ciekawy jest ten paradoks i rozwinięcie na zasadzie, jeżeli to jest prawda, że taki paradoks ma miejsce, to co robimy nie tak? Gdzie jest dziura w naszym rozumowaniu? Ewidentnie coś jest nie tak. Jesteśmy w stanie budować skomplikowane systemy, które grają w skomplikowane gry komputerowe.

Już w tej chwili, przeciętny komputer jest w stanie przeciętnego człowieka w szachach pokonać, ale nie jesteśmy w stanie zbudować robota, który będzie wykonywał takie proste rzeczy jak otwarcie drzwi w sklepie czy przemieszczanie się w jakimś bardziej skomplikowanym środowisku. To wydaje się, że jest w tej chwili nieosiągalne. Dlaczego? To jest coś, co mnie fascynuje.

Na swoim blogu napisałeś, że Twoim celem długoterminowym jest rozwiązać Paradoks Moraveca. Nawiązując do tego, co powiedziałeś o konkursie Darpa, przed wywiadem z Tobą nagrywaliśmy wywiad z Markiem Cyganem z firmy Nomagic. Oni się zajmują robotyką.

Marek podał bardzo fajny przykład, że m.in. jako wyzwanie robotyzacji, dość często pojawia się problem z deep learning w takim rozumieniu, że robimy sobie pojedyncze zdjęcia, próbujemy sklasyfikować, co na nich jest, następnie zamykamy oczy i wykonujemy dane zadanie np. idziemy do szafki, otwieramy ją, bierzemy kawę itd.

W świecie rzeczywistym nie możemy tak się poruszać, bo jeżeli robimy tylko jedno zdjęcie, zapamiętujemy ten pokój, to potem nie możemy zamknąć oczu i pójść, bo zawsze coś się może wydarzyć po drodze. Zawsze ktoś może tę szafkę otworzyć przed nami itd. Czyli musimy non stop analizować, jak się zmienia nasz świat. Nie tyle, że wszystko musimy analizować dookoła, tylko to, co jest najbardziej w danej chwili istotne. Ewolucja na pewno wpłynęła na to, jak się rozwinęliśmy. Zdecydowała o tym, co jest bardziej znaczące.

To jest ciekawy wątek, bo m.in. w Twoich publikacjach bardzo mocno podkreślasz uczenie nienadzorowane (unsupervised learning). Problem m.in. jeżeli chodzi o uczenie nienadzorowane jest taki, w jaki sposób wnioskować, którą wiedzę warto przyswoić, a którą odrzucić? Jak człowieka wypuszczamy w dorosłe życie, to otaczają go różne osoby, które próbują też go oszukać, ale też osoby, które nie próbują go oszukać.

Człowiek, jeżeli jest inteligentny, bardzo szybko to rozumie. Próbuje w otoczeniu rozpoznać, co ma sens, co jest prawdziwe, a co nie. W jaki sposób to przełożyć na uczenie nienadzorowane? W jaki sposób zrozumieć, co tak naprawdę ma sens, a co go nie ma? Prawdopodobnie coś, co przypomina uczenie ze wzmocnieniem, czyli nakładać kary itd. Ale to jest niejednoznaczne, bo ktoś musi zdecydować o formie kary. W jaki sposób taki algorytm będzie się uczył i wnioskował? Który element tego algorytmu wnioskuje, co ma sens?

Ja bym to przedstawił w trochę abstrakcyjnych terminach, ale często warto jest postawić problem w bardzo szerokiej ramie, żeby dostrzec jakiś aspekt, który może okazać się istotny. Po pierwsze w otaczającym nas świecie zdecydowanie istnieje dynamika.

Dynamika w tym sensie, że istnieją jakieś reguły gry, które ten świat transformują, więc rzeczy nie zmieniają się losowo, tylko świat jest dosyć mocno zorganizowany wokół praw fizyki. Jeżeli będziemy w stanie rozumieć tę dynamikę świata, to jesteśmy w stanie coś o tym świecie wiedzieć. Co to znaczy wiedzieć coś o świecie? To jest rozumieć dynamikę, która go transformuje.

Druga, dosyć istotna rzecz to to, że świat jest fundamentalnie nieprzewidywalny. Świat może być w pewnych skalach czasowych przewidywalny, w pewnych aspektach lokalnych, ale fundamentalnie, w globalnym sformułowaniu w wielu skalach świat jest nieprzewidywalny. Nie wiemy, co się zdarzy w przyszłości.

Trzecia obserwacja jest taka, że jeżeli jesteśmy organizmem, który w tym świecie istnieje i próbujemy transformować dostępną energię i wykorzystywać ją do tego, żeby przeżyć i zreplikować swoje geny, to dobrze jest móc coś o tym świecie przewidzieć, ponieważ jeżeli jesteśmy w stanie coś o przyszłości móc powiedzieć, to jesteśmy wygrani w stosunku do tego, kto nie jest w stanie nic powiedzieć.

Jeżeli widzimy jakieś zagrożenie i jesteśmy w stanie przewidzieć, że to zagrożenie może w niedługiej przyszłości się zbliżyć i bezpośrednio nam zagrażać, to wtedy podejmujemy akcję, uciekamy, widzimy drapieżnika przed sobą i jeżeli jesteśmy w stanie zrozumieć i przewidzieć, że ten drapieżnik będzie w naszym kierunku podążał i może być zagrożeniem, to jesteśmy w stanie wcześniej podjąć ucieczkę i przeżyć. Jest naturalna presja ewolucyjna, żeby móc jednak co nieco o świecie przewidzieć.

Trochę zbliża nas to do pewnego pomysłu, który zdecydowanie nie jest jeszcze pomysłem gotowym. Jeszcze na pewno się nie dokopałem do tego w całości, ale widać początki jakiejś myśli. To jest to, że dobrze jest zbudować system, który cokolwiek widzi w świecie, będzie starał się przewidzieć, co się wydarzy w przyszłości.

To daje pewną naturalną miarę optymalizacji. Może to być system uczenia maszynowego, nie musi być nic bardzo specjalnego. Miarą optymalizacji jest wybrać jakiś aspekt świata i powiedzieć: „Ok. Na podstawie przeszłości i na podstawie czegokolwiek, co mam dostępne, jestem w stanie przewidzieć, co się zdarzy”. W wizji komputerowej to często można sformułować jako problem na zasadzie “mam pewną historię klatek, czy jestem w stanie przewidzieć co się stanie w następnej klatce?”

Czyli taki predykcyjny paradygmat. Czasem na to mówi “samonadzorowane uczenie”. Ten nadzór się pojawia w czasie, kiedy widzimy, jak się świat rozwija. Ostatecznie wiemy, jeśli puścimy czas do przodu, to ta dynamika się rozgrywa i jesteśmy w stanie stale się nadzorować, czy byliśmy w stanie przewidzieć to, co się stało czy nie.

To prowadzi do jeszcze jednej myśli. Tak jak wspomniałem, pewne aspekty świata da się przewidzieć, a pewnych nie. Z punktu widzenia behawioralnego czy przetrwania agenta w świecie, ten aspekt świata, którego się nie da się przewidzieć, jest poniekąd równie istotny, jak ten świat, który da się przewidzieć. Jeżeli mamy system, który stara się przewidzieć, co się stanie w przyszłości i aspekty nie do przewidzenia pojawiają się jako sygnał błędu, to ten sygnał jest poniekąd jeszcze istotniejszy niż ten, który jesteśmy w stanie przewidzieć.

Może dlatego właśnie, dzieci szybko się nudzą rzeczami, które są w stanie przewidzieć, które już znają. Natomiast podążają za tym, żeby uczyć się rzeczy, których nie są w stanie przewidzieć. Naturalnie ludzie podążają na krawędź rzeczy, których nie są w stanie przewidzieć, bo to jest po pierwsze najciekawsze, ale również z punktu widzenia przetrwania może być to najistotniejsze. Nawet z takich praktycznych rzeczy, jak egzystencja na rynku, często nie jest istotne to, co na rynku jesteśmy w stanie przewidzieć, ale bardziej istotne jest to, czego nie jesteśmy w stanie przewidzieć.

Często ten aspekt na krawędzi tego, co rozumiemy jest najbardziej istotny i potencjalnie może być najbardziej dochodowy z punktu widzenia biznesowego. Sporo jest analogii pomiędzy agentami istniejącymi w naturalnym środowisku, a firmami istniejącymi na rynku. To jest mniej więcej kilka myśli, które jakoś się zaczynają składać w pewną całość. Sporo z tych rzeczy jest również zgodnymi z tym, co widzimy w psychologii behawioralnej, czy w zachowaniu małych dzieci, czy też w zachowaniu nas samych – co tak naprawdę nas interesuje, co chcemy robić w życiu itd. To, co znamy jest fajne, bezpieczne, ale to nas mało interesuje.

To, co nas interesuje, zazwyczaj jest na krawędzi nieznanego. Tam jest ta szansa i miejsce, gdzie możemy uzyskać więcej energii do przetrwania w terminach biznesu, miejsce, gdzie są jakieś pieniądze do zarobienia itd. Czy w terminach zwierzęcia, które żyje w krzaczkach, to może być miejsce, gdzie jest pożywienie itd. To nie jest wszystko jeszcze bardzo sformalizowane, ale myślę, że coś tu się dzieje, co powinno zostać mocno zbadane.

Chyba na blogu napisałeś: „publikacje o głębokim uczeniu, coraz mniej przypominają rewolucję, bardziej ewolucję”. Tak naprawdę ze sztuczną inteligencją jest tak, że osoby, które nagłaśniają te sprawy (marketingowcy, media) nieco skrzywiły pewne rzeczy. Z drugiej strony warto powiedzieć, że uczenie maszynowe, deep learning działa w pewnych zastosowaniach, potrafi rozwiązywać problemy i dawać namacalne wartości dla biznesu.

Z trzeciej strony jeżeli chodzi o zrozumienie tzw. sztucznej inteligencji to możliwość osiągnięcia poziomu general AI albo rozwiązania problemu Moraveca używając narzędzi dostępnych w tzw. mainstream (deep learning albo klasycznym algorytmie uczenia maszynowego) jest raczej nikła. Stąd pojawiają się coraz częściej artykuły, dyskusje, debaty na temat tego, że kolejna zima nadchodzi i coś będzie. Co o tym myślisz? Co się zmieni? Co się stanie w świecie biznesu?

Na początek wyjaśnię, czym jest zima AI. To jest fenomen, który zdarzył się już kilka razy. Trochę to przypomina euforię na rynku, po której nadchodzi pewne rozczarowanie. Taki cykl w sztucznej inteligencji miał miejsce przez ostatnich 40 albo 50 lat. Często pojawia się jakieś nowe rozwiązanie, coś tam działa i wszyscy się tym bardzo ekscytują, przewidują, że teraz to już komputery będą mogły zastąpić ludzi w jakimś tam aspekcie.

To są rozbujane dosyć mocno oczekiwania. Wydaje mi się, że jest to związane również z tym, że ludzie często bardzo łatwo robią projekcję swoich własnych kognitywnych możliwości na komputery. Bardzo łatwo wierzą, że szczególnie dzieci gdy pokaże im się zabawkę, są przekonane, że ta zabawka też widzi i słyszy świat tak, jak one. To jest jakiś taki naturalny odruch, który ludzie mają i być może jest to ewolucyjnie dosyć sensowne dlatego, że jest to coś, co pozwala nam zakładać to, że inni widzą świat mniej więcej tak, jak my.

Jest to naturalne założenie, które w większości przypadków pomaga nam żyć. Niestety to często też się aplikuje do komputerów czy maszyn i bardzo łatwo wierzymy w to, że maszyna robi coś, co wygląda jak coś, co robiłby inteligentny agent. Bardzo łatwo jest nam uwierzyć, że rzeczywiście jest to już inteligentny agent, a w związku z tym będzie mógł łatwo wykonać różne akcje. Od razu możemy wymienić listę rozmaitych rzeczy, które ludzie robią swobodnie. Łatwo wierzymy w to, że to już jest postęp, od tego momentu wszystkie problemy będą rozwiązane.

Do tej pory było tak, że często się okazywało, że dane rozwiązanie rzeczywiście działa, ale okazuje się, że działa w zupełnie inny sposób niż nasz mózg. Mimo że na zewnątrz to rozwiązanie wydaje się działać podobnie, ale w środku okazuje się, że jest wręcz odwrotnie.

Te wszystkie założenia o tym, że skoro rozwiązaliśmy jeden problem oznacza, że wszystkie inne problemy też już za chwilę rozwiążemy, są błędne. Często to się wiąże z tym, że w momencie ekscytacji ludzie alokują zasoby, inwestują pieniądze. Potem się okazuje, że to jednak nie było to, jednak to rozwiązanie nie jest aż tak generalne itd.

Pieniądze są stracone. W momencie, w którym ludzie dużo pieniędzy na czymś tracą, to automatycznie nabierają jakiejś awersji. Następuje coś, co zostało ochrzczone jako zima AI. To jest taki okres, w którym ludzie, którzy popadli w iluzję posiadania wszystkiego w zasięgu ręki, zainwestowali dużo pieniędzy, tracą je i następuje okres, w którym nie ma pieniędzy na finansowanie prawie żadnych badań AI, bo wszyscy się boją, że się jeszcze raz sparzą na tym.

Niestety obawiam się, że nastąpi to samo również teraz, bo nie brakuje dookoła ludzi, którym się wydaje, że teraz już rozwiązaliśmy problem wizji komputerowej. Nie jest to prawda. Są bardzo subtelne, pojedyncze problemy wizji komputerowej, które są może i rozwiązane, ale to zdecydowanie nie oznacza, że wszystkie aspekty wizji komputerowej zostały rozwiązane. Ludziom się wydaje, że skoro pokonaliśmy mistrza świata w „Go” za pomocą komputera, to teraz ten komputer jest naprawdę inteligentniejszy niż ludzie. To też nie jest prawda.

Paradoks Moraveca nadal ma miejsce, nie jesteśmy w stanie zbudować robota, który będzie w stanie przejść przez las, a co dopiero zrobić coś w tym lesie. Dużo inwestycji teraz też miało miejsce w tym kierunku, szczególnie w aspektach, w których moim zdaniem prawdopodobnie dzisiejsza technologia nie będzie w stanie dostarczyć rozwiązań. Spodziewam się zatem, że te pieniądze zostaną stracone i w momencie, w którym ludzie sobie zdadzą z tego sprawę, to może nastąpić kolejna zima.

Cykl inwestycyjny się odwróci i wszyscy ludzie, którzy do tej pory byli podekscytowani hasłem AI, nagle stracą zainteresowanie jakimkolwiek tematem z tym związanym. Myślę, że to się wydarzy. Nie widzę żadnych przesłanek, żeby tym razem miało być inaczej niż 20 czy 40 lat temu. To są dobrze udokumentowane, historyczne rzeczy.

Jedna zima AI miała miejsce w latach 80., kiedy systemy ekspertowe zostały również przereklamowane bardzo mocno i potem przez kilka lat trwała zima. Czy nadchodzi? Moim zdaniem tak. W tej chwili jest dosyć duża ekscytacja, dużo rzeczy krążących w mediach jest mocno oderwanych od rzeczywistości. Tu absolutnie nie mówię, że nie ma żadnego postępu, bo postęp oczywiście jest. Na pewno część inwestycji się zwróci i być może nawet z nawiązką, ale zdecydowanie nie wszystkie.

Czyli problem jest taki, że oczekiwania w niektórych obszarach są wygórowane i ostatecznie może to wygenerować duże rozczarowanie. Najpierw był duży entuzjazm, a następnie będzie duża frustracja. Tak jak jest różnica pomiędzy miłością a nienawiścią.

Jakie pytanie zadać na sam koniec? Filip, czym jest inteligencja?

To jest bardzo ciekawe, że tak naprawdę nie mamy jeszcze definicji inteligencji. W każdej dziedzinie naukowej, w fizyce czy w matematyce, często próbuje się bardzo dokładnie zdefiniować problem, który się próbuje rozwiązać, żeby wiedzieć o czym się mówi.

Panuje przekonanie, że w sztucznej inteligencji dużo ludzi jest albo po matematyce, fizyce czy informatyce, którzy wydają się być ścisłymi umysłami. Często zakłada się, że te osoby wiedzą, czym jest inteligencja i próbują jakoś skonstruować system, który będzie spełniał jej definicję. Niestety to nie jest prawda. To jest bardzo zaskakujące, ale właściwie nie wiemy, co to pojęcie oznacza.

Jedną definicję podał Alan Turing, który powiedział, że nie jesteśmy w stanie zdefiniować, co to jest inteligencja, w związku z tym, jeżeli postawimy panel ludzi i ci ludzie wchodzą w interakcje z maszyną i oni uznają, że ta maszyna jest inteligenta to znaczy, że jest inteligentna i tyle. Więc taka dosyć praktyczna definicja. Kiedyś bardzo ją lubiłem, bo mi się wydawało, że jest świetna, ale w pewnym momencie przestałem, kiedy zdałem sobie sprawę, jak łatwo jest oszukać człowieka, żeby myślał, że coś jest inteligentne.

Definicja, która w tej chwili bardziej mi się podoba jest taka, że weźmy robota, system, który istnieje w świecie i nie ważne, czy jest w stanie nas oszukać, czy jest inteligentny czy nie, ale czy jest w stanie świat oszukać, że jest inteligentny. Czyli czy jest w stanie przetrwać w fizycznym świecie, zabezpieczyć sobie zasoby, uniknąć niebezpieczeństw itd.

To wydaje mi się ciekawsze, bo usuwa człowieka jako sędziego tego, czy coś jest inteligentne, a stawia fizyczny świat w tej roli. Dajmy na to, że jeżeli dany robot rozbije się, wpadnie do wody i koniec, to można powiedzieć, że robot nie przetrwał testu bojowego, więc nie jest inteligentny. Tylko to znowu nie podaje definicji inteligencji, tylko podaje jakiś sposób zmierzenia tego, czy coś jest inteligentne czy nie.

Nie wyraża tego, czym to właściwie jest. Problem wyrażenia inteligencji w terminach bardziej fundamentalnych rzeczy, które rozumiemy, jest w dużej mierze nierozwiązany. Jest kilka ciekawych prac naukowych, które próbują zdefiniować inteligencję jako optymalizację future entropy forces (sił entropijnych, które mają miejsce w przyszłości). To jest dosyć abstrakcyjne i podejrzewam, że większość czytelników nie będzie wiedziała, o co chodzi. Z drugiej strony można to łatwo sformułować w terminach predykcyjnych czy alokacji energii: agent istnieje w świecie, jest w stanie przewidzieć, co się będzie w tym świecie działo i postawić siebie w takiej roli, w której będzie w stanie skorzystać z tego, co się będzie w świecie działo.

Czyli dajmy na to, że agent jest w stanie przewidzieć, że w danym miejscu będzie dostępna energia czy pożywienie, ale że będzie to nie teraz, a w przyszłości i będzie w stanie pokierować swoim zachowaniem tak, żeby z tego zasobu móc kiedyś skorzystać. Można powiedzieć, że taki agent jest inteligentny. Ta definicja próbuje to zanurzyć w jakiś terminach dynamicznych. Mi osobiście się to bardzo podoba, ale nie jestem pewien, czy w klasycznych kółkach sztucznej inteligencji jest to popularne.

Tak naprawdę wśród tych naukowców, którzy w tej chwili nazywają siebie naukowcami od sztucznej inteligencji, większość dyskusji jest tak naprawdę zdefiniowana przez test Turinga. Czyli jeżeli jesteśmy w stanie dane zadanie wykonywać lepiej niż ludzie, oznacza, że system jest inteligentny. Ja nie lubię tej definicji. Powoduje to straszne nieporozumienia. Prasa będzie cytować, że wizja komputerowa została rozwiązana do ponad ludzkich możliwości.

System komputerowy wtedy jest w stanie wykonywać zadanie wizyjne lepiej niż ludzie, więc komputery widzą już lepiej niż ludzie i bardzo szybko ten skrót myślowy następuje. Jeżeli się wejdzie w szczegóły, to się okazuje, że owszem, lepiej niż ludzie, ale pod warunkiem, że jest konkretny zbiór testowy. Klasyczny przykład tego z ostatnich czasów – zbiór obrazów, który się nazywa ImageNet (14 mln obrazów, na których bada się zadanie klasyfikacji obrazów).

Głośno parę lat temu było, że komputer osiągnął lepszą wartość na jakiś miarach na tym zadaniu niż ludzie. Trzeba mieć świadomość, że np. bardzo duża część obrazów w tym zbiorze danych to są np. zdjęcia psów rozmaitych ras, które zostały skatalogowane i oznaczone nazwami tych ras. Teraz jeśli weźmiemy człowieka, który nie zna się na rasach psów, to jego wynik na tej klasyfikacji będzie nienajlepszy.

Natomiast system, który jest nauczony na tych obrazach, jest w stanie wykonać to zadanie lepiej. To naprawdę nie oznacza, że jeżeli teraz wezmę ten system wizyjny, wyrzucę gdzieś w dżungli to, że ten system będzie lepiej widział ode mnie, gdzie jest drapieżnik. Często pojawiają się nieporozumienia i wydaje mi się, że test Turinga to próba oszustwa. Powiedzieć, że coś jest inteligentne, bo udało mi się oszukać 5 ludzi, że to jest inteligentne.

To jest tak mniej więcej jak różnica między magią a iluzjonistą. Iluzjonista też jest w stanie przekonać publiczność, że jest magikiem, ale to nie znaczy, że jest magikiem.

Kiedyś Watson bardzo mocno się zdziwił, że Holmes nie wie o tym, że to ziemia się kręci dookoła słońca, a nie na odwrót. Na co Holmes zapytał – a jaka jest różnica? Jak mi to pomaga żyć? Praktyczna inteligencja jest tematem bardzo zagadkowym.

To, co w tej chwili jesteśmy w stanie jednoznacznie stwierdzić, to na pewno nie jest tylko tzw. intelekt (podejście matematyczne, fizyczne), to jest pojęcie znacznie szersze. Są osoby, które nie potrafią nawet mnożyć. Tu był też ciekawy przykład podczas wojny. Nie dało się wtedy chodzić do szkoły, te osoby nie potrafiły nauczyć się podstawowych rzeczy jak np. mnożyć, ale były osobami bardzo inteligentnymi. Potrafiły wyciągać takie wnioski z różnych rzeczy, których nawet człowiek z tytułem profesora nie jest w stanie wyciągnąć.

Chociaż różnie to było. Bardziej chcę powiedzieć, że tytuł naukowy nie zawsze świadczy o czymś więcej niż tylko o posiadaniu jednego tytułu. Zanotowałem sobie, jak rozmawialiśmy na temat dzieci, jak one się uczą, że my jako ludzie (chociaż wiele osób ostatnio traci tę umiejętność) mamy takie coś jak refleksje, czyli potrafimy się zastanawiać i wyciągać pewne wnioski i następnie to wszystko abstrahować. Albo patrząc na jedno zjawisko, wiązać to zupełnie z innym. Dla obecnych algorytmów to jest bardzo skomplikowaną rzeczą.

Ja mam jeszcze jedną analogię, która będzie może prostsza do zrozumienia. Ludzka inteligencja to jest taka siła, która stale próbuje nas wypchnąć z jakiegoś koncepcyjnego pudełka, w którym jesteśmy zamknięci.

Zawsze, przynajmniej te osoby, które udało mi się poznać i które wydają mi się osobami inteligentnymi, to osoby, które stale poszukują, stale chcą się wydostać z jakiś ram, w których ich intelekt w danej chwili jest, bo wiedzą, że tak naprawdę gdzieś właściwy opis rzeczywistości znajduje się poza utartymi aksjomatami.

Natomiast to, co mamy w tej chwili w komputerach, to są algorytmy, które doskonale się czują w tych pudełkach, zostały w nich nauczone, doskonale w nich działają, ale absolutnie nie mają żadnej motywacji ani wiedzy, żeby chcieć się z tego pudełka koncepcyjnego wydostać. To jest dobra analogia tego, co mamy i czym się różni od tej cechy, którą nazywamy inteligencją u ludzi.

Za moimi plecami jest taki napis: „Think outside the box”. Specjalnie sobie ten napis nakleiłem, bo codziennie jak przychodzę do tego samego biurka (nawet do 50 razy dziennie), przypominam sobie by zacząć myśleć trochę inaczej.

Z drugiej strony pojawia się kolejne pytanie – czym jest ten box? Za każdym razem kiedy wykraczasz poza granicę tego pierwszego pudełka, okazuje się, że jesteś w kolejnym. Gdzie jest to ostateczne pudełko? Czy tak naprawdę jest? Zostawiam nas z tą myślą.

Filip, bardzo dziękuję za ciekawą rozmowę. Myślę, że warto byłoby się spotkać jeszcze raz za jakiś czas i poruszyć kolejny wątek, być może bardziej wizjonerski. To są trudne tematy, bo nie ma jednoznacznej odpowiedzi, są to bardziej rozważania.

Z drugiej strony są interesujące i ważne, bo żyjemy w czasach, kiedy jest coraz większe zapotrzebowanie na rozwiązania, o których rozmawialiśmy. Rozwiązania takie pudełkowe mają sens w tej chwili, bo działają. Potrafią rozwiązywać te rzeczy, które rozwiązują, ale będzie moment, kiedy to będzie za mało. Żeby się wyróżnić, zrobić coś więcej, to trzeba pójść dalej. Wtedy takie wizjonerskie rozważania zaczynają się wdrażać w inny sposób prawdopodobnie niż teraz.

Cała przyjemność po mojej stronie i bardzo przyjemnie było porozmawiać. Bardzo chętnie, jeżeli będziesz miał ochotę, to w przyszłości mogę jeszcze trochę czasu poświęcić.

Bardzo Ci dziękuję, że udało Ci się dotrwać do końca. Wiem, że rozmowa była dłuższa niż zwykle. Też mieliśmy dylematy, czy warto przedłużać czy nie. Zdecydowaliśmy, że tak. Mało tego, mam nadzieję, że nagramy jeszcze kolejne tematy.

Proszę podziel się opinią czy warto? Czy interesuje Cię poruszanie takich wątków, dotyczących przyszłości, skomplikowanych procesów zachodzących w naszej głowie? Czym jest inteligencja? Albo np. taki artykuł, który był też poruszony na blogu Filipa, m.in. co się stanie, jeżeli się przenosisz w przeszłość?

Nadal posiadasz tę całą wiedzę, całe doświadczenie, ale czy będziesz w stanie cokolwiek zmienić? Co będziesz chciał zmienić? Bardzo ciekawy artykuł. Na sam koniec, chciałbym zostawić Cię z pytaniem, które zadałem Filipowi – jak myślisz, czym jest inteligencja?

Artykuł Różne oblicza Computer Vision pochodzi z serwisu Biznes Myśli.

Świat akademicki, biznes oraz ML – rozmowa z Tomkiem Trzcińskim

Vladimir — Mon, 17 Feb 2020 04:00:15 +0000

Gdzie łączy się świat akademicki i biznes? Jak zbudować innowacyjny zespół tak, aby jego założyciel mógł skupić się na innych inspirujących rzeczach, które będą stale motywowały zespół do dalszej pracy? O tym opowie Tomek Trzciński z Tooploox, niezwykle utalentowany człowiek, który sprawia wrażenie, jakby posiadał klucz do wielu skomplikowanych rzeczy. Czasem w trakcie rozmowy zauważysz, jak pod pozorną prostotą różnych kwestii kryje się dużo ciekawych wniosków.

Ogłoszenia

17 lutego, ruszył mini kurs „Wprowadzenie do Python”. Ten kurs trwa 3 tygodnie, jest online. Zrobiony jest po to, żeby umożliwić Ci w sposób krótki, ale namacalny, lepiej się poczuć z językiem programowania Python. Ten język będzie nam bardziej potrzebny przy kolejnych kursach związanych z uczeniem maszynowym.

Główny kurs „Praktyczne uczenie maszynowe od podstaw” rusza 16 marca. Zachęcam do prędkiego zapisu, aby zdążyć z ewentualnymi zawiłymi procesami zakupowymi w firmach.

14 marca w Krakowie odbędą się trzecie urodziny podcastu Biznes Myśli. Spotkamy się w gronie słuchaczy i gości moich rozmów. Zapraszam – będzie mi miło Cię poznać osobiście.

Cześć Tomek. Przedstaw się: kim jesteś, czym się zajmujesz, gdzie mieszkasz.

Cześć. Nazywam się Tomasz Trzciński. Jestem adiunktem na Politechnice Warszawskiej. Jestem też współwłaścicielem firmy Tooploox oraz CEO startupu Comixyfy. Zajmuję się ogólnie tematyką uczenia maszynowego, w szczególności wizją maszynową (computer vision). Mieszkam na co dzień w Warszawie.

Co ostatnio fajnego przeczytałeś? Dlaczego zaciekawiła Cię ta lektura?

Ostatnio czytam książkę „Hard Thing About Hard Things” Bena Horowitza. Super książka, która została napisana przez współtwórcę Andreessen Horowitz, jednego z najbardziej znanych funduszy VC działających głównie w Silicon Valley. Oni zainwestowali m.in. w Lyft, Oculus czy Skype’a. W książce Horowitz opowiada różne historie z życia swojego i spółek, w których brał udział m.in. Netscape. Opowiada o historiach budowania spółek technologicznych, ich wzlotach, upadkach. Przedstawił wiele cennych rad związanych z prowadzeniem startupów oraz z byciem prezesem tego typu nowych, działających bardzo szybko i rozwijających się spółek technologicznych.

Brzmi ciekawie. W szczególności dla osób, które zajmują rolę CEO albo podobną. Wspomniałeś o firmie Tooploox. Powiedz troszkę więcej, jaka jest Twoja rola?

Tooploox to jedna z najszybciej rosnących spółek technologicznych Europy. Oferujemy usługi rozwoju oprogramowania. Głównie skupiamy się na segmencie startupów czy młodych spółek, ale mamy też w swoim portfolio projektów spółki większe, korporacyjne czy giełdowe. Zakres oferowanych kompetencji jest bardzo szeroki: od aplikacji mobilnych na Androida czy urządzenia Apple, przez technologie webowe, backend, frontend i metody sztucznej inteligencji. To jest właśnie ten fragment, za który ja w dużej mierze odpowiadam od dłuższego czasu. Choć dzisiaj już ten fenomenalny zespół, który udało się zbudować w Tooploox, w dużej mierze rozwija się autonomicznie pozwalając mi spędzić trochę więcej czasu na rozwoju naukowym (zarówno na polu firmowym, jak i uczelnianym).

Zespół autonomiczny – to brzmi bardzo ciekawie. Zbudowanie i prowadzenie zespołu zwykle jest dużym wyzwaniem. W szczególności jeżeli mówimy o zespole ludzi, którym się chce, mają ambicje, chcą działać. Chciałbym, żebyś powiedział teraz troszkę więcej o życiowych lekcjach, które wyniosłeś.

Pamiętam jak na jednej z konferencji DataWorkshop Club Conf w 2018 roku, wspomniałeś o dość trudnej, życiowej sytuacji, którą przeżyłeś – zwolnienie jednego z pracowników. Mówiłeś o tym, jakie miałeś emocje i co wtedy myślałeś. Jest to bardzo cenna informacja dla osób, które budują zespół, bo to nie jest łatwe. Czy możesz podzielić się trzema lekcjami, jak budować, współpracować i motywować efektywnie zespół zajmujący się innowacjami?

Tomasz Trzciński: PL in CV – Polish View on Computer Vision

Dzięki, to bardzo ważne i rzeczywiście trudne pytanie. Przykład, o którym wspomniałeś z konferencji, dotyczył zwolnienia jednej z osób z zespołu. Było to dla mnie pierwsze takie doświadczenie. Ono było o tyle trudne, że zwolnienie kogoś z zespołu jest w dużej mierze porażką tego, który ten zespół buduje. W większości przypadków oznacza, że nie udało się wyciągnąć tego talentu na powierzchnię, nie udało się odkryć umiejętności, które każdy z nas w sobie buduje. Była to cenna lekcja, jak unikać tego typu sytuacji w przyszłości. Z mojej strony był to pewnego rodzaju chrzest bojowy, jak podchodzić do takich sytuacji, starać się oddzielać emocje od obiektywnych i racjonalnych przesłanek.

Pierwszą taką wskazówką, która przychodzi mi do głowy to to, że motywowanie ludzi pieniędzmi jest bardzo krótkoterminowe i nie do końca daje efekty, które w długim okresie są widoczne i przynoszą oczekiwany rezultat. Dużo bardziej efektywne jest motywowanie poprzez pozostawienie autonomii zespołowi. Bardzo dobrym przykładem tego, jak działa autonomia zespołów w praktyce, jest holokracja, którą w Tooploox wdrażamy już od ponad roku.

Jest to niehierarchiczna, nie tradycyjna forma zarządzania kapitałem ludzkim czy organizacjami, która skupia się na autonomii zespołów, będących tzw. „kołami”. Celem stworzenia tych oddzielnych „kół”, które dynamicznie mogą zmieniać swoje struktury, mogą w ramach procesu zarządczego tworzyć nowe role, pozbywać się ich, jest wyzwolenie zaangażowania, którego nie da się kupić tylko i wyłącznie za pomocą podwyższonego wynagrodzenia, które w długim okresie, przestaje motywować.

Badania, które m.in. zespół z Harvardu prowadził, wskazywały, że powyżej pewnego progu (który jest zależny od kraju, w którym się mieszka i od uwarunkowań osobistych), w okolicy 70 000 – 80 000$, dodatkowy zastrzyk gotówki, już nie motywuje tak bardzo, a zaczynają się liczyć: sens istnienia, cel robienia pewnych działań, autonomia, możliwość samorozwoju. Także to jest pierwsza wskazówka, czyli motywowanie nie pieniędzmi, a autonomią i zaufaniem do zespołu.

Komunikacja to drugi element, który jest niezwykle istotny. Ona jest podstawą funkcjonowania zespołów. Wiele problemów, z którymi spotkałem się w dotychczasowej karierze, wynika nie ze złych intencji stron czy członków zespołu, czy relacji z innymi zespołami, lecz z braku zrozumienia potrzeb.

Sebastian Thrun (który był jednym z twórców rewolucji autonomicznych samochodów, wcześniej zajmował się Massive Online Courses, czyli tymi otwartymi kursami dostępnymi online, m.in. współtworzył Udacity), ostatnio w podcaście z Lexem Fridmanem, mówił o tym, że intencje drugiej strony, z którą rozmawiamy, są z zasady dobre.

Zrozumienie tych intencji i zaawansowana empatia pozwalają rozwiązać wiele problemów. Taka taktyczna praca w zespole często cierpi, bo ważne tematy, które są ukrywane czy ignorowane ze względu na brak dobrej komunikacji między zespołem, wychodzą w zupełnie nieprzewidywalnych sytuacjach. Rolą lidera czy osoby budującej zespół jest jak najszybsze wyłapanie i rozwiązanie tych kwestii.

Trzecim najważniejszym punktem, na który zwracałem uwagę i uczyłem się mniej lub bardziej boleśnie, jest zrozumienie tego, że jeśli masz autorytet w zespole, bo właśnie go tworzysz lub budujesz od lat swoją wiedzą merytoryczną czy osiągnięciami poza samym zespołem, to siła Twojego głosu jest bardzo ważnym elementem budulcowym. Warto wykorzystywać tę siłę odpowiednio. Na początku jeśli jesteś takim aktywnym liderem, menedżerem, który zarządza zespołem, to często łapiesz się na tym, że chciałbyś podpowiedzieć jakieś rozwiązania lub sam je zaproponować, zamiast dać zespołowi możliwość wypracowania ich samemu.

Twój głos zabrany np. na samym początku dyskusji czy brainstormingu sprawia, że dynamika w zespole jest kompletnie inna. Tak naprawdę reszta zespołu stawia się przeciwko Tobie, jeśli ma inne pomysły, a nie Ty wspierasz i budujesz tę kreatywność wewnątrz zespołu. Zrozumienie siły głosu i pokazywanie, jak wygląda ta praca, poprzez lead by example, czyli robienie samemu rzeczy, na których nam zależy i są dla nas ważne, to jest najlepszy sposób budowania zespołu i też ze strategicznego ukierunkowania go.

Kiedy poznaliśmy się na żywo jakiś czas temu, powiedziałeś, że czytasz publikacje podczas śniadania. Jak wybierasz, które publikacje warto czytać? Co się dzieje po przeczytaniu oprócz tego, że odkładasz ją na półkę? Czy drukujesz publikacje czy czytasz je online?

Zaczynając od najprostszego pytania: czytam online. Staram się nie drukować, mam Kindle, którego bardzo ukochałem. Biorę go na każde wakacje, jest dużo lżejszy i dużo bardziej poręczny, już nie mówiąc o oszczędności drzew, które pozostawiamy wzrastające w lasach, zamiast przerabiać je na papier.

Jeśli chodzi o wątek czytania podczas śniadania, to rzeczywiście spotkaliśmy się jakiś czas temu. Teraz przy śniadaniu głównie zajmujemy się razem z żoną tym, żeby trójka naszych dzieci nie była głodna przez resztę dnia. Tak naprawdę bardzo dużo ostatnio słucham. Często zdarza mi się w drodze do pracy słuchać podcastów np. Macieja Filipkowskiego, Biznes Myśli, Lexa Fridmana (który też ma bardzo ciekawe fragmenty z gośćmi np. z Danielem Golemanem).

Staram się coraz więcej słuchać. Jest to w moim przekonaniu takie medium, które będzie wzrastało na wadze biorąc pod uwagę, jak dużo możemy chłonąć słuchając. Ukłony dla Ciebie za budowanie tej społeczności wokół podcastu Biznes Myśli. Jeśli chodzi o czytane publikacje, wybieram zgodnie z zainteresowaniem i aktualnie realizowanymi tematami projektów. Staram się nie rzucać na wszystkie najnowsze publikacje z dziedziny uczenia maszynowego, bo jest ich po prostu niewyobrażalnie dużo na arXiv.

Pojawia się ich kilkaset czy kilka tysięcy miesięcznie. Wybór tych, które są ważne nie jest oczywisty. Dużo polegam w tym temacie na Twitterze czy Linkedinie. Mam kilka znanych, dość dobrze podsumowujących te artykuły ludzi, których śledzę na Twitterze (np. @hardmaru – twittowy influencer, którego w dużej mierze słucham i staram się na bieżąco obserwować, o czym mówi). Natomiast tematy, związane z moimi zainteresowaniami, czyli uczeniem maszynowym, computer vision, uczeniem reprezentacji obrazu, generatywnymi modelami staram się obserwować na bieżąco.

Jestem recenzentem wielu prac (zarówno konferencyjnych jak i czasopiśmiennych) i staram się, poza ustawieniem Google Alerts na odpowiednie słowa, jeździć na konferencje, rozmawiać z ludźmi, szukać i czuć ten puls, którym bije serce akademii.

Jesteś osobą, która próbuje łączyć światy, które w Polsce średnio potrafią współpracować ze sobą. Mam na myśli świat biznesu, świat startupu oraz świat akademicki. Mało jest osób w Polsce, które potrafią robić to efektywnie. Być może wiele osób próbuje, ale żeby to działało, to trzeba się naprawdę postarać.

Inspirujesz ludzi na uczelniach do pisania publikacji klasy światowej. Nie chodzi oczywiście o merytorykę, ale też o sposób myślenia i robienie pewnych czynności, żeby stać się zauważonym w innych kręgach niż tylko w lokalnej uczelni. W inteligentny sposób wspierasz też swoich studentów. Jak o tym myślę, to 5-10 lat temu pewnie chciałbym być Twoim studentem, bo to jak inspirujesz i wspierasz ludzi, jest godne podziwu.

Powstał projekt Comixify. Opowiedz historię tego projektu. Kto go rozwija? Co się teraz z nim dzieje? Czy chodzi tylko o rozrywkę, czy też o coś innego?

Przede wszystkim dzięki za ciepłe słowa. Miło słyszeć, że te efekty pracy są dostrzegane z zewnątrz. To w dużej mierze jest zasługa zespołów i ludzi, z którymi współpracuję. Staram się jak najmniej przeszkadzać i pomagać przynajmniej w ten sposób. Comixify jest rezultatem prac inżynierskich i magisterskich, których byłem promotorem. Realizowane one były w Zakładzie Grafiki Komputerowej Instytutu Informatyki na Politechnice Warszawskiej.

Adam, Maciek i Paweł to byli studenci, którzy wpadli na pomysł połączenia tematyki komiksowej, która zawsze ich interesowała i uczenia maszynowego. Zaproponowali stworzenie aplikacji pozwalającej zmieniać film użytkownika w komiks. Pomysł przyjął się dosyć dobrze, tzn. pracowaliśmy ponad 1,5 roku nad technologiami, które pozwalały na tego typu zabawę. Była to wtedy zabawa, stwierdziliśmy, że fajnie byłoby wypuścić razem z publikacją na temat tego rozwiązania działające i funkcjonujące demo.

To demo zostało opublikowane razem z artykułem na arXiv. Udało się zdobyć popularność na serwisie Hacker News. Byliśmy w pierwszej dziesiątce przez dość długi czas, co wywołało spore reperkusje, m.in. nasz politechniczny, mały serwer, który miał tylko obsłużyć kilka zapytań ludzi, którzy będą recenzować ten artykuł, nie wytrzymał 10 tys. zapytań i bardzo szybko padł. Musieliśmy w środku nocy, stawiać dodatkowe maszyny.

Sprawa potoczyła się dalej bardzo szybko. Uzyskaliśmy dofinansowanie w wysokości 20 000 $. Byliśmy w akceleratorze startupu Betaworks w Nowym Jorku. Betaworks to VC wspierające startupy w przedwczesnej fazie rozwoju. Wygraliśmy kilka konkursów, m.in. TDJ Pitango Seed Competition. Bardzo dużo ciekawych i dobrych rzeczy zaczęło się dziać wokół tego projektu. Doszliśmy do końca procesu akceleracji również w ramach akceleratora w Polsce.

Zrobiliśmy pierwsze wdrożenie projektu technologicznego w PKN Orlen – ogromnej spółce energetycznej, gdzie przy użyciu komiksów, zachęcaliśmy użytkowników do tworzenia własnych historii, w których marka Orlenu była wykorzystywana. Tak ta nasza historia zaczęła nabierać tempa. Spojrzeliśmy na to, jakie są pytania i potrzeby rynkowe, które możemy rozwijaną przez nas technologią adresować.

Okazało, że te efekty wizualne, które uzyskujemy poprzez uczenie maszynowe i sztuczną inteligencję są wykorzystywane w najbardziej zaawansowanych studiach filmowych. Tak urodził się kolejny wątek rozwoju tej technologii bazowej, na której podstawie zbudowaliśmy Comixify. Teraz rozwijamy ją w kontekście tworzenia najwyższej jakości efektów specjalnych. Współpracujemy z firmą MotionVFX, która rozwija pluginy do edytorów filmowych. Dostaliśmy również finansowanie w kolejnej inwestycji od inwestora – anioła biznesu.

Mamy środki i ambicje, żeby nasze technologia rzeczywiście była wykorzystywana w jak największej ilości firm, studiów filmowych. Rozmawiamy właśnie z wieloma studiami VFX, czyli efektów specjalnych z Warner Bros. Sytuacja jest bardzo rozwojowa i myślę, że jeszcze wiele ciekawych przygód przed nami.

Najważniejsze dla mnie z perspektywy akademickiego wykładowcy jest fakt, że z projektu studenckiego urodziła się spółka, która zebrała już ponad $0,5 mln w różnej formie inwestycji. Mamy bardzo dobre parametry biznesowe. Rośniemy w siłę zarówno, jeśli chodzi o miesięczne przychody, jak i opinie i ilości wejść na stronę. To jest chyba najlepsza szkoła, jaką mogę dawać i pokazywać studentom jako wykładowca akademicki.

To świetny pomysł, żeby zebrać wykładowców i pokazać im, jak można inaczej zorganizować pracę i zmotywować studentów. Niestety często praca studenta po sprawdzeniu trafia do kosza i już nigdy z tego kosza nie wychodzi. W tym przypadku udało się rozwinąć talenty. Nigdzie indziej nie da się nauczyć tak dobrze jak przy projekcie, który Cię fascynuje i wciąga.

Jestem pewny, że zaangażowane w projekt osoby mocno się rozwinęły. To jest duży plus. Co więcej musieli poczuć ogromną satysfakcję, a do tego przeszli od projektu akademickiego w startup, co ciężko byłoby zrobić samodzielnie. Porozmawiajmy troszkę o łączeniu świata akademickiego z biznesem. Będąc tam gdzie jesteś teraz z całym bagażem doświadczeń – czy jest możliwa efektywna współpraca pomiędzy uczelnią w Polsce a biznesem, startupem? Jak wygląda ta dynamika? Jak to się zmienia w czasie? Czy są jakieś dobre przykłady oprócz tego co powiedzieliśmy przed chwilą?

Wydaje mi się, że te dwa światy – akademicki i biznesowy żyją w lepszej symbiozie niż nam się to powszechnie wydaje, a szczególnie jeśli chodzi o domenę sztucznej inteligencji. Fakt, że ta wiedza jest wartościowa w momencie aplikowania jej do problemów realnych, pozwala budować bardzo wiele pomostów między tymi dwoma światami. W swoim życiu staram się brać to co najlepsze z jednego świata i drugiego.

Do nauki biznes może wnieść dużo inspiracji dotyczących zarządzania czy finansowania projektów. Schematy, które działają w Tooploox, jako dobre praktyki staram się przekazywać i wdrażać w prace akademickie. Oczywiście bez przesady, ale jest bardzo dużo dobrych praktyk, które można bez problemu przełożyć do drugiego świata. W biznesie zależy mi osobiście na wykraczaniu poza krótkoterminowe i czysto finansowe cele poprzez realizowanie aspirujących projektów naukowych.

W Tooploox możemy robić ciekawe, naukowe rzeczy dzięki temu, że mamy finansowanie z projektów komercyjnych, ale ludzie często pytają: „Po co w takiej firmie pisać publikacje? Przecież to nie przekłada się na wzrost sprzedaży, jest w pewnym stopniu traceniem pieniędzy, które nie są efektywnie inwestowane np. w nowe maszyny, komputery czy zwiększanie wynagrodzeń”. Ja z kolei pytam: po co zarabiamy pieniądze? Dla mnie ta odpowiedź jest dosyć prosta – po to, żeby publikować, rozwijać się, tworzyć i budować kolejne podwaliny pod nowe dziedziny nauki czy nowe, nierozwiązane do tej pory problemy. Kapitał jest potrzebny właśnie do tego i taki jest cel.

Wydaje mi się, że w czasie (szczególnie w kontekście uczenia maszynowego czy sztucznej inteligencji) ten trend łączenia świata naukowego z komercyjnym zaczął być dość mocno obserwowany po pierwszych sukcesach ostatnich lat, związanych z głębokim uczeniem maszynowym. Widać to praktycznie od 2012 r., kiedy zostały opublikowane prace związane ze stosowaniem sieci neuronowych w rozpoznawaniu obrazu, później dźwięków, w tekście.

Tendencja wśród naukowców, którzy pracują na uczelni rozwijając metody, a później stosując je i wykorzystując w świecie komercyjnym jest zauważalna i obserwowalna. Trudno się dziwić. Największym paliwem uczenia maszynowego są dane, których sieć i Internet (a przez to korporacje, które te dane zbierają) mają najwięcej. Te dwa światy łączą się coraz częściej i coraz mocniej.

Należy oczywiście zachować ostrożność, bo jeśli będziemy oceniali możliwości oraz potencjał naukowy tylko i wyłącznie celami krótkoterminowymi czy aktualną ewaluacją akcji, udziałów na giełdzie, to może nas to doprowadzić do bardzo krótkich iteracji i braku przemyślanych, długofalowych inwestycji. Wydaje mi się, że póki co takiego zagrożenia nie ma przynajmniej w kontekście spółek polskich, które jeszcze mają trochę lekcji do odrobienia związanych z inwestowaniem w naukę i metody sztucznej inteligencji.

Jeśli chodzi o projekty komercyjne, które pokazują, jak dobrze może funkcjonować połączenie świata nauki i świata biznesu, to ja osobiście prowadzę wiele projektów komercyjnych na zlecenie firm. Współpracujemy m.in. z biurem Google w Zurychu realizując na Politechnice Warszawskiej projekt związany z geolokalizacją na podstawie obrazu.

W Tooplooxie aktywnie współpracujemy i publikujemy zarówno z uczelniami międzynarodowymi (Uniwersytet Stanforda) czy z Uniwersytetem Wrocławskim i Politechniką Wrocławską. Po naszym wywiadzie muszę wrócić do kolejnej publikacji, którą z naukowcami z Uniwersytetu Jagiellońskiego zamierzamy opublikować w tym i nadchodzącym tygodniu. Wydaje mi się, że ta współpraca działa coraz lepiej i ona rzeczywiście jest paliwem dla biznesu i dla Akademii, które jeszcze przez wiele lat będzie trwało i dawało energię.

Jedno z kluczowych pytań, które zadałeś – po co zarabiamy pieniądze? Zachęcam także każdego czytelnika do odpowiedzenia sobie na to pytanie.

Przejdę teraz do tematu computer vision. Jakie możliwości na dzień dzisiejszy nam daje? Jakie ma ograniczenia? Wymień 3 przykłady, gdzie zastosowanie computer vision w biznesie znacząco go zmienił albo sprawił, że taki biznes w ogóle ma szansę istnieć.

Wydaje mi się, że najważniejszą zmianą, która pojawiła się w biznesie, jeśli chodzi o sztuczną inteligencję (w szczególności computer vision), to algorytmy klasyfikacji obrazu, czyli tagowania zdjęć przy wykorzystaniu nie tylko samej wartości pikseli, ale też treści, czyli tego, co na tych zdjęciach się pojawia. Było to niezwykle istotne w kontekście przeszukiwania nieprzebranych do tej pory pokładów danych wizualnych, filmów czy zdjęć.

Drugą taką istotną technologią i kierunkiem, w którym computer vision pozwoliło rozwinąć się biznesowi, był SAM (Simultaneous Localization and Mapping), tj. technologia pozwalająca na lokalizowanie na podstawie obrazu z kamer. Dzięki temu roboty i maszyny kroczące mogły znacząco polepszyć precyzję lokalizowania swojej pozycji w stosunku do często niedokładnego GPS. Szczególnie jest to istotne wśród wysokich budynków, gdzie sygnał satelitarny jest dość istotnie zagłuszany. Taka lokalizacja na podstawie obrazu, była bardzo dużym plusem również wewnątrz hal czy budynków. Jest to istotna technologia.

Trzecim ciekawym zastosowaniem jest analiza danych medycznych. Tutaj mamy coraz więcej osiągnięć na polu danych zarówno pochodzących z rezonansu magnetycznego czy ultrasonografów. Komputery coraz lepiej rozumieją, co się na tych zdjęciach dzieje i są w stanie istotnie wspomagać proces diagnostyki zarówno pod kątem chorób, takich jak rak płuc czy piersi, jak również predykcji przedwczesnych porodów. Tym zajmujemy się m.in. w naszej grupie razem z doktorantem Tomkiem Włodarczykiem i absolwentem Politechniki Szymonem Płotką, ale też współpracujemy z lekarzami z Warszawskiego Uniwersytetu Medycznego.

Poza tym w kilku poprzednich projektach, w których brałem udział, m.in. z Interdyscyplinarnym Centrum Modelowania Matematycznego Uniwersytetu Warszawskiego, opracowywaliśmy metody klasyfikacji i śledzenia postępów rekonwalescencji po operacji rekonstrukcji ścięgna Achillesa. Teraz Bartek Borucki razem z Norbertem Karpińskim rozwijają na bazie tego swój startup. Jest to pole, które moim zdaniem dopiero zaczęliśmy zagospodarowywać.

Wydaje mi się, że o ile te dwie pierwsze technologie, o których wspominałem (klasyfikacja obrazu i SAM) są bardzo ukierunkowane i rozwiązują konkretne problemy, tak analiza danych medycznych to tak naprawdę ocean możliwości. Zarówno jeśli chodzi o diagnostykę, prewencję, uprzedzające obserwowanie danych po to, żebyśmy nie tylko wiedzieli, kiedy jesteśmy chorzy, ale również jak duże prawdopodobieństwo jest, że zachorujemy albo, że w najbliższej przyszłości będzie nam coś dolegać. To tak naprawdę uważam za najbardziej ambitny i istotny kierunek, jeśli chodzi o dalsze prace związane z wizją maszynową czy uczeniem maszynowym.

Porozmawiajmy też o ograniczeniach lub problemach, które mamy w computer vision. Co z tym próbujemy zrobić?

Ograniczenia, czyli w których miejscach computer vision myli się?

Tak, powiedzmy, że mam jakiś problem do rozwiązania. Chcę zacząć działać, ale jednak jest pod górkę. Co może stać na przeszkodzie?

Jednym z największych problemów czy wyzwań, które stoją przed aplikacjami wykorzystującymi uczenie maszynowe w kontekście analizy obrazu, jest niedobór danych lub niedobór odpowiednio oznaczonych danych. Szczególnie w kontekście danych medycznych jest to o tyle trudne, że dane te wymagają bardzo wykwalifikowanej wiedzy, żeby zostać odpowiednio oznaczone.

Zawierają również dość delikatne i osobiste dane, których nie można tak łatwo między ośrodkami przesyłać. To jest na pewno duży problem. Mamy świadomość jako naukowcy, że ten problem istnieje. W związku z tym coraz więcej prac dotyka tematyki nienadzorowanego uczenia maszynowego czyli takiego, w którym sama maszyna, komputer jest w stanie dużo wewnętrznych cech wywnioskować albo na podstawie kilku próbek jest w stanie zanotować kolejne i grając sam ze sobą w grę anotacji i zgadywania tych anotacji, (np. poprzez active learning) buduje większy zbiór danych. To jest na pewno duże ograniczenie.

Tak jak często pada pytanie, czy mając określony budżet lepiej zainwestować go w nowy zbiór danych czy w nową metodę, którą należałoby zaimplementować, to niestety z reguły prawidłowa odpowiedź to właśnie zbiór danych. Nie ma nic tak wspomagającego precyzję rozwiązania, które budujemy, jak więcej danych, szczególnie danych, które są zróżnicowane. Tu jest istotna kwestia: jeśli zbierane dane będą dokładnie takie same bądź bardzo zbliżone w rozkładach prawdopodobieństw, to obserwowana różnica będzie relatywnie mała.

Jeśli pokazywalibyśmy dzieciom tylko jeden gatunek psa i nazywali go właśnie psem, to inny jego gatunek nie byłby prawdopodobnie tak łatwo klasyfikowany jako pies. Ludzie (podobnie jak maszyny) uczą się najwięcej na podstawie różnic i obserwowania kompletnie nowych danych – tutaj to rozwiązanie gorąco polecam.

Wspomniałeś, że po tej rozmowie będziesz pracować nad publikacją z Uniwersytetem Jagiellońskim. Obecnie bardziej się inspirujesz rozwiązaniami bio, związanymi z naturą i połączeniem tego w jakiś sposób z technologią. Powiedz proszę więcej o tym projekcie. Jaka jest motywacja z Twojej strony, że zaangażowałeś swoją uwagę w tym obszarze?

Zgadza się. Rozpoczynam właśnie współpracę z Uniwersytetem Jagiellońskim jako lider jednej z grup badawczych pracujących w ramach grantu Fundacji na Rzecz Nauki Polskiej, zatytułowanego „Bio-inspirowane sieci neuronowe”. Projekt ten jest kierowany przez świetnego naukowca i bardzo dobrego wykładowcę, profesora Jacka Tabora. Wśród kierowników tych grup są m.in. kognitywiści, neurobiolodzy, specjaliści w zakresie uczenia maszynowego – prof. Marek, prof. Nowak, prof. Wójcik czy dr Igor Podolak.

W ramach tych prac zamierzamy zająć się zrozumieniem mechanizmów funkcjonowania naszego mózgu i procesów poznawczych po to, żeby te mechanizmy przenieść do świata uczenia maszynowego inspirując tym samym nowe rozwiązania czy algorytmy – algorytm uwagi, atencji, wzorowane w dużej mierze na działaniach czy funkcjonowaniu naszego mózgu.

Dlaczego akurat ten fragment? Wydaje mi się, że nosimy w swojej głowie jeden z najbardziej mocnych i wydajnych komputerów, które stworzyła natura. Mechanizmy, które zachodzą podczas uczenia czy budowania sieci neuronowych w naszej głowie, w dużej mierze mogą rozwiązać wiele problemów aktualnie obserwowanych w świecie uczenia maszynowego.

Na przykład fakt, że człowiek ma jeden mózg, a jest w stanie w trakcie nauki uczyć się zarówno rozpoznawać zwierzęta jak i meble. Później jest w stanie jako lekarz czy prawnik rozpoznawać różne zapisy prawne, czy analizować zdjęcia medyczne. Mówimy różnymi językami, uczymy się różnych gier, gramy na instrumentach. To wszystko wykorzystując tak naprawdę jedną maszynę.

W przypadku uczenia maszynowego czy sztucznej inteligencji zachodzi zjawisko katastroficznego zapominania. Jeśli ucząc się jednego zadania weźmiemy tę całą sieć i przyuczymy ją do innego zadania, to okazuje się, że poprzednie zadanie jest kompletnie zapomniane. Już nie jesteśmy w stanie odzyskać tej wiedzy, którą wcześniej nabyliśmy. To są problemy, które wydaje się, że mózg ludzki rozwiązał. Dlatego inspirowanie algorytmów uczenia maszynowego na bazie tego, co widzimy w naturze, jest w moim przekonaniu bardzo obiecującym i ciekawym tematem badań.

Mówi się coraz głośniej, że osiągnięcie tego odgórnego stanu sztucznej inteligencji (general AI) jest w ogóle niemożliwe używając obecnie dostępnych algorytmów, ponieważ są bardzo ograniczone na konkretne, wąskie dziedziny. Tak jak to nazwałeś – takie katastroficzne zapominanie. Jest możliwe wyspecjalizowanie i prześcignięcie człowieka w pewnym odcinku zadań, ale nie sprawdza się to przy bardziej ogólnych kwestiach.

Nawet takie bardzo proste czynności, które wykonujemy na co dzień – wejście do budynku, który ma różne rodzaje drzwi albo otwarcie pudełka, to dla widzenia komputerowego ta różnorodność staje się problemem. Jak rozmawiam z różnymi ludźmi na ten temat, wydaje się, że jedną z możliwości, która umożliwia osiągnięcie tego stanu general AI jest podejrzenie, jak natura poprzez ewolucję otrzymała to, co osiągnęła.

Problem jedynie jest taki, jak ją podejrzeć? Z jednej strony zdajemy sobie sprawę, że to jest możliwe i sami jesteśmy tego świadkami, ale z drugiej strony – co się dzieje w tym mózgu, jak to odszyfrować? Nawet jeśli próbujemy to analizować używając MRI albo innych narzędzi, to jest bardzo nieprecyzyjne i daje tylko fragmenty, więc ciężko jest zrozumieć całość.

Czy to faktycznie jest strategiczne myślenie, żeby osiągnąć coś znacznie więcej i przejść na poziom, gdzie nie ma obecnych ograniczeń? Jak to odszyfrować? Jak się wgryźć w ten kawałek, żeby zrozumieć, jak to działa pod spodem? Wiem, że prognozowanie jest bardzo trudną sprawą, ale podziel się swoimi rozważaniami.

Rzeczywiście, ta wąska dziedzina klasyfikacji obrazu i wytrenowanie na niej nawet najbardziej zaawansowanych sieci splotowych, nie do końca rozwiązuje nam problem sztucznej inteligencji. W wielu publikacjach twierdzi się, że sieci neuronowe są już lepsze i osiągają lepsze wyniki niż człowiek, bo np. rozpoznają lepiej rasy psów. Tylko pytanie jest zasadnicze – czy my jako ludzie (nie będąc hodowcami psów na co dzień) potrzebujemy rozróżnić owczarka niemieckiego od rottweilera.

Nie jest to konieczne w naszym codziennym życiu. Jest bardzo dużo procesów, które zachodzą w naszym mózgu – wchodzenie do budynków, lokalizowanie się jest jednym z nich. Wiele z nich zachodzi tak naprawdę nie w korze mózgowej (naszym softwarze), a w hardwarze. Mruganie czy instynktowne zasłanianie części ciała to są rzeczy, które będą dla nas wyjątkowo trudne, jeśli chodzi o ich odgadnięcie tzn. zrozumienie, jak możemy je zaimplementować w algorytmach sztucznej inteligencji. One są tak wbudowane w nas i trudne do zidentyfikowania, że rzeczywiście zajmie nam to na pewno sporo czasu.

Staramy się podglądać z coraz lepszym i większym mikroskopem, jak działa część tych neuronów czy mózgu, która odpowiada za kolejne funkcje poznawcze. Wydaje się, że percepcja, którą rozwinęliśmy, czyli analizowanie sygnałów zewnętrznych związanych z wizją, słuchem czy tekstem, jest coraz lepsza. Natomiast w ramach projektu, o którym wspomniałem, finansowanego z Fundacji na Rzecz Nauki Polskiej, realizowanego na Uniwersytecie Jagiellońskim, mamy możliwość współpracy między sześcioma zaawansowanymi zespołami tworzonymi przez światowej klasy specjalistów z różnych dziedzin (fizyka, neurobiologia, kognitywistyka).

Celem tego eksperymentu jest połączenie specjalistów informatyki, matematyki z fizyką, neurobiologią, kognitywistyką, a jednocześnie stworzenie unikalnej na skalę światową możliwości zrozumienia jak działają struktury mózgu i mechanizmy, które próbujemy podglądać. Jest to jeszcze przed nami, ale coraz więcej prac pokazuje, że możemy zidentyfikować korelacje między różnymi sygnałami elektrycznymi w mózgu i powiązać je z bodźcami zewnętrznymi.

Od tego krok już do zrozumienia struktur, które funkcjonują w mózgu. Na bazie tego jesteśmy w stanie budować rozwiązania – być może inne, może kompletnie inne, może tylko zmodyfikowane lub będące jakąś wariacją na temat dotychczas stworzonych algorytmów uczenia maszynowego.

Przewidywanie jest trudne, szczególnie jeśli chodzi o przyszłość. Nie chciałbym tutaj zbyt mocno wybiegać w przyszłość. Mogę natomiast wspomnieć o anegdocie związanej z autonomicznymi samochodami. Trzy lata temu na konferencji CVPR czyli jednej z najważniejszych konferencji computer vision na świecie można było usłyszeć, że autonomiczne samochody to już za rok, dwa będą na ulicach. Dwa lata temu ta perspektywa zwiększyła się do 5-6 lat. Rok temu to było już 10 lat, a niektórzy mówili, że nie wiadomo, czy w ogóle będą jeździły.

Te prognozy są odwrotnie skorelowane z ambicjami i aspiracjami, z taką pozytywną energią związaną z rozwojem uczenia maszynowego czy sztucznej inteligencji. Mam wrażenie, że dochodzi do pewnego rodzaju granic stosowania algorytmów wąskiej sztucznej inteligencji. Na pewno będzie bardzo dużo aplikacji, które te aktualne algorytmy są w stanie zastosować. Sztuczne sieci neuronowe doskonale radzą sobie ze znajdywaniem korelacji między sygnałem wejściowym a wyjściowym, ponieważ mają możliwość zapamiętania i przeanalizowania większej ilości danych w krótszym czasie niż człowiek.

Biorąc pod uwagę jak rosną możliwości hardware’owe, sprzętowe komputerów wydaje się, że to rozumowanie to podejmowanie decyzji, szczególnie takich, które nie są oczywiste i wymagają analizy szerokiego kontekstu, czy zrozumienia innych ludzi. Tutaj mamy przed sobą dobre 5-10 lat do momentu, kiedy zaczniemy obserwować algorytmy czy instancje, które te algorytmy reprezentują – roboty czy inne tego typu urządzenia, które będą mogły być uważane za jakieś przepowiednie generalnej sztucznej inteligencji. Na chwilę obecną, wydaje mi się, że tak możemy to przewidywać.

Warto będzie się spotkać ponownie za jakiś czas i zweryfikować, jakie zmiany w międzyczasie zaszły. W latach 60. mówiło się, że dosłownie za kilka lat sztuczna inteligencja będzie potrafiła robić przeróżne rzeczy. Minęło już dość sporo czasu i nawet część rzeczy potrafimy robić, o których było wspomniane, ale nie wszystkie.

Dziękuję Ci bardzo za znaleziony czas i rozmowę, bo wiem, że to nie jest takie łatwe. Dziękuję za podzielenie się z szerszym gronem swoimi przemyśleniami, rozważaniami i doświadczeniem, bo tego nie można normalnie znaleźć w Internecie. Życzę Ci, żeby udało Ci się poukładać swoje myślenie w taki sposób, żeby stawiane cele były namacalne i osiągalne.

Dzięki wielkie.

Dzięki serdeczne, dzięki za zaproszenie. Pozostaję do dyspozycji w razie przyszłego kontaktu. Jeśli któryś z tych tematów jest interesujący dla Ciebie czy dla słuchaczy, to oczywiście jestem otwarty na kontakt i do zobaczenia, do usłyszenia.

W trakcie przygotowań do tego wywiadu już wiedziałem, że to będzie niezwykle ciekawa rozmowa. W jej trakcie, zwłaszcza w momencie, gdy mówiliśmy o biotechnologii, podglądaniu sposobów rozwiązywania problemów przez naturę, byłem bardzo zainspirowany i jestem bardzo ciekaw, jak dalej będą się rozwijały projekty realizowane przez Tomka i jego współpracowników.

Z drugiej strony zastanawiam się nad tym, czy w ogóle możliwe by było osiągnięcie prawdziwej sztucznej inteligencji przy użyciu obecnie dostępnych narzędzi. Czy uda się rzeczywiście podglądnąć mechanizmy rządzące się w naturze? Co to będzie oznaczać dla naszej przyszłości?

Artykuł Świat akademicki, biznes oraz ML – rozmowa z Tomkiem Trzcińskim pochodzi z serwisu Biznes Myśli.

Naukowiec Computer Vision z DeepMind – Mateusz Malinowski

Vladimir — Mon, 28 Aug 2017 03:00:42 +0000

Gartner opublikowała tak zwany hype cycle 2017, po polsku pewnie to brzmi jako cykl szumu albo cykl dojrzałości technologii. Hype cycle został wymyślony przez Gartner w 1995 roku i składa się z pięciu faz: najpierw pierwsze informacje na temat technologii, druga faza to dużo szumu i wielkie oczekiwania, trzecia faza rozczarowania, bo wykrywają się pewne ograniczenia, czwarta faza naprawa tych ograniczeń i znów oczekiwania. Piąta i ostatnia faza stabilizacja. Mówi się, że wtedy technologia dojrzała i oczekiwania są połączone z możliwościami.

Cycle Hype | Gartner | 2017

Dla przykładu, na samym początku, czyli w fazie jeden jest tak zwany smartdust, po polsku to zabrzmi jako “inteligentny kurz”. W dużym uproszczeniu, wobraź sobie ziarno piasku, a teraz pomyśl, że tam jest mini-procesor, bateria i sensory. Bateria jest ładowana poprzez słońce lub inne naturalne źródła energie. Takie cząstki mogą robić wiele różnych rzeczy, obserwować otoczenia, mierzyć różne parametry i nawet szpiegować. Stanisław Lem, jeszcze w roku 1964, pisał w “Niezwyciężony” podobną wizję. Teraz o tym mało się mówi, ale wiele się robi w miejscach, o których też mało się mówi :).

Dla przykładu. Pamiętasz o swoich uczuciach kilka czy kilkanaście lat temu, kiedy po raz pierwszy wyszedł w publiczność ekran dotykowy. Wtedy to zrobiło wrażenie. Natomiast jest stosunkowa stara technologia, która już była znana co najmniej w latach 70-tych. ubiegłego stulecia. Podobnie do smartdust jest 4D printing, który też jest w pierwszej fazie. Jednym słowem 4D printing można wytłumaczyć jako – “transformer”. Wyobraź sobie, że został wydrukowany jakiś obiekt, który może transformować w inny obiekt z czasem. To ma wiele obszarów zastosowań w biznesie. Ale temat rzeka, podziel się swoją opinią czy chcesz więcej dowiedzieć się na temat technologii przyszłości jak smartdust lub 4D Printing?

Wracając do cyklu dojrzałości (hype cycle). Zwykle technologia przesuwa się w czasie od lewej strony do prawej, czyli od fazy numer 1 do fazy numer 5. Dla każdej technologii to potrzebuję różną ilość czasu od kilka lat do 10 (czy nawet więcej). Machine learning po raz pierwszy pojawił się w cyklu dojrzałości 3 lata temu (przed tym były tematy powiązane takie jak data science lub bigdata). Przez trzy lata (włączając rok 2017) machine learning jest cały czas jest w fazie numer 2 (czyli dużo szumu). Ciekawostką jest, że 3 lata temu machine learning był bliżej fazy trzeciej niż w roku 2017.

A co to oznacza w praktyce? Kilka wniosków. To, że jesteśmy na etapie, kiedy ilość szumu rośnie. Temat jest bardzo nagrzany i zawiera sporo magii. Kolejny wniosek jest taki, że oczekiwania rosną znacznie szybciej niż biznes jest gotów je wykorzystać. Stąd płynie kolejny wniosek, że po fazie drugiej jest faza trzecia – czyli rozczarowania wynikające z błędnego rozumienia możliwości. Postaram się pomóc Ci przejść z fazy drugiej w fazę trzecią z najmniejszą stratą jak materialną tak i moralną i przygotuję na to osobny odcinek. Już mam kilka pomysłów jak to można zrobić, ale chętnie posłucham Twoje przemyślenia na ten temat.

Naukowiec Computer Vision

Gościem dzisiejszego odcinku jest naukowiec z DeepMind – Mateusz Malinowski. W drugim odcinku podcastu już wspomniałem o turing test, również o tym rozmawialiśmy w innych odcinkach podcastu, np. w 10-ym z Aleksandrą Przegalińską. Natomiast Mateusz kilka lat temu zdefiniował Visual Turing Test, który nabiera coraz większą popularność i ważność.

Mateusz Malinowski

DeepMind i AlphaGo

Kilka słów o DeepMind. To jest brytyjska firma zajmująca się sztuczną inteligencją założona w roku 2010. Która za 4 lata została przyjęta przez Google za 500 mln. dolarów. Firma stała się bardzo znana ze swoich osiągnięć gry w Go. DeepMind zaimplementował gracza o nazwie AlphaGo i bardzo głośnie po wygranej Lee Sedola w marcu 2016.

Lee Sedol w roku 2003 zwiększył swój ranking z 4 danu do 9 danu (najwyższy). Nie ma jednego rankingu gry w Go, ale zgodnie z jednym z nich na moment gry Lee Sedol zajmował 4-tą pozycję w świecie. Już w tym roku, czyli w maju 2017 odbyła się gra Ke Jie. To jest Chińczyk, który ma teraz 20 lat i który zajmuje pozycję numer 1 przez ostatnie trzy lata. Ale AlphaGo wygrało Kei Jie. Po tym wydarzeniu CEO DeepMind, Demis Hassabis powiedział, że AlphaGo może teraz wyjść na emeryturę, bo cel został osiągnięty, a zespół, który nad tym pracował będzie robił inne projekty.

Wyzwania sztucznej inteligencji

AlphaGo naprawdę zrobiło ogromne wrażenie i już wydaje się, że sztuczna inteligencja staje się coraz bardziej mocniejsza. A w tym czasie nadal są problemy które dla sztucznej inteligencji są bardzo trudne. Między innymi znane jako paradoks Moraveca. Jak mówił jeszcze Marvin Minsky:

Marvin Minsky

Generalnie, najmniej jesteśmy świadomi tych rzeczy, które nasze umysły robią najlepiej. Jesteśmy bardziej świadomi prostych procesów, które nie działają dobrze, niż złożonych procesów, które działają bezbłędnie.

No właśnie i taki jeden z przykładów, gdzie sztuczna inteligencja wygląda albo wyglądała bardzo słabo to rozumienie relacji. Prosty przykład. Jest stół gdzie stoi szklanka wody, kubek i talerz. Każdy z nich ma położenie, materiał, z którego zbudowany i kształt.

Załóżmy talerz stoi za kubkiem. Jeżeli zapytam dziecko, które ma kilka lat lub mniej: “Co jest za kubkiem?”. Odpowiedź będzie — talerz. Dla nas to zadanie brzmi absurdalnie proste, ale jest bardzo trudne dla maszyny. Rozumienie, takich rzeczy przez maszyny jest koniecznie dla zbudowanie mocnej sztucznej inteligencji i dlatego między innymi DeepMind pracuję nad tym. Mateusz to jeden z naukowców, który pracuje nad tym problem. Zapytałem go, czy nadal to jest wyzwaniem i jakie są postępy. Mateusz powiedział:

Można powiedzieć, że było wyzwaniem. W celu takiego relacyjnego wnioskowania przez maszyny, stworzyliśmy moduł, który nazwaliśmy Relation Networks. Jest to sieć neuronowa, która rozważa dwa obiekty na obrazie, porównuje te obiekty ze sobą za pomocą kilku warstwowej sieci neuronowej, a następnie agreguje wszystkie te reprezentacje takich par w celu stworzenia jednej reprezentacji globalnej całego obrazu. Za pomocą tak zbudowanej sieci neuronowej otrzymaliśmy wyniki, które są w zasadzie lepsze niż ludzkie odpowiedzi.

Więcej o tym i innych tematach dowiesz się w naszej rozmowie.

Na samym końcu również powiem, jak możesz dostać bezpłatnie bilet na konferencję zorganizowaną przez Google. Google organizuję trzy konferencji GDD w roku, pierwsza, jak zwykle odbywa się w stanach (już była), druga w Europie (tym razem w Krakowie) i trzecia w Azji. Konferencja odbędzie się 5 i 6 września (oryginalny koszt biletu jest 250 dolarów).

Zapraszam do wysłuchania…

Cześć Mateusz, przedstaw się kim jesteś i co studiowałeś, gdzie pracujesz, gdzie mieszkasz?

Cześć Vladimir, nazywam się Mateusz Malinowski. Obecnie jestem naukowcem w DeepMind i pracuję nad uczeniem maszynowym, a w szczególności nad tak zwanym widzeniem maszynowym (po ang. computer vision). DeepMind jest placówka nukową, która jest związana z Google i która stała się słynna między innymi za sprawę wygraną w Go. Obecnie mieszkam w Londynie, studiowałem informatykę na Uniwersytecie Wrocławskim, ukończył magisterskie studia z informatyki na Uniwersytecie Saarlandskim w Niemczech, doktorat obroniłem z widzenia maszynowego w Instytucie Maxa Plancka.

Code Boy | Mateusz Malinowski

Myślę że DeepMind faktycznie jest znaną firmą, o którą wiele razy wspominałem w podcaście i nie tylko. Jeszcze porozmawiamy o tym później. Co ciekawego ostatnio przeczytałeś i dlaczego to jest warte polecenia?

Przyznam szczerze, że głównie czytałem fachową literaturę. Aczkolwiek z tych artykułów, które ostatnio przeczytałem i które są w miarę przystępne, zaciekawiła mnie seria artykułów na trochę prowokujący temat “Czy neuronaukowcy potrafią zrozumieć mikroprocesorów” (Could a Neuroscientist Understand a Microprocessor? oraz Neuroscience Needs Behavior: Correcting a Reductionist Bias).

Zaciekawiły mnie głównie ze względu na to, że od pewnego czasu męczy mnie to, w jaki sposób powinniśmy podejść do budowania inteligentnych maszyn. Czy powinniśmy zastosować podejście redukcjonistyczne, gdzie tworzymy zrozumiały dla nas jakiś mały element, a potem te rzeczy skalujemy.

Czy może lepiej jest podejść od całkowicie odwrotnej strony, zastanowić się nad klasą problemów do rozwiązania, w pewnym sensie opisać czego oczekujemy od takiej inteligentnej maszyny w formie funkcjonalnej, a potem stworzyć metodę, która rozwiązuje tą klasę problemów.

O sztucznej inteligencji jest bardzo dużo mitów, dodatkowa jeszcze dziennikarze dolewają oliwy do ognia, można wspomnieć chociaż komentarz, o tym że Facebook wyłącza AI. Jesteś naukowcem, osobą która wie jak to jest z własnego doświadczenie. Mam nadzieje, że uda się nam trochę odczarować mity i pokazać praktyczne osiągnięcie oraz wyzwania. Najpierw co to jest tak zwana sztuczna inteligencja?

Czyli zaczynamy od podstaw. To prawda, że niektóre dziennikarze zamiast informować społeczeństwo, niepotrzebnie zaogniają sytuację poprzez takie interpretacje. Co do Twojego pytania, dla mnie sztuczna inteligencja jest dyscypliną, którą zadaniem jest stworzenie maszyn, będących na co najmniej ludzkim kognitywnym poziomie.

Oznacza to, że takie maszyny muszą organizować oraz interpretować różne nieustrukturyzowane sygnały i takie sygnały jak, na przykład, język, wizja na co najmniej ludzkim poziomie. Następnie, mając te sygnały, maszyny powinne w jakiś tam sposób reagować na nie i podejmować decyzje, biorąc pod uwagę sygnały wizyjne oraz językowe.

Teraz może będę miał trudność, jeżeli chodzi o terminologię, ale chcę zapytać o tak zwany Symbolic AI i Sub-Symbolic AI. Proszę wyjaśnij na przykładach co to jest i na czym polega różnica? Jakie mają wady i zalety?

Symboliczne AI i Subsymboliczne AI, to są dwa z pozoru odmienne podejścia do tworzenia, budowania inteligentnych maszyn. Historycznie rzecz biorąc symboliczne AI dominowało. A głównym produktem symbolicznego podejścia do AI są tak zwane systemy eksperckie. Symboliczne AI bazuje na hypotezie, że inteligencja to głównie przetwarzanie symboli.

W praktyce, osoba (nazwijmy tą osobę inżynierem AI) tworzy zbiór wiedzy, a także zbiór reguł, który przetwarzają tą wiedze na nową wiedzę. Tutaj dobrym przykładem jest sylogizm logiczny. Jeżeli wszyscy ludzi są śmiertelni (to jest nasza właśnie wiedza), Vladimir jest człowiekiem (to znów jest nasza wiedza), to Vladimir jest śmiertelny i to jest nasza nowa wedydukowana, albo stworzona na podstawie jakiś reguł, wiedza.

Jest sporo wyzwań, które stoją przed tworzeniem takich systemów, przede wszystkim skalowalność oraz pewna tolerancja na błędy. Na przykład, ciężko jest zebrać całą wiedzę świata w postacie formalnej, w takiej postaci która byłaby zrozumiała dla maszyny, podobnie ciężko jest stworzyć wszystkie reguły na których świat się opiera. Nasza wiedza, dotycząca wszystkich reguł jakimi człowiek się posługuje w języku angielskim, jest w najlepszym wypadku nie pewna, a być może nawet troszeczkę błędna.

Sytuacja jest dużo gorsza z mniej popularnymi oraz mniej zbadanymi językami, takimi jak na przykład język polski. Idąc dalej tym torem zapytajmy się czym jest kod, w jaki sposób formalnie opisać taki obiekt, jakim jest kod i tak dalej. To nie jest taka prosta sprawa. Ostatecznie, oprócz zgromadzenia oraz sformalizowania całej wiedzy, przetwarzanie symboliczne zgromadzonej wiedzy także jest ciężkim, wymagającym procesem z perspektywy obliczeń. Jeżeli chodzi o tolerancje, to te systemy mają często problemy, na przykład, jeżeli podana wiedza jest błędna.

Z drugiej strony subsymboliczne AI nastawia się raczej na takie rozmowy, bym powiedział, miękkie oraz bardziej indukcyjne. Tutaj przykładem są metody statystyczne oraz coraz bardziej popularne sieci neuronowe, a szczególnie głębokie uczenie maszynowe czyli deep learning. Z grubsza, szczególnie metody uczenia maszynowego polegają na stworzeniu ogromnych danych treningowych, mogą to być obrazki z oznaczoną kategorią.

Na przykład, obrazek, który przedstawia kota razem z kategorią że to jest kot, obrazek przedstawiający psa z kategorią że to jest pies. Następnie uczymy takie maszyny na podstawie takich danych treningowych. Może brzmi to trochę magicznie, ale cały ten proces ostatecznie można formalnie i ładnie opisać za pomocą matematyki. Można także myśleć, że takie systemy uczą się pewnych wzorców za pomocą których potrafią rozwiązywać problemy, które tym systemem zadaliśmy.

W pewnym sensie subsymboliczne AI jest przeciwieństwem tego symbolicznego AI i wiele z tych problemów, które wcześniej wymieniłem, tutaj nie istnieją. Pojawiają się za to nowe problemy, taki jak, na przykład, potrzeba zbudowania odpowiednich zbiorów treningowych. Tę modele też ciężej się interpretuje co jest dosyć oczywiste, ponieważ w symbolicznych metodach same wymyśliliśmy reguły, wobec tego wiemy czym te reguły są, co one znaczą.

Oba nurty można obrazowo podzielić ze względu na reprezentacje myśli. Symboliczne AI sądzi, że myśl ma reprezentacje symboliczną. Z drugiej strony, szczególnie nutr głębokiego uczenia maszynowego, sądzi że myśl jest wektorem aktywacji sztucznych neuronów. Jeżeli chodzi o przyszłość AI, to osobiście nie wierze, że systemy symboliczne były tu przyszłością.

Pewnie w zawęrzonych i dobrze zrozumiałych dziedzinach, takich jak, na przykład, pomóc przy naprawie komputera czy pomóc w naprawie samochodu, mogą się sprawdzać, ale wątpię żeby takie systemy uogolniały – skalowały się na świat w którym żyjemy. Widzę więcej nadziei w systemach subsymbolicznych, tak jak głębokie uczenie maszynowe, które ostatnio stało się bardzo popularne lub w systemach mieszanych, które łączą zalety obu podejść do AI.

Dałeś szerszą odpowiedź, fajnie. Chciałem tylko dodać o pierwszym przypadku Symbolic AI, problem który pamiętam, który jeszcze w latach 60h się pojawił – tak zwana eksplozja reguł, czyli tych reguł stało się tak dużo, i z każdym krokiem robiło się coraz więcej, przy czym nawet dla dla bardzo prostych problemów. Ale jak powiedziałeś, przyszłość leży gdzieś na wykorzystaniu Sub-symbolic i jednak trochę Symbolic AI.

Jesteś bardzo mocno zaangażowany w tak zwany “Machine perception”, “Computer Vision” i w szczególności “Visual Recognition” oraz “Visual Question Answering”? Będziemy dzisiaj zgłębiać ten temat, tylko zaczniemy od wyjaśnienia na prostych przykładach co to jest?

Machine perception – to jest dyscyplina, której zadaniem jest stworzenie maszyn, które interpretują i organizują docierające sygnały, jak, na przykład, dźwiękowe czy też wizyjne.

Computer vision czyli widzenie maszynowe – to jest dyscyplina, której celem jest stworzenie maszyn, które widzą świat w taki sposób jaki my widzimy, czyli trochę podobnie do machine perception, bo też chodzi o budowę maszyn które organizują i interpretują sygnały, ale są to sygnały głównie wizyjne.

Visual recognition – to jest podkategoria computer vision i sprowadza się w zasadzie do kategoryzacji obiektów ze zdjęć, na przykład, klasyfikacja zdjęć.

Visual Recogniation

Visual Question Answering – to jest całkiem niedawno przedstawiona pod-dziedzina computer vision, która została najpierw zapoczątkowana przez Visual Turing Test podczas mojej pracy doktorskiej. Celem jest zbudowanie maszyn, które odpowiadają na pytania dotyczące świata wizyjnego, jak, na przykład, o to co się znajduje na obrazku lub o to co się znajduje na video.

Visual Question Answering

Computer vision nie jest tak naprawdę nowym tematem. Już w latach 60-tych na MIT były pierwsze próby pracować z rozpoznawaniem obiektów na zdjęciu. To był stosunkowo prosty przypadek związany z rozpoznawaniem geometrii, a przede wszystkim krawędzi w 3D obiektach… Natomiast prawdziwy rozkwit computer vision nastąpił 5 lat temu. No właśnie co takiego się stało 2012 roku?

Tak, sporo się zmieniło między latami 60-mi i 2012 rokiem, jeżeli chodzi o computer vision. Tak jak powiedziałeś, w latach 60h eksperymenty były prowadzone na obrazach o stosunkowo małej złożoności, głównie to były idealne figury geometryczne z bardzo prostą semantyką. Przez semantykę tutaj mam na myśli że było kilka kategorii, takie jak stożki, szcześciany i tak dalej, i te kategorie są łatwe do odróżnienia.

Obecnie, w dzisiejszych czasach, prowadzimy eksperymenty na prawdziwych obrazach, czyli takich obrazach, które można zobaczyć na Facebooku, Flickerze i tak dalej. Tutaj złożoność takich obrazów jest znacznie większa i samo odseparowanie obiektów od tła jest większym wyzwaniem. Semantyka tych obrazów jest dużo bardziej skomplikowana, jest dużo więcej obiektów na takim obrazie, mamy dużo więcej kategorii. Samo pytanie czym jest obiekt jest także skomplikowane.

Na przykład, czy traktować człowieka jako całość, czy to jest kompozycja z jakichś części prostszych typu nogi, ręce i tak dalej, czy może człowiek czy ogólnie obiekty są bardziej zdefiniowane przez kontekst, przez otoczenie czy może to wszystko na raz. To jest dużo bardziej skomplikowany problem niż te problemy, które badaliśmy w latach 60h. I tak jak wspomniałeś, w latach 60h można było stworzyć systemy regułowe, które rozpoznawały to co się dzieje na obrazach, a w dzisiejszych czasach na prawdziwych obrazach to jest zajęcie bardzo ciężkie i prawdopodobnie nie możemy się zdawać na systemy regułowe.

A skoro pytasz o rok 2012, to w tym roku nastąpił przełom w rozpoznawaniu obiektów na obrazach. W największym ówcześnie konkursie na najlepszy system rozpoznający obiekty na obrazach tak zwane ImageNet, pewna metoda, która bazowała na konwolucyjnych sieciach neuronowych (po ang. convolutional networks) zdeklasowała pozostałe systemy o jakieś 10% i wygrała. I następujące rzeczy się zmieniły, tak to można podsumować.

Przeszliśmy od metod symbolicznych do metod subsymbolicznych, a dokładniej przeszliśmy do metod głębokiego uczenia maszynowego. Wytrenowaliśmy wspomniane metody na dużo większych zbiorach danych treningowych. Pojawianie się takich zbiorów treningowych jak właśnie ImageNet, który zbiera bardzo dużo obrazków jest kluczowe, żeby wytrenować maszyny, które rozpoznają obiekty na obrazach.

Rozwój sprzętu do gier komputerowych czyli karty graficzne także się przyczyniły rozwojowi AI. W szczególności umożliwiły one wytrenowanie głębokich sieci neuronowych na dużych zbiorach treningowych o których wspomniałem.

Technicznie jest to spowodowane tym, że sieci neuronowe dobrze się opisuje za pomocą operacji macierzowych, a te z kolei są także bardzo ważne w grach komputerowych, a za tym te operacje zostały dobrze zoptymalizowane w karty graficzne i przez to także są wykorzystywane do trenowania głębokich sieci neuronowych.

Zapytałem już o computer vision. Nieco podsumowując, wracają do konkursu ImageNet, czyli konkurs gdzie algorytm próbuje klasyfikować obiekty które są na zdjęciu. Ludzi robią to z dokładnością 95% innymi słowami błąd jest 5%.

Pokażę teraz dynamikę rozwoju. W roku 2010 (kiedy konkurs rozpoczął się) każdy z uczestników uzyskał wynik ponad 25% błędu, za 2 lata w słynnym roku 2012 najlepszy wynik był (AlexNet) już był 16%, trzy lata później, czyli 2015 udało się osiągnąć trochę mniej niż 5% (3.57% top 5 error) a w 2017 już 29 z 38 drużyn miał wynik mniej niż 5%. Postępy są gigantyczne. Powtórzę, że algorytm robię to lepiej niż ludzi (dla pewnych kategorii).

Postępy z ImageNet | Zródło: David Yanofsky

Pytanie analogiczne, ale będzie dotyczyło innego obszaru. A jak wyglądają postępy z przetwarzaniem i rozumieniem tekstu (NLP/NLU)?

Jeżeli chodzi o przetwarzanie języka naturalnego, to z tą dziedziną jestem dużo mniej zaznajomiony, więc nie mogę to tak ładnie podsumować. Ale z grubsza mogę powiedzieć , że obecnie wielu problemów z przetwarzania tekstu daje się rozwiązać za pomocą głębokiego uczenia maszynowego czyli za pomocą głębokich sieci neuronowych.

W pewnym sensie to jest bardzo fajne, bo, jak widzisz, podobne metody, które są stworzone do przetwarzania lub klasyfikacji obrazów także nadają się do przetwarzania lub klasyfikacji tekstu. Mamy w pewnym sensie unifikacje, czyli korzystamy z podobnych metod do rozwiązywania z pozoru odmiennych problemów.

Wracając do tematy, to tak zrbusza, ostatnio takie metody jak word2vec albo rekurencyjne sieci neuronowe, takie jak LSTM udowodniają swoją pozycję przy rozwiązywaniu pewnych problemów z przetwarzania języka naturalnego. Działają one bardzo dobrze na poziomie słów lub krótszych zdań. Te metody, a szczególnie rekurencyjne sieci neuronowe także wykorzystywałem w swojej prace doktorskiej.

O Turing Test już wspomniałem kilka razy w poprzednich odcinkach, ale proszę wyjaśnij czym jestem Visual Turing Test, jaki jest sens tego (albo inaczej, jakie jest zastosowanie, jakie potencjalnie problemy to może rozwiązać) i na koniec jaki jest postęp (zgodnie z estymacją kiedy będzie zaliczony)?

O tym mogę długo opowiadać. Visual Turing Test to jest problem, który zaproponowałem razem z moim opiekunem w czasie swojego pobytu na studiach doktorskich w Instytucie Maxa Plancka. Jest to problem, w którym maszyna dostaje zbiór pytań w języku naturalnym na temat danego obrazu. To mogą być pytania w stylu “ile jest krzeseł przy stole” albo “jaki przedmiot leży w kącie tego pokoju”.

Następnie maszyna, która dostaje takie pytanie, musi odpowiedzieć na nię, a my automatycznie sprawdzamy poprawność udzielonej odpowiedzi. Podsumowując można powiedzieć, że Visual Turing Test jest o tworzeniu takich maszyn, które jednocześnie rozumieją język naturalny, oraz widzenie (na przykład, rozumieją obrazy, zdjęcia, wideo). A to rozumienie mierzymy w sposób automatyczny przez porównanie otrzymanej odpowiedzi do odpowiedzi oczekiwanej.

Podczas pracy doktorskiej, nie tylko zaproponowałem taki test i opisałem kierunek jego rozwoju, także zaproponowałem konkretny zbiór danych DAQUAR, stworzyłem pierwsze metody, które odpowiadają na pytania o obrazy, jedną będącą połączeniem takiego symbolicznego AI z uczeniem maszynowym, a druga metoda, która już należy do nurtu subsymbolicznego (a dokładniej do głębokiego uczenia maszynowego).

Zbiór danych DAQUAR

Także zaproponowałem kilka metryk, które automatycznie sprawdzają jakość otrzymanych odpowiedzi. Problem okazał się z jednej strony bardzo trudny, a z drugiej – ciekawy, do tego stopnia, że wiele innych uniwersytetów, a także firm potwierdziły ten pomysł i kontynuują badania w tym kierunku.

Chciałbym opowiedzieć również o początkach Visual Turing Test, bo to jest dosyć istotne do zrozumienia. Problem ten powstał częściowo ze względu na moje niezadowolenie z postępów w tak zwanym image captioningu, gdzie zadaniem maszyny jest opisanie obrazu. Dużym problemem w image captioningu jest automatyczna ewaluacja (ocenianie jakości działania modelu) opisów wyprodukowanych przez maszynę.

Tutaj pojawia się problem: żeby automatycznie stwierdzić czy maszyna poprawnie opisała obraz, potrzebujemy innej maszyny, która rozumie i opis i obraz. Czyli mamy takie zapętlenie, aby sprawdzić czy maszyna rozumie problem musimy mieć maszynę, która już rozumie problem. W praktyce, oczywiście, korzysta się z jakichś tam heurystyk, ale wyniki ewaluacji nie zawsze są zgodne z naszymi intuicjami, a czasami ciężko się te metody interpretuje. A co byłoby, gdybyśmy zadawali bardziej skomplikowane pytania o to co się znajduje na obrazie, ale w taki sposób, aby dostać w miarę prostą odpowiedź.

Na przykład, jeżeli zadam pytanie “czy po mojej prawej stronie znajduję się szklanka”, z jednej strony wymagasz od systemu by ten zrozumiał obiekt szklanka, by zrozumiał pewne relacje w przestrzeni, by zrozumiał samo pytanie, ale sama odpowiedź jest już bardzo prosta – jest to “tak” albo “nie”. W praktyce okazało się, że ewaluacja nie jest aż taka prosta, ze względu na różne możliwości w interpretacji obrazu lub pytania, ale i tak te problemy są znacznie mniejsze niż w problemie image captioningu.

Kolejnym problemem tych metod, które opisują jest to, że jest im łatwiej oszukiwać, ze względu na to, że nie oczekujemy od takich metod niczego konkretnego, a jest wiele możliwych opisów tego samego obrazu (jedne są bardziej konkretne, inne – bardziej abstrakcyjne), a z dodatkowo pewną tendencją ludzi do antropomorfizacji powodują, że metody opisujące obraz, nie muszą być bardzo precyzyjne. Jeśli takie metody wykryją gdzieś żyrafy i opiszą obraz, jako żyrafa na trawie, to jest to duża szansa, że taki opis jest ostatecznie poprawny.

Te metody mogą opisać obraz bez głębszego rozumienia tego, co się znajduje na obrazie i stworzyłem Visual Turing Test, który podchodzi do podobnego problemu w inny sposób. Bo wiem, by maszyny zrozumiały to co się dzieje wokół w sposób znacznie głębszy niż to jest wymagane od problemów, w których metoda opisuje obrazy, i to jest robione poprzez zadawanie pytań o dane elementy tego obrazu.

Jeszcze z innej strony na taki test można spojrzeć jak na zbiór wielu indywidualnych problemów, nie tylko takich jak klasyfikacja obiektów na obrazie lecz tak jak klasyfikacja czynności, zrozumienie emocji czy też może atrybutowa charakteryzacja obiektów. Każdy taki problem jest sparametryzowany pytaniem. I to, uważam, jest bardzo ważna rzecz, bo wiem, jeżeli myślimy faktycznie o zbudowaniu prawdziwego AI, to musimy pójść w kierunku dywersyfikacji, czyli taka maszyna nie tylko powinna rozwiązać problem A, ale i problem B itd.

Jeszcze z innej strony Visual Turing Test jest odejściem od standardowego paradygmatu widzenia maszynowego, zgodnie z którym maszyny badały zrozumienie sceny zdjęć poprzez detekcje objektów albo segmentację obrazów i to odejście jest na rzecz prostszego w ewaluacji problemu, który nie wymaga specyficznej reprezentacji, takich jak, na przykład, opisanie obiektu prostokąt czy klasyfikacji poszczególnych pikseli. Ewaluacja jest dokonywana na podstawie ostatecznego celu jaki ma maszyna wykonać, czyli w tym wypadku – odpowiedzi na pytanie o obraz.

Object Detection

Jeżeli chodzi o postęp – jest on bardzo duży, biorąc pod uwagę, że ten problem jest całkiem nowy. Przede wszystkim powstało wiele zbiorów danych nasz DAQUAR był pierwszy, najbardziej znaną bazą jest VQA. Wielkość jest na tyle istotna, że obecne metody uczenia maszynowego do efektywnego nauczania wymagają ogromnej liczby danych. Są także inne zbiory danych, takie jak MovieQA gdzie pytania są na temat wideo, i jest taka baza danych syntetyczna CLEVR, którą ostatnio eksperymentowałem w DeepMind.

Przykłady ze zbioru danych VQA

Jeżeli chodzi o estymacje, to ciężko powiedzieć kiedy rozwiążemy taki problem. Tutaj też warto odizolować sam problem Visual Turing Test od konkretnej bazy danych, która dany problem ukonkretnia. Myślę że Visual Turing Test w najszerszym znaczeniu równoważy z General AI.

Z kolei pewne bazy danych mogą zostać rozwiązane w najbliższej przyszłości. Na przykład, wspomniana baza CLEVR (baza z syntetycznymi obrazami i syntetycznymi pytaniami) została rozwiązana w DeepMind.

Zapytam jeszcze o Turing Test. Alan Turing nie zdefiniował dokładnie co ma nastąpić, żeby powiedzieć że to faktycznie się stało. Teraz jest sporo spekulacji, bo jedni uważają że już udało się osiągnąć Turing Test, drudzy mówią, że udało się przez to że nie został dobrze zdefiniowany i nastolatek z Ukrainy czy inne chatboty, które udają że są inteligentne.

Tak naprawdę tylko bardziej próbują się poruszać w bardzo ograniczonej dziedzinie. Zapytam się właśnie o Visual Turing Test, czy też prawdopodobnie będzie taka spekulacja czy jednak jest to bardziej sformalizowane, bo tego nie do końca zrozumiałem.

Może nie nazwałbym to spekulacją, jest to powiedzmy odkrywanie bazy danych, która jest dobrym odzwierciedleniem tego Visual Turing Test. Może tutaj powtórzę, że na początku, jak tworzyłem test, stworzyłem go z bazą danych DAQUAR i można powiedzieć, że to jest pewna instancja Visual Turing Test. W jednej ze swoich publikacji określiłem mniej więcej co mam na myśli poprzez Visual Turing Test i to jest coś trochę bardziej ogólnego.

W pewnym sensie jasno jest to, że to zależy od innych naukowców czy też innych ludzi, jaka jest konkretna baza danych, która odzwierciedla ten Visual Turing Test, więc pod tym względem jest trochę spekulacji. To co jest dla mnie ważne w odróżnieniu od oryginalnego Turing Testu, zdefiniowanego przez Alana Turinga, jest to, że tutaj bardziej skupiamy się na wizji, na obrazach i przez to ten problem staje się bardziej konkretny od Turing Testu, bo tutaj zadaje konkretne pytania “czym jest ten obiekt” albo “ile mamy obiektów na stole” i td. I nie oczekujmy tutaj abstrakcyjnych odpowiedzi.

Ten problem antropomorfizacji czyli takiego nadawania ludzkiego znaczenia rzeczom, które niekoniecznie mają wiele sensu nie jest tak problematyczny, jak w Teście Turinga. Tak jak wspomniałeś że taki robot może udawać dziecko albo inną osobę i zaczynamy wierzyć w to. Tutaj to wszystko jest bardziej konkretne.

To się cieszę. Warto czasami mieć konkrety, chociaz z drugiej strony, jeżeli chodzi o Turing Test, ten test nie ma już aż tak dużo znaczenia, po prostu warto iść do przodu, niż próbować z kimś dyskutować, albo robić kolejną wojnę czy ktoś wygrał ten test czy nie.

Chodźmy dalej, bo jest jeszcze wiele ciekawych rzeczy. Tylko wspomnę jeszcze o image caption czy podpisy zdjęć. Pamiętam że kilka tygodni czy miesiąc temu czytałem artykuł o ograniczeniach Deep Learning i tam było między innymi zdjęcie, gdzie dziewczynka z szczoteczką stoi i algorytm rozpoznał, że to jest bejsbol. Jeżeli chodzi o geometrie, to przypomina, ale każdy człowiek zrozumie, że to była szczoteczka.

Dziecko ze szczoteczką

Tak, to prawda, więcej jest takich sytuacji i oni są związane z tym, że sieci neuronowe nie mają głębokiego zrozumienia obrazu i raczej działają na pewnych korelacjach, na pewnych związkach statystycznych. Czasami te metody dają świetne rezultaty i możesz być zaskoczony że dany obrazek został w taki sposób opisany, ale też jest dużo wypadków gdzie opis obrazka jest zupełnie błędny.

To widać też na Visual Turing Test, bo wiele metod, które daje się wykorzystać do opisania obrazów także się daje trochę zmienić i wykorzystać do Visual Turing testu. Przy takich trudniejszych pytaniach, które są wcale nie aż takie trudne, te metody tak dobrze nie działają.

Zgłębię te tematy, bo jak już powiedzieliśmy na początku – pracujesz w DeepMind, ale może warto zaznaczyć, że nie reprezentujesz firmę jako taką, tylko wyrażasz swoją prywatną opinie, ale jednak porozmawiajmy o tym…

Zwycięstwo AlphaGo jest bardzo słynne. To było bardzo duży krok do przodu jeżeli chodzi o możliwości komputera. Ale wiem, że DeepMind robi kolejny duży krok do osiągnięcia tak zwanego General AI.

Algorytmy już całkiem dobrze sobie radzą z wykrywaniem kota czy psa na zdjęciu, ale algorytm nie zdaje sobie sprawę, że pies goni kota (chociaż czasem też była odwrotnie).

Dla człowieka to jest oczywiste. Innymi słowa tak zwanej sztucznej inteligencji po prostu brakuje, jak to czasem mówi się, rozumieniu o życiu, o relacjach (po angielsku common sense knowledge).

Czyli jeszcze raz, na dzień dzisiejsze uczenie maszynowe fantastycznie sobie radzi z wykrywaniem wzorców, ale nie jest w stanie wyjaśnić dlaczego jest tak… nie ma głębszego rozumienia. W dużym uproszczeniu, możemy powiedzieć, że student też może “wykuć” na pamięć materiał i nawet zdać egzamin, ale ta wiedza jest po prostu zbiór reguł w głowie i prawie zero zrozumienia.

Jesteś zaangażowany w jeden z projektów DeepMind, gdzie właśnie próbuję się wyjść na inny poziom sztucznej inteligencji. Proszę wyjaśnij jak podchodzisz do tego tematu w DeepMind. Co już udało się osiągnąć? Również poproszę w miarę prostym, mało technicznym językiem z przykładami.

W DeepMind pracowałem nad relation networks i tak jak wspomniałeś, sieci neuronowe o ile dobrze potrafią rozpoznawać obiekty na obrazach, to z pewnymi rzeczami, takimi jak relacje pomiędzy różnymi obiektami to jest dużo ciężej. Głównym celem tego projektu jest zmiana tego stanu rzeczy.

Już jakiś czas temu chyba wspomniałem o zbiorze CLEVR, który jest zbiorem składającym się z trójek pytanie-odpowiedź-obraz, więc można powiedzieć że to także jest część większego projektu, który został zapoczątkowany przez Visual Turing Test czyli także do niego należy albo Vision Question Answering.

Ale w odróżnieniu od zbioru DAQUAR tutaj mamy syntetyczne pytania oraz syntetyczne obrazy, które się składają z kilku figur geometrycznych. Więc pod tym względem te bazy danych są trochę podobne do baz danych MIT z lat 60-yh, ale CLEVR jest położony głównie na takie relacyjne myślenie, czyli pytania są w stylu “ile jest innych rzeczy, które mają taki sam materiał jak żółty sześcian” itd.

Przepraszam, że Cię przerywam, ale myślę, że warto to trochę rozszerzyć i podać przykład co to znaczy w praktyce, bo mamy stół albo jakąś powierzchnię i tam są różne przedmioty, na przykład, sześcian, stożek, kula i też mają różne kolory. Pytanie jest takie – ile jest przedmiotów tego samego koloru albo czy jest ten sam materiał jak na stożku, prawda?

Zbiór danych CLEVR

Tak. Aczkolwiek pytania mogą być znacznie bardziej skomplikowane. Na przykład, ile jest gumowych stożków, które stoją naprzeciwko zielonego sześcianu, który jest po lewej stronie od czerwonej rzeczy.

To jest ciekawe, bo jak mówimy o sztucznej inteligencji, deep learning, to zawsze jest takie zachwycenie, że właśnie wygrała AlphaGo, ale tak jak rozmawialiśmy na początku – jest to wyzwanie z common sense knowledge, albo rozumieniem ogólnym, albo powiązaniem tych relacji i to, co potrafi robić nastolatek albo 5-latek, w tej chwili dla algorytmu nadal jest wyzwaniem albo było wyzwaniem. Powiedz, jakie są postępy?

Można powiedzieć, że było wyzwaniem. W celu takiego relacyjnego wnioskowania przez maszyny, stworzyliśmy moduł, który nazwaliśmy Relation Networks. Jest to sieć neuronowa, która rozważa dwa obiekty na obrazie, porównuje te obiekty ze sobą za pomocą kilku warstwowej sieci neuronowej, a następnie agreguje wszystkie te reprezentacje takich par w celu stworzenia jednej reprezentacji globalnej całego obrazu.

Za pomocą tak zbudowanej sieci neuronowej otrzymaliśmy wyniki, które są w zasadzie lepsze niż ludzkie odpowiedzi. Tutaj muszę zaznaczyć, że wszystko jest na zbiorze danych CLEVR i ten zbiór jest wizyjnie prosty, ma skomplikowane relacje, skomplikowane pytania, ale ta percepcja jest prosta. Ale w każdym bądź razie, nasz system potrafi według metryk odpowiadać lepiej niż ludzie, na tej bazie danych. Dlatego można powiedzieć, że rozwiązaliśmy problem rozumienia relacyjnego, przynajmniej w stosunku bazy danych CLEVR.

To co jeszcze jest ważne. Mimo tego, że powiedziałem, że ten moduł porównuje dwa obiekty, to te obiekty nie muszą jawnie być podane, ta sieć neuronowa sama rozstrzyga czym jest dany obiekt na podstawie danych treningowych. To jest w zasadzie taka sieć neuronowa, gdzie się podaje tylko i wyłącznie obrazy, podaje się skomplikowane pytania, podaje się odpowiedzi (w zbiorze treningowym, oczywiście), i ona na postawie tych trójek zaczyna rozumieć obiekty i zaczyna rozumieć relacje.

To my, jako ludzkość zrobiliśmy kolejny krok w kierunku tak zwanej GAI czyli ogólnej sztucznej inteligencji. Tutaj warto jeszcze dopytać Twoją opinie na temat, jakie są wyzwania na dzień dzisiejszy w uczeniu maszynowym, jakie są największe i które da się pokonać w najbliższe 5 lat?

Jest dużo wyzwań. Myślę, że bardzo ważnym jest to, aby sieci neuronowe zaczęły dobrze sobie radzić w momencie, kiedy nie ma tak dużo danych treningowych. Jak opowiadałem o tym zbiorze danych CLEVR i rozumieniu relacyjnym, to to wszystko dobrze działa, bo mamy dużo zbiorów treningowych. W świecie rzeczywistym ciężko się buduje takie zbiory treningowe, szczególnie na wielką skalę.

Jesteśmy ograniczeni o takie naturalne rzeczy, jak zasoby pieniężne, ludzki, jak czas i tak dalej. I w takich skomplikowanych problemach, jak Visual Turing Test, ciężko jest zbudować takie bazy danych, które by zawierały wszystkie możliwe pytania ze wszystkimi możliwymi odpowiedziami. A my – ludzie, jakoś sobie radzimy, poprzez moze jakąś kompozycję, a być może mamy jakieś inne umiejętności, dzięki którym potrafimy tworzyć nowe zdania i potrafimy rozumieć zdania, albo całe zbiory zdań, które wcześniej nie słyszeliśmy.

I to jest, moim zdaniem, bardzo duże wyzwanie dla sieci neuronowych. Jak zbudować taką sieć neuronową, która jest bardzo silna do rozwiązywania problemów, ale jednocześnie nie wymaga się od niej takiego dużego zbioru treningowego, że ona potrafi na bazie kilku przykładów zrozumieć co się dzieje.

Mogę potwierdzić takim trochę z życia przykładem. Mam małe dziecko i zawsze się fascynuje, jak pokazuje w jednej książce krowę, czy inny obiekt, dosłownie jeden czy dwa razy, a później biorę inna książkę, gdzie ta krowa wygląda zupełnie inaczej i pytam “gdzie jest krowa?”, a on pokazuje prawidłowo.

I dla mnie to jest fascynujące. Jak to jest możliwe, bo pokazałem tylko jeden raz i zupełnie czegoś innego, ale od razu się nauczył. Tutaj widać że mózg człowieka działa znacznie lepiej niż nowoczesne algorytmy, przynajmniej na dzień dzisiejszy.

Tak, dokładnie i na dzień dzisiejszy musiałbyś pokazać 100 instacji żeby sieć neuronowa zrozumiała czym jest krowa.

Teraz przejdźmy do tematów, może trochę etycznych, albo o odpowiedzialności.

Mówi się, że jesteśmy teraz na etapie, kiedy algorytmy rozwiązują coraz bardziej złożony zagadnienia, ale my jako ludzi nie do końca mamy kontrole nad tym co tam się dzieje. W ogólnym sensie tego słowa rozumiemy jak to działa (że jest tam sieć neuronowa i różne funkcję transformujące sygnał). W pewnym sensie, to jest podobnie jak to, że wiemy, że jest Słońca, Ziemia i inne planety. Jest grawitacja i inne prawa fizyki, ale myślę, że każdy fizyk który spędził swoje życie na naukę pod koniec życie mógł stwierdzić, że wiem sporo, ale nadal nie wiem jak to działa w całości.

Jak mówił Arystoteles „Całość jest czymś więcej niż sumą części”. No właśnie jest kilka pytań w tym obszarze.
Najpierw może wyjaśnię dlaczego to jest problemem w mojej opinii. Jeżeli zastanowić się na chwilę, to łatwo stwierdzić też nie mamy kontrolę nad ludźmi z każdym krokiem (i to oczywiście dobrze), czyli nie wiemy dokładnie co Jan Kowalski czy Adam Nowak chce zrobić dzisiaj czy jutro (chociaż, w większości przypadków to jest łatwo przewidzieć, bo ludzi płyną zgodnie z prądem).

Z drugiej strony, mamy odpowiedzialność, jeżeli zrobią coś złego, to na nich będzie czekała kara. Nie powiem, że osobiście podoba mi się taki model relacji, mam inne zasady wewnętrzne. Ale mniejsza o to… chodzi o to, że jest to jakiś mechanizm który reguluję działania innych. W przypadku sztucznej inteligencji. Jaka może być dla niej kara? Brzmi trochę bez sensu :). Dlatego jest potrzebna kontrola, żeby rozumieć każdy jej krok. Czy potrzebna jest taka kontrola wg Ciebie? Bo to brzmi fajnie, że możemy kontrolować, ale to pewnie bardzo ogranicza rozwój. Jaka jest Twoja opinia najpierw jako naukowca?

Tutaj zdecydowanie będzie moja prywatna opinia. Jeżeli chodzi o kwestie rozumienia, szczególnie głębokich modeli uczenia maszynowego, jak głębokie sieci neuronowe, to warto jednak podkreślić dwie rzeczy. Do pewnego stopnia my, jako środowisko, rozumiemy te modele, które tworzymy.

Są oczywiście rzeczy, które słabo rozumiemy i często oni są natury technicznej. Na przykład, intuicyjnie mogłoby się wydawać że taka głęboka sieć neuronowa, która ma ok. 60 mln parametrów, która jest trenowana za pomocą stochastic gradient descent nie powinna dobrze działać, ale praktyka pokazuje na odwrót. Ten mechanizm nie jest do końca całkowicie poznany, brakuje szerszej teorii, która mogłaby zasugerować w jaki sposób budować kolejne modele. W konsekwencji czego, budowanie sieci neuronowych jest zajęciem często empirycznym.

Mamy także do czynienia z innym poziomem rozumienia sieci neuronowych, że nie do konca jestesmy w stanie w jednożnaczy sposób ustalić dlaczego dana konkretna sieć neuronowa podjęła takie a takie decyzje. Jak to się stało, że z obrazka, który przedstawia kolor zielony, ma jeszcze inne kolory i jakieś proste kształty, sieć neuronowa doszła do tego, że to jest obraz przedstawiający kwiat. I w tej ostatniej kwestii pojawia się wiele badań jak akademickich tak i badań, które w jakiś tam sposób związane z firmą. I tutaj jest kilka takich nurtów. Jeden nurt, to wizualizacja.

Sieć neuronowa uczy się rozpoznawać obiekty na obrazie poprzez filtry, które wykrywają pewne wzorce i te filtry do pewnego stopnia można zwizualizować, zinterpretować za wykrycie jakiego wzorca ten filtr odpowiada. I w taki sposób można się dowiedzieć, że w dolnej warstwie sieci neuronowej realizują filtry Gabora i są odpowiedzialne za znajdowanie prostych kształtów. Innym ciekawym nurtem jest zapożyczenie narzędzi z psychologii kognitywnej do tego by badać sieci neuronowej.

Przykłady co wpływa na decyzji DeepNetwork

I w ten sposób można określić pewne tendencje, która ma sieć neuronowa. Czyli, na przykład, sieć neuronowa kieruje się bardziej kształtem obiektu niż kolorem obiektu do tego żeby rozpoznać dany obiekt.

Są także inne metody które próbują w języku naturalnym wyjaśnić taką sieć neuronową. Żeby to zilustrować, wróćmy do Visual Question Sign zadaje pytanie “co się znajduje po prawej stronie od mojego laptopa”, i taka sieć neuronowa patrzy na obrazek, patrzy czy to pytanie i mi odpowiada na to pytanie, i wtedy się pyta “dlaczego doszła do takich a takich wniosków ” i wówczas ta sieć neuronowa próbuję się wytłumaczyć, tak jak człowiek to robi.

Jak ty mnie zapytasz, dlaczego podjełem taką decyzje, to próbuje ten cały proces decyzyjny Ci przedstawić w postaci języka naturalnego. Tak samo tutaj jest kierunek badań, który próbuje stworzyć sieci neuronowe, które same się wyjaśniają dlaczego doszło do takiego a takiego rozwiązania.

Zapytam Cię jeszcze o jedną poradę, tym razem dla młodszego pokolenia. Którzy teraz są na studiach, albo skończyły je i zastanawiają się co robić dalej. Co możesz im doradzić? Ewentualnie zdradź kilka wskazówek, jak taki młody człowiek może zacząć pracować w DeepMind?

W mojej historii studia doktoranckie były bardzo ważnym okresem w życiu, ogólnie studia były bardzo ważnym okresem w życiu. Myślę, że w czasie studiów warto jest chłonąć wiedzę z wielu różnych dziedzin. Na kierunkach ścisłych także warto nabrać pewnych umiejętności, są to rzeczy, które stają się później ważne, aby móc inspirować, przekonywać inne osoby do pewnych projektów, do pewnych idei.

Myślę, że bardzo ważne jest także aby balansować teorie z praktyką. Z jednej strony teoria jest bardzo istotna, nie zmienia się ona tak często jak inne rzeczy i poprzez nią budujemy pewny warsztat kognitywny, dzięki któremu jesteśmy w stanie zrozumieć inne bardziej konkretne rzeczy.

Z drugiej strony warto wzmacniać tą wiedzę teoretyczną jakąś praktyką lub różnymi eksperymentami w taki sposób, aby ta teoria była bardziej namacalna. Szczególnie jeżeli chodzi o uczenie maszynowe, starałbym każdą wiedzę teoretyczną wzmocnić jakimś argumentem empirycznym, czyli po prostu stworzenie implementacji pewnej rzeczy, która nas interesuje.

Jeżeli chodzi o firmę, to nie skusiłabym się na budowaniu swojego CV pod konkretną firmę. Jak ktoś teraz zaczyna studia, to prawdopodobnie je skończy za jakieś 5 lat, może później, jeżeli zdecyduje się na studia doktoranckie i ten rynek może się zmienić. Ale wydaje mi się że jest ważne by w pewnym okresie swojego życia stać się osobą, która ma unikalne umiejętności, które są także cenione na rynku pracy, i jeżeli tak się stanie, to firmy same zaczną się zgłaszać po taką osobę.

Osobiście polecam wyjazdy na dobre uczelnie zagraniczne lub do dobrych firm, często zagranicznych, na praktyki. I takie wyjazdy otworzyły mi oczy na pewne dziedziny wiedzy, które wcześniej były mi obce, a stały się kluczowe w mojej karierze.

Także warto uczestniczyć w programach mentorskich, jeżeli takie programy są dla studenta dostępne.

Czyli tak nieco w skrócie mieć otwarte oczy, umysł, być przygotowanym na wyzwania i iść do przodu.

Dokładnie, trzeba być dzielnym, odważnym.

Czego mogę Tobie życzyć?

Zbudowania AI

W takim razie życzę Ci zbudowania AI. A na jakim poziomie, porównywalnym do ludzi czy wyższym?

A myślę, że niekoniecznie musimy myśleć w takich kategoriach. Być może zbudowanie AI, które w jakiś tam sposób jest komplementarne do ludzi czyli uzupełnia nas w jakiś tam sposób.

Czyli taki pomocnik, który robi za nas te rzeczy, które niekoniecznie ludzie lubią robić, a my skupiamy się na najbardziej ciekawych elementach tego życia.

Tak, ale to także pomaga w rzeczach które lubimy robić. Pomaga nam w badaniach naukowych albo w eksploracji kosmosu.

Tam gdzie faktycznie mózg ludzki nie jest najlepszym jak liczenie.

Na przykład. Albo dostęp do wiedzy. To jest tak, że teraz wiedzy jest bardzo dużo, teoretycznie mamy do niej dostęp, ale nie mamy dostępu do tej wiedzy naraz, w jednym momencie. Więc taka sztuczna inteligencja, która ma ten dostęp i potrafi odfiltrować te rzeczy, które dla nas są istotne i w odpowiedni sposób wnioskować. Może nam pozostawić ostateczną decyzje, ale zasugerować pewne rzeczy.

Rozmawialiśmy z Tobą prawie godzinę, ale nadal widać, że sztuczna inteligencja ukrywa w sobie bardzo dużo różnych wątków. Życzę Tobie żeby udało się zrealizować to co planujesz. A jak można z Tobą skontaktować w razie zainteresowania?

Można się ze mną skontaktować tradycyjnie, czyli mailem. Można wysłać maila obecnie na mateuszmalinowskiai [małpka] gmail.com. Jeżeli ktoś jest zainteresowany moimi publikacjami, to można je znaleźć albo na mojej stronie internetowej, albo na Google Scholar czy Linkedin.

Dziękuję, Mateusz bardzo za Twój czas i chęć podzielenia się swoim doświadczeniem.

Także dziękuję za rozmowę.

Duża dawka wiedzy? Być może część poruszonych tematów dla Ciebie była trochę trudna i zawierała skróty czy inne nieznana terminologia.

Mateusz jest pasjonatem swego dzieła, dlatego myślę, że jeszcze wiele dokonań jest jeszcze przed nim. Po naszej rozmowie zastanawiałem się nad tym, o ile my jesteśmy architektami swego losu. Czasem może się wydawać, że pracować w firmie jak DeepMind jest kosmicznie trudno. Na przykładzie z Mateuszem, można zobaczyć, że wystarczy konsekwentnie robić swoje. Dlatego życzę Ci, osiągać swoje cele również skutecznie, jak to robi Mateusz.

Dziękuję za wszystkie informację zwrotne. Przypominam, że możesz kontaktować się ze mną przez dowolny wygodny kanał dla Ciebie: twitter, facebook, linkedin, strona kontaktu na biznesmysli.pl.

Mam dobrą nowość dla Ciebie. W tym roku Google Developers Day Europe będzie zorganizowany w Krakowie 5-6 września. To jest ciekawe wydarzenie dla osób które interesują się technologiami rozwijanymi przez Google. Osobiście bilet kupiłem już kilka misięcy temu (mówię dlatego, żeby pokazać ważność dla mnie tego wydarzenia), ale dzięki współpracy z Google mam do rozdania trzy bilety dla najbardziej chętnych. Przypomnę, że wartość takiego biletu jest 250 dolarów.

Google Developers Day Europe

Chcesz dostać takie bilet za darmo? A może chcesz się spotkać z ludźmi z Google, które rozwijają innowacyjne produkty (będzie również sporo osób z Doliny Krzemowej)? A możliwie chcesz ze mną porozmawiać osobiście?

Dołącz się do grupy DataWorkshop na Facebook.
Udostępnij baner GDD Europe ze swoim komentarzem, dlaczego chcesz pójść na konferencje.
Zaangażuj również swoich znajomych i może się okażę, że pójdziecie razem.

Masz na to 3 dni. Następnie, w czwartek z rano (31 sierpnia), wybiorę 3 najbardziej wartościowe powody (wg. mojej skromnej opinii) i skontaktuję się z tymi osobami przez wiadomość prywatną i do końca czwartku będę oczekiwał na informację zwrotną od wybranych osób.

Również będę na tym wydarzeniu, więc jeżeli wybierasz się, proszę daj mi o tym znać.

Dziękuję Ci bardzo za Twój czas, Twoją energię i chęć do rozwoju.

Życzę wszystkiego dobrego i do usłyszenia.

Artykuł Naukowiec Computer Vision z DeepMind – Mateusz Malinowski pochodzi z serwisu Biznes Myśli.