Świat akademicki, biznes oraz ML – rozmowa z Tomkiem Trzcińskim

Gdzie łączy się świat akademicki i biznes? Jak zbudować innowacyjny zespół tak, aby jego założyciel mógł skupić się na innych inspirujących rzeczach, które będą stale motywowały zespół do dalszej pracy? O tym opowie Tomek Trzciński z Tooploox, niezwykle utalentowany człowiek, który sprawia wrażenie, jakby posiadał klucz do wielu skomplikowanych rzeczy. Czasem w trakcie rozmowy zauważysz, jak pod pozorną prostotą różnych kwestii kryje się dużo ciekawych wniosków.

Ogłoszenia👇

17 lutego, ruszył mini kurs „Wprowadzenie do Python”. Ten kurs trwa 3 tygodnie, jest online. Zrobiony jest po to, żeby umożliwić Ci w sposób krótki, ale namacalny, lepiej się poczuć z językiem programowania Python. Ten język będzie nam bardziej potrzebny przy kolejnych kursach związanych z uczeniem maszynowym.

Główny kurs „Praktyczne uczenie maszynowe od podstaw” rusza 16 marca. Zachęcam do prędkiego zapisu, aby zdążyć z ewentualnymi zawiłymi procesami zakupowymi w firmach.

14 marca w Krakowie odbędą się trzecie urodziny podcastu Biznes Myśli. Spotkamy się w gronie słuchaczy i gości moich rozmów. Zapraszam – będzie mi miło Cię poznać osobiście.

Cześć Tomek. Przedstaw się: kim jesteś, czym się zajmujesz, gdzie mieszkasz.

Cześć. Nazywam się Tomasz Trzciński. Jestem adiunktem na Politechnice Warszawskiej. Jestem też współwłaścicielem firmy Tooploox oraz CEO startupu Comixyfy. Zajmuję się ogólnie tematyką uczenia maszynowego, w szczególności wizją maszynową (computer vision). Mieszkam na co dzień w Warszawie.

Co ostatnio fajnego przeczytałeś? Dlaczego zaciekawiła Cię ta lektura?

Ostatnio czytam książkę „Hard Thing About Hard Things” Bena Horowitza. Super książka, która została napisana przez współtwórcę Andreessen Horowitz, jednego z najbardziej znanych funduszy VC działających głównie w Silicon Valley. Oni zainwestowali m.in. w Lyft, Oculus czy Skype’a. W książce Horowitz opowiada różne historie z życia swojego i spółek, w których brał udział m.in. Netscape. Opowiada o historiach budowania spółek technologicznych, ich wzlotach, upadkach. Przedstawił wiele cennych rad związanych z prowadzeniem startupów oraz z byciem prezesem tego typu nowych, działających bardzo szybko i rozwijających się spółek technologicznych.

Brzmi ciekawie. W szczególności dla osób, które zajmują rolę CEO albo podobną. Wspomniałeś o firmie Tooploox. Powiedz troszkę więcej, jaka jest Twoja rola?

Tooploox to jedna z najszybciej rosnących spółek technologicznych Europy. Oferujemy usługi rozwoju oprogramowania. Głównie skupiamy się na segmencie startupów czy młodych spółek, ale mamy też w swoim portfolio projektów spółki większe, korporacyjne czy giełdowe. Zakres oferowanych kompetencji jest bardzo szeroki: od aplikacji mobilnych na Androida czy urządzenia Apple, przez technologie webowe, backend, frontend i metody sztucznej inteligencji. To jest właśnie ten fragment, za który ja w dużej mierze odpowiadam od dłuższego czasu. Choć dzisiaj już ten fenomenalny zespół, który udało się zbudować w Tooploox, w dużej mierze rozwija się autonomicznie pozwalając mi spędzić trochę więcej czasu na rozwoju naukowym (zarówno na polu firmowym, jak i uczelnianym).

Zespół autonomiczny – to brzmi bardzo ciekawie. Zbudowanie i prowadzenie zespołu zwykle jest dużym wyzwaniem. W szczególności jeżeli mówimy o zespole ludzi, którym się chce, mają ambicje, chcą działać. Chciałbym, żebyś powiedział teraz troszkę więcej o życiowych lekcjach, które wyniosłeś.

Pamiętam jak na jednej z konferencji DataWorkshop Club Conf w 2018 roku, wspomniałeś o dość trudnej, życiowej sytuacji, którą przeżyłeś – zwolnienie jednego z pracowników. Mówiłeś o tym, jakie miałeś emocje i co wtedy myślałeś. Jest to bardzo cenna informacja dla osób, które budują zespół, bo to nie jest łatwe. Czy możesz podzielić się trzema lekcjami, jak budować, współpracować i motywować efektywnie zespół zajmujący się innowacjami?

Tomasz Trzciński: PL in CV – Polish View on Computer Vision

Dzięki, to bardzo ważne i rzeczywiście trudne pytanie. Przykład, o którym wspomniałeś z konferencji, dotyczył zwolnienia jednej z osób z zespołu. Było to dla mnie pierwsze takie doświadczenie. Ono było o tyle trudne, że zwolnienie kogoś z zespołu jest w dużej mierze porażką tego, który ten zespół buduje. W większości przypadków oznacza, że nie udało się wyciągnąć tego talentu na powierzchnię, nie udało się odkryć umiejętności, które każdy z nas w sobie buduje. Była to cenna lekcja, jak unikać tego typu sytuacji w przyszłości. Z mojej strony był to pewnego rodzaju chrzest bojowy, jak podchodzić do takich sytuacji, starać się oddzielać emocje od obiektywnych i racjonalnych przesłanek.

Pierwszą taką wskazówką, która przychodzi mi do głowy to to, że motywowanie ludzi pieniędzmi jest bardzo krótkoterminowe i nie do końca daje efekty, które w długim okresie są widoczne i przynoszą oczekiwany rezultat. Dużo bardziej efektywne jest motywowanie poprzez pozostawienie autonomii zespołowi. Bardzo dobrym przykładem tego, jak działa autonomia zespołów w praktyce, jest holokracja, którą w Tooploox wdrażamy już od ponad roku.

Jest to niehierarchiczna, nie tradycyjna forma zarządzania kapitałem ludzkim czy organizacjami, która skupia się na autonomii zespołów, będących tzw. „kołami”. Celem stworzenia tych oddzielnych „kół”, które dynamicznie mogą zmieniać swoje struktury, mogą w ramach procesu zarządczego tworzyć nowe role, pozbywać się ich, jest wyzwolenie zaangażowania, którego nie da się kupić tylko i wyłącznie za pomocą podwyższonego wynagrodzenia, które w długim okresie, przestaje motywować.

Badania, które m.in. zespół z Harvardu prowadził, wskazywały, że powyżej pewnego progu (który jest zależny od kraju, w którym się mieszka i od uwarunkowań osobistych), w okolicy 70 000 – 80 000$, dodatkowy zastrzyk gotówki, już nie motywuje tak bardzo, a zaczynają się liczyć: sens istnienia, cel robienia pewnych działań, autonomia, możliwość samorozwoju. Także to jest pierwsza wskazówka, czyli motywowanie nie pieniędzmi, a autonomią i zaufaniem do zespołu.

Komunikacja to drugi element, który jest niezwykle istotny. Ona jest podstawą funkcjonowania zespołów. Wiele problemów, z którymi spotkałem się w dotychczasowej karierze, wynika nie ze złych intencji stron czy członków zespołu, czy relacji z innymi zespołami, lecz z braku zrozumienia potrzeb.

Sebastian Thrun (który był jednym z twórców rewolucji autonomicznych samochodów, wcześniej zajmował się Massive Online Courses, czyli tymi otwartymi kursami dostępnymi online, m.in. współtworzył Udacity), ostatnio w podcaście z Lexem Fridmanem, mówił o tym, że intencje drugiej strony, z którą rozmawiamy, są z zasady dobre.

Zrozumienie tych intencji i zaawansowana empatia pozwalają rozwiązać wiele problemów. Taka taktyczna praca w zespole często cierpi, bo ważne tematy, które są ukrywane czy ignorowane ze względu na brak dobrej komunikacji między zespołem, wychodzą w zupełnie nieprzewidywalnych sytuacjach. Rolą lidera czy osoby budującej zespół jest jak najszybsze wyłapanie i rozwiązanie tych kwestii.

Trzecim najważniejszym punktem, na który zwracałem uwagę i uczyłem się mniej lub bardziej boleśnie, jest zrozumienie tego, że jeśli masz autorytet w zespole, bo właśnie go tworzysz lub budujesz od lat swoją wiedzą merytoryczną czy osiągnięciami poza samym zespołem, to siła Twojego głosu jest bardzo ważnym elementem budulcowym. Warto wykorzystywać tę siłę odpowiednio. Na początku jeśli jesteś takim aktywnym liderem, menedżerem, który zarządza zespołem, to często łapiesz się na tym, że chciałbyś podpowiedzieć jakieś rozwiązania lub sam je zaproponować, zamiast dać zespołowi możliwość wypracowania ich samemu.

Twój głos zabrany np. na samym początku dyskusji czy brainstormingu sprawia, że dynamika w zespole jest kompletnie inna. Tak naprawdę reszta zespołu stawia się przeciwko Tobie, jeśli ma inne pomysły, a nie Ty wspierasz i budujesz tę kreatywność wewnątrz zespołu. Zrozumienie siły głosu i pokazywanie, jak wygląda ta praca, poprzez lead by example, czyli robienie samemu rzeczy, na których nam zależy i są dla nas ważne, to jest najlepszy sposób budowania zespołu i też ze strategicznego ukierunkowania go.

Kiedy poznaliśmy się na żywo jakiś czas temu, powiedziałeś, że czytasz publikacje podczas śniadania. Jak wybierasz, które publikacje warto czytać? Co się dzieje po przeczytaniu oprócz tego, że odkładasz ją na półkę? Czy drukujesz publikacje czy czytasz je online?

Zaczynając od najprostszego pytania: czytam online. Staram się nie drukować, mam Kindle, którego bardzo ukochałem. Biorę go na każde wakacje, jest dużo lżejszy i dużo bardziej poręczny, już nie mówiąc o oszczędności drzew, które pozostawiamy wzrastające w lasach, zamiast przerabiać je na papier.

Jeśli chodzi o wątek czytania podczas śniadania, to rzeczywiście spotkaliśmy się jakiś czas temu. Teraz przy śniadaniu głównie zajmujemy się razem z żoną tym, żeby trójka naszych dzieci nie była głodna przez resztę dnia. Tak naprawdę bardzo dużo ostatnio słucham. Często zdarza mi się w drodze do pracy słuchać podcastów np. Macieja Filipkowskiego, Biznes Myśli, Lexa Fridmana (który też ma bardzo ciekawe fragmenty z gośćmi np. z Danielem Golemanem).

Staram się coraz więcej słuchać. Jest to w moim przekonaniu takie medium, które będzie wzrastało na wadze biorąc pod uwagę, jak dużo możemy chłonąć słuchając. Ukłony dla Ciebie za budowanie tej społeczności wokół podcastu Biznes Myśli. Jeśli chodzi o czytane publikacje, wybieram zgodnie z zainteresowaniem i aktualnie realizowanymi tematami projektów. Staram się nie rzucać na wszystkie najnowsze publikacje z dziedziny uczenia maszynowego, bo jest ich po prostu niewyobrażalnie dużo na arXiv.

Pojawia się ich kilkaset czy kilka tysięcy miesięcznie. Wybór tych, które są ważne nie jest oczywisty. Dużo polegam w tym temacie na Twitterze czy Linkedinie. Mam kilka znanych, dość dobrze podsumowujących te artykuły ludzi, których śledzę na Twitterze (np. @hardmaru – twittowy influencer, którego w dużej mierze słucham i staram się na bieżąco obserwować, o czym mówi). Natomiast tematy, związane z moimi zainteresowaniami, czyli uczeniem maszynowym, computer vision, uczeniem reprezentacji obrazu, generatywnymi modelami staram się obserwować na bieżąco.

Jestem recenzentem wielu prac (zarówno konferencyjnych jak i czasopiśmiennych) i staram się, poza ustawieniem Google Alerts na odpowiednie słowa, jeździć na konferencje, rozmawiać z ludźmi, szukać i czuć ten puls, którym bije serce akademii.

Jesteś osobą, która próbuje łączyć światy, które w Polsce średnio potrafią współpracować ze sobą. Mam na myśli świat biznesu, świat startupu oraz świat akademicki. Mało jest osób w Polsce, które potrafią robić to efektywnie. Być może wiele osób próbuje, ale żeby to działało, to trzeba się naprawdę postarać.

Inspirujesz ludzi na uczelniach do pisania publikacji klasy światowej. Nie chodzi oczywiście o merytorykę, ale też o sposób myślenia i robienie pewnych czynności, żeby stać się zauważonym w innych kręgach niż tylko w lokalnej uczelni. W inteligentny sposób wspierasz też swoich studentów. Jak o tym myślę, to 5-10 lat temu pewnie chciałbym być Twoim studentem, bo to jak inspirujesz i wspierasz ludzi, jest godne podziwu.

Powstał projekt Comixify. Opowiedz historię tego projektu. Kto go rozwija? Co się teraz z nim dzieje? Czy chodzi tylko o rozrywkę, czy też o coś innego?

Przede wszystkim dzięki za ciepłe słowa. Miło słyszeć, że te efekty pracy są dostrzegane z zewnątrz. To w dużej mierze jest zasługa zespołów i ludzi, z którymi współpracuję. Staram się jak najmniej przeszkadzać i pomagać przynajmniej w ten sposób. Comixify jest rezultatem prac inżynierskich i magisterskich, których byłem promotorem. Realizowane one były w Zakładzie Grafiki Komputerowej Instytutu Informatyki na Politechnice Warszawskiej.

Adam, Maciek i Paweł to byli studenci, którzy wpadli na pomysł połączenia tematyki komiksowej, która zawsze ich interesowała i uczenia maszynowego. Zaproponowali stworzenie aplikacji pozwalającej zmieniać film użytkownika w komiks. Pomysł przyjął się dosyć dobrze, tzn. pracowaliśmy ponad 1,5 roku nad technologiami, które pozwalały na tego typu zabawę. Była to wtedy zabawa, stwierdziliśmy, że fajnie byłoby wypuścić razem z publikacją na temat tego rozwiązania działające i funkcjonujące demo.

To demo zostało opublikowane razem z artykułem na arXiv. Udało się zdobyć popularność na serwisie Hacker News. Byliśmy w pierwszej dziesiątce przez dość długi czas, co wywołało spore reperkusje, m.in. nasz politechniczny, mały serwer, który miał tylko obsłużyć kilka zapytań ludzi, którzy będą recenzować ten artykuł, nie wytrzymał 10 tys. zapytań i bardzo szybko padł. Musieliśmy w środku nocy, stawiać dodatkowe maszyny.

Sprawa potoczyła się dalej bardzo szybko. Uzyskaliśmy dofinansowanie w wysokości 20 000 $. Byliśmy w akceleratorze startupu Betaworks w Nowym Jorku. Betaworks to VC wspierające startupy w przedwczesnej fazie rozwoju. Wygraliśmy kilka konkursów, m.in. TDJ Pitango Seed Competition. Bardzo dużo ciekawych i dobrych rzeczy zaczęło się dziać wokół tego projektu. Doszliśmy do końca procesu akceleracji również w ramach akceleratora w Polsce.

Zrobiliśmy pierwsze wdrożenie projektu technologicznego w PKN Orlen – ogromnej spółce energetycznej, gdzie przy użyciu komiksów, zachęcaliśmy użytkowników do tworzenia własnych historii, w których marka Orlenu była wykorzystywana. Tak ta nasza historia zaczęła nabierać tempa. Spojrzeliśmy na to, jakie są pytania i potrzeby rynkowe, które możemy rozwijaną przez nas technologią adresować.

Okazało, że te efekty wizualne, które uzyskujemy poprzez uczenie maszynowe i sztuczną inteligencję są wykorzystywane w najbardziej zaawansowanych studiach filmowych. Tak urodził się kolejny wątek rozwoju tej technologii bazowej, na której podstawie zbudowaliśmy Comixify. Teraz rozwijamy ją w kontekście tworzenia najwyższej jakości efektów specjalnych. Współpracujemy z firmą MotionVFX, która rozwija pluginy do edytorów filmowych. Dostaliśmy również finansowanie w kolejnej inwestycji od inwestora – anioła biznesu.

Mamy środki i ambicje, żeby nasze technologia rzeczywiście była wykorzystywana w jak największej ilości firm, studiów filmowych. Rozmawiamy właśnie z wieloma studiami VFX, czyli efektów specjalnych z Warner Bros. Sytuacja jest bardzo rozwojowa i myślę, że jeszcze wiele ciekawych przygód przed nami.

Najważniejsze dla mnie z perspektywy akademickiego wykładowcy jest fakt, że z projektu studenckiego urodziła się spółka, która zebrała już ponad $0,5 mln w różnej formie inwestycji. Mamy bardzo dobre parametry biznesowe. Rośniemy w siłę zarówno, jeśli chodzi o miesięczne przychody, jak i opinie i ilości wejść na stronę. To jest chyba najlepsza szkoła, jaką mogę dawać i pokazywać studentom jako wykładowca akademicki.

To świetny pomysł, żeby zebrać wykładowców i pokazać im, jak można inaczej zorganizować pracę i zmotywować studentów. Niestety często praca studenta po sprawdzeniu trafia do kosza i już nigdy z tego kosza nie wychodzi. W tym przypadku udało się rozwinąć talenty. Nigdzie indziej nie da się nauczyć tak dobrze jak przy projekcie, który Cię fascynuje i wciąga.

Jestem pewny, że zaangażowane w projekt osoby mocno się rozwinęły. To jest duży plus. Co więcej musieli poczuć ogromną satysfakcję, a do tego przeszli od projektu akademickiego w startup, co ciężko byłoby zrobić samodzielnie. Porozmawiajmy troszkę o łączeniu świata akademickiego z biznesem. Będąc tam gdzie jesteś teraz z całym bagażem doświadczeń – czy jest możliwa efektywna współpraca pomiędzy uczelnią w Polsce a biznesem, startupem? Jak wygląda ta dynamika? Jak to się zmienia w czasie? Czy są jakieś dobre przykłady oprócz tego co powiedzieliśmy przed chwilą?

Wydaje mi się, że te dwa światy – akademicki i biznesowy żyją w lepszej symbiozie niż nam się to powszechnie wydaje, a szczególnie jeśli chodzi o domenę sztucznej inteligencji. Fakt, że ta wiedza jest wartościowa w momencie aplikowania jej do problemów realnych, pozwala budować bardzo wiele pomostów między tymi dwoma światami. W swoim życiu staram się brać to co najlepsze z jednego świata i drugiego.

Do nauki biznes może wnieść dużo inspiracji dotyczących zarządzania czy finansowania projektów. Schematy, które działają w Tooploox, jako dobre praktyki staram się przekazywać i wdrażać w prace akademickie. Oczywiście bez przesady, ale jest bardzo dużo dobrych praktyk, które można bez problemu przełożyć do drugiego świata. W biznesie zależy mi osobiście na wykraczaniu poza krótkoterminowe i czysto finansowe cele poprzez realizowanie aspirujących projektów naukowych.

W Tooploox możemy robić ciekawe, naukowe rzeczy dzięki temu, że mamy finansowanie z projektów komercyjnych, ale ludzie często pytają: „Po co w takiej firmie pisać publikacje? Przecież to nie przekłada się na wzrost sprzedaży, jest w pewnym stopniu traceniem pieniędzy, które nie są efektywnie inwestowane np. w nowe maszyny, komputery czy zwiększanie wynagrodzeń”. Ja z kolei pytam: po co zarabiamy pieniądze? Dla mnie ta odpowiedź jest dosyć prosta – po to, żeby publikować, rozwijać się, tworzyć i budować kolejne podwaliny pod nowe dziedziny nauki czy nowe, nierozwiązane do tej pory problemy. Kapitał jest potrzebny właśnie do tego i taki jest cel.

Wydaje mi się, że w czasie (szczególnie w kontekście uczenia maszynowego czy sztucznej inteligencji) ten trend łączenia świata naukowego z komercyjnym zaczął być dość mocno obserwowany po pierwszych sukcesach ostatnich lat, związanych z głębokim uczeniem maszynowym. Widać to praktycznie od 2012 r., kiedy zostały opublikowane prace związane ze stosowaniem sieci neuronowych w rozpoznawaniu obrazu, później dźwięków, w tekście.

Tendencja wśród naukowców, którzy pracują na uczelni rozwijając metody, a później stosując je i wykorzystując w świecie komercyjnym jest zauważalna i obserwowalna. Trudno się dziwić. Największym paliwem uczenia maszynowego są dane, których sieć i Internet (a przez to korporacje, które te dane zbierają) mają najwięcej. Te dwa światy łączą się coraz częściej i coraz mocniej.

Należy oczywiście zachować ostrożność, bo jeśli będziemy oceniali możliwości oraz potencjał naukowy tylko i wyłącznie celami krótkoterminowymi czy aktualną ewaluacją akcji, udziałów na giełdzie, to może nas to doprowadzić do bardzo krótkich iteracji i braku przemyślanych, długofalowych inwestycji. Wydaje mi się, że póki co takiego zagrożenia nie ma przynajmniej w kontekście spółek polskich, które jeszcze mają trochę lekcji do odrobienia związanych z inwestowaniem w naukę i metody sztucznej inteligencji.

Jeśli chodzi o projekty komercyjne, które pokazują, jak dobrze może funkcjonować połączenie świata nauki i świata biznesu, to ja osobiście prowadzę wiele projektów komercyjnych na zlecenie firm. Współpracujemy m.in. z biurem Google w Zurychu realizując na Politechnice Warszawskiej projekt związany z geolokalizacją na podstawie obrazu.

W Tooplooxie aktywnie współpracujemy i publikujemy zarówno z uczelniami międzynarodowymi (Uniwersytet Stanforda) czy z Uniwersytetem Wrocławskim i Politechniką Wrocławską. Po naszym wywiadzie muszę wrócić do kolejnej publikacji, którą z naukowcami z Uniwersytetu Jagiellońskiego zamierzamy opublikować w tym i nadchodzącym tygodniu. Wydaje mi się, że ta współpraca działa coraz lepiej i ona rzeczywiście jest paliwem dla biznesu i dla Akademii, które jeszcze przez wiele lat będzie trwało i dawało energię.

Jedno z kluczowych pytań, które zadałeś – po co zarabiamy pieniądze? Zachęcam także każdego czytelnika do odpowiedzenia sobie na to pytanie.

Przejdę teraz do tematu computer vision. Jakie możliwości na dzień dzisiejszy nam daje? Jakie ma ograniczenia? Wymień 3 przykłady, gdzie zastosowanie computer vision w biznesie znacząco go zmienił albo sprawił, że taki biznes w ogóle ma szansę istnieć.

Wydaje mi się, że najważniejszą zmianą, która pojawiła się w biznesie, jeśli chodzi o sztuczną inteligencję (w szczególności computer vision), to algorytmy klasyfikacji obrazu, czyli tagowania zdjęć przy wykorzystaniu nie tylko samej wartości pikseli, ale też treści, czyli tego, co na tych zdjęciach się pojawia. Było to niezwykle istotne w kontekście przeszukiwania nieprzebranych do tej pory pokładów danych wizualnych, filmów czy zdjęć.

Drugą taką istotną technologią i kierunkiem, w którym computer vision pozwoliło rozwinąć się biznesowi, był SAM (Simultaneous Localization and Mapping), tj. technologia pozwalająca na lokalizowanie na podstawie obrazu z kamer. Dzięki temu roboty i maszyny kroczące mogły znacząco polepszyć precyzję lokalizowania swojej pozycji w stosunku do często niedokładnego GPS. Szczególnie jest to istotne wśród wysokich budynków, gdzie sygnał satelitarny jest dość istotnie zagłuszany. Taka lokalizacja na podstawie obrazu, była bardzo dużym plusem również wewnątrz hal czy budynków. Jest to istotna technologia.

Trzecim ciekawym zastosowaniem jest analiza danych medycznych. Tutaj mamy coraz więcej osiągnięć na polu danych zarówno pochodzących z rezonansu magnetycznego czy ultrasonografów. Komputery coraz lepiej rozumieją, co się na tych zdjęciach dzieje i są w stanie istotnie wspomagać proces diagnostyki zarówno pod kątem chorób, takich jak rak płuc czy piersi, jak również predykcji przedwczesnych porodów. Tym zajmujemy się m.in. w naszej grupie razem z doktorantem Tomkiem Włodarczykiem i absolwentem Politechniki Szymonem Płotką, ale też współpracujemy z lekarzami z Warszawskiego Uniwersytetu Medycznego.

Poza tym w kilku poprzednich projektach, w których brałem udział, m.in. z Interdyscyplinarnym Centrum Modelowania Matematycznego Uniwersytetu Warszawskiego, opracowywaliśmy metody klasyfikacji i śledzenia postępów rekonwalescencji po operacji rekonstrukcji ścięgna Achillesa. Teraz Bartek Borucki razem z Norbertem Karpińskim rozwijają na bazie tego swój startup. Jest to pole, które moim zdaniem dopiero zaczęliśmy zagospodarowywać.

Wydaje mi się, że o ile te dwie pierwsze technologie, o których wspominałem (klasyfikacja obrazu i SAM) są bardzo ukierunkowane i rozwiązują konkretne problemy, tak analiza danych medycznych to tak naprawdę ocean możliwości. Zarówno jeśli chodzi o diagnostykę, prewencję, uprzedzające obserwowanie danych po to, żebyśmy nie tylko wiedzieli, kiedy jesteśmy chorzy, ale również jak duże prawdopodobieństwo jest, że zachorujemy albo, że w najbliższej przyszłości będzie nam coś dolegać. To tak naprawdę uważam za najbardziej ambitny i istotny kierunek, jeśli chodzi o dalsze prace związane z wizją maszynową czy uczeniem maszynowym.

Porozmawiajmy też o ograniczeniach lub problemach, które mamy w computer vision. Co z tym próbujemy zrobić?

Ograniczenia, czyli w których miejscach computer vision myli się?

Tak, powiedzmy, że mam jakiś problem do rozwiązania. Chcę zacząć działać, ale jednak jest pod górkę. Co może stać na przeszkodzie?

Jednym z największych problemów czy wyzwań, które stoją przed aplikacjami wykorzystującymi uczenie maszynowe w kontekście analizy obrazu, jest niedobór danych lub niedobór odpowiednio oznaczonych danych. Szczególnie w kontekście danych medycznych jest to o tyle trudne, że dane te wymagają bardzo wykwalifikowanej wiedzy, żeby zostać odpowiednio oznaczone.

Zawierają również dość delikatne i osobiste dane, których nie można tak łatwo między ośrodkami przesyłać. To jest na pewno duży problem. Mamy świadomość jako naukowcy, że ten problem istnieje. W związku z tym coraz więcej prac dotyka tematyki nienadzorowanego uczenia maszynowego czyli takiego, w którym sama maszyna, komputer jest w stanie dużo wewnętrznych cech wywnioskować albo na podstawie kilku próbek jest w stanie zanotować kolejne i grając sam ze sobą w grę anotacji i zgadywania tych anotacji, (np. poprzez active learning) buduje większy zbiór danych. To jest na pewno duże ograniczenie.

Tak jak często pada pytanie, czy mając określony budżet lepiej zainwestować go w nowy zbiór danych czy w nową metodę, którą należałoby zaimplementować, to niestety z reguły prawidłowa odpowiedź to właśnie zbiór danych. Nie ma nic tak wspomagającego precyzję rozwiązania, które budujemy, jak więcej danych, szczególnie danych, które są zróżnicowane. Tu jest istotna kwestia: jeśli zbierane dane będą dokładnie takie same bądź bardzo zbliżone w rozkładach prawdopodobieństw, to obserwowana różnica będzie relatywnie mała.

Jeśli pokazywalibyśmy dzieciom tylko jeden gatunek psa i nazywali go właśnie psem, to inny jego gatunek nie byłby prawdopodobnie tak łatwo klasyfikowany jako pies. Ludzie (podobnie jak maszyny) uczą się najwięcej na podstawie różnic i obserwowania kompletnie nowych danych – tutaj to rozwiązanie gorąco polecam.

Wspomniałeś, że po tej rozmowie będziesz pracować nad publikacją z Uniwersytetem Jagiellońskim. Obecnie bardziej się inspirujesz rozwiązaniami bio, związanymi z naturą i połączeniem tego w jakiś sposób z technologią. Powiedz proszę więcej o tym projekcie. Jaka jest motywacja z Twojej strony, że zaangażowałeś swoją uwagę w tym obszarze?

Zgadza się. Rozpoczynam właśnie współpracę z Uniwersytetem Jagiellońskim jako lider jednej z grup badawczych pracujących w ramach grantu Fundacji na Rzecz Nauki Polskiej, zatytułowanego „Bio-inspirowane sieci neuronowe”. Projekt ten jest kierowany przez świetnego naukowca i bardzo dobrego wykładowcę, profesora Jacka Tabora. Wśród kierowników tych grup są m.in. kognitywiści, neurobiolodzy, specjaliści w zakresie uczenia maszynowego – prof. Marek, prof. Nowak, prof. Wójcik czy dr Igor Podolak.

W ramach tych prac zamierzamy zająć się zrozumieniem mechanizmów funkcjonowania naszego mózgu i procesów poznawczych po to, żeby te mechanizmy przenieść do świata uczenia maszynowego inspirując tym samym nowe rozwiązania czy algorytmy – algorytm uwagi, atencji, wzorowane w dużej mierze na działaniach czy funkcjonowaniu naszego mózgu.

Dlaczego akurat ten fragment? Wydaje mi się, że nosimy w swojej głowie jeden z najbardziej mocnych i wydajnych komputerów, które stworzyła natura. Mechanizmy, które zachodzą podczas uczenia czy budowania sieci neuronowych w naszej głowie, w dużej mierze mogą rozwiązać wiele problemów aktualnie obserwowanych w świecie uczenia maszynowego.

Na przykład fakt, że człowiek ma jeden mózg, a jest w stanie w trakcie nauki uczyć się zarówno rozpoznawać zwierzęta jak i meble. Później jest w stanie jako lekarz czy prawnik rozpoznawać różne zapisy prawne, czy analizować zdjęcia medyczne. Mówimy różnymi językami, uczymy się różnych gier, gramy na instrumentach. To wszystko wykorzystując tak naprawdę jedną maszynę.

W przypadku uczenia maszynowego czy sztucznej inteligencji zachodzi zjawisko katastroficznego zapominania. Jeśli ucząc się jednego zadania weźmiemy tę całą sieć i przyuczymy ją do innego zadania, to okazuje się, że poprzednie zadanie jest kompletnie zapomniane. Już nie jesteśmy w stanie odzyskać tej wiedzy, którą wcześniej nabyliśmy. To są problemy, które wydaje się, że mózg ludzki rozwiązał. Dlatego inspirowanie algorytmów uczenia maszynowego na bazie tego, co widzimy w naturze, jest w moim przekonaniu bardzo obiecującym i ciekawym tematem badań.

Mówi się coraz głośniej, że osiągnięcie tego odgórnego stanu sztucznej inteligencji (general AI) jest w ogóle niemożliwe używając obecnie dostępnych algorytmów, ponieważ są bardzo ograniczone na konkretne, wąskie dziedziny. Tak jak to nazwałeś – takie katastroficzne zapominanie. Jest możliwe wyspecjalizowanie i prześcignięcie człowieka w pewnym odcinku zadań, ale nie sprawdza się to przy bardziej ogólnych kwestiach.

Nawet takie bardzo proste czynności, które wykonujemy na co dzień – wejście do budynku, który ma różne rodzaje drzwi albo otwarcie pudełka, to dla widzenia komputerowego ta różnorodność staje się problemem. Jak rozmawiam z różnymi ludźmi na ten temat, wydaje się, że jedną z możliwości, która umożliwia osiągnięcie tego stanu general AI jest podejrzenie, jak natura poprzez ewolucję otrzymała to, co osiągnęła.

Problem jedynie jest taki, jak ją podejrzeć? Z jednej strony zdajemy sobie sprawę, że to jest możliwe i sami jesteśmy tego świadkami, ale z drugiej strony – co się dzieje w tym mózgu, jak to odszyfrować? Nawet jeśli próbujemy to analizować używając MRI albo innych narzędzi, to jest bardzo nieprecyzyjne i daje tylko fragmenty, więc ciężko jest zrozumieć całość.

Czy to faktycznie jest strategiczne myślenie, żeby osiągnąć coś znacznie więcej i przejść na poziom, gdzie nie ma obecnych ograniczeń? Jak to odszyfrować? Jak się wgryźć w ten kawałek, żeby zrozumieć, jak to działa pod spodem? Wiem, że prognozowanie jest bardzo trudną sprawą, ale podziel się swoimi rozważaniami.

Rzeczywiście, ta wąska dziedzina klasyfikacji obrazu i wytrenowanie na niej nawet najbardziej zaawansowanych sieci splotowych, nie do końca rozwiązuje nam problem sztucznej inteligencji. W wielu publikacjach twierdzi się, że sieci neuronowe są już lepsze i osiągają lepsze wyniki niż człowiek, bo np. rozpoznają lepiej rasy psów. Tylko pytanie jest zasadnicze – czy my jako ludzie (nie będąc hodowcami psów na co dzień) potrzebujemy rozróżnić owczarka niemieckiego od rottweilera.

Nie jest to konieczne w naszym codziennym życiu. Jest bardzo dużo procesów, które zachodzą w naszym mózgu – wchodzenie do budynków, lokalizowanie się jest jednym z nich. Wiele z nich zachodzi tak naprawdę nie w korze mózgowej (naszym softwarze), a w hardwarze. Mruganie czy instynktowne zasłanianie części ciała to są rzeczy, które będą dla nas wyjątkowo trudne, jeśli chodzi o ich odgadnięcie tzn. zrozumienie, jak możemy je zaimplementować w algorytmach sztucznej inteligencji. One są tak wbudowane w nas i trudne do zidentyfikowania, że rzeczywiście zajmie nam to na pewno sporo czasu.

Staramy się podglądać z coraz lepszym i większym mikroskopem, jak działa część tych neuronów czy mózgu, która odpowiada za kolejne funkcje poznawcze. Wydaje się, że percepcja, którą rozwinęliśmy, czyli analizowanie sygnałów zewnętrznych związanych z wizją, słuchem czy tekstem, jest coraz lepsza. Natomiast w ramach projektu, o którym wspomniałem, finansowanego z Fundacji na Rzecz Nauki Polskiej, realizowanego na Uniwersytecie Jagiellońskim, mamy możliwość współpracy między sześcioma zaawansowanymi zespołami tworzonymi przez światowej klasy specjalistów z różnych dziedzin (fizyka, neurobiologia, kognitywistyka).

Celem tego eksperymentu jest połączenie specjalistów informatyki, matematyki z fizyką, neurobiologią, kognitywistyką, a jednocześnie stworzenie unikalnej na skalę światową możliwości zrozumienia jak działają struktury mózgu i mechanizmy, które próbujemy podglądać. Jest to jeszcze przed nami, ale coraz więcej prac pokazuje, że możemy zidentyfikować korelacje między różnymi sygnałami elektrycznymi w mózgu i powiązać je z bodźcami zewnętrznymi.

Od tego krok już do zrozumienia struktur, które funkcjonują w mózgu. Na bazie tego jesteśmy w stanie budować rozwiązania – być może inne, może kompletnie inne, może tylko zmodyfikowane lub będące jakąś wariacją na temat dotychczas stworzonych algorytmów uczenia maszynowego.

Przewidywanie jest trudne, szczególnie jeśli chodzi o przyszłość. Nie chciałbym tutaj zbyt mocno wybiegać w przyszłość. Mogę natomiast wspomnieć o anegdocie związanej z autonomicznymi samochodami. Trzy lata temu na konferencji CVPR czyli jednej z najważniejszych konferencji computer vision na świecie można było usłyszeć, że autonomiczne samochody to już za rok, dwa będą na ulicach. Dwa lata temu ta perspektywa zwiększyła się do 5-6 lat. Rok temu to było już 10 lat, a niektórzy mówili, że nie wiadomo, czy w ogóle będą jeździły.

Te prognozy są odwrotnie skorelowane z ambicjami i aspiracjami, z taką pozytywną energią związaną z rozwojem uczenia maszynowego czy sztucznej inteligencji. Mam wrażenie, że dochodzi do pewnego rodzaju granic stosowania algorytmów wąskiej sztucznej inteligencji. Na pewno będzie bardzo dużo aplikacji, które te aktualne algorytmy są w stanie zastosować. Sztuczne sieci neuronowe doskonale radzą sobie ze znajdywaniem korelacji między sygnałem wejściowym a wyjściowym, ponieważ mają możliwość zapamiętania i przeanalizowania większej ilości danych w krótszym czasie niż człowiek.

Biorąc pod uwagę jak rosną możliwości hardware’owe, sprzętowe komputerów wydaje się, że to rozumowanie to podejmowanie decyzji, szczególnie takich, które nie są oczywiste i wymagają analizy szerokiego kontekstu, czy zrozumienia innych ludzi. Tutaj mamy przed sobą dobre 5-10 lat do momentu, kiedy zaczniemy obserwować algorytmy czy instancje, które te algorytmy reprezentują – roboty czy inne tego typu urządzenia, które będą mogły być uważane za jakieś przepowiednie generalnej sztucznej inteligencji. Na chwilę obecną, wydaje mi się, że tak możemy to przewidywać.

Warto będzie się spotkać ponownie za jakiś czas i zweryfikować, jakie zmiany w międzyczasie zaszły. W latach 60. mówiło się, że dosłownie za kilka lat sztuczna inteligencja będzie potrafiła robić przeróżne rzeczy. Minęło już dość sporo czasu i nawet część rzeczy potrafimy robić, o których było wspomniane, ale nie wszystkie.

Dziękuję Ci bardzo za znaleziony czas i rozmowę, bo wiem, że to nie jest takie łatwe. Dziękuję za podzielenie się z szerszym gronem swoimi przemyśleniami, rozważaniami i doświadczeniem, bo tego nie można normalnie znaleźć w Internecie. Życzę Ci, żeby udało Ci się poukładać swoje myślenie w taki sposób, żeby stawiane cele były namacalne i osiągalne.

Dzięki wielkie.

Dzięki serdeczne, dzięki za zaproszenie. Pozostaję do dyspozycji w razie przyszłego kontaktu. Jeśli któryś z tych tematów jest interesujący dla Ciebie czy dla słuchaczy, to oczywiście jestem otwarty na kontakt i do zobaczenia, do usłyszenia.

W trakcie przygotowań do tego wywiadu już wiedziałem, że to będzie niezwykle ciekawa rozmowa. W jej trakcie, zwłaszcza w momencie, gdy mówiliśmy o biotechnologii, podglądaniu sposobów rozwiązywania problemów przez naturę, byłem bardzo zainspirowany i jestem bardzo ciekaw, jak dalej będą się rozwijały projekty realizowane przez Tomka i jego współpracowników.

Z drugiej strony zastanawiam się nad tym, czy w ogóle możliwe by było osiągnięcie prawdziwej sztucznej inteligencji przy użyciu obecnie dostępnych narzędzi. Czy uda się rzeczywiście podglądnąć mechanizmy rządzące się w naturze? Co to będzie oznaczać dla naszej przyszłości?

Świat akademicki, biznes oraz ML – rozmowa z Tomkiem Trzcińskim

Vladimir

Dodaj komentarz Anuluj pisanie odpowiedzi