Anna Wróblewska o łączeniu światów: biznes, programowanie i nauka

[spreaker type=player resource=”episode_id=13040812″ width=”100%” height=”200px” theme=”light” playlist=”false” playlist-continuous=”false” autoplay=”false” live-autoplay=”false” chapters-image=”true” hide-logo=”false” hide-likes=”false” hide-comments=”false” hide-sharing=”false” ] Biznes zaczyna dostrzegać potencjał wartości dostarczanej przez uczenie maszynowe albo tak zwaną sztuczną inteligencję. Najszybciej zrozumiał to biznes za oceanem, gdzie już teraz rynek jest wart bardzo wiele. Istnieją różne szacunki, np. według IDC w roku 2017 przewiduje się, że rynek danych i analizy będzie wart ok. 150 mld, a za trzy lata, w 2020 roku, jego wartość może wzrosnąć nawet do 210 mld. Możesz powiedzieć: mieszkam w Europie, czego tutaj mam się spodziewać? Jak widać, tutaj też są postępy. Najgorętsze punkty sztucznej inteligencji w Europie (taka mała Dolina Krzemowa) to Londyn, następnie Berlin i Paryż. W notatkach poniżej znajdziesz link do artykułu, w którym można zobaczyć, że w Europie powstało już ponad 400 firm używających sztucznej inteligencji. W Londynie znajduje się prawie ¼ wszytskich tych firm, bo aż 97, w Berlinie 30, w Paryżu 26. W Polsce namierzono ich 9 🙂 Jeśli chodzi o to ile jest wart rynek związany z danymi w Europie, można znaleźć jeszcze więcej liczby. Na przykład, w jednym z raportów można przeczytać, że “Data Economy Value” było warte 300 mld w 2016 i będzie warte 739 mld w 2020. To są ogromne liczby, które trudno jest zrozumieć, a również nie chcę wchodzić w szczegóły, jak te liczby zostały wyliczone. To na co chcę zwrócić szczególną uwagę, to fakt, że w tym samym raporcie, można znaleźć informację, o tym, że w roku 2016 było zatrudnionych ok. 6 mln pracowników związanych z danymi, a w roku 2020 przewiduje się prawie podwojenie tej liczby, ok. 11 mln pracowników. To będzie duży problem dla firm, które chcą znaleźć pracownika, który może wyciągnąć wartość z danych, a okaże się, że ilość dostępnych pracowników jest mocno ograniczona. Staram się dokładać swoją cegiełkę (oczywiście na moją skalę), żeby pomóc w tym temacie, więcej o tym dowiesz się na końcu podcastu. Prawda jest taka, że aby wykształcić tak ogromną ilość specjalistów, uczelnie muszę się w to zaangażować. Uczelnie może i chcą, ale na to jest potrzebny czas, którego jest coraz mniej. O tym i nie tylko będzie dzisiejsza rozmowa. Moim dzisiejszym gościem jest Anna Wróblewska, która próbuje łączyć trzy światy: biznes, programowanie i naukę. Pracuje ona na Politechnice Warszawskiej, a także od ponad 3 lat jest ekspertem analizy danych (data scientist) w firmie Allegro. Co więcej, jest autorką ponad 35 publikacji w polskich i międzynarodowych czasopismach. Zapraszam do wysłuchania! Cześć Aniu! Powiedz trochę więcej o sobie. Kim jesteś? Czym się zajmujesz? Gdzie mieszkasz? Ania Wróblewska, mieszkam w Warszawie, zajmuje się wieloma rzeczami. Pierwsza, chyba najbliższa mojemu sercu to uczenie na Wydziale Matematyki i Nauk Informacyjnych na Politechnice Warszawskiej. Tam założyliśmy nowy kierunek, specjalność Data Science, polska nazwa Przetwarzanie/Inżynieria Danych. Mamy nowych studentów, bardzo ciekawych. Kierunek został otwarty w tym semestrze i od razu mamy 60 chętnych na miejsce, bardzo się cieszymy i uważamy, że program jest naprawdę ciekawy. Druga rzecz, od 10 lat pracuję w biznesie, od 4 lat w Allegro jako Data Scientist, tam zastanawiamy się jakie algorytmy uczenia maszynowego zastosować. Jak poprawić platformę? Jak mierzyć wydajność algorytmów, na prawdziwym Big Data? A jeszcze, tak bardziej historycznie, kilka lat temu, obroniłam doktorat na Wydziale Elektroniki Politechniki Warszawskiej. Był on z jeszcze trochę innej dziedziny – komputerowego wspomagania medycyny, dokładnie analizy zdjęć mammograficznych, odnajdywania różnych oznak chorób, raka. Było to o tyle ciekawe doświadczenie, że dużo musiałam współpracować z lekarzami. Przeprowadzałam testy kliniczne. Od tamtej pory zaczęła się moja pasja łączenia różnych dziedziny humanistycznych z informatyką. Odnajdywania różnych metod jak można to zastosować, jak pewne problemy humanistyczne, medyczne, psychologiczne jak można zaprogramować, dać pewne wskazówki psychologom. Jeśli o nich chodzi to mówię o projekcie z Centrum Nauki Kopernika, gdzie analizujemy dane obserwacyjne dzieci, rodziców zwiedzających wystawy. To są różne zbiory: dzieci szkolne, rodzice z dziećmi. Zastanawiamy się jak zachowują się rodzice, jak dzieci to odbierają, jak można poprawić wystawę. Mamy chęć opracować indeks zainteresowania eksponatem, zastanowić się co ma na to realny wpływ, jak można to mierzyć i oceniać. to jest bardzo ciekawy projekt dla mnie, ponieważ dużo mamy do czynienia z psychologami, ludźmi, którzy znają informatykę, znają trochę statystykę, ale są spoza świata technicznego. Tłumaczenie im tego, przekładanie jak można to zastosować, szukanie tego co jest im naprawdę potrzebne, jest dla mnie pasjonujące. Powiedziałaś wiele ciekawych rzeczy, będziemy je rozwijać dalej. Teraz zapytam o to co ostatnio czytałaś i co było w tej lekturze najbardziej wartościowego? Ostatnio czytałam książkę psychologiczną „Mówienie prawdy samemu sobie„, pod kątem tej książki później obserwowałam ludzi. Muszę powiedzieć, że było to pasjonujące, bo czasami opieramy się na naszych przekonaniach, które nie są poparte rzeczywistością. Tworzymy własny, wyimaginowany świat, a chodzi o to żeby jednak opierać się w naszych działania i decyzjach na rzeczywistych faktach, a nie na emocjach. Właściwie chyba też o to chodzi w pracy Data Scientist czy analityka danych, żeby szukał tych przesłanek w danych. Bardzo ciekawa książka.   W jednym Twoim opisie znalazłem informację, że starasz się wypełnić lukę pomiędzy biznesem, światem programistów i Twoją pasją naukową. Brzmi to świetnie, ale ze swojego doświadczenia wiem, że jest to bardzo skomplikowane zadanie. Są to dość rozbieżne światy i oczywiście nagroda jest fajna, na krawędzi tych ekspertyz pojawia się prawdziwa innowacja. Proszę powiedz jakie towarzyszą Ci wyzwania gdy łączysz te trzy światy, biznes, programistów i naukowców? Jakie wyzwania? Przede wszystkim, zrozumienie, podejście do świata i kultury pracy, do tego aby przełamać pewne uprzedzenia. Zwykle te światy mają względem siebie jakieś uprzedzenia, żeby to przełamywać i tłumaczyć pewne rzeczy w sposób zrozumiały. Każdy z tych światów, profesjonaliści w tych różnych dziedzin, czyli biznesu, nauki, programiści mają swój własny język i sposób porozumiewania się. Czasami jest on zupełnie niezrozumiały dla drugiej strony, a ludzie często mają opory, żeby zapytać, żeby się dowiedzieć. Muszę się przyznać, że ostatnio byłam na demo w mojej firmie i informatycy tłumaczą jakiś zaawansowany model uczenia maszynowego, ludzie z biznesu słuchają, nie zadają żadnych pytań. Muszę powiedzieć, że tłumaczyli to w sposób tak szczegółowy, że nawet mnie trudno było zrozumieć. Myślę sobie, że ci ludzie z biznesów również nie rozumieli, ale nikt nie miał śmiałości przerywać. Zabrakło spojrzenia ogólnego, wytłumaczone zostały szczegóły, ale zabrakło ogólnego schematu jak to działa, jaki jest cel biznesowy tych działań. Zabrakło informacji, która jest podstawowa dla drugiej grupy, tego trzeba ciągle uczyć od nowa. Tego też uczę studentów, żeby umieli opowiedzieć o tym co robią, o swoich projektach w taki sposób, żeby to było zrozumiałe dla ludzi, którzy nie znają się dokładnie na tej branży, na analizie danych. Muszę się pochwalić, w zeszłym roku prowadziłam „Wstęp do uczenia maszynowego” zaprosiliśmy osoby z Centrum Nauki Kopernika i robiliśmy projekty ze studentami, o tyle było to dla nich trudne, ponieważ pierwszy raz dostali prawdziwe dane, z których nie było wiadomo co można wyciągnąć. Daliśmy dane, które miały swoje błędy, problemy, nie wszystko było idealnie zakodowane i powiedzieliśmy: zobaczcie co można z tego wyciągnąć, jakie wnioski można mieć, co można sprawdzić i studenci mieli wspaniałe hipotezy, byliśmy zachwyceni. W Centrum Nauki Kopernika badacze też, bardzo im się podobała ta praca. Studenci natomiast byli trochę zawiedzeni, mówili, że to były takie dane, z których wiele rzeczy nie wychodziło od razu, musieli sprawdzać. Nie byli przyzwyczajeni do takiej pracy, że dużo hipotez się po prostu nie sprawdza. Są oni przyzwyczajeni do takiej pracy gdzie się programuje i otrzymuje się wynik, którego się spodziewamy. A tutaj nie, musimy sprawdzić, wiele rzeczy nie wychodzi, ale to też jest dla nas informacja. To cenna wiedza, że pewne dane zostały źle zakodowane, czy źle zebrane, czy po prostu pewnych rzeczy z takiej ilości danych nie da się wywnioskować albo w ogóle nie da się sprawdzić. To było dla studentów takie inne, inna rzecz niż do tej pory robili. Ale myślę, że to cenne doświadczenie. Powiedziałam im, że w pracy w Allegro też są pewne hipotezy, które się nie sprawdzają i warto to też testować. Tak to prawda, że to bardzo wartościowe doświadczenie. Opowiem taką słynną historię… Osobiście już kawał czasu programuję, choć właściwie teraz już trochę mniej, ale zacząłem ponad 10 lat temu. Dla mnie na początku ludzie z biznesu byli bardzo dziwni, mówiąc wprost, nielogiczni. Mało tego, że są nielogiczni to jeszcze wcale nie bawi ich technologia. Dla mnie było to bardzo interesujące, że jest jakiś kod, przepływają bajty i to działa, a dla ludzi z biznesu to jest wszystko jedno, oni skupiają się na czymś innym. Dopiero potem zacząłem sobie uświadamiać, że oni mają zupełnie inny cel, podejście, myślenie. To jest normalne, że oni nie do końca rozumieją co chcą osiągnąć, bo w końcu to rynek o tym decyduje i weryfikuje pomysły i ciężko jednej osobie wymyślić jakiś pomysł, który na pewno wystrzeli. Podobnie miałem trudności ze zrozumieniem naukowców bo to był inny biegun, też oderwany od rzeczywistości. Mają różne pomysły, ale bardzo ciężko je zmapować na płaszczyznę praktyczną. Jest jakaś kropla, która przesuwa się po powierzchni, z pewną prędkością. Tylko pojawia się pytanie: jak tę wiedzę można wykorzystać, żeby dostarczyć wartość. Spróbujmy troszkę to podsumować. Jakie porady możesz udzielić tym trzem światom, żeby ich współpraca była bardziej owocna? Na pewno otwartość na inne spojrzenie. Na to spojrzenie biznesowe, na właściwie szukanie celu i bezpośredniego zastosowania pewnych rzeczy, zastanawianie się jak zmierzyć te zastosowania, co może być ciekawego pod kątem praktycznym. Dla informatyków, programistów, myślę, że przydałaby się większa otwartość, nie skupienie się tylko na technologii, ale umiejętność wysłuchania i szacunku dla drugiej strony. Też chyba trochę mniej perfekcjonizmu, bo jednak trochę wadą programistów jest perfekcjonizm. Chcą mieć wszystko idealnie zrobione, a jak przychodzi znowu analityk i mówi, że to jednak tak nie działa. Czy ktoś z biznesu uważa, że trzeba coś zmienić. Otwartość na ciągłe zmiany systemu – to jest bardzo istotne. Naukowcom, myślę, że teraz jest duże otwarcie i wiele programów wspierających współpracę z biznesem. Myślę, że jeszcze większe otwarcie, u nas w Polsce to jest jeszcze trochę trudne, ale akurat w naszej dziedzinie, analizie danych, informatyce, często jest bezpośrednie przełożenie tych prac na biznesowe zastosowanie. Tego co bym życzyła naukowcom to takiego systemu, ułożenia nauki, jaki spotkałam w Singapurze na NTU, to jest Nanyang Technological University. Młody uniwersytet, który w ciągu kilku lat znalazł się w światowej czołówce i tam rzeczywiście jest to zupełnie bezpośrednie przełożenie. Często profesorowie zarządzają też projektami w start-upach, doktoranci pracują w start-upach, biznes jest bardzo blisko uczelni. Chciałabym, żeby w Polsce to się w ten sposób rozwijało. Można powiedzieć, że są już takie kroki. Jest program doktoratów wdrożeniowych, u nas na Wydziale kilka osób będzie przyjętych według tego projektu. Program ten polega na tym, że w przemyśle, w jakiś firmie ludzie realizują zadania firmy, ale jednocześnie jest to ich pracą doktorską. Teraz będziemy współpracować z firmą zajmującą się przetwarzaniem tekstu, tam mamy już dwie przyjęte osoby. Będziemy mocno współpracować z uczelnią nad rozwojem metod przetwarzania języka wykorzystując wiedzę naukową, która jeszcze nie była wdrożona. Myślę, że jest ciekawe podejście, nowe programy ministerstwa też są bardzo ciekawe. Pewnie, że to wymaga jeszcze doszlifowania i współpracy, bo nie jest to takie proste. Cały czas widzę prace nad umowami w tym projekcie, wszystko musi współgrać. Musi być korzyść dla przedsiębiorstw, korzyść dla uczelni. Myślę, że jest na to bardzo dobry moment, widzę duże otwarcie ze strony uczelni. Chociażby nasz nowy kierunek, który ma duże wsparcie w przemyśle. Mamy kilka firm, które podpisały listy intencyjne o współpracy. Ja realizuję wiele prac magisterskich ze studentami, które są bezpośrednio na danych przemysłowych, na danych Allegro na przykład. W pracach tych studenci rozwiązują pewne problemy przygotowane przez firmę. Dla studentów jest to bardzo atrakcyjne, można powiedzieć, że wykonują już oni prace zawodowe na żywych, prawdziwych danych, które są używane na praktycznych problemach. Powiedziałaś, że pracujesz w Allegro. Opowiedz o tym trochę więcej, oczywiście na tyle ile możesz. Jakiego typu problemy rozwiązujesz przy użyciu uczenia maszynowego? Jakie to daje korzyści dla biznesu? Wyjaśnij to proszę na prostych przykładach. Opowiem o moim ulubionym projekcie, z którego jestem dumna, miał on miejsce rok temu. Tak zwany, projekt wyszukiwania obrazkowego, właściwie rekomendacji obrazkowych. Zebraliśmy się w kilka osób, to też było ciekawe w tym projekcie, że mieliśmy w grupie osoby o bardzo różnych kompetencjach. Tematem było dostarczenie rekomendacji opartych na danych obrazowych, rekomendacje, które mogłyby mieć zastosowanie w bardziej wizualnych kategoriach takich jak moda, biżuteria. Celem było np. znalezienie podobnej sukienki, podobnej wzorem, kolorem. Chodzi o pewne cechy, które nie jest łatwo opisać słowami. Trudno jest czasami określić dokładny wzór, kolorystykę czegoś bardzo precyzyjnie. Tutaj wymyślaliśmy, że weźmiemy dane obrazowe, zdjęcia ofert i będziemy szukać podobnych. Musieliśmy do tego całego projektu przekonać biznes, pokazać im, że warto. Mieliśmy kilka kroków, najpierw spróbowaliśmy zmierzyć te rekomendacje przy użyciu danych obrazowych do takich jakie byśmy uzyskali przy użyciu tekstu. Później, robiliśmy badania fokusowe, użytkownicy opowiadali czy rzeczywiście to co znaleźliśmy za pomocą metod komputerowych, czy takie rekomendacje by się im podobały. Później już wdrożyliśmy to i na naszym żywym systemie porównywaliśmy. Wyniki były ciekawe, obiecujące. Mogę się pochwalić, że te wyniki zostały przyjęte na najlepszą na świecie konferencję SIGIR, to jest konferencja na temat information retrieval, czyli wyszukiwania danych. W zeszłym roku, prezentowaliśmy te wyniki, pojawiło się dużo pytań, zaciekawienie tymi metodami. Można powiedzieć, że nowoczesna technologia wspiera użytkowników aby było im wygodniej przeszukiwać platformę. Szczególnie tutaj użytkowników zainteresowanych modą, gdzie te wyszukiwanie może być bardzo trudne czasami, bo nie da się wszystkiego opisać dokładnie słowami. Inny projekt, to rozpoznawanie marek w tytułach ofert. Ten projekt jeszcze trwa. Pewien słownik marek posiadamy, ale oczywiście ciągle są nowe, a czasami ludzie lubią kupować rzeczy tej samej marki, czy lubią mieć tę informację. U nas nie wszystko jest opisane pod kątem takich cech, atrybutów, tylko czasami jest to normalny tekst, tytuły ofert czy ich opisy i z niego musimy wyciągnąć te rzeczy, które są istotne w opisie danego produktu. Podobny projekt robiłam ze studentami i rzeczywiście wyszły nam ciekawe rzeczy. Mogliśmy z bardzo dużą skutecznością wykrywać już konkretne słowa marek. To było ciekawe o tyle, że zaczęliśmy to sami prostymi metodami uczenia maszynowego, a później ze studentami już zastosowaliśmy metody uczenia głębokiego. Wyszły bardzo dobre wyniki, aż się zdziwiliśmy. 99% na zbiorach testowych, 99% dokładności, ale tutaj jeszcze się zastanawialiśmy czy te wyniki są prawdziwe i różne wnioski z tego projektu mamy. Widać, że uczenie głębokie może dużo poprawić i wnieść dużo w rozwiązania przemysłowe. Ciągle trwa praca w Allegro nas mierzeniem wszystkich systemów, pewnie tak jak w każdej dużej firmie, nad miarami, które najbardziej odzwierciedlają czy zysk dla firmy czy zadowolenie użytkownika i wiele innych takich metod uczenia, które mogą przewidywać np. otwieralność mailingu, jego atrakcyjność. Mogą one znajdować osoby, do których warto wysłać dany mailing. Można stworzyć profile, głośna ostatnio sprawa modelu Ocean, czyli psychologicznego profilu użytkowników. Można stosować takie profile, czy profile zakupowe. Proste rzeczy, takiej jak na przykład kategorie, w których często się kupuje, ale też np. bardziej zaawansowane kategorie, którymi mógłby się zainteresować się użytkownik, a jeszcze o tym nie myślał. Można to zrobić na podstawie danych podobnych użytkowników czy przewidywać jakoś jego zmiany w życiu, wydarzenia, które wywołują zainteresowanie innymi produktami. Pole do popisu jest bardzo duże. Zaczęłaś mówić, że przed tym gdy zaczęłaś ten pierwszy projekt związany ze znalezieniem podobnych produktów, to najpierw trzeba było wykazać biznesową wartość tego. Bazując na moim doświadczeniu i tym co słyszę od osób pracujących w tej branży, tutaj pojawia się wyzwanie, powiązane z tym od czego zaczęliśmy, że są to dwa różne światy, która nawzajem nie do końca się rozumieją. Czasami bardzo ciężko jest pokazać wartość, dla biznesu bardzo często mierzy się ona w pieniądzach. Ciekaw jestem jak wy to udowodniliście? Zmierzyliście ile naprawdę ludzi kupuje i dzięki temu zwiększyliście zaangażowanie w ten projekt? Czy jakaś inna metryka sukcesu została użyta? Jak to udowodniliście biznesowi? Na początku przeanalizowaliśmy, jakie w rzeczywistości … Czytaj dalej Anna Wróblewska o łączeniu światów: biznes, programowanie i nauka