biznes – Biznes Myśli

Metryki sukcesu w projektach Machine Learning

Vladimir — Mon, 14 Nov 2022 05:45:27 +0000

Dzisiaj porozmawiamy o metrykach sukcesu w projektach uczenia maszynowego.

Temat jest dosyć “gruby”, a więc nie oczekuj proszę, że znajdziesz tutaj odpowiedzi na wszystkie pytania… W zasadzie to nikt ich nie zna i zawsze można coś poprawiać i interpretować inaczej. Na tym polega rozwój i dlatego idziemy do przodu, ale aby w ogóle ruszyć z miejsca, szczególnie jeśli chodzi o projekt ML, to chcę dziś porozmawiać z Tobą na jeden z ważniejszych tematów w uczeniu maszynowym, temat od którego wszystko się zaczyna lub powinno zacząć, bo wciąż niestety zdarza się, że jest traktowany dosyć pobieżnie.

Postaram się odpowiedzieć w tym odcinku na takie pytania:

1. Co to są metryki sukcesu i dlaczego są podstępne?

2. Dlaczego biznesowe metryki sukcesu są takie ważne w projektach ML?

3. Jak biznesowe metryki sukcesu wpływają na techniczne?

4. Jakie pytania warto zadać rozmawiając o metrykach?

5. O częstych błędach popełnianych na tym etapie i ich wpływie na cały projekt?

Jestem człowiekiem, który zdecydowanie woli działać niż rozmawiać, ale jest taki moment w projekcie ML, zadaję pytania, słucham i rozmawiam. Czasem słyszę – “Dobra, to co działamy? Budujemy już ten model?” A wtedy bardzo często nie ma odpowiedzi na najważniejsze pytanie: ale co właściwie chcemy osiągnąć? Jaki jest nasz punkt B? I jak rozpoznamy (w sposób jednoznaczny), że go osiągnęliśmy?

I pierwsza myśl, która przychodzi do głowy – więcej sprzedawać, lepiej identyfikować klientów, lepiej wynajdować usterki. Jeśli operujemy takimi słowami, to z pewnością to nie brzmi jak metryka sukcesu dla ML… To stąd chce się zadać pytanie, co brzmi w takim razie jak metryka?

W sumie na to pytanie najlepiej odpowiedzieć od końca. Co powinno się stać, aby zauważyliśmy, że jest sukces (lub go nie ma)? Na co dokładnie będziemy patrzeć? I tu pojawia się szereg pomysłów, np. zwiększy się sprzedaż. Dobrze, ale kolejne pytanie w porównaniu z czym? Czyli wdrażamy model, mierzymy jaka jest sprzedaż i z czym porównujemy? Bo nie możemy porównać tak łatwo z którymś odcinkiem wstecz, bo tam był inny kontekst. Nawet jak uwzględnimy sezonowość i np. porównamy dokładnie rok wstecz, to nadal może być dość losowe porównania.

Dotarliśmy teraz do ważnego pojęcia, które nazywam “losowym porównaniem”. Co to oznacza? To oznacza, że istnieje milion rzeczy, które możemy porównywać, ale większość z nich niewiele nam coś daje oprócz tego, że porównamy coś z czymś i jest spora szansa, że wyciągniemy złe wnioski (chociaż może przez przypadek wyciągniemy też dobre wnioski, ale w takiej sytuacji też nie ma się co cieszyć z tego powodu – bo będziemy działać w złudzeniu, że wiemy co robimy.

I co teraz robić? No właśnie, mam nadzieje, że już trochę czujesz, że temat wcale nie jest taki trywialny, spróbujmy ugryźć tego słonia po kawałku.

Co to są metryki sukcesu i dlaczego są podstępne?

Co to znaczy metryka sukcesu

Metryka sukcesu to miara, którą śledzimy, aby wiedzieć, czy to co robimy ma sens, czy nasza strategia działania się sprawdza i czy dalej warto iść w tym kierunku. Brzmi pięknie i wydaje się to prosta rzecz, ale tak naprawdę kryje się tutaj dużo pułapek nawet nie wchodząc jeszcze na poziom ML.
Jeśli chodzi o takie podstawowe pytania, które warto sobie zadać, to czy mierzymy właściwe rzeczy i jeśli tak, to czy mierzymy je właściwie
W skrócie, metryka sukcesu jest po to, abyśmy nie przegapili sukcesu, ale też nie pomylili go z porażką.

Podstępność tego tematu polega też na tym, że czasem mierzymy pewne rzeczy, które wydają się ważne i są mierzone we właściwy sposób, ale de facto nic nie robimy z tym, bo np. nie mamy wpływu na zmianę procesu lub nie chcemy go zmieniać z innych powodów. I znajdujemy się w takiej ciekawej sytuacji, kiedy mamy wiedzę, że np. coś działa niezgodnie z naszymi oczekiwaniami, ale brak możliwych ruchów do wykonania, trudność zmian tej sytuacji itp. Takie sytuacje raczej zdarzają się w większych organizacjach, gdzie mamy pewne ugruntowane procesy, których zmiana wymaga znacznie więcej czasu niż np. w startupie, gdzie jest to decyzja jednej, dwóch osób. Dlaczego o tym mówię?

Właśnie po to, aby uczulić Cię jak ważnym i wielowymiarowym tematem są metryki sukcesu.
Fakt że są to już dobrze, ale jeśli decydujemy się inwestować pieniądze i czas w rozwój ML, to zdecydowanie ten temat wymaga przemyślenia przede wszystkim pod kątem biznesowym, a dopiero potem technicznym, bo jak się za chwilę dowiesz modele ML też mają swoje metryki sukcesu, które dobieramy dopiero wtedy, kiedy zrozumiemy te biznesowe, a nie odwrotnie.

Jak interpretować te słowa w kontekście modelu ML

No właśnie, co właściwie oznacza metryka sukcesu w kontekście projektu ML?

Budując model uczenia maszynowego też musimy narzucić mu pewne ramy i dokładnie określić, czego od niego oczekujemy sugerując się naszą potrzebą biznesową. Metryki sukcesu w ML są różne w zależności od wyzwania i celu biznesowego.

Podam Ci od razu przykład. Załóżmy, że mamy dwa modele, każdy z nich prognozuje to samo – odejście klientów (czyli tak zwany churn prediction). Jak to jest większa firma, to taki model jest uruchomiony dla tysiąca czy nawet miliona klientów, czyli dokładnie tyle oszacowań robi model. I teraz to, co chcemy zrobić, to zdecydować, który model radzi sobie lepiej.

W praktyce to oznacza, że jeśli mamy tysiące prognoz z modelu 1 i tyle samo z modelu 2, to chcemy jakoś skompresować te wartości do pojedynczej wartości. Dlaczego pojedynczej?, Bo wtedy człowiek może je łatwiej porównywać, bo porównać dwie grupy, które mają miliony czy nawet tysiące jest trudniejsze, niż porównać dwie pojedyncze wartości. Tylko coś za coś, w tym przypadku tracimy mnóstwo szczegółów, ale dostajemy łatwą możliwość porównać modele.

Metryka modelu ML, czasem jest nazywana też techniczną metryką. Inaczej mówiąc jest to to sposób przekształcania wszystkich prognozowanych wartości do pojedynczej wartości. Np. model prognozuje ceny nieruchomości, jedna z technicznych metryk, którą możemy zastosować to `mae`. W praktyce ta metryka robi kilka prostych kroków:

Dla każdej nieruchomości mamy parę: prawidłowa odpowiedź oraz prognozowana odpowiedź (np. 500 tys oraz 550 tys. )
Znajdujemy różnicę w prognozie, w tym przypadku 500 tys. – 550 tys. i mamy -50 tys. czyli model prognozował o 50 tys. więcej
Pozbywamy się znaku minusa (o ile on jest), chodzi o to, że w tej metryce jest wszystko jedno w którą stronę się pomyliłeś (czy o 50 za dużo, czy o 50 za mało)
Tak robimy dla każdej pary. Np. jak mamy 10k nieruchomości, to dostajemy 10k błędnych oszacowań
Na koniec dla wszystkich tych błędów znajdujemy wartość średnią.

To jest przykład, jak liczy się metryka modelu ML, tak jak już wspomniałem czasem nazywamy ją jako techniczna. Chociaż dla sprawiedliwości dodam, że istnieją co najmniej dwa rodzaje metryk technicznych, ta o której wspomniałem jest prostsza. Pomijając różne szczegóły techniczne, różnica polega na tym, że prostszą metrykę możemy użyć tylko wtedy, kiedy model daje nam finalny wynik.

Natomiast samo trenowanie modelu to jest iteracja i podczas tej iteracji jest też potrzebna metryka sukcesu, która na bieżąco koryguje nauczanie modelu (i zwykle wtedy chodzi o tę wewnętrzną metrykę techniczną). Możesz o tym pomyśleć tak. Jak uczeń chodzi do szkoły, to ma regularnie na bieżąco sprawdziany i np. raz na rok egzamin.

To właśnie taka jest relacja między tymi dwoma metrykami technicznymi – sprawdzającymi jak działa sam model.

Ważne jest to, że już wybrzmiało, że mamy “pośredników”. Na górze tej hierarchii jest metryka biznesowa, następnie metryka techniczna (zewnętrzna) i następnie metryka techniczna (wewnętrzna), która wprost wpływa na model. Pewnie już czujesz jakie są wyzwania, aby na trzecim poziomie robić to, na czym zależy na pierwszym. Jeśli zgubimy ten kontekst, co często lubią robić osoby techniczne, bo tak jest łatwiej, to szansa, że coś pójdzie nie tak, jest coraz większa.

W DataWorkshop mamy twardą zasadę, nigdy nie stawiamy metrykę sukcesu techniczną na piedestał, bo to nigdy nie było celem, tylko krokiem przejściowym. To jest ważne i ta reguła była wypracowana z czasem, pewnie docenisz je lepiej, kiedy popełnisz swoje błędy.

Dobry model a sukces projektu to dwie różne rzeczy

Być może kojarzysz takie podejście, kiedy mówi się w taki sposób:

1. Naszym celem jest osiągnąć coś dla przykładu wstawię tutaj literkę “A”

2. B pomaga nam przybliżyć się do A

3. Naszym celem jest osiągnąć B

No właśnie, to jest taki przeskok, na który często można trafić w praktyce i to myślenie jest pułapką.

Jak domyślasz się dla ML tym punktem B jest techniczna metryka sukcesu (lub metryka modelu), ale z punktu widzenia biznesowego to A jest celem. Inaczej mówiąc, celem końcowym nie jest osiągnąć model z dokładnością 80% według przyjętej metryki MLowej, bo w sumie z punktu widzenia biznesu nie wiadomo co to właściwie oznacza.

To stąd przychodzi inna ważna myśl do głowy. Jeśli, zespół ML/DS za dużo martwi się metryką techniczną i zapomina o metrykach biznesowych (lub w ogóle jej nie ma), to oznacza, że coś poszło źle.

Dodam, że niestety to jest częsty scenariusz i w pewnym sensie naturalny, grunt aby to zauważać i reagować. Tak jak już wspomniałem, sam często włączam się w różne role i dość regularnie łapię się na tym, że będąc w roli technicznej wpadam w stan skupienia całkowitego nad metryką techniczną, ale przełączając się w rolę lidera projektu i spojrzenie bardziej biznesowe trzeba zobaczyć kontekst metryki szerzej niż tylko ta techniczna.

Też jest pewna ważna myśl. To już wybrzmiało wcześniej, ale powtórzę – czasem metryka techniczna może wyglądać “tak sobie”, ale z punktu widzenia biznesu, to już daje wartość dodaną lub odwrotnie (niestety częsty przypadek), techniczna metryka wygląda dobrze, ale to nie daje wartości dodanej biznesu.

Tu pojawia się pytanie, po co tak dużo metryk: biznesowe, techniczne? Czy nie da się po prostu mieć jedną prostą metrykę sukcesu? No też chciałbym, aby to było tak proste, ale zwykle tak nie jest. Bo świat techniczny i świat biznesu dość mocno różnią się pomiędzy sobą. W świecie technicznym jest więcej matematyki i algorytmów, w świecie biznesowym – pieniędzy.

Dodam nawet więcej, z punktu widzenia technicznego świat biznesu nie jest logiczny, bo tam jest dużo nieracjonalnych rzeczy (np. dużo psychologii i innych spraw, które ciężko wyrazić matematycznie). Dlatego tak ważne jest jak najszybciej zbudować most pomiędzy tymi światami, bo inaczej szansa na sukces jest minimalna.

Podam Ci jeszcze mniej oczywisty przykład. Kiedy świat techniczny rozjeżdża się ze światem biznesu. Czasem jest tak, że metryka techniczna jest słaba, ale w tym jest wartość biznesowa, ale czasem bywa jeszcze ciekawej (przykład z życia). Metryka techniczna wyszła trochę gorsza, czy to oznacza, że jest źle? Bo wystarczy zrobić proste ćwiczenia i zapytać, co tak naprawdę teraz mierzymy i czy biznes patrzy podobnie?

Przejdźmy do przykładów, aby lepiej zrozumieć zagadnienie metryk sukcesu w ML w praktyce.

Opowiem Ci kilka przykładów z mojego doświadczenia i z DataWorkshop, gdzie pomagamy naszym partnerom wyciągać wartość z danych. Nie mogę wprost podawać danych i szczegółów, ale przykłady będą na tyle soczyste, że bez problemu pobudzą Twoją wyobraźnię i mam nadzieję pomogą Ci lepiej zbadać kontekst Twoich projektów.

Podzieliłem przykłady na branże, aby łatwiej było Ci identyfikować rodzaje wyzwań i problemów, ale nie musisz się ich pilnować. Czasem przykład z branży logistycznej jest bardzo bliski temu z e-commerce

Przykład 1 – logistyka i wypłacalność firm

Wyobraź sobie, że musisz odpowiedzieć na pytanie: czy warto zacząć współpracę z firmą x mimo iż spełnia podstawowe warunki – ma towar do przewiezienia i szuka zleceniodawcy, a Ty masz firmę logistyczną. Stoisz przed dylematem, podjąć się tego zlecenia czy nie. Skąd w ogóle takie pytanie?

Skąd ten dylemat? Dlaczego nie wykonuje się wszystkich zleceń? W sumie na to pytanie może być wiele odpowiedzi. W przypadku z mojego doświadczenia chodziło o wymiar finansowy. Co to oznacza?

Czy firma A faktycznie zapłaci firmie B?
Czy firma A jest zaufaną firmą? Chodzi o to, że jak znajduje się np. na tak zwanej czarnej liście dla urzędu skarbowego, to może nieść ryzyko niewypłacalności i przy okazji powodować inne problemy.

Nas (z punktu widzenia modelu ML) jednak najbardziej interesowało w kontekście tego projektu, czy firma zapłaci. Tylko znów pojawia się pytania, co to oznacza w praktyce “czy zapłaci”? Jak to możemy jednoznacznie zdefiniować? Popatrzmy na to z perspektywy osi czasu.

Porozważajmy…. Kiedy uznajemy, że dana firma jest wypłacalna, a współpraca udana?
Jakie mamy opcje?

zapłaci przed wykonaniem pracy (zaliczka 100%)
zrobi zaliczkę przed, ale nie zapłaci resztę po
zapłaci tuż po wykonaniu zlecenia (w ten sam dzień)
zapłaci tydzień po wykonaniu zlecenia
zapłaci miesiąc po wykonaniu zlecenia
zapłaci więcej niż miesiąc po wykonaniu zlecenia
zapłaci częściowa i różne kombinacje czasowe

Po zrozumieniu, że definicja wypłacalności, stało się zrozumiałe, że nie mamy jednoznacznej odpowiedzi na te pytania, a definicja “firmy, która płaci” wcale nie jest taka trywialna. Skoro nie mamy danych wprost “czy zapłaci” lub te dane nie są tak jednoznaczne, to też nie możemy wytrenować modelu i tego zmierzyć.

Naturalnie pojawia się pytanie, co dalej? W takiej sytuacji zwykle chcemy trochę zmniejszyć złożoność problemu, ale aby wynik też był wartościowy i przybliża nas do głównego celu. Pytanie było takie, jeśli prognozujemy czy firma zbankrutuje, czy to już nie rozwiąże częściowo nasz problem? Bo firma, która bankrutuje nie ma pieniędzy (i to dlatego bankrutuje), więc brzmi, że nie zapłaci. Co ważne dane o bankructwie firmy można znaleźć w zewnętrznych źródłach danych. To oznacza z kolei, że już możemy to policzyć.

Kolejna ważna rzecz z punktu widzenia metryki biznesowej. Każdy model będzie się mylić, więc od razu trzeba zrozumieć, że są koszty błędu dwóch rodzajów: sytuacja, kiedy przegapimy firmę “bankrutującą” i zadajemy sobie pytanie, na ile to nas boli lub w drugą stronę, kiedy “za dużo” firm wg modelu zbankrutuje, a w rzeczywistości na dany moment mają się dobrze.

Wtedy mamy taką sytuację, że firma B odmówi we współpracy z firmą A mimo iż może ona zapłacić. Od razu podpowiem, że najlepiej na to pytanie odpowiedzieć przeliczając to i kalkulując na różnych przykładach. Wtedy to znacznie bardziej przemawia biznesowo. Jakie są możliwe scenariusze: w sumie trzy najważniejsze:

Pierwszy błąd jest zdecydowanie gorszy, niż drugi.
Błędy bolą podobnie, więc nie możemy uznać, że któryś jest gorszy.
Drugi błąd jest zdecydowanie gorszy, niż pierwszy (odwrotna sytuacja do 1).

Oczywiście na tym nie skończyła się przygoda. Pojawiły się kolejne wyzwanie, które udało się wykryć robiąc prosty prototyp od, ale to już inna historia, na którą jeszcze będzie czas.

Jak widzisz, startujemy z pewną abstrakcją, która wydaje się konkretem, czyli “czy firma zapłaci”. Swoją drogą, to jest prawie standard, że nawet tam gdzie mamy niby konkret, potem i tak robimy jedną czy więcej iteracji, aby upewnić się, czy jest spójność i jednoznaczność.

Też pewnie już widzisz, że z góry zakładamy, że każdy model będzie się mylić, pytanie tylko jak bardzo nas to zaboli? Który błąd zaboli mniej? To znów kolejny argument, dlaczego tak ważne jest dobrać właściwą metrykę sukcesu. To jest jak kompas, a my podróżnikami we mgle.

Przykład 2 – optymalizacja procesu produkcji w przemyśle

Być może też pracujesz w dużym przedsiębiorstwie, które coś produkują. Jeśli tak to wiesz, że optymalizacja procesów i redukcja odpadów produkcyjnych, to zagadnienia, które mocno się takim firmom opłacają. A jeśli są dane, to i możliwa jest optymalizacja z pomocą ML w wielu wypadkach.

Tylko jak znaleźć ten proces, ten etap który, gdzie uczenie maszynowe może pomóc? Inaczej mówić trzeba znaleźć nisko wiszące owoce, od tego zwykle najbardziej opłaca się zaczynać ML.

Zaczyna się prosto i skomplikowane zarazem – od zadawania pytań.

To, co my robimy w takich sytuacjach, to organizujemy na początku szereg spotkań z kluczowymi osobami np. tymi, które najlepiej znają produkcję i wyzwania z jakimi się mierzy zarówno na poziomie wykonawczym, jak i biznesowym (często różne osoby). W ciągu 2-3 dni po takiej serii wywiadów możemy wychwycić już naprawdę fajne ciekawostki i niespójności, które mocno rzutują na kolejne kroki projektu.
A więc wartość rodzi się już na samym starcie.
Kolejny krok to wspólnie wybrać proces, którym chcemy się zająć, bo są tam nisko wiszące owoce, czyli stosunkowo niewielkie usprawnienia są w stanie przynieść spore pieniądze dla firmy.

W tym przykładzie z branży przemysłu to była redukcja odpadów czy też zmniejszenie ilości produkowania wadliwych części i produktów, zresztą to jest dosyć popularny przypadek, bo tam firmy tracą zwykle dużo pieniędzy i zwykle da się sporo poprawić.

Ok, mamy już swój wzrok skierowany nie na całą firmę, a wybrany problem i proces, brzmi lepiej, ale wciąż trzeba znaleźć odpowiedzi na wiele pytań i to właśnie w kontekście metryk sukcesu, czyli doprecyzować, co właściwie oznacza sukces w takim wypadku, a co będzie porażką.

Co to oznacza w praktyce zmniejszanie wadliwych części? W jakim okresie czasie?
np. jak na jedną część w rok będzie mniej, czy to już sukces?

Wskazówka: w tym i każdym innym przypadku tego typu fajnie móc znaleźć taką metrykę biznesową, aby dało się to wprost przeliczyć na pieniądze, np. wiadomo, ile kosztuje produkcja np. 1 części, czyli wiemy ile firma straci produkując ją wadliwą. Liczymy, ile sztuk produkujemy średnio wadliwych nic nie zmieniając i o ile odratowanych walczymy, aby wysiłek włożony w optymalizację się zwrócił. I tutaj można by skończyć, ale dalej w sumie mamy wiele niewiadomych.

Jakie dodatkowe pytania warto zadać?

Czy mamy wpływ na to, by zmniejszyć liczbę wadliwych części?

Tu już nie ma łatwych odpowiedzi, bo np. posiłkując się przykładem, który jest mi bliski, z którym pracowałem, część materiałów, z których dany produkt jest produkowany są dostarczane z zewnątrz i faktycznie nie zawsze mamy wpływ na to, aby to naprawić, jeśli akurat tam jest problem. Odnotujmy to jako kolejny fakt na ten moment naszej historii.
Czym tak naprawdę jest produkowany produkt?

Czy to jest “coś pojedynczego” czy składa się z mniejszych innych części. Często, a przynajmniej z mojego doświadczenia, a widziałem to na własne oczy, taki produkt składa się z kilku lub kilkunastu innych części tzw. półproduktów.

I tu dochodzimy do fajnego punktu…

Zobacz, cel biznesowy to zmniejszyć ilość wadliwych produktów w ostatecznym rozrachunki – to też trudniejszy przypadek, bo nie zawsze mamy wpływ na wszystkie czynniki, które to powodują.

Nawet, jak model wykryje, że coś jest nie tak, to co dalej? Gdzie tu jest wartość dodana dla biznesu?

Ale nawet w tym przypadku jest, tylko trzeba ją zauważyć i zdefiniować.

Przykład – aby powstała kompletna część, wędruje ona przez linię produkcyjną i przechodzi przez różne etapy, gdzie za każdym razem dokonuje się pewna zmiana, która przybliża nas do finalnego produktu. Takie przejście zajmuje czas, jak się domyślasz także tutaj czas = pieniądz.

Załóżmy, że jednym z powodów wady produktów może być wada materiału użytego do jego produkcji. O co teraz walczymy? O to, aby wykryć to najwcześniej jak się da – oszczędzić czas, inne materiały, energię na produkcję czegoś, co będzie wadliwe, tylko zwykle dowiadujemy się za późno, że coś poszło nie tak.

Zwykle w takich fabrykach walczymy o minuty lub nawet sekundy, które źle wykorzystane powodują dalsze opóźnienia. Marnujemy czas na produkcję wadliwej części i nie produkujemy w tym czasie też tej prawidłowej = podwójna starta można powiedzieć.

Najczęściej popełniane błędy

Brak metryki sukcesu biznesowej.
Metryka biznesowa jest zbyt abstrakcyjna, np. nie mierzy pieniędzy lub chociażby czas
Metryka techniczna jest oderwana od metryki biznesowej.
Zespół zbyt dużo skupia się na metrykach technicznych i mówią, zbyt złożonym językiem do biznesu, zamiast tego, aby lepiej zrozumieć jaki problem biznesów chcą rozwiązać.
Każda metryka techniczna, to jest pewne przybliżenia, nie można jej ufać na 100%, bo tracimy tam szczególiki (podobnie jak tracimy szczególiki patrząc na wartość średnią), warto robić dodatkowe testy i sprawdzać co w rzeczywistości uzyskaliśmy.
Brak zarządzania ryzykiem, czyli pominięcia tego, że każdy model myli się, ale ten błąd może kosztować różnie i warto to rozważyć z perspektywy biznesowej i zacząć tym zarządzać świadomie.
Paraliż przed startem, skoro metryka jest dość trudna, to nie wiem jak zacząć. To źle, zacznij od czegoś i zrób kilka iteracji do przodu i wtedy będzie łatwiej skorygować metrykę, bo lepiej poznasz wycinek rzeczywistości, w której się obracasz. Innymi słowami, małymi krokami do przodu, na początek stawiasz pierwszy krok i prawdopodobnie wybierzesz gorszą metrykę, przynajmniej już zaczniesz iść do przodu. Ważne aby tylko nie zapomnieć skorygować tę metrykę, jak już zgromadzisz większe rozumienie.

Podsumowanie

1. Wybranie właściwej metryki jest trudnym procesem! Mało tego, zwykle nie da się to zrobić dobrze za pierwszym razem, bo jest zbyt dużo niepewności dookoła i rzeczywistość i tak nas zaskoczy.

2. Tylko to wcale nie oznacza, że trzeba wpaść w tak zwany paraliż decyzyjny i przez lata teoretycznie wybierać tę metrykę. Wręcz przeciwnie. Trzeba wybrać na początek w miarę prostą, która brzmi sensownie i przeprowadzić jak najszybciej eksperyment od początku do końca, aby lepiej zrozumieć jakie są ograniczenia, jakie są wady wybranej metryki (i dlaczego) i co możemy zrobić, aby to usprawnić. Wybrać kolejną metrykę i iść do przodu.

3. Ważne jest to, aby na danej iteracji była jedna główna metryka, nie można skakać lub przybliżać, bo inaczej nie wiadomo co z czym porównywać. Też warto mieć kilka, tak zwanych spadochronów zapasowych, czyli metryki wspomagające wykrywać anomalii. Te pomocnicze metryki, są po to, aby mieć większą pewność, czy to co robimy nadal ma sens.

Zadanie dla Ciebie

Czas na ćwiczenia. Wymyśl gdzie model ML może być pomocny dla Ciebie? Zacznij rozważać jak to będziesz mierzyć? Czy da się tam zmierzyć jednoznacznie? Czy są w tej metryce zawarty pieniędzy? Czy masz wpływ na to co chcesz zoptymalizować?
Podziel się swoim przemyśleniem ze mną :).

Artykuł Metryki sukcesu w projektach Machine Learning pochodzi z serwisu Biznes Myśli.

Kluczowe role w projekcie Machine Learning

Vladimir — Mon, 03 May 2021 03:00:17 +0000

Dlaczego większość projektów Machine Learning nie odnosi sukcesu lub wręcz upada?

Jakie są kluczowe role, aby projekt miał szansę przeżyć i przynieść wymierne korzyści?

Posłuchaj tego odcinka podcastu lub przeczytaj artykuł, aby odpowiedzieć na te i wiele innych pytań, które zwiększają szansę na powodzenie projektów klasy R&D w branży Data Science i Machine Learning.

Dlaczego tak wiele projektów ML rozpoczyna się, ale większość z nich kończy się bez sukcesu? Czy da się tym efektywniej zarządzać?

Wszystkie szczęśliwe rodziny są do siebie podobne, każda nieszczęśliwa rodzina jest nieszczęśliwa na swój sposób

Lew Tołstoj, Anna Karenina.

Podobnie jest z ML, istnieje wiele przyczyn, co może pójść nie tak, więc próba wymienić je wszystkie może być dużym wyzwaniem. Analizując sytuacje, których byłem świadkiem lub takie, w których mogłem dostrzec pewne szczegóły, aby wyciągać wnioski, zadałem sobie trudu zapytać, czy da się wyłonić z tego kilka punktów, które są ważne, aby projekt ML (niemal każdy) mógł się udać.

Podchodziłem do tego zadania na kilka sposobów. Natomiast zostałem przy dość oczywistej interpretacji i skupiłem się na ludziach. Mówiąc dokładniej – ludzi w pewnych rolach, które są kluczowe dla projektów Machine Learning moim zdaniem.

W zespole powinny się znaleźć pewne role, aby projekt się udał. Teraz nie chcę wymieniać ich wszystkich i rozdrabniać się, ponieważ przy pracy z danymi istnieje wiele ról, takich jak np.:

Machine Learning Engineer
Data Engineer
Machine Learning Researcher

I każdy z nich robi coś swojego, ale w tym dzisiejszym rozważaniu te role połączę w jedno i nazwę ją jako rola techniczna.

Na początek podam Ci prosty wzór, który wręcz jest dość oczywisty. Natomiast następnie przerobimy konkretne przykłady i zobaczysz, że stosując ten prosty schemat naprawdę można szybko wychwycić potencjalne problemy.

Kluczowe role w zespole Machine Learning

Warstwa pierwsza (role):

Marzyciel/Wizjoner
- ma pomysł (marzenie) zrobić “coś”.
Kierownik/Manager/PM
- Potrafi przenieść marzenie na poziom planu (ustawić priorytety, deadline, przypisać zadania do właściwych wykonawców itd).
Wykonawca
- Potrafi wykonać plan (dobrze).

Dodatkowo można powiedzieć, że ta struktura zagnieżdża się, czyli możemy wziąć sobie rolę wykonawcy i tam wyróżnić:

Wykonawca Wizjoner (umie łączyć świat “wykonawcy” ze światem wizjonera)
Wykonawca-Kierownik (umie dobrze zdefiniować np. techniczne zadanie)
Wykonawca-Wykonawca (zrobi dobrze zdefiniowane zadanie)

Pewnie ciekawy jesteś, na czym polega rola: Wizjoner x 2. Simon Sinek powiedział:

„Vision” is the ability to talk about the future with such clarity it is as if we are talking about the past.

„Wizja” to umiejętność mówienia o przyszłości z taką klarownością, jakbyśmy mówili o przeszłości.

Pomyśl, jak dużo znasz wizjonerów (lub mówiąc precyzyjniej osób, które zajmują się wizją) i potrafią ją bardzo precyzyjnie określić? Wizjoner-Wizjoner, to jest człowiek, który więcej czasu spędza w teraźniejszości, aby lepiej wyczuć przyszłość. Natomiast prawda jest taka, że takich ludzi jest mało. Dlatego występowanie wszystkich 9 ról jest przypadkiem idealnym.

Mając przynajmniej takie 3 role (albo nawet 3 x 3), zwiększasz swoje szanse, że Twój projekt ML się uda. Swoją drogą, czy te wszystkie role może pełnić jedna osoba?

W teorii pewnie tak, w praktyce dość rzadkie zjawisko (o ile możliwe). Natomiast te 9 ról wcale nie oznacza zawsze 9 osób. Jedna osoba, może łączyć w sobie kilka ról. Natomiast ważne jest, aby być świadomym tego, czy w Twoim zespole są spełnione istotne role (przynajmniej 3 role).

Opowiem Ci 3 historie, podczas których pojawiły się pewne kłopoty przy projektach. Z jednej strony te kłopoty są dość szczególne i po swojemu “nieszczęśliwe”, ale jeśli przyjrzeć się im dokładniej, to można zobaczyć, że te kłopoty są skutkiem tego, jak rozłożyły się pewne role w projekcie i zespole.

Pochopne budowanie infrastruktury

Spróbujmy lepiej zrozumieć kontekst. Z jednej strony wiemy i także ja to ciągle powtarzam, jak ważne są dane dla ML. To jest prawda. Nie mając danych, nie można wytrenować modelu, bo to jak w tym słynnym powiedzeniu – dane są paliwem dla modelu. Z drugiej strony zdrowy rozsądek jest ważniejszy! Miałem okazję zobaczyć na własne oczy skrajność, która z dużym prawdopodobieństwem może powielać się w wielu przypadkach. O co chodzi?

Pewna spółka wpadła na pomysł, że skoro dane są konieczne ML, to najpierw budujemy infrastrukturę i zbieramy dane. Początek brzmi sensownie, ale co to oznacza w praktyce (słynne pytanie, które często zadajemy w DataWorkshop)? Ta spółka zaprosiła do tego ludzi, którzy znają się na budowaniu infrastruktury IT. Powstał plan, jak fajne pewne procesy można skalować, nawet petabajty danych można obsłużyć. Płacimy tylko wtedy jak używamy te zasoby i dzięki temu mamy duże oszczędności. To wszystko brzmi atrakcyjnie i nawet może sprawić, że jesteśmy na wygranej pozycji już na starcie.

Teraz nie próbuję podważać kwestii technicznych (czy to naprawdę skaluje się i czy płacimy tylko wtedy jak używamy) oraz czy taka infrastruktura jest naprawdę potrzebna, bo docelowo tak, ale …

Zwracam uwagę na coś innego. W tej dyskusji (której byłem świadkiem) zabrakło jednego ważnego pytania, które powinno być zadawane zawsze, a w przypadku początkowego etapu rozwoju projektu ML i firmy szczególnie często.

Po co? Po co nam infrastruktura, która fajnie skaluje się, skoro nawet nie wiemy, jakie dane chcemy zbierać i w jakiej postaci.

Podam Ci analogię, jak to brzmi dla mnie. Zamiast tego, aby zaprojektować dobry biznes model i uruchomić go w rzeczywistości i zweryfikować czy to faktycznie działa, zamiast tego spędzasz swoją całą uwagę, który bank wybrać aby przechowywać tam właśnie zarobione pieniędzy. Tylko jeszcze nie masz tych pieniędzy i nawet nie wiesz, czy będą, bo dopiero testujesz pomysł.

Owszem przydałoby się zarządzać również pieniędzmi we właściwy sposób, ale kolejność działań jest istotna. Myślę, że zgodzisz się z tym, że problem gdzie przechowywać pieniądze jest dość “przyjemniejszy” i na to jest sporo “gotowców”. Ciężej jest pieniądze pozyskać.

Zobacz, jak łatwo jest zgubić koncentrację i zacząć robić niewłaściwe rzeczy. Skupienie się na niewłaściwych rzeczach, nawet kiedy je zrobisz we właściwy sposób – powoduje, że i tak przegrasz (czas, pieniędzy, rynek lub wszystko na raz)!

Jak byłem w Stanach, wtedy pracowałem jako architekt systemu wyszukiwarki w General Electric, to na jednym ze spotkań w pracy zauważyłem napis na tablicy:

The manager does things right; the leader does the right thing.

Menedżer robi rzeczy we właściwy sposób, lider robi właściwe rzeczy. Przykuła moją uwagę ta gra słów: “do things right “ oraz “do right thing”. Robić rzeczy we właściwy sposób vs robić właściwe rzeczy. Taka zwykła odmiana słów i totalnie zmienia sens tego, co robimy.

Zwrócę Twoją uwagę, że pytałem “po co?” nie pytam “po co chmura?” To są różne pytania. Bo chociażby w poprzednim odcinku mówiłem, że chmura daje duże możliwości. Mało tego jako DataWorkshop używamy jej na co dzień i to faktycznie nam pomaga, ale robimy to świadomie. Zobacz, w naszym przypadku to było tak, że najpierw zrozumieliśmy na mniejszą skalę, jakie dokładnie mamy problemy, gdzie faktycznie jest wąskie gardło i potem zaczęliśmy je rozwiązywać.

Przykład: aby skalować środowisko jupyter, czyli naszą platformę (opartą na open-source rozwiązanie), gdzie ludzi trenują modele uczenia maszynowego i robić to największą skalę (1000 lub więcej osób jednocześnie) w dużym stopniu automatyzacji potrzebowaliśmy użyć właściwego narzędzia i go użyliśmy. Mieliśmy problem, znaleźliśmy optymalne rozwiązanie. W tym przypadku najpierw zrozumieliśmy, który problem jest właściwy i następnie go rozwiązaliśmy we optymalny sposób.

W zależności od tego, gdzie jest Twoja firma, również może wybrzmieć zadanie, że model potrzebuje danych do trenowania. Jeśli dopiero zaczynasz lub masz duże zaległości z infrastrukturą – to należy o to zadbać, ale zrób to z głową. Najpierw trzeba znaleźć właściwe rzeczy, np. właściwy problem do rozwiązania.
Podpowiem Ci, jakie pytania stosujemy, aby upewnić się, czy to jest właściwa rzecz. Pytanie jest bardzo proste.

Co się stanie, jeśli tego nie zrobimy? Tylko znów na to pytanie, należy odpowiedzieć w kontekście “co to oznacza w praktyce”. Np. abstrakcyjna rozmowa, jeśli nie mamy infrastruktury IT to nie ma danych, więc nie będziemy trenować modeli ML jest dość abstrakcyjna. Bo równie dobrze można mieć dużo serwerów, które przez przypadek można nazwać jako infrastruktura IT, ale co z tego? Skoro tam gromadzą się losowe rzeczy, które wcale nie są danymi, na które model oczekuje, to nadal mamy ten sam problem.

To w takim razie zadam inne pytanie. Co powinno się stać, aby model wytrenować? Można na to pytanie odpowiedzieć abstrakcyjnie: potrzebne są dane, ale znów używając naszego słynnego pytania “co to oznacza w praktyce?” lub ewentualnie pomocnicze pytanie “jak możemy rozpoznać i zmierzyć ten moment, że mamy dane”. To pytanie powoduje, że zaczynamy bardziej dokładniej rozpisywać ten proces.

Na przykład:

Mamy tabelę w bazie danych.
Która ma 10k rekordów i 150 kolumn.
Każda kolumna to…. oraz mamy nasza odpowiedź (czyli tak zwana zmienna docelowa).

Dobra, to skoro na początek potrzebujemy bazę z 10k (czy nawet 100k) rekordów, to wystarczy najzwyklejsza baza MySQL/PostregSQL, która np. w chmurze da się wyklikać za 5-10 min i automatycznie mieć backup i w razie potrzebny nawet ustawić replikę. To po co na początek spróbować więcej losowych rzeczy? Zamiast tego, aby sprawdzić, czy te dane, które mamy są właściwe?

Oczywiście, mówiąc te słowa, rozumiem, że to może doprowadzić do innej skrajności, kiedy robi się duży dług techniczny. Natomiast to, co próbuję przekazać to idea, że bycie efektywnym wymaga myślenia i ciągłego zadawania sobie pytań, czy to, co robię jest naprawdę właściwym krokiem?

To co sami robimy w ramach DataWorkshop i polecam, to robić, to dużo małych kroków, aby móc szybko i jasno odpowiadać na pytania “co to oznacza w praktyce”. Owszem w małych krokach też można się mylić, ale to mniej boli.

Jeśli dopiero zaczynasz wdrażać ML i nie wiesz, co to oznacza dane, to warto coś zrobić, aby w Twojej głowie było lepsze rozumienie, jakie dane są potrzebne, aby to mogło wytworzyć wartość dodaną. Nie musisz rozumieć wszystkiego, od tego są specjaliści, ale spróbuj zrozumieć podstawy. Obserwuj różne inicjatywy, które robimy w DataWorkshop, część z nich jest też bezpłatna i zbadaj ze zrozumieniem ten temat. Dzięki temu ciężej będzie Ci błądzić i może unikniesz całkowitego zagubienia. Po prostu od razu będziesz wiedzieć, czego chcesz!

Wróćmy do tego, o czym mówiliśmy na początku.Jakich ról zabrakło w tym przypadku?

Był wizjoner. Pojawili się wykonawcy-wykonawcy (czyli osoby, które potrafią np. świetnie skalować storage itd). Natomiast zabrakło spójnika. To znaczy powiem, że w zespole było dużo różnych osób, ale zabrakło wśród nich takiej osoby, która była w stanie wyczuć, na czym polega “marzenie” skonsultować go z wykonawcami, zadając sporo pytań “po co?” i przygotować solidny plan. Wbrew pozorom ta rola jest trudna, tu chodzi o coś więcej niż zwykły project-manager, który pogania i pilnuję deadline.

Czasem tę rolę spełnia pewnie CTO, czasem Data Officier czasem ktoś C-level, nie ważne, ale ważne, aby był człowiek, który z jednej strony potrafił wczuć się w “wizje/marzenie”, z drugiej strony potrafił to przepisać jako plan działań i znaleźć właściwe osoby, które to zrealizują. Nawet powiem więcej, ta osoba powinna sama móc to wszystko napisać (bo wcześniej już to robiła), tylko ze względu na stanowisko brakuje na to czasu. Myślę, że to zdanie jest w stanie dość mocno pomóc, aby sprawdzić, czy w Twoim zespole jest taka osoba.

Kierownik w zespole a biurokratyzacja

Kiedyś Elon Musk w jednym z wywiadów powiedział, na czym ma koncentrować się CEO:

„Spend less time on finance, spend less time in conference rooms, less time on PowerPoint and more time just trying to make your product as amazing as possible„
Spędzaj mniej czasu finansami, spotkaniami, power point i więcej czasu robiąc Twój produkt lepszym jak to tylko jest możliwe.

Ta wypowiedź jest ciekawa, ale nasuwa się inne pytanie. Kiedyś usłyszałem, takie pytanie, który CEO jest lepszy:

Innowator (powiedzmy właśnie taki Musk);
Manager (który stabilizuje procesy);
Prawnik (który walczy o patenty, prawa autorskie itd.);
Urzędnik (który procesuje w nieskończoność).

Jak myślisz, który CEO jest lepszy?

Na początek, nasuwa się (przynajmniej u mnie), że innowator. To jest oczywiste, bo najbardziej mi rezonuję, ale właściwa odpowiedź, brzmi klasycznie – to zależy. To zależy, gdzie jest Twoja firma i o co walczysz. Słuchając (lub czytając wywiadów) z osobami, które zbudowały firmy od zera do potęg, to słyszę dość często, że np. biurokracja jest konieczna, na pewnym etapie rozwoju firmy. Po prostu (w ich doświadczeniu), jak ludzi staje się więcej, powiedzmy więcej niż tysiąc czy kilka tysięcy to musi pojawić się sporo biurokratycznych procesów.

To w tym przypadku, stawiania innowatora jako CEO do takiej firmy, raczej nie zawsze jest dobrym pomysłem. Dla mnie zrozumienie dojrzałości firmy i że ona ma różne potrzeby (różnych liderów) i różnego sposobu myślenia stało się odkrywcze. Z jednej strony to jest oczywiste, ale z drugiej strony stąd płynie wiele ciekawych wniosków.

Nie próbuję powiedzieć, że innowacyjny CEO/ lider jest tylko jedną możliwą opcję, bo fakty jak na razie mówią coś innego. Chociaż może to kwestia zmian, które dojrzewają, po prostu musi przyjść nowe pokolenie i to zmienić, co myślisz?

Warto też zrozumieć, że projekty R&D bardzo potrzebują innowatorów. Bo to jest ich natura. Dlatego przy większych organizacjach opłaca się robić mniejsze niezależne jednostki. Myślę, że dobrym przykładem jest PZU-lab. Więcej możesz posłuchać na ten temat w rozmowie z Marcinem Kurczabem w 69 odcinku podcastu.

Wymieniłem, że w zespole mają się znaleźć co najmniej 3 role, najlepiej 9 ról, aby dowieść projekt ML. Natomiast może się znaleźć znacznie więcej, ale część z tych ról niestety może bardziej zaszkodzić, bo z jednej strony wydaje się, że to jest rola środkowa (czyli kierownik), ale jak to jest w praktyce?

Na ile kierownika w tych moich rolach można nazwać urzędnikiem lub nawet biurokratom? Świadomie używam tych słów, aby podkreślić co próbuję powiedzieć. Jeśli człowiek pełniąc rolę kierownika w projektach ML zachowuje się bardziej jako urzędnik, czyli bardziej dba o papierki i o to, aby wszystko zgadzało się na papierku, to można uznać, że mamy w zespole urzędnika (który “przejmuje” władzę) może przynieść dużo negatywnych konsekwencji i nadal brakuje kierownika.

Kierownik w moim rozumieniu to osoba, który z jednej strony jest bardzo poukładana, ale z drugiej strony ma otwarty umysł, potrafi zrozumieć zmienną i płynność projektów R&D i uwaga znaleźć narzędzie, aby tym ryzykiem zarządzać. Natomiast to narzędzie nie jest banalnym spisywaniem na papierku (czy wersji cyfrowej), tylko coś więcej.

Jako ciekawostka i pewien paradoks. Spotkałem już różnych ludzi, którzy są jeszcze jedną nogą na uczelni (lub już może porzucili) i narzekają, że uczelnie są skostniałymi organizacjami – dużo biurokracji i po prostu nie da się tam rozwijać (z czym ciężko jest nie zgodzić się czasem), więc ten człowiek mówi – rzucam to i idę do biznesu.

Tylko paradoks polega na tym, że ten człowiek (o ile już spędził trochę lat na uczelni) nie potrafi ot tak myśleć inaczej. Psycholodzy na to mają swoją terminologię, natomiast jako programista powiem dość prosto – każdy z nas działa wg programu, który nadpisało mu otoczenie (zaczynając najpierw od rodziców, przyjaciół, kolegi i koleżanek). To może brzmieć dziwnie, przecież sam zarządzam swoim życiem.

Natomiast to jest łatwo sprawdzić, jeśli zaczniesz mierzyć swoje opinię, poglądu do wartości średniej swojego otoczenia. Wiem, że czasem lepiej o tym nie wiedzieć, ale już wiesz dlaczego spędzając więcej czasu w środowisku, w którym wszystko było mocno biurokratyczne, ciężko jest pozbyć się tego myślenia. To jest możliwe, ale to wymaga dużej pracy i otwartości na nowe doświadczenie, zwykle z tym już różnie bywa.

Podsumować ten punkt mogę powiedzieć tak. Kiedy urzędnik trafia na stanowisko kierownika projektów R&D, możesz być prawie pewien – że będzie wszystko zgadzało się na papierkach (np. tak jak to jest lub powinno być NCBR), ale czy wydarzy się coś więcej? To pytanie zostawię dla Ciebie.

Poprawa sprzedaży …

Opowiem Ci trzecią historię.

Chcemy poprawić sprzedaż do istniejących klientów w bazie danych.

Takie zdanie do nas napisała jedna z osób jako pomysł do zastosowania ML.

Spróbujmy przyjrzeć się temu. Sam cel jest zrozumiały, no bo ciężko jest znaleźć biznes, który nie chce poprawić sprzedaży.

Teraz pytanie co powinno się stać, aby to udało się?

W dużym uproszczeniu mamy marzenie, chcemy usprawnić sprzedaż. Kolejnym krokiem jest znaleźć dobrego kierownika i wykonawców. Natomiast należy zrobić to rozsądnie i we właściwej kolejności. Jeśli znajdziesz tylko dobrych fachowych technicznych, to jest duża szansa, że coś dostaniesz, ale nie wiadomo po co. Dlatego najpierw, w ten czy inny sposób, należy zrozumieć, co dokładnie może pomóc, aby sprzedaż wzrosła.

Czy tutaj na pewno ML jest potrzebny? Być może trzeba zostawić telefon lub e-mial na stronie internetowej, aby klienci mogli kontaktować się, być może lepiej opisać swój produkt lub usługi, jakie dokładnie problemy rozwiązuje. Natomiast jeśli to wszystko już jest zrobione i trzeba coś więcej, to może faktycznie warto sięgnąć po ML. Tylko znów, pomyśl dokładniej przed wykonaniem, co chcemy usprawnić.

Istnieje wiele przykładów, kiedy ludzie wprowadzając małe zmiany potrafili osiągnąć duży sukces. Polegało to na tym, aby myśleć wprost, jak zwiększyć x2 sprzedaż, pomyśl, jak możesz usprawnić każdy poszczególny krok (np. w lejku sprzedaży o 2%), to już brzmi zdecydowanie mniej rewolucyjnie, ale jak masz takich kroków 5 sztuk i każdy poprawisz o 2% to masz ostatecznie 2.5 razy lepiej. Zobacz na przykładzie. Mamy 5 kroków. Stan przed był, na każdym kroku przechodzi 10%, stan każdy krok poprawiamy o 2%, czyli konwersja na każdy kroku 12%

Przykład:

100000 => 10000 => 1000 => 100 => 10 => 1
100000 => 12000 => 1440 => 172.8 => 20.7 => 2.5

Mając taką wizję (co nadal nie jest klarowne), ale przynajmniej można próbować zrobić przymiarki i zobaczyć co może pomóc zwiększyć konwersję na każdym kroku o 2%. Być może właśnie ML, ale też nie zawsze. Czasem chodzi o jakieś proste działania.

Natomiast jeśli jednak chodzi o ML, to przynajmniej w tym przypadku właściwy kierownik projektu będzie w stanie przekuć to na właściwie zadania, rozpisać na osi czasu i wyjaśnić wykonawcom, co należy zrobić.

Podsumowanie

Opowiedziałem Ci dzisiaj moje przemyślenia o rolach, które powinny się znaleźć, są co najmniej trzy lub nawet 9, to wizjoner/marzyciel, kierownik oraz wykonawca. Natomiast każdą z tych ról można jeszcze dodatkowo podzielić na kolejne podobne trzy.

Podałem też przykład, że mogą się pojawiać inne role w zespole lub wiele innych osób, ale to często zwykle powoduje więcej kłopotów niż pożytku. Biurokracja w projektach R&D zwykle wprowadza dużo zamieszania. Jeśli Twoja organizacja jest duża i jej natura jest taka, że inaczej nie da się – buduj laby, niezależne komórki, które rządzą się prawami startupów (innowacyjności i mają na czele lidera innowatora).

Bardzo jestem ciekaw Twojej informacji zwrotnej. Właściwe nazwy ról, które nadałem są mało istotne, ale ciekawy jestem, czy masz przykłady z życia wzięte, kiedy któraś inna rola koniecznie jest potrzebna (dla projektów ML) i w moim zestawieniu zostało pominięta? Zapraszam do merytorycznej dyskusji.

Tak się składa, że kolejny odcinek będzie setny. Pewnie to ma być coś ciekawego? Też tak myślę dlatego do usłyszenia za 2 tygodni, już szykuję materiał.

Artykuł Kluczowe role w projekcie Machine Learning pochodzi z serwisu Biznes Myśli.

Chmura Krajowa – sztuczna inteligencja i wykorzystanie danych w biznesie

Vladimir — Mon, 19 Apr 2021 10:17:14 +0000

Zaczynamy drugi sezon podcastu o sztucznej inteligencji i wykorzystaniu danych w biznesie!

2 sezon zaczął się trochę później, m.in. dlatego, że uruchomiliśmy w ramach DataWorkshop taką inicjatywę jak DWthon – hack outside the box, która pochłonęła więcej czasu. Zaraz Ci opowiem, o co chodzi, bo w tej inicjatywie też może być wartość dodana dla Ciebie.

DWthon to jest taka 5-dniowa inicjatywa, która pozwoliła osobom początkującym w ML lub nawet osobom, które wcześniej nie programowały, zobaczyć na własne oczy moc narzędzia o nazwie uczenie maszynowe. W praktyce to oznacza, że możesz przeżyć „na własnej skórze” co to oznacza osiągać 80% wartości przy 20% wysiłku, czyli robić mniej, a dostawać więcej. To nie jest żadne oszustwo, tylko tzw. smart working (inteligentna praca). Ponad 1500 osób wzięło udział w tej inicjatywie.

Taka krótka historia. Podczas urlopu przyszła świadomość, że warto wchodzić już na zupełnie inny poziom działania niż dotychczas, bo człowiek musi się rozwijać i pewne etapy już udało się osiągnąć.

Wytłumaczę, o co mi chodzi w tym zdaniu. W pierwszych naszych bezpłatnych inicjatywach próbowaliśmy pokazać jak skonfigurować środowisko lokalne i to jest wiedza przydatna, ale skończyło się na czymś innym. Bardziej zajmowaliśmy się tym, jak zainstalować biblioteczkę A czy B na laptopie niż ML. Generalnie rzecz biorąc to nie jest taka trywialna rzecz i tego można się nauczyć, ale to jest bardziej na temat tzw. DevOps niż ML.

Rozważaliśmy na ten temat i zaczęliśmy przechodzić w kierunku Google Colab. To jest takie środowisko, które udostępnia Google bezpłatnie. To środowisko ma wiele zalet, ale praktyka też pokazała, że nie gwarantuje, że środowisko będzie identyczne, tzn. przynajmniej w naszym przypadku. Jak uruchomiliśmy to przy większej liczbie uczestników (około 5000 testów mniej więcej było zrobione), to okazało się, że człowiek mógł zgubić się w którymś momencie, a Ty nie masz tam dostępu, nie możesz mu pomóc i to podejście też nie było najlepsze.

Rozważałem sobie, co możemy zrobić dalej i też porównywaliśmy jak to robimy w naszych płatnych kursach, które robimy w ramach DataWorkshop. Tam mamy gotowe środowisko z góry zainstalowane i cała konfiguracja nie jest taka trywialna. Ona potrzebuje dużo energii, żeby to zrobić, ale bardzo fajnie się sprawdza i tam przynajmniej pod kątem konfiguracji bibliotek w ogóle nie ma żadnych kłopotów, bo wszyscy mają w 100% identyczne środowisko.

Pomyśleliśmy sobie – a co jeżeli zrobić właśnie tak dla inicjatyw, które teraz robimy na większą skalę? Tylko tutaj pojawia się takie wyzwanie, bo co to oznacza? To oznacza, że np. tysiąc albo kilka tysięcy osób jednocześnie będzie zalogowanych. To już brzmi jako całkiem fajne wyzwanie, nad którym warto byłoby się pochylić, tym bardziej, że po urlopie jest troszkę więcej energii na bardziej szalone pomysły. W końcu weszliśmy w to, żeby to zrobić. Dużo eksperymentowaliśmy i udało się to zrobić. Wynikiem tego działania było to, że równolegle mogło się zalogować tyle osób ile było dostępnych (czyli ponad tysiąc). Każdy miał swój własny serwerek, na którym mógł takie rzeczy wykonywać.

Więc bardzo się cieszę, że udało się ten pułap przeskoczyć, wykonać kolejny krok. Myślę, że kolejną poprzeczkę trzeba teraz podnieść, np. 100 tys. lub 1 mln osób równolegle, które się zalogują. Nie wiem gdzie tyle osób znajdziemy, ale nad tym też pracujemy.

Zastosowanie chmury

Dlaczego w ogóle o tym wszystkim mówię? Tak się składa, że mimo tego, że słowo „chmura” raczej jest znanym słowem. Myślę, że dla Ciebie też jest znanym, bo skoro słuchasz Biznes Myśli, to raczej obiło Ci się to o uszy. Natomiast pytanie: czy ja to stosuję, to jednak jest duża różnica, prawda? Osobiście z chmurą jestem związany ponad 7 lat. Najpierw to był Amazon przez dobrych kilka lat, a potem przeszedł na Google Cloud i to mi bardzo się spodobało. Google Cloud akurat daje takie możliwości, kiedy więcej czasu masz na to, aby zająć się tzw. biznesem, a zdecydowanie mniej czasu potrzebujesz na różne konfiguracje. Jest takie poczucie, że kiedy to wszystko konfigurujesz to te klocki są fajnie zgrane ze sobą, że one się łączą. Podchodzisz do tego jak do klocków lego, np. wkładasz, dostajesz itd.

źródło: giphy.com

Kubernetes

Kolejna rzecz, ta inicjatywa o której wspomniałem – my tam pod spodem używamy tzw. Kubernetes. To z jednej strony open source, ale z drugiej strony, żeby go odpowiednio administrować (sam Kubernetes, nie mówię o konfiguracji na wyższym poziomie), to trzeba się postarać. Z jednej strony możesz zainstalować to nawet na serwer pod biurkiem, tylko wtedy potrzebujesz armii ludzi o odpowiednich kwalifikacjach (zwykle są w dużym deficycie) i koszty, które to generują. Więc to sprawia, że w tej chwili, jeżeli masz wybór, aby robić wszystko samodzielnie albo skorzystać z skonfigurowanych środowisk w chmurach to odpowiedź staje się oczywista.

Na temat chmury wprost nie było jeszcze ani jednego odcinka na Biznes Myśli, bo dla mnie jest to już taka oczywistość. Po prostu to działa, my to używamy i właściwie człowiek się zastanawia o czym tutaj można mówić. Natomiast jak robiłem sobie retrospekcję to uświadomiłem, że zwykle takie oczywiste rzeczy, czasem lepiej omówić dodatkowo, bo to może mieć znacznie większą wartość dodaną dla Ciebie niż tylko mówienie o tematach bardziej złożonych, czasem nawet bardziej abstrakcyjnych, które wykonuje np. DeepMind, bo też nie zawsze możesz to zastosować. Stąd taka decyzja, żeby w drugim sezonie przejść przez pewne tematy, które dotkną to co możesz wykorzystać wprost i dostać tego wartość dodaną.

Kolejna rzecz jest taka, że od 14 kwietnia w roku 2021 r. Google Cloud będzie również Data Center w Polsce. Dotychczas najbliższe to była Finlandia albo Niemcy. Teraz uruchamia się Data Center w Polsce i nie można było przegapić tego wydarzenia, bo to jest dość ważne dla firm, które prowadzą biznes z Polski. Dlatego też zaprosiłem człowieka z firmy, który jest mocno związany z tym co się dzieje teraz, żeby więcej się dowiedzieć. Ale również to jest człowiek, który zajmuje się nie tylko serwerami chmurą, ale bardziej wykorzystuje te serwery, aby rozpędzać AI albo ML.

O chmurze i wykorzystaniu danych w biznesie z Jakubem Kułakiem

Dzisiejszym gościem jest Jakub Kułak, AI Head w Chmurze Krajowej. Dzisiejszy odcinek będzie właśnie na temat chmury, o tym co to oznacza na dzień dzisiejszy. Jak może pomóc Ci w zbieraniu danych, w obróbce danych i też oczywiście użycie ML, AI w łatwiejszy sposób. Na końcu też będą bardzo fajne przykłady, które pokażą Ci, jak w łatwy sposób możesz zacząć używać już AI, ML już dzisiaj.

Cześć Kuba! Przedstaw się kim jesteś, czym się zajmujesz i gdzie mieszkasz.

Cześć Vladimir. Dzięki za zaproszenie do podcastu. Jestem Kuba. Z branżą IT jestem związany od prawie 20 lat. Kiedyś jako programista, architekt, teraz jako menedżer dbający o dobór odpowiednich technologii w projektach, o klientów i przede wszystkim specjalistów z moich zespołów. Aktualnie pracuję jako szef zespołu kompetencyjnego Data AI w Chmurze Krajowej, a co do mieszkania to po kilku latach w różnych miejscach na świecie, mieszkam aktualnie w Warszawie i póki co nie planuję żadnych zmian.

Czym jest chmura i jaką niesie wartość dla biznesu?

Dzisiaj będziemy mówić o chmurze i żeby lepiej to było zrozumiałe dla wszystkich, najpierw spróbujmy to zdefiniować: czym jest chmura?

Uważam, że nazwa „chmura” nie jest zbyt wdzięczna, ponieważ mimo, że rozwiązania chmurowe istnieją już prawie dwie dekady, to cały czas trzeba te definicje tłumaczyć i rozwijać. Natomiast spodziewając się takiego pytania po raz kolejny, postanowiłem tym razem poszukać trochę i zaskoczyć Ciebie oraz słuchaczy małym rysem historycznym – jednym spośród wielu, który chociaż trochę mnie przekonał.

Historia technologii cloud

Otóż dekady temu, jeszcze w XX w. (podejrzewam, że lata 80-te, 90-te) rysunki techniczne, diagramy (np. schematy sieciowe) wykorzystywały taki kształt dymku (nieregularny, przypominający chmurkę) do przedstawienia sieci zewnętrznej do której łączył się użytkownik, co było reprezentowane przez osobę przed monitorem – i taki piorun między użytkownikiem, a dymkiem. Z biegiem czasu ten dymek coraz bardziej przypominał chmurkę i w ten oto taki naturalny sposób, usługi zdalne spoza naszej sieci stały się usługami w chmurze.

Czym jest chmura?

Natomiast wracając do pytania i definicji, chmura to zestaw serwerów, infrastruktura, zestaw specjalnego oprogramowania i różnych usług dostępnych z serwerowni, zlokalizowanych gdzieś poza naszą własną siecią. Jeżeli jest to chmura publiczna tzn., że korzystać z niej może każdy kto jest zainteresowany i może za nią zapłacić. Na początku (mniej więcej 15 lat temu) usługi te ograniczały się najpierw do hostingu, ewentualnie udostępniania mocy obliczeniowej. Dzisiaj (zwłaszcza w przypadku chmur publicznych) to już setki różnych usług, dzięki którym można korzystać z najnowszych technologii (w tym sztucznej inteligencji) i superkomputerów do obróbki danych, bez konieczności martwienia się o serwery aplikacyjne, hardware, który to wszystko obsługuje, poprawki bezpieczeństwa, aktualizacje, backupy, powodzie itd. Na pewno o tych szczegółach jeszcze będziemy sobie dzisiaj rozmawiać.

Tak, dokładnie. Właśnie mówi się, że pojęcie technologiczne, firma, już nie dotyczy tylko sektora IT, ale przenika właściwie w różnych kierunkach. Taki przykład można na szybko znaleźć – np. w Rosji jest taka franczyza pizzeria Dodo i oni mają 250 pracowników IT – developerów, programistów.

Dość mocna jest w tym wypadku wykorzystywana chmura także. Część osób pyta: ale po co, przecież jesteście pizzerią? Po co Wam tyle programistów? Oni odpowiadają, że oni nie są pizzerią, tylko firmą technologiczną.

Teraz IT przenika w różne kierunku (przemysł, rolnictwo). Pytanie do Ciebie jest takie: czy Twoje doświadczenie potwierdza ten trend? Być może też masz pod ręką jakiś takie fajny, nieoczywisty, przykład jako dowód tego trendu?

Z pizzerią bardzo fajny przykład. Z mojej perspektywy biznes to biznes. Jest wiele cech, które łączą praktycznie wszystkie sektory, branże. Wszystko zawsze można zrobić z głową. Zresztą wydaje mi się, że do tego trochę nawiązuje trochę też nazwa Twojego podcastu Biznes Myśli. Wszędzie, gdzie wymagane są decyzje, najpierw trzeba zdefiniować problem, a dopiero później można próbować podejmować decyzje. Takie próby zawsze można wspierać za pomocą danych, które są odpowiednio zbierane, przetwarzane i prezentowane.

Wszędzie gdzie zadania są powtarzalne, bez względu na branżę, można je optymalizować za pomocą lepszej technologii czy algorytmów. Wszędzie, gdzie polegamy na ludzkich zmysłach, możemy zaprząc do pracy usługi tzw. kognitywne, które zastępują oczy kamerami, uszy mikrofonami i najczęściej wykazują się wielokrotnie większą precyzją niż my sami.

Nieoczywiste zastosowanie chmury i uczenia maszynowego

Gdybyś w pytaniu nie wspomniał o rolnictwie i przemyśle to pewnie szybko nie przyszłyby mi do głowy, bo Chmura Krajowa współpracuje z firmami z obydwu sektorów. Niejako naturalne jest już dla mnie to jak bardzo zaawansowane rozwiązania wykorzystuje się tam już od naprawdę wielu lat. Przykładowo, w kontekście rolnictwa, na podstawie analizy zdjęć satelitarnych, modele sztucznej inteligencji, machine learning są w stanie precyzyjnie określić miejsca i czas potencjalnego zalania przez wylewającą rzekę, topniejący lód czy kilka innych, mniej oczywistych powodów.

Algorytmy są w stanie rozpoznawać uprawy na polach (łącznie z ich chorobami) i tym samym przyspieszyć wprowadzenie środków zapobiegawczych, ratując zbiory i często zmniejszając straty rolników.

Kolejny przykład już nie z naszego rodzimego podwórka akurat (chociaż z drugiej strony nie wykluczam też) to samobieżne maszyny rolnicze, które prawie jak nowoczesne odkurzacze w naszych domach, same planują sobie trasę sadzenia, wycinki, kopania czy nawożenia pola). Produkcja – przede wszystkim kontrola jakości w produkcji. Tam się wykorzystuje algorytmy sztucznej inteligencji, np. do super szybkiego identyfikowania usterek i braków w produktach czy półproduktach. Dzięki różnym czujnikom chemicznym, akustycznym, naprężeniowym i wielu innych, w zależności od tego co się produkuje – i oczywiście kamerom, bo taka inspekcja wizyjna jest dużym działem tej sztucznej inteligencji w produkcji.

Bankowość i inne instytucje finansowe korzystają już teraz z bardzo zaawansowanych technologii do badania ryzyka kredytowego oraz wyszukiwania anomalii w logach z operacji wskazujących na potencjalne nadużycia przez swoich nieuczciwych klientów.

Widzimy, że każdą branżę da się usprawnić, przede wszystkim trafnie definiując problem i wdrażając później odpowiednie rozwiązania oparte o dane lub odpowiednio dopasowane algorytmy.

Cyfrowa transformacja biznesu

Porozmawiajmy teraz właśnie o takim procesie przejścia. Mówi się, że właśnie ten proces przechodzenia od świata rzeczywistego do cyfrowego jest nazywany digitalizacją (ang. digitalisation) albo cyfryzacją.

Tutaj taka krótka historia, która wydarzyła się niedawno. Miesiąc temu, w Krakowie palił się budynek Archiwum. Sporo dokumentów zostało zniszczonych i w sumie nie do końca jeszcze wiadomo, ile dokładnie. Niestety były to dość często dokumenty w jednej kopii. Owszem, czasem gdzieś można je odzyskać. Też niestety nie ma w większości przypadków ich cyfrowej wersji. To jest dość dziwny przypadek, bo wydaje się, że akurat jeżeli chodzi o archiwum to cyfryzacja powinna być rzeczą numer jeden, powinna być wręcz standardem.

Czy w innych branżach też to już staje się na tyle oczywiste, że przejście w kierunku cyfryzacji, to jest ogromna wartość dodana? Nie tylko jak w tym przykładzie z Archiwum, bo w tym przypadku wydaje się, że nawet nie ma o czym dyskutować, ale też dla innych branż, które niekoniecznie mają taką oczywistą wartość dodaną tej cyfryzacji. Co o tym myślisz?

Myślę, że dla nas – osób związanych z technologią już od dawna, takie Archiwum jest tak oczywiste i to nawet niekoniecznie przy wykorzystaniu nowoczesnych technologii, tylko zwykłego skanera i zapisania tego gdzieś na dysku, ale niestety w wielu przypadkach się to cały czas nie dzieje. Co do tej wartości dodanej i pytania to chyba padnie tu po raz pierwszy najbardziej popularna odpowiedź w IT czyli: „to zależy”.

Korzyści wynikające z cyfryzacji biznesu

Cyfryzacja biznesu może dawać wiele różnych korzyści, w zależności od branży, o której rozmawiamy. Różne zastosowanie nowoczesnych technologii w zależności od branży, specyfiki biznesu. Co innego znaczy cyfryzacja firmy produkcyjnej, a co innego placówki pocztowej czy sądu, ze względu na specyfikę.

Gdybym jednak miał wyciągnąć taki wspólny mianownik to pewnie byłaby to możliwość odciążenia ludzi z realizacji najbardziej monotonnych, nudnych, może bardzo ciężkich fizycznie zadań, poprzez ich automatyzację. Tak, żeby pracownicy mogli skupić się na innych, często ważniejszych zadaniach, do których np. wcześniej brakowało personelu lub wymagają specjalistycznej wiedzy, której zakodowanie w algorytmach jest póki co trudne lub nawet niemożliwe.

Dzięki cyfryzacji możemy korzystać z zaawansowanych narzędzi do analizy naszych dokumentów, danych, produktów, klientów, decyzji itd. Jak czegoś nie badamy, nie zbieramy danych to trudno wiarygodnie zmierzyć postęp. Część z nas to zna na pewno z testowania aplikacji, gdzie wprowadzając zmiany musimy wiedzieć jaki był stan przed, żeby wiedzieć potem jaki wpływ nasze poprawki miały na ogólną sytuację.

Natomiast cyfryzacja to bardzo szeroki termin, obejmujący wiele aspektów działania samej organizacji. Począwszy od uświadomienia sobie, jakie dane możemy zbierać i co nam mogą dać, aż po zmianę świadomości na taką, gdzie ludzie, pracownicy, zdają sobie sprawę czemu i jak powinny korzystać z tych danych. Swoje decyzje kierują lub w dużej mierze wspierają właśnie zbieraniem danych.

To wszystko aż do momentu powstania w firmie kultury, gdzie każdy myśli i kieruje się danymi czyli tzw. data-driven organization – najpierw osoby, potem zespoły, działy, aż do najbardziej zaawansowanej postaci, kiedy dostęp do danych (odpowiednio przygotowanych) mają już wszyscy i ma to pozytywny wpływ na działanie całej firmy. Natomiast temat tej dojrzałości był bardzo fajnie przedyskutowany w jednym z poprzednich odcinków Twojego podcastu, także to polecam.

Tak, dzięki. Również polecam wrócić do data-driven i jeszcze kilku innych odcinków na ten temat, bo o tym długo mówiliśmy.

Czym jest Chmura Krajowa?

Cyfryzacja, chmura i to całe podejście to jest raczej taka rzecz, która już nie staje się opcją, tylko jest w pewnym sensie koniecznością w większości przypadków, bo po prostu ciężko będzie konkurować i być bardziej efektywnym nie wykorzystując nowej technologii. To jak kiedyś 100 lat wcześniej nie było mechanizacji i rolnictwo było głównie pracą ręczna w 100% , w tej chwili to już jest normalne, że jest traktor, który wykonuje większość rzeczy. Jest jedynie kilka osób lub nawet jedna, która to obsługuje, a czasem nawet już ta jedna osoba nie będzie potrzebna. To rozpędza się bardzo szybko.

Już wspomniałeś, że pracujesz w Chmurze Krajowej i sama fraza Chmura Krajowa brzmi patriotycznie. Co to oznacza w praktyce? Powiedz kilka słów o tym, czym jest Chmura Krajowa?

To, że brzmi patriotycznie to oznacza tyle, że zostaliśmy założeni przez dwa podmioty krajowe i świadczymy usługi przede wszystkim na rynku polskim. Głównym celem naszych założycieli i pomysłodawców było stworzenie takiej platformy, która ułatwi i będzie stymulować rozwój polskich firm oraz administracji publicznej. Od początku istnienia trwały rozmowy i dyskusje Chmury Krajowej z największymi dostawcami chmur publicznych, żeby ich dostępność była jeszcze większa w naszym kraju, dzięki czemu wkrótce otwiera się region Google Cloud w Polsce.

Ważnym aspektem i celem od początku było też stworzenie organizacji, której usługi są w pełni zgodne i dostosowane do lokalnych regulacji, których w Polsce mamy bardzo dużo (zwłaszcza w sektorze finansowym), przez co nasze portfolio składa się z kompletu usług, dzięki którym klienci nie muszą zastanawiać się jak dostosować się do tych regulacji, a dostają odpowiednio dopasowany do nich produkt zgodny z tymi regulacjami, w tym nawet wsparcie w obsłudze prawnej. Zatrudniamy wiele osób, które mają doświadczenie biznesowe i techniczne zarówno na rynku prywatnym, jak i publicznym. Dzięki czemu znamy procedury i procesy na poszczególnych rynkach i możemy bardzo sprawnie wspierać te firmy i instytucje, zarówno z sektora prywatnego jak i publicznego.

Teraz po ponad dwóch latach istnienia widzimy, że jest coraz więcej klientów, którzy zastanawiają się bardziej kiedy i jak przechodzi się do chmury niż dopiero rozważających w ogóle taką drogę.

Czyli nie ma już pytań „czy”, tylko „kiedy” i “jak”.

Dokładnie tak.

Bezpieczeństwo danych w Chmurze Krajowej

Przygotowując się do tego odcinka, też badałem, co się dzieje w Internecie ale też tak przy okazji pytałem znajomych, przedsiębiorców, prezesów, czy wiedzą coś na temat Chmury Krajowej. Padło pytanie na temat dostępu do danych.

Biorąc pod uwagę, że założycielem, udziałowcami w tym przypadku jest PKO BP i Polski Fundusz Rozwoju, co to znaczy w praktyce? Czy to oznacza dla firma X wchodzącej w tę współpracę, zapisującej wszystkie dane w chmurze? Kto ma wgląd w moje dane?

Cieszę się, że się uśmiechamy obydwaj słysząc i wypowiadając te słowa. Jak już wspomniałem, Chmura Krajowa została stworzona z myślą o pełnej zgodności z regulacjami na naszym rynku. Już z tego w dużej mierze wynika, że dane firm, które przechowywane są na naszych serwerach są dostępne tylko i wyłącznie dla tych firm. Tutaj na poparcie tej tezy, nasze własne usługi, infrastruktura zostały zbudowane w oparciu o Cloud Control Matrix czyli frameworku budowania usług chmurowych od CSA czyli Cloud Security Alliance.

Nie będę wchodził tutaj w szczegóły, natomiast jest to framework, który wyróżnia wszystkie aspekty technologiczne, procesowe takich właśnie rozwiązań. Wszyscy najwięksi dostawcy usług chmurowych chwalą się posiadaniem takiego certyfikatu, który potwierdza zgodność (CSA Star).

Na bezpieczeństwo w Chmurze Krajowej (w tym danych) składa się także zespół Security Operation Center, który czuwa nad usługami 24 godziny na dobę, 7 dni w tygodniu. Oraz ponad 30 osób w samym zespole Security, które łącznie mają setki lat doświadczeń w pracy z wrażliwymi danymi i budowaniem bezpiecznych środowisk przechowywania i przetwarzania danych.

Google Cloud Data Center w Warszawie

14 kwietnia Google Cloud otwiera Data Center również w Polsce, w Warszawie. Fizycznie nie do końca wiadomo gdzie, ale gdzieś w Warszawie lub w okolicach. Nawet dobrze, że nie wiadomo, będzie bardziej bezpieczne.

Dlaczego to jest dobra wiadomość? Tak się składa, że my jako DataWorkshop też używamy Google Cloud już od dawna. Właśnie był taki dylemat, gdzie jest najbliżej Polski. Przez moment byliśmy bardziej w Belgii, teraz bardziej Finlandia i teraz jak będzie w Polsce to brzmi, że pewnie będziemy robić niedługo przeprowadzkę, albo przynajmniej część serwerów będzie stała tutaj. Ciekaw jestem, jak te wszystkie rzeczy się połączyły? Rozumiem, że Chmura Krajowa i współpraca, która się wytoczyła, przyspieszyła pewne procesy, prawda? I Google Cloud się tu pojawia, tak?

Tak jest. To bardzo bliska współpraca naszego zarządu, zarządu Google Cloud też miała tutaj duży, kluczowy wpływ na to, że ten region został stworzony i się otwiera rzeczywiście wkrótce. Będzie się nazywał europe-central2, to też już nie jest tajemnicą. Można to sobie zobaczyć w kalkulatorze cen Google Cloud, gdzie on już się od jakiegoś czasu pojawia. Do tej pory najbliżej były regiony Oslo, Frankfurt.

Na to, że jest to bardzo dobra wiadomość, składa się wiele aspektów. Po pierwsze, te najbardziej techniczne, najpierw liczymy przede wszystkim zagadnienie regionalizacji danych czyli możliwość takiego skonfigurowania wybranych usług, żeby nasze dane były przetwarzane i przechowywane tylko na terenie wybranego regionu. Dla wielu przedsiębiorstw jest to ważne zagadnienie, że dane nie opuszczają granic naszego kraju, chociaż w większości przypadków myślę, że wynika to bardziej z preferencji, może nawet sentymentu, ponieważ nie ma w Polsce przepisów, które wskazują, że dane muszą być przetwarzane na terenie kraju. Nawet RODO definiuje, że można przetwarzać dane osobowe poza granicami, ale oczywiście na terenie Europejskiego Obszaru Gospodarczego. To jeszcze nie ma oczywiście zastosowania do infrastruktury krytycznej kraju, ale to już zupełnie inna działka.

Kolejnym zagadnieniem technicznym jest czas połączeń, bo dla prawie 75% naszego kraju, każde pojedyncze połączenie z systemami Google Cloud, przyspieszy o około 15 ms. W przypadku jednej, hostowanej w chmurze strony, może nie ma to dużego znaczenia, ale w przypadku przetwarzania dużych wolumenów danych i systemów czasu rzeczywistego np. modeli machine learning, które bieżąco analizują setki tysięcy rekordów danych na sekundę i szybciej, taka zmiana jest już bardzo znacząca.

Są tam jeszcze aspekty rozwoju biznesu w Polsce, poprzez wzrost świadomości naszych przedsiębiorców, która na pewno spowoduje znaczny wzrost miejsc pracy w technologii i całym IT, ponieważ mamy w Polsce świetnych specjalistów, zarówno z kraju jak i zagranicy, choć już teraz jest ich za mało. Pojawiają się takie głosy, że Polska ma szansę stać się takim lokalnym cloud value, który będzie „ściągać” do siebie dodatkowo specjalistów od naszych sąsiadów z każdej strony. Ściągać w cudzysłowiu, bo teraz praca zdalna głównie (zwłaszcza w tej branży) – myślę, że pozostanie z nami już na bardzo długo.

Pozostałe powody to już te stricte, standardowe zalety po prostu przejścia do rozwiązań chmurowych.

Jakie usługi Google Cloud będą dostępne już w regionie Polska?

Wiemy, że w zależności od tego, jaki jest region to czasem nie wszystko jest dostępne. Jako przykład – w Finlandii nie ma TPU dostępnego i trzeba tutaj bardziej w kierunku zachodnim (jeżeli chodzi o Europę) szukać. Natomiast takie podstawowe zwykle są jak Kubernetes, CVM itd. Jak to będzie na starcie w regionie Polska i czy są takie jakieś usługi albo limity, o których warto już wiedzieć teraz?

Mogę powiedzieć, że będzie to taki pełnoprawny, regularny region Google Cloud. Nie różniący się znacznie w stosunku do tych, które są ostatnio uruchamiane. Najważniejsze usługi do uruchamiania aplikacji, przetwarzania analizy danych będą na pewno dostępne. Wspomniane TPU póki co nie będzie. Także jeżeli jest to niezbędne to trzeba będzie wybrać sobie narazie inny, konkretny region w którym te możliwości mamy. Natomiast nie jest to nic dziwnego, bo tak jak mówisz właśnie, tego typu jednostki pojawiają się tylko w wybranych regionach. A poza tym dostajemy w pełni wyposażony, standardowy region Google Cloud.

Jakie usługi Google Cloud usprawnią naszą pracę z danymi?

Fajnie, przejdźmy teraz do takich konkretnych use case’ów, bo tak rozmawialiśmy przed nagraniem, że czasem, jak człowiek siedzi w swoim “pudle technologicznym”, to nie zawsze zdaje sobie sprawę, że pewne rzeczy nie są aż tak oczywiste.

Ja na przykład na dzień dzisiejszy ciężko mogę sobie wyobrazić życie bez chmur. Można sobie wyobrazić, ale to będzie tak naprawdę robienie wszystkiego, aby utrzymać to rozwiązanie niż dawanie wartości ludziom. Chciałem to pytanie zadać w taki sposób, że w Google Cloud jest w tej chwili mnóstwo różnych usług, rozwiązań. Jeżeli ktoś tam wchodzi po raz pierwszy to prawdopodobnie nie wie od czego zacząć. Więc fajnie byłoby wykorzystać Twoje doświadczenie, które masz, a masz duże i zastosować taki filtr, na co warto byłoby zwrócić uwagę i o jakich usługach na pewno warto pomyśleć, jeżeli mówimy w kontekście danych. Czyli nie chodzi o sam machine learning jako tako, tylko dane.

W pierwszym zdaniu wymienię kilka usług i potem opowiem kilka zdań o każdej z nich. Najważniejsze to Cloud Data Storage czyli przechowywanie danych, Pop/Sub (system do zarządzania kolejką), BigQuery (flagowa hurtownia danych), Cloud Data Fusion (narzędzie do budowania pipeline).

To są te, które tak powinny zostać na początek w głowie, natomiast szacuję, że takich komponentów jest prawdopodobnie około 50, które są wykorzystywane do pracy z danymi i w zależności od tego, co z tymi danymi robimy, wykorzystujemy inne narzędzie.

Cloud Data Storage (tzw. CDS) to jest miejsce przechowywanie danych. To jest w chmurze, w której możemy tworzyć zbiory danych, plików o dowolnej zawartości, w których korzystamy również ze struktury folderów. Dane są oczywiście szyfrowane na kilku poziomach. W zależności od tego, jak często chcemy korzystać z tych danych, możemy dobrać odpowiedni model przechowywania, który pozwala nam na mniejsze koszty przechowywania plików, z których np. mniej korzystamy.

Konfiguracja pozwala nam zdecydować, w którym regionie nasze dane mają być składowane oraz to kto i w jaki sposób może mieć do nich dostęp. Przechowując dane w postaci plików csv lub innych popularnych formatów do przechowywania danych (tj. json) mamy w chmurze ogromne możliwości integracji z innymi narzędziami. To jest w ogóle przewaga rozwiązań chmurowych, że te komponenty, które są niesamowite same w sobie, mają też świetne możliwości integracji między sobą. Także podłączenie takiego Cloud Storage jako źródła danych do innego systemu, najczęściej ogranicza się po prostu do wyklikania tego i da się to zrobić dosłownie w kilka minut.

Pop/Sub, o którym to serwer kolejki komunikatów czyli w uproszczeniu – alternatywa np. do RabbitMQ. Rozwiązanie typu serwer less, co znaczy, że jest w pełni utrzymywane przez Google. Nie musimy się martwić ani o warstwę serwera aplikacyjnego ani sprzętowego. Ani o to, żeby ten serwer miał backupy czy wgrane najnowsze poprawki bezpieczeństwa. Po prostu tworzymy instancję takiej usługi i z niej korzystamy.

BigQuery, o którym mógłbym opowiadać naprawdę długo to flagowy komponent Google Cloud, właśnie do pracy z danymi. Myślisz dane w GSP, widzisz BigQuery – takie często widzę konotacje. W streszczeniu potęgę i najważniejsze cechy BigQuery – jest to skalowalna hurtownia danych. Pozwala na pracę z ogromnymi zbiorami (mowa tutaj o petabajtach i setkach petabajtów), korzystając z języka SQL.

Złożone zapytania sql-owe na tak dużych danych, wykonują się błyskawicznie. Rzędy wielkości szybciej niż w typowych rozwiązaniach, np. relacyjnych baz danych. Ogromną zaletą BigQuery jak i większości komponentów jest model w jakim rozliczamy się za korzystanie, czyli pay-per-use, w którym płacimy tylko za dane, które przechowujemy i czas kiedy je przetwarzamy. Co daje możliwości na naprawdę spore optymalizacje kosztowe wykorzystania naszej hurtowni danych.
Wiele rozwiązań do pracy z IoT to też bardzo popularny temat.

Jest to rozwiązanie, które się nazywa IoT Core, które pozwala na podłączanie, zarządzanie dziesiątkami tysięcy różnych rozwiązań. To są wszystko łatwe i fajne rozwiązania, natomiast to też nie jest tak, że nie znając Google Cloud w ogóle, otworzymy stronę i po 30 minutach będziemy mieli gotowe rozwiązanie. Tego też trzeba się oczywiście nauczyć, jednak czas poświęcony na zrozumienie tych komponentów, które mają przyjemny, graficzny interfejs, w porównaniu do czasu i lat doświadczenia, które musielibyśmy mieć stawiając odpowiednie serwery, zagłębiając się w protokoły komunikacji urządzeń IoT, musieli zadbać o skalowanie takich rozwiązań jest po prostu nieporównywalnie. I to jest właśnie ogromna moc tych rozwiązań chmurach.

Zgadzam się w 100% z tym, co powiedziałeś. W Data Workshop też używamy wszystkich tych komponentów, które były i właściwie dzięki temu bardzo szybko się skalujemy w różnych naszych, wewnętrznych produktach. Tu np. jeżeli chodzi też o BigQuery to tak naprawdę może mieć normalną bazę danych (np. MySQL), ale BigQuery jest bardzo mocno zoptymalizowana pod ten Big czyli terabajty albo nawet znacznie więcej.

To jest takie normalne, BigQuery jest bardzo fajnie zoptymalizowane i wyniki widzimy bardzo szybko. Też fajna jest ta możliwość podpinania BigQuery w różnych miejscach, chociażby robienie dashboardów. Sprawna, fajna rzecz, którą aż chce się użyć. Właśnie kontynuując tą myśl dalej, bo przed ML zwykle mówimy o tym, żeby dane odpowiednio przygotować i to jest taka rola data engineering i jest taki słynny skrót w tej branży ETL czyli Extract, Transform, Load. Co to jest? Dlaczego to jest ważne i właśnie na ile chmura ułatwia życie, kiedy chcemy wykonać takie procesy przygotowawcze danych?

Super, ponieważ czuję, że w poprzednim pytaniu tam jeszcze zabrakło miejsca na naprawdę wiele fajnych komponentów, z których można korzystać. ETL podejrzewam, że większość słuchaczy dobrze kojarzy skrót tak jak rozwinąłeś. Proces pobierania danych z jednego lub więcej źródeł danych, przygotowanie lub raczej dostosowanie tych danych do naszych potrzeb i załadowanie ich później do np. hurtowni danych w celu dalej analizy lub raportowania. Jest to część standardowej terminologii procesów, systemów i osób zajmujących się danymi.
Takie przygotowanie czy dostosowanie, składać może się z wielu kroków, różnych transformacji, od oczyszczenia danych z błędnych wpisów, poprawieniu ich, o bogaceniu, o inne dane, sprowadzeniu do wspólnego formatu, który jest później akceptowany przez naszą hurtownię i kolejne narzędzia, z których korzystamy.

Google Cloud dostarcza wiele komponentów do budowania takich pipeline’ów, które adresują kolejne kroki ETL-a. Tu chyba skupię się przede wszystkim na Cloud Data Fusion, które pozwala dokładnie na budowanie takich pipeline’ów, nawet za pomocą interfejsu graficznego Drag&Drop – także niekoniecznie pisania kodu.

Oczywiście są też zwolennicy budowania takich rozwiązań za pomocą kodu, co oczywiście ma też swoje zalety i dla takich zastosowań Google Cloud posiada też rozwiązanie tj. Dataflow, które pod spodem ma Apache Beam co dla doświadczonych inżynierów danych jest już wystarczającą informacją.

Cloud Data Fusion posiada setki, a na pewno dziesiątki gotowych integracji z popularnymi systemami zewnętrznymi, które pozwalają na szybką integrację i szybkie pobranie danych. Oprócz tego setki wbudowanych, najpopularniejszych danych – usuwanie duplikatów, usuwanie anomalii, dzięki czemu w bardzo krótkim czasie jesteśmy w stanie zbudowanie pipeline, który na bieżąco będzie przetwarzał gigabajty danych z różnych systemów.

Pod maską Cloud Data Fusion uruchamiane pipeline są na klastrach Dataproc (to jest inny komponent). Jest to serwerowa wersja Hadoopa w Chmurze. Data Fusion automatycznie zmienia przepływy zaprojektowane w interfejsie graficznym na tzw. job’y Dataproca, które są potem uruchamiane. Istnieje oczywiście możliwość skorzystania z MapReduce lub Apache Spark – to już takie szczegóły, nie wiem czy warto w tym momencie wchodzić w to.

Kolejnym narzędziem jest np. Dataprep. Bardzo wygodny interfejs graficzny do takiego „przygotowywania” danych, ponieważ to narzędzie pozwala też na eksplorację wizualną każdego rodzaju danych, czy to posiadających zdefiniowaną strukturę i relację czy też nie. Dane są albo mogą być przygotowane do dalszych etapów ETL lub po prostu eksplorowane przez analityków w poszukiwaniu zależności i innych ciekawostek.

Google Cloud w swoim portfolio posiada również w pełni darmowe narzędzie do budowania raportów i dashboardów. Mowa tutaj o Data Studio, o którym też wspomniałeś, które jest połączeniem możliwości arkusza kalkulacyjnego z programem do budowania prezentacji. Jeżeli ktoś porusza się w miarę biegle w takich dwóch narzędziach to bez problemu zbuduje ładne raporty i dashboardy korzystając z Data Studio, które swoją drogą też ma setki konektorów do zewnętrznych źródeł, m.in. oczywiście BigQuery, pliki z Google Cloud Storage, Google Analytics ale też naturalnie do MySQL, PostgreSQL, Kaggle, różnych API facebookowych, Twitter itd. Dla zaawansowanych zastosowań business intelligence, Google posiada od ponad roku w portfolio Looker’a.

Jest to rozwiązanie klasy enterprise business intelligence i o jego możliwościach można by zrobić całą serię odcinków.
Także podsumowując, Google posiada rozwiązania na każde zagadnienie. Na każdą część ETL’a, na każdą część systemu pracy z danymi. Od momentu pobrania przez przechowanie, archiwizację, przetwarzanie, eksplorację i analizę, aż po raportowanie i najczęściej dodatkowo wykorzystanie elementów machine learning w analizie i predykcjach.

Jak wykorzystując dostępne usługi Machine Learning, można osiągnąć dużo, robiąc niewiele?

No właśnie, machine learning teraz możemy o tym porozmawiać, już jako kolejny krok taki logiczny, bo wspomnieliśmy o tym, że bardzo łatwo można dane przechowywać, potem odczytywać, przetwarzać i potem już jak je przetworzymy to aż się prosi, aby zastosować ML albo tzw. AI. Tutaj też warto powiedzieć, że jak zarówno Google albo inni więksi gracze chmurowi np. Microsoft, robią duże zaangażowanie albo takie mocne postępy w kierunku tzw. after ML czyli kiedy robiąc małym wysiłkiem, można osiągnąć fajne rzeczy.

Co prawda też warto zrozumieć jak do tego podejść i żeby to było nie teoretyczne to fajnie jakbyś podał tak z 3 albo więcej przykładów, żeby to brzmiało tak bardziej praktycznie. Jak wykorzystując dostępne usługi ML’owe, można osiągnąć dużo, robiąc niewiele?

Zacznę od tego, że na Google Cloud składają się w tym momencie dziesiątki różnych rozwiązań związanych z ML czy sztuczną inteligencją. To jest właśnie moim zdaniem jedna z największych zalet korzystania z rozwiązań chmur publicznych. Dostajemy dostęp do gotowych, budowanych miesiącami i latami rozwiązań modeli uczenia maszynowego, uczonych w odpowiedni sposób przez osoby z bardzo dużym doświadczeniem, które są już wgrane na serwer produkcyjny, mają wystawione restowe API, mają skonfigurowane logowanie błędów.

Wyskalują się nam do takich rozmiarów, jakich tylko będziemy potrzebować w ciągu minut, a nawet sekund. Sam dobrze wiesz ile pracy jest potrzeba, żeby przygotować odpowiednie modele, zbudować system do ich testowanie, wdrażania kolejnych wersji, zaimplementować do tego API, logowanie, skalowanie itd. To jest wiele złożonych tematów, a w chmurze mamy możliwość podjęcia karty kredytowej, stworzenia projektu i w ciągu kilka minut możemy z takiego rozwiązania zacząć korzystać.

Te rozwiązania sztucznej inteligencji są w Google dostępne na trzech poziomach. Powiedzmy takiej samodzielności albo gotowości do użycia. Nawiązując do pytania, skupię się do tych takich gdzie wiedza dotycząca znajomości algorytmów, wiedza dotycząca ML, niekoniecznie jest wręcz wymagana. Także ten pierwszy poziom to są takie gotowe modele, które dostajemy już razem z API. Tu nie potrzebujemy praktycznie żadnej wiedzy na temat machine learning, żeby zacząć korzystać z takich rozwiązań.

Przykładem jest tutaj np. Cloud Vision API, które po wgraniu zdjęcia, taguje je nam odpowiednimi etykietami. Szacuję, że tych etykiet jest około 40-50 tysięcy różnych, tj. niebo, samochód, komputer, osoba, krawat, książka, ulica, pies itd. Każde zdjęcie może być otagowane wieloma etykietami i przy każdej takiej etykiecie dostajemy procentową pewność algorytmu co do tej etykiety, czyli wgrywamy zdjęcie samochodu, dostajemy informacje – samochód z pewnością 99,5%. Z Cloud Vision API możemy korzystać albo przez stronę www, albo przez API z dowolnej aplikacji, którą tworzymy, albo z linii poleceń, jeżeli np. potrzebujemy jednorazowo otagować sobie zdjęcia. Cloud Vision API rozpoznaje też znane miejsca na świecie, budynki i inne popularne lokalizacje.

Rozpoznaje logotypy marek, rozpoznaje ludzkie twarze tzn. opisując je około 30 parametrami i starając się zdefiniować jakie uczucia, miny widać na tych zdjęciach. Naprawdę niesamowite. Każdy może teraz od ręki pobawić się wpisując w wyszukiwarce Cloud Vision API Demo. Tam pojawia się strona, gdzie można przeciągnąć zdjęcie i zobaczymy jakie są wyniki. Odpowiedź można obejrzeć sobie też w JSON na potrzeby późniejszej budowania aplikacji. Wgrywając zdjęcie samochodu, dostaniemy pewnie około 50 etykiet, czasem nawet z marką. Z takimi szczegółowymi elementami jak wydech, lusterko, hak itd. Naprawdę bardzo polecam sprawdzić jak to działa.

Dla branży retail interesujące może być to, że korzystając z tego rozwiązania można wybierać produkty podobne do siebie wizualnie. Tego typu zastosowania widziałem.

Innymi przykładami takich rozwiązań gotowych do użycia od ręki, są rozwiązania speech-to-text i text-to-speach, bazujące na modelach googlowych. Rozwiązania pozwalają na syntezę tekstu, również w języku polskim oraz w drugą stronę, na transkrypcję audio co może mieć bardzo szerokie zastosowania np. w biurach obsługi klienta, gdzie mamy nagrania rozmów z naszymi klientami i chcemy potem zrobić transkrypcję, żeby np. badać albo szukać różnych fraz, zwrotów w tych transkrypcjach. Użytkownicy telefonów z androidem oraz użytkownicy Google Home korzystają z tych rozwiązań praktycznie codziennie.

Bardzo ważnym, często badanym przez naszych klientów rozwiązaniem jest Dialogflow. Jest to narzędzie do budowania chatbotów i voicebotów. Rozwiązań, które możemy podpiąć pod numer telefonu lub do okienka czatu na naszej stronie internetowej i naprawdę w bardzo prosty sposób zaprogramować scenariusz rozmowy takiego chatbota. Pod maską Dialogflow działa wiele googlowych rozwiązań machine learning, w tym rozpoznawania mowy, intencji użytkownika, odpowiednie dopasowanie odpowiedzi i jeszcze kilka.

Ciekawe jest tutaj to, że nie tworzymy drzewiastych struktur rozmowy tylko definiujemy intencje i konteksty. Podczas rozmowy istnieje możliwość przepinania się między intencjami i nawet powrotu do wcześniejszych wątków, o których była mowa, dzięki czemu taka rozmowa jest bardziej naturalna.

Konfiguracja takiego chatbota to dosłownie opisanie, wypisanie pytań, zwrotów, którymi może posługiwać się użytkownik oraz odpowiednia liczba parafraz. Na jedno pytanie jak stworzymy 5-10 parafraz to jest już naprawdę bardzo dużo, wystarczająco, żeby później Dialogflow poradził sobie z kolejnymi parafrazami, nawet jeżeli użytkownik zmienia kolejność wyrazów w zdaniu. W takich wypowiedziach użytkownika można zaznaczyć, że oczekujemy np. liczby lub daty, albo nazwy, albo jakiegoś innego ciągu znaków zdefiniowanej listy.

Oczywiście istnieje możliwość integracji Dialogflow z bazą danych tak, żeby Dialogflow mógł odpowiedzieć nam np. informacją o cenie naszego produkty czy czasach odjazdu autobusów, w zależności od tego po co budujemy takiego chatbota. Do zbudowania takiego inteligentnego chatbota, korzystając z Dialogflow, naprawdę niepotrzebna jest żadna wiedza dotycząca sztucznej inteligencji, a w godzinę, dwie można zrobić bardzo fajne demo, które robi wrażenie na większości klientów.

Oprócz tego typu rozwiązań, istnieją też już rozwiązania typu custom, to już konkretnie dla inżynierów ML, specjalistów, którzy mają dużo bardziej sprecyzowane wymagania i potrzeby. Tam znajdziemy m.in. te wirtualne maszyny z GPU czy TPU, o których mówiliśmy wcześniej.

Jak rozpocząć pracę w chmurze?

Właśnie tak słucham tego, co opowiadasz i przypominam, że celem tego odcinka było to, żeby powiedzieć, jakie możliwości mamy w tej chwili w zasięgu ręki i tak naprawdę niewiele trzeba byłoby zrobić, żeby zacząć tego używać. Z drugiej strony, jednak nie jest to jeszcze takie powszechne. Stąd pojawia się takie dość naturalne pytanie: jak myślisz, co hamuje polskie przedsiębiorstwa, żeby zacząć używać w pełni chmury? Czy to chodzi o brak wiedzy, śmiałości, kompetencji czy jeszcze coś? Czy da się to jakoś zmienić?

źródło: giphy.com

Na podstawie wielu ankiet, jeszcze większej liczby spotkań z klientami bezpośrednio, z naszą firmą, ale też na większych wydarzeniach, przejawiają się zawsze te same zagadnienia w kontekście blokerów, hamulców przejścia do chmury. Wszystkie oscylują wokół braku wiedzy, braku edukacji, doświadczenia. Także po pierwsze nieznajomość rozwiązań, bo firmy po prostu nie wiedzą co można znaleźć w chmurze, oprócz magazynu do przechowywania danych i przykładowo jednostek mocy obliczeniowej. Google Cloud od kilku lat, regularnie dokłada kolejne, coraz bardziej sprofilowane, konkretne usługi do swojego portfolio.

W tym momencie znajomość tych wszystkich usług, nawet dla osób pracujących bezpośrednio z chmurą jest sporym wyzwaniem. Także przedsiębiorstwa nie wiedząc co jest chmurze albo nie zdając sobie nawet sprawy co może być w chmurze, nie wyciągają rąk, często nie wykazują chęci, nie mają czasu na rozpoznawanie samodzielne takich rozwiązań. Nieznajomość przepisów, trochę strach przed nowym, często firmy zadają takie pytania dotyczące właśnie bezpieczeństwa, o którym rozmawialiśmy: czy to jest na pewno bezpieczne, dlaczego jest bezpieczne, jakie mechanizmy powodują i kto będzie miał dostęp do tych danych?

Ważnym zagadnieniem jest często strach przed kosztami, natomiast który znowu wynika z niewiedzy, nieznajomości modeli rozliczeniowych w chmurze. Ludzi nie wiedzą dokładnie jak sprawdzić jakie będą koszty utrzymania ich systemów tym bardziej, że po pierwsze nie wiedzą jak te systemy będą mogły wyglądać w chmurze. Nie zawsze przeniesienie tej infrastruktury, którą mamy u siebie 1:1 do chmury jest dobrym rozwiązaniem. Także często warto skorzystać z konkretnych komponentów, tylko trzeba o nich dobrze wiedzieć.

Kolejny powód, znów dotyczący bezpośrednio edukacji to brak kompetencji technicznych pracowników firm. Nawet jeżeli w firmie istnieją chęci migracji lub przynajmniej rozpoznania technologii chmurowych na szczeblach menedżerskich to często jest niwelowane, blokowane lub negowane przez osoby, do których takie pytania trafiają, które przy natłoku prac codziennych nie są w stanie poświęcić wystarczająco czasu na rozpoznanie, poczytanie i taką obiektywną opinię na temat takich rozwiązań.

Blokerem często (już nie bezpośrednio związanym z edukacją i wiedzą) są koszty poniesione na aktualną infrastrukturę. Słyszymy od CEO czy CTO: „Ale ja wydałam rok temu X zł na to rozwiązane i nie dostanę teraz więcej pieniędzy na kolejne migracje i zmiany”.

To takie główne powody, które przychodzą mi do głowy i rzeczywiście pojawiają się regularnie w rozmowach z naszymi klientami. Zresztą wiesz, w wielu kwestiach i tutaj rozwiązaniem jest po prostu edukacja, edukacja, edukacja. A to, że Google otwiera region w Polsce spowoduje, że wszystkie powyższe tematy zostaną dobrze zaadresowane.

Rozwój technologii chmury w Polsce

Właśnie, to może doprecyzujmy. Jak Google Cloud, tak i Microsoft inwestuje duże środki, aby wybudować Data Center w Polsce. Tak jak wspomnieliśmy, Google właśnie otwiera się w kwietniu. Pewnie następny będzie Microsoft. Co to oznacza dla Polski? Czy te rzeczy się dzieją? Na co to może dokładnie wpłynąć i jakie my możemy zaobserwować zmiany po tych działaniach?

Duże środki, o których mówisz to oczywiście nie są tylko pieniądze na budowanie fizycznej infrastruktury, ale również na działania marketingowe oraz na szkolenia i zachęcanie przedsiębiorstw do korzystania z chmury. W dużej mierze właśnie na adresowanie tych hamulców, o których mówiłem przed chwilą. Działania te mają na celu znaczne podniesienie świadomości i wiedzy na temat rozwiązań i przede wszystkim samego bezpieczeństwo chmur publicznych. Zarówno dla osób technicznych, jak i tych bardziej odpowiedzialnych za decyzje biznesowe.

Część tych środków będzie przeznaczona na kredyty, które pozwolą na nieodpłatne albo mocno sponsorowane korzystanie z usług chmurowych, np. na czas budowy Proof of Concept albo przy zobowiązaniu się klienta na przeniesienie części workload’ów do chmury na jakieś inne benefity. To na pewno zwiększy liczbę chętnych do skorzystania, spróbowania i zapoznania się z możliwościami rozwiązań chmurowych.

Szkolenia z rozwiązań chmurowych, które będą i są już w sumie realizowane, również przez Chmurę Krajową, dla odbiorców na różnym poziomie zaangażowania technologicznego, czyli tych osób, które będą bezpośrednio pracować z chmurą i tych, które będą znały jej potencjał, żeby odpowiednio dopasować produkt czy strategię. Na pewno wpłyną bardzo pozytywnie na wiedzę i rozpoznawalność tych usług chmurowych wśród firm.

Regiony i akcje marketingowe Google i Microsoft będą miały również znaczący wpływ na wzrost liczby interesujących miejsc pracy w polskich firmach – ale na pewno też w samym Google i Microsoft. Więcej ludzi pracujących w chmurach i z chmurami to na pewno więce ciekawych pomysłów i dalej kolejne biznesy oparte o nowoczesne, fajne technologie i rozwiązania chmurowe.

Także podsumowując, widzimy dużo plusów na wielu różnych płaszczyznach i już nie możemy się doczekać.

Czyli brzmi to w tej chwili tak, że część osób wie, że chmura jest, ale z drugiej strony brakuje takich argumentów przekonujących, że w miarę łatwym sposobem można osiągnąć więcej. To oznacza, że to myślenie trochę musi się zmienić i nie chodzi tylko o wirtualną instancję, tylko masz tam szereg usług, które bardzo pięknie ze sobą się integrują. Tutaj mogę potwierdzić, że Google Cloud pod tym względem jest bardzo fajnie przemyślane, dlatego też używamy od dobrych kilku lat w DataWorkshop, bo pięknie to się integruje. Tam czuć, że ktoś dba o to i pięknie zszywa te wszystkie usługi, które są dostępne.

Zdecydowanie, ja nie mogę się nie zgodzić. Sam jestem użytkownikiem i polecam wszystkim. Natomiast trzeba na początku zdefiniować cały problem, który chcemy rozwiązać i potem znaleźć odpowiednie rozwiązanie między naprawdę wieloma fajnymi komponentami Google Cloud.

Nasz odcinek dobiega końca. Dzięki wielkie, że udało się znaleźć chwilę czasu, aby porozmawiać i podzielić się swoim doświadczeniem, które jest duże. Jak wymieniłeś te wszystkie komponenty, które też dają możliwości to aż sprawia wrażenie, że się chce po odcinku usiąść i je zobaczyć, chociażby odpalić Cloud Vision Demo. Bo to naprawdę w tej chwili kwestia minut czy pół godziny, aby zobaczyć pierwsze wyniki. Więc dzięki wielkie, że udało się porozmawiać i do usłyszenia przy następnej okazji.

Super, dziękuję bardzo, było mi bardzo miło. Pozdrawiam.

Artykuł Chmura Krajowa – sztuczna inteligencja i wykorzystanie danych w biznesie pochodzi z serwisu Biznes Myśli.

Automatyzacja testów dzięki Machine Learning

Vladimir — Mon, 17 Aug 2020 03:03:18 +0000

Gościem tej rozmowy jest Daniel Kornaś, który opowie o swoich doświadczeniach w branży IT, w szczególności w testowaniu software’u. Daniel urodził się w Chicago, niedawno przeprowadził się do Polski i pracuje w Nokii. W pewnym momencie swojego życia stwierdził, że w klasycznym testowaniu czegoś mu brakuje, nie jest to wystarczająco efektywne.

Zaczął eksperymentować, inspirować się dostępnymi technologiami, narzędziami i m.in. wprowadził automatyzację. Później poznał uczenie maszynowe i w ten sposób zaczął rozwijać projekty. Jest to bardzo ciekawa i inspirująca historia. Gdy zaczął pracę w Nokii, to brakowało pewnego elementu, który właśnie on dodał – uczenie maszynowe oraz tzw. sztuczna inteligencja. Daniel opowie o całej ścieżce, którą przeszedł od pomysłu do wdrożenia, trudnościach po drodze oraz innych ciekawostkach.

Zanim przejdziemy do wywiadu, to podzielę się kilkoma ogłoszeniami i wydarzeniami, które odbędą się niebawem i mogą Cię zainteresować.

Wspominałem ostatnio o webinarium o Prawie Pareta i już teraz chcę Cię zaprosić na kontynuację tego tematu 27 sierpnia. Porozmawiamy między innymi o inwestowaniu 20% czasu, by dostawać 80% wartości, czyli jak robić mniej, by zyskać więcej.

Ten temat pojawił się także w ostatnim odcinku podcastu.

Webinar jest bezpłatny, a jego uczestnicy otrzymają unikatowe notatki z kodem, co pozwoli na samodzielne odtworzenie pokazywanych procesów. Dołączyć do kolejnego webinarium możesz poprzez dedykowaną stronę.

Na jesień ruszają również trzy kursy online od Data Workshop.

Pierwszy to „Praktyczne wprowadzenie do Pythona dla ML„, które umożliwia analizowanie danych. Jest to coś innego niż to, co zwykle jest dostępne na rynku. Kurs ten rusza 14 września.

Drugi kurs to „Praktyczne uczenie maszynowe od podstaw”, który ruszy 5 października.

Trzeci kurs, związany z przetwarzaniem języka naturalnego albo tzw. NLP, rusza 28 września.

Więcej o kursach DataWorkshop znajdziesz na stronie.

Z mojej rozmowy z Danielem dowiesz się o drugim projekcie, który teraz realizują w Nokii, który ma globalny wpływ na biznes. Będę pokazywać na innym przykładzie, w jaki sposób można analizować dane i przypisywać pewne etykietki lub klasy. Ten problem można zastosować przy różnych projektach, np. jeżeli to jest linia wsparcia, a od użytkownika spływają inputy, trzeba przypisać do kolejki „a”, „b” czy „c”.

To są najnowsze rzeczy na dzień dzisiejszy. Na szczęście to wszystko jest dostępne, ale naprawdę trzeba czasami się postarać i znaleźć te informacje i umieć to odpowiednio zinterpretować, aby można było to zastosować. Zrobiłem to za Ciebie, wystarczy tylko dołączyć do kursu.

Przypominam, że w sierpniu obowiązuje zniżka 10%.

Przechodzimy do wywiadu z gościem 🙂

Cześć Daniel. Przedstaw się: kim jesteś, czym się zajmujesz, gdzie mieszkasz?

Cześć. Jestem Daniel Kornaś. Jestem Machine Learning Technical Lead w Nokii. Zajmujemy się tam głównie pracą na siecią 5G, 4G, jak również tworzeniem różnych komponentów stacji bazowych. Ja głównie zajmuję się projektem, który dotyczy machine learning i wykorzystaniem tej technologii do usprawnienia wykrywania różnych problemów w testach logowych.

A skąd pochodzę? Zawsze lubię mówić, że pochodzę z tzw. drugiej stolicy Polski czyli z Chicago. Tam się urodziłem, ale potem przeprowadziłem się właśnie do Polski na studia i teraz tutaj jestem na stałe i pracuję.

I jak się czujesz?

Bardzo dobrze. Bardzo fajnie się pracuje. Bardzo mi się podoba Polska. Wolę mieszkać w Polsce niż w Ameryce.

Powiedz, co ostatnio fajnego przeczytałeś i dlaczego akurat warto to przeczytać?

Za dużo nie czytam, bardziej lubię słuchać książek. Jest taka jedna ciekawa książka, którą ostatnio przeczytałem. Niestety jeszcze chyba nie ma jej w wersji polskiej. Wiem, że poprzednie książki tego autora, zostały przetłumaczone na polski.

Ta książka nazywa się „Leadership Strategy and Tactics: Field Manual” Jacko Willinka. Bardzo fajna książka, tłumaczy, co to znaczy być liderem w zespole, firmie. On używa bardzo wielu przykładów z wojska, jak można to potem użyć codziennie w różnych firmach i zespołach, np. że tak jak w wojsku jest misja, strategia, są różne problemy, jak to trzeba zaplanować, co trzeba zrobić i że dążymy do danego celu, żeby ukończyć tę misję. To takie różne przykłady, które można zastosować w pracy.

Mamy zespół, mamy jakiś projekt, dążymy do jakiegoś celu i co musimy zrobić, aby go osiągnąć.

Jest też mowa o zaufaniu. Bardzo ciekawą rzecz się nauczyłem, mianowicie, że egoizm jest bardzo dużym problemem i np. żeby zbudować zaufanie z pracownikiem, to jak mamy pewien problem, to zamiast powiedzieć mu co ma zrobić, można mu dać szansę, żeby sam mógł rozwiązać ten problem.

Po pierwsze pomaga to w zbudowaniu zaufania, a po drugie, że egoizm czasami tutaj wkracza i zawsze jest tak, że mój pomysł jest lepszy niż Twój. Jeśli ktoś wymyśli swoje rozwiązanie, to będzie bardziej chętny, żeby nad tym popracować i je rozwiązać. Jest bardzo dużo takich ciekawych rzeczy i bardzo mi się podoba ten autor. Gorąco polecam wszystkim.

Zarządzenie, egoizm to faktycznie osobny wątek. Możnaby o tym długo rozmawiać, a w szczególności w branży IT, jeżeli chodzi o programistów. Często są to osoby z mocnym zdaniem i czasem się zaczynają takie wojny na pustym miejscu, czy używać to narzędzie czy inne, a tak naprawdę to jest tylko narzędzie.

Myślę, że warto porozmawiać na temat Twojej ścieżki kariery, jeżeli chodzi o to, jak zacząłeś. Wkroczyłeś w IT już ponad 5 lat temu. Opowiedz trochę o tym, jakie masz doświadczenia?

Moja kariera w Nokii zaczęła się od tego, że byłem testerem manualnym software’u. Musiałem ręcznie wpisać różne parametry, sprawdzić, czy to poprawnie działa itd. Takie taski różne bardzo długo trwały i stwierdziłem, że musi być jakiś lepszy sposób, żeby to zrobić.

Nie można tak siedzieć i tak długo to robić, więc zacząłem myśleć i kombinować, np. jak napisać jakiś skrypt, który by mógł automatyzować trochę nudne taski. Dzięki temu, zacząłem szukać różnych usprawnień i jak można je wykorzystać. Generalnie ta tematyka automatyzacji różnych rzeczy bardzo mnie zainteresowała.

Przez to zacząłem się rozwijać i dalej robiłem przeróżne testy, żeby usprawnić np. sprawdzanie wyników (też pisałem przeróżne skrypty itd.).

Pewnego dnia, około 2-3 lata temu, Nokia wprowadziła ideę uczenia maszynowego w swoje struktury, widząc w tym spory potencjał. Właśnie wtedy zaczęła się burza mózgów w różnych zespołach i lokalizacjach, jak możemy wykorzystać tę technologię. Dzięki temu powstał mój projekt – analiza różnych metryk, które są generowane przez stacje bazowe i używanie tego do testów regresyjnych, żeby zautomatyzować sprawdzanie wyników i wykrywanie potencjalnych problemów, których tester mógł ewentualnie nie zauważyć.

Dzięki temu, gdy ten projekt się rozwinął, pojawił się inny, który miał większy wpływ na całą Nokię – tj. usprawnienie całego procesu wykrywania różnych problemów, które występują w testach, żeby to szybciej i lepiej można było znaleźć.

Można podsumować tak, że testowałeś pewne rzeczy, próbowałeś wykrywać i sprawiać, żeby rzeczy działały stabilnie i tak zacząłeś dostrzegać, że się nudzicie i powtarzacie w kółko pewne elementy. Pomyślałeś, że tutaj być może jest jakieś narzędzie, którym jest automatyzacja i tam dalej ML jest całkiem blisko.

Załóżmy, że czyta nas teraz osoba, która pracuje w IT. Jest albo programistą, albo osobą techniczną, albo na pograniczu – tester, który sprawdza oprogramowanie w ten czy inny sposób wykorzystując kodowanie (bo to nie zawsze w sumie jest wymagane).

Na ile ta ścieżka przejścia jest trudna? Na czym polega ta trudność? Co u Ciebie sprawiało największe trudności i jak sobie z tym radziłeś?

Generalnie nie trzeba bardzo dużo wiedzy. Nie ma wysokiego progu, żeby w ogóle zacząć. Powiedziałbym, że właśnie bardzo łatwo można zacząć. Mówiłem w jednej prezentacji na naszej konferencji Test Dive, jak łatwo można zacząć prototypować w machine learning. Najpopularniejsza biblioteka to jest właśnie wykorzystanie języka Python i tam są różne już gotowe biblioteki.

Daniel Kornaś podczas konferencji TestDive 2019.

Tam są różne modele, które można wykorzystać i zacząć używać od ręki. Największym problemem jest to, że trzeba pomyśleć, jak można wykorzystać te modele, do czego one tak naprawdę służą i co chcemy rozwiązać. Gdy mieliśmy tę burzę mózgów w naszym zespole, to my nad tym się zastanawialiśmy – co by można było tu usprawnić, w jaki sposób, czy to jest możliwe lub nie.

W końcu zdecydowaliśmy np. analizę tych różnych metryk, bo mamy bardzo dużo danych, zestaw historycznych danych z poprzednich testów i mamy to wszystko agregowane, bo trzeba na czymś uczyć te modele. Bez tych informacji ciężko jest stworzyć taki model. Dzięki temu, że mieliśmy już mniej więcej takie gotowe testy z rezultatami, to mogliśmy taki całkiem prosty model stworzyć.

Oczywiście, jako początkujący nie można powiedzieć wprost, który model faktycznie będzie najlepszy, bo to jest bardzo trudne do stwierdzenia – trzeba testować. Można ewentualnie ograniczyć niektóre modele. Właśnie zaczęliśmy od jednego, drugiego modelu.

Trochę bawiliśmy w Random Forest, aż w końcu wylądowaliśmy z XGBoostem, który wychodził najlepiej. Nie mieliśmy żadnych super komputerów, więc niestety uczenie takich modeli dłużej zajmowało, ale w końcu udało nam się zrobić całkiem dobry model, który miał dokładność powyżej 90% i osiągał bardzo dobre wyniki. Jesteśmy dumni z tego, co zbudowaliśmy. Zajęło to trochę czasu, dużo bawienia się, ale naprawdę stworzyliśmy fantastyczną rzecz.

O tym projekcie jeszcze dokładniej porozmawiamy. Chciałem zapytać o to, jak wygląda to przejście. Kiedyś miałem prezentację na temat Programmist Advancer albo Full-Stack Developer, w której próbowałem wyjaśnić, że ten Full-Stack Developer z czasem (a ten czas już nastąpił lub następuje teraz) będzie m.in. też zawierać element związany z uczeniem maszynowym.

Tutaj co prawda też trzeba powiedzieć wprost – to nie chodzi o to, że każdy przy okazji się stanie ekspertem ML, ale też tego nikt nie oczekuje. Oczywiście jest pewna wiedza koncepcyjna, którą trzeba zdobyć. To nie jest tak, że wystarczy sekunda i już wszystko wiesz, ale z drugiej strony, faktycznie wejście teraz do obszaru ML jest zdecydowanie łatwiejsze niż 5 czy 7 lat temu.

Pracujesz w Nokii.

Wyobraźmy sobie, że mamy ileś tam punktów – punkt „a”, „b”, „c”, „d” i „e”, czyli:

„a” – moment, kiedy w danej firmie nic się nie mówi na temat AI, ML, nikt nawet nie wie, co to jest,

„b” – ktoś poszedł na konferencję albo meetup i tam na korytarzu zagaduje kolegę: „Słuchaj, jest takie coś jak ML. Może my też chcielibyśmy to użyć?”

„c”- przynajmniej jedna osoba dojrzała, żeby spróbować zrobić po cichu prototyp, niekoniecznie działający, ale przynajmniej już się zaczyna grzebać w danych i być może jakieś już wychodzą wyniki,

„d” – pojawia się zespół, przynajmniej jednoosobowy i ta osoba pracuje już nad tym normalnie w godzinach pracy, to jest już oficjalny projekt i są już pewne oczekiwania wobec niego,

„e” – moment, kiedy już coś udało się wytworzyć i faktycznie to dało wartość dodaną, udało się to już wdrożyć na produkcję.

Czy udało Ci się zobaczyć te wszystkie fazy w Nokii?

Ile zajęło czasu, przejście z punktu „a” do punktu „e”?

Ile zajęło czasu przejście pomiędzy tymi punktami czyli z punktu „a” do punktu „b”, z punktu „b” do punktu „c” itd.?

Mogę powiedzieć, że raczej wszystkie punkty widziałem. Jak zacząłem pracować w Nokii, to nie słyszałem, żeby cokolwiek było robione z uczeniem maszynowym. Nie wiedziałem nawet, że ktokolwiek się zajmuje takimi rzeczami.

Dopiero z rok później, wyszła taka oficjalna inicjatywa, przedstawiona przez naszego CEO, że uczenie maszynowe jest przyszłością i powinniśmy zacząć myśleć na ten temat. Wtedy zaczęły się pojawiać różne szkolenia dla nas, żebyśmy zrozumieli, co to jest machine learning, jak to działa, do czego można tego używać.

Było to wytłumaczone wysokopoziomowo, żeby wprowadzić nas wszystkich. Miesiąc, dwa później był drugi etap, gdzie różne zespoły, z różnych lokalizacji, zaczęły robić burzę mózgów. Zaczęli myśleć, jak można wykorzystać machine learning i naprawdę jest mnóstwo pomysłów, które można ewentualnie zastosować.

Potrzeba jednak do tego odpowiednich osób, czasu i pieniędzy, żeby można było w to zainwestować i coś takiego zrobić. Małymi kroczkami, zaczęło się od 1-2 osób z innym pomysłem, żeby coś zacząć prototypować. Właśnie tak zaczęło się ze mną, miałem jeszcze dwóch kolegów, którzy pomagali z tym projektem.

Nasza przygoda zaczęła się w jednym miesiącu i to trwało kilka miesięcy (prawie do roku). Uczyliśmy się cały czas jak zbudować model, czego trzeba, jak byśmy to dodali do modelu, w jaki sposób się nauczyć, jakie dane zastosować, czy to jest potrzebne, czy coś obciąć, czy coś zostawić. W końcu taki oficjalny Virgin 1.0. był stworzony.

Wtedy był już taki etap, że różne zespoły z całego świata, miały jakieś już działające Virgin 1.0. projekty. Parę miesięcy później, zaczęliśmy drugą inicjatywę i zaczęliśmy współpracować z różnymi zespołami z całego świata. Niektóre pomysły trochę się powtarzały i niepotrzebnie, żeby dwa różne zespoły robiły to samo tylko, żeby razem połączyć siły i nad tym popracować, bo może faktycznie możemy coś rozwiązać.

Mamy też swój zespół w Krakowie, z którym pracujemy nad jedną rzeczą, też mamy różne zespoły w innych lokalizacjach, ale tak naprawdę teraz już pracujemy razem. Jesteśmy na takim etapie, że jesteśmy jednym wielkim, zdalnym zespołem w Nokii, ale staramy się działać i używać uczenia maszynowego.

Spróbujmy troszkę podsumować te przejścia pomiędzy krokami, które wcześniej wyjaśniłem. To są miesiące, lata? Wiadomo, że to wszystko zależy, ale tak bardziej spróbujmy chociażby ten temat ugryźć, na tym konkretnym przykładzie.

Zaczynając 3-4 lata temu to nic nie było wiadomo. Rok, półtora roku później, zaczęły się wstępne dyskusje odnośnie uczenia maszynowego, co to jest, jak można to wykorzystać. Pół roku później, zaczęły pojawiać się pierwsze małe jednoosobowe zespoły i zaczęły być prototypowane różne projekty. Rok, półtora roku później zaczęły tworzyć się takie konkretniejsze zespoły.

Są pewne przejścia, z punktu „a” do punktu „b”, z punktu „b” do punktu „c”. Czy to było naturalne, że skoro udało się przejść z punktu „a” do punktu „b”, to od razu rozpoczynamy podróż do punktu „c”? Czy jednak musiało coś się wydarzyć?

Czasem to było łatwe, naturalne, a czasem niekoniecznie, np. jedna sprawa to zacząć o tym rozmawiać, a druga sprawa to znaleźć zespół, a to jest koszt. Jakiego rodzaju decyzje muszą zajść i u kogo, żeby to było możliwe?

Jak zacząłem prototypować ten projekt i w końcu, jak mi się udało skończyć i utworzyć wersję 1.0., to potem zaczął się etap poszukiwania, jak mógłbym rozszerzyć tę funkcjonalność, gdzie bym mógł dalej to zastosować.

Tak naprawdę to było lokalnie zastosowane, głównie tylko w moim zespole. Zaczął się taki okres researchu, żeby zobaczyć jak inne zespoły funkcjonują, co robią, czy potrzebują taką funkcjonalność, czy czegoś innego potrzebują, czy coś dodatkowo można dodać do mojego projektu?

Zajęło trochę czasu takie szukanie, research i wywiady z różnych zespołów, żeby dowiedzieć się, co jest potrzebne, gdzie mógłbym zastosować taki projekt, który właśnie stworzyłem. Całe szczęście, jednocześnie jak ja robiłem ten projekt, mniej więcej w tym samym czasie, drugi zespół zaczął się tworzyć.

Oni szukali takich osób jak ja, z taką funkcjonalnością i doświadczeniem, aby pomóc im rozszerzyć swój projekt. Wtedy miałem okazję, żeby dołączyć do nich i nad tym popracować dalej.

Fajnie, że to powiedziałeś, bo jak prowadzę kursy online, dotyczące tego, jak zacząć z uczeniem maszynowym i później znaleźć pracę, to zwykle podpowiadam absolwentom, że ważnym jest to, aby mieć proaktywną postawę.

Nie czekaj, dopóki jakaś osoba decyzyjna w Twojej firmie powie Ci, co masz robić, tylko to musi być taka inicjatywa oddolna. To jest inspirujące, więc dzięki, że się tym podzieliłeś.

Teraz porozmawiajmy trochę na temat tego projektu. Tylko zanim porozmawiamy o rozwiązaniu, to najpierw o problemie. Wyjaśnij, jaki jest kontekst i jakie są problemy? Jak udało się to ogarnąć, albo przynajmniej częściowo ogarnąć?

Jeżeli chodzi o mój pierwszy projekt, to problem był taki, że jak robimy testy regresyjne, to jest bardzo dużo różnych parametrów, które są generowane przez stację bazową. Jak tester pracuje nad daną nową funkcjonalnością, to on jest ograniczony, żeby sprawdzić najważniejsze parametry, który dotyczą danej funkcjonalności plus parę jakiś innych ewentualnie.

Problem jest taki, że tych parametrów jest ponad 2 tysiące. Nie masz szans, żeby przeglądnąć każdy parametr i sprawdzić, czy to faktycznie poprawnie działa, czy nie. Jesteśmy ograniczeni czasowo, bo musimy upewnić się, że dana funkcjonalność będzie działała i to potem dostarczyć do klienta.

Zamiast sprawdzać te wszystkie parametry manualnie przez testera, to wszystko może być zautomatyzowane za pomocą uczenia maszynowego. Właśnie tu powstał pomysł, że stworzymy model, którego nauczymy wszystkich parametrów. Bardzo prosto jest to pogrupowane, że albo test był spasowany, albo nie.

Testy nie były wielce skomplikowane i można było wyróżnić takie różnice – jeśli te 2 tys. parametrów mają różne wartości to oznacza, że test jest raczej spasowany, a jeśli nie ma tych różnic, to ten test nie jest spasowany. Po jakimś dłuższym czasie, różnym eksperymentowaniu, udało nam się właśnie taki projekt stworzyć. To jest oczywiście pierwszy projekt.

Zróbmy jeszcze krok wstecz, bo tak szybko powiedziałeś, że jest jakaś stacja. Możliwe, że nie dla wszystkich jest oczywiste, o co chodzi, więc wyjaśnij na przykładzie co to jest i po co to jest? Komu to jest potrzebne, żeby to działało? Co się stanie, jeśli to przestanie działać?

Stacja bazowa to jest takie urządzenie, które pozwala, żeby nasza komórka połączyła się do tej stacji. Możemy wtedy wejść na Internet, zadzwonić do znajomych i wtedy komórka działa po prostu z siecią. Ta stacja bazowa ma przeróżne funkcjonalności.

Musi obsługiwać telefony, które przychodzą, żeby móc przełączyć, podłączyć telefon, wysłać dane informacje, które trzeba zastosować, odpowiednie konfiguracje. Jeśli człowiek przemieszcza się to gdzie ten telefon ma dalej się przełączyć, do kolejnej bazy. Więc te stacje bazowe są bardzo potrzebne, żeby takie utrzymać takie połączenie.

Fajnie, czyli to jest po prostu kluczowy element, żeby sieć komórkowa funkcjonowała poprawnie. Powiedziałeś też, że jest ogromna liczba parametrów przetwarzanych jednocześnie, czyli to oznacza, że wiele rzeczy może się zepsuć.

Skoro tyle rzeczy trzeba weryfikować, to pewnie każdy z nich może się zepsuć albo wszystko na raz. Takie klasyczne podejście, weryfikacja krok po kroku, bardziej w sposób liniowy, że sprawdzamy wszystko po kolei, to niby działa, tylko dość ograniczającym czynnikiem był czas. Idea polegała na tym, żeby szybko wykrywać pewne rzeczy, które mogą pójść źle albo nawet pewne sygnały.

Jeszcze nawet z takim wyprzedzeniem, że jeszcze być może nie jest źle, ale już są pewne sygnały, które sugerowałyby, że tak może się stać. Podpowiedzią, którą mieliście, to, nad czym bazowaliście, to były dane, które były wynikiem uruchamiania klasycznych testów. Te testy klasyczne miały odpowiedź – „działa/nie działa”. Parametry były przekazane dla modelu + odpowiedź „działa/nie działa”.

Jakie były trudności dalej? Wszystko to jest przepiękne, ale ten świat zwykle jest zbyt zmienny, żeby było tak łatwo. Jakie mieliście wyzwania?

Na samym początku mieliśmy krytyczny problem. Jak wpierw zaczynaliśmy, bardzo krótko i bardzo szybko na samym początku, jakimś cudem nasz model bardzo dobrze działał. Byliśmy bardzo zdziwieni, dlaczego tak super to działa.

Trochę niestety za szybko się pochwaliliśmy, że ma bardzo dobre wyniki, a okazało się, że wcale tak nie jest. Mieliśmy tzw. data leakage (wyciek danych). To jest taki problem, że jak uczymy model i dzielimy dane na testowe i treningowe to niektóre z nich, które są w training, pojawią się w testowym i na odwrót. Model już zna wyniki, zanim widział testowe próbki.

To był typowy problem dla początkujących, powiedziałbym, że każdy musi go przejść. Oczywiście musieliśmy wrócić do tego i potem w końcu odkryliśmy, że źle segregowaliśmy te dane. Potem jak już to poprawiliśmy, to faktycznie dużo mniejsza była ta dokładność. Następnie zaczęliśmy kombinować, z innymi modelami robić tuning itd., aż w końcu udało nam się uzyskać wystarczająco dobre wyniki.

Kiedyś w banku powiedziałem coś na temat wycieków danych i nagle uwaga całego zespołu wzrosła, choć to chodziło o inny wyciek danych. Jednak ta fraza jest dość zaskakująca, w szczególności dla osób, które pracują w banku i w podobnych instytucjach, więc trzeba tutaj uważać albo przynajmniej od razu tłumaczyć, co to oznacza w praktyce.

Jakie trudności jeszcze mieliście po drodze? Które rzeczy na początek wydawały się mało istotne, ale praktyka pokazała, że jednak na to trzeba zwracać uwagę?

Dużo danych – to było właśnie krytyczne. Mieliśmy historyczne dane, ale mieliśmy też przeróżne testy. Niektóre z nich były częściej puszczane i miały dokładniejsze wyniki, niektóre rzadziej, przez co ciężej było przewidzieć rezultat. Przy processingu danych my też kombinowaliśmy na różne sposoby, czy powinniśmy normalizować czy nie? To jest oczywiście zależne w różnych przypadkach.

Jeżeli my zostaliśmy przy XGBoost czy takiej formie jak Java Decision, to takie modele najlepiej działają takie jakie są, bez modyfikacji. Modele Java Decision i Random Forest to najlepiej działają na takich danych. Oczywiście był też tuning, żeby zrozumieć jak parametry tuningowe wpływają, co ulepszają, a co nie. Dużo czasu to zajmowało, zanim otrzymaliśmy wyniki.

Często się mówi, że czyste dane są podstawą i z tym zwykle nikt nie dyskutuje, bo każdy kto pracował z danymi wie, że to jest prawda. Natomiast jest to trochę abstrakcyjne, bo tak naprawdę jak zaczynasz pracować z tymi danymi, to tak się zastanawiasz: „Ok, miałem punkt „a” wyjścia i tam były dane, które miały totalnie zły format.
Zrobiłem coś, wyczyściłem lub poukładałem, mam jakiś inny stan, tylko pytanie czy teraz te dane już są czyste czy tylko trochę czystsze? Czy wystarczająco czyste?”.

To jest trochę taki dylemat, który gdzieś tam zawsze się pojawia i fajnie, żeby pojawiały się jakieś konkrety.

Kwestia spójności. W Waszym przypadku to były testy, które się uruchamiały częściej, drugie rzadziej. Teraz kiedy przekazujemy te dane do modelu, to model zakłada, że to jest spójne. Jeżeli nie jest to jest trochę nasz problem, bo model potrafi zobaczyć rzeczywistość przedstawioną w przekazanych mu przez nas danych, które on zakłada za normalne.

On nie zna kontekstu, że ktoś tam po prostu ustawił zły parametr albo ten test wykonuje się wolniej, dlatego jest rzadziej. Model tego nie wie, ma po prostu to co ma, więc ta spójność jest elementem dość ważnym i konkretnym.

Czy jeszcze coś Ci przychodzi do głowy, kiedy mówimy o czystości danych? Jakieś kryteria, na które warto zwracać uwagę?

Jedna rzecz jeszcze mi się przypomniała, może niekoniecznie o czystości danych. Pojawiały się nieraz pytania, czy podzielić ten model na kilka różnych.

W sumie te testy można podzielić na różne kategorie. Było też pytanie, czy zrobić taki zestaw hierarchiczny, że odpowiedni model do odpowiednich testów, ale to też powiązane było z tym, że ze względu na różną częstotliwość testów, to jeden model mógł mieć tylko parę testów, a inny model mógł mieć ich ponad 100 do nauczenia. Więc tu częściowo nie miało sensu, żeby to rozdzielać i lepiej trzymać to wszystko razem.

Jeżeli chodzi o dane to potem było pytanie, czy może zrobić dane syntetyczne? Stworzyć takie podobne dane i zduplikować je w jakiś sposób. Nad tym też trochę zastanawialiśmy się, ale jest po prostu za dużo tych parametrów, żeby zrozumieć wszystkie dokładnie.

Niestety niektóre parametry są zależne od innych, czyli jak jedna wartość pójdzie w górę to inna musi iść w dół, druga zostaje taka sama i są przeróżne kombinacje, których niestety nie możemy przewidzieć. Jak chodzi o stworzenie syntetycznych danych, to niestety to też było to wykluczone.

A propos tej zależności to jeszcze jedna sprawa, kiedy zależność jest liniowa, czyli jeden się zwiększa o 2, drugi o 4. Prawdopodobnie w tym przypadku to była zależność nieliniowa, czyli tak naprawdę czasem jeden parametr się zwiększa, drugi stoi w miejscu, potem jest moment X i on rośnie jak szalony. Więc takie zależności liniowe są najtrudniejsze.

Ciekawą rzecz jeszcze wspomniałeś, a propos dzielenia modeli. Zwykle na początku (też przechodziłem tę ścieżkę), kiedy mamy hierarchię decyzji, że np. mamy jakąś kategorię główną, potem podkategorię to zwykle chce się zrobić w taki sposób, że trenuje się model, który mówi, że to jest kategoria „rodzic a” albo „rodzic b” i później skoro to jest „rodzic a”, to bierzesz inny model, który mówi, że to jest „dziecko a1” albo „dziecko a2”.

W ten sposób propagujesz właśnie tę decyzję, w całym łańcuchu. Praktyka pokazuje zwykle, że to niekoniecznie jest najlepszy pomysł, ponieważ każdy model posiada błąd i te błędy zaczynają się powtarzać. Czyli innymi słowy, jeżeli „model a” nie wykrył tego, co należy do „a”, to później „a1” czy „a2” w ogóle nie ma szans, żeby to wykryć, bo tam nawet nie docierają.

Jeszcze jak zaczynamy łączyć modele, to te błędy zaczynają się pojawiać w dość paradoksalnie nieoczekiwany sposób. Widziałem na własne oczy pewne rozwiązania na produkcji, kiedy tak było zrobione. Na szczęście kiedy zbierałem własne doświadczenie, to do produkcji nie doszedłem. Szybko wyłapałem, że to nie jest fajne podejście powtarzać błędy dalej. Powiela się to znacząco, bo tak naprawdę jeżeli 20% danych nie przeszło, to potem ta liczba jest brana pod uwagę i tak się zbiera kula śnieżna.

Powiedz coś więcej na temat drugiego projektu. Jakie jest problem i kontekst tego problemu, a później rozwiązanie?

Tu jest większy projekt, który wpływa na całą Nokię. Ten projekt polega na usprawnieniu całego procesu, wykrywaniu różnych problemów i potem zgłoszenie tych problemów do odpowiednich zespołów, żeby je naprawić. Problem polega na tym, że tester testuje jakąś funkcjonalność i potem wykryje, że test nie przeszedł, bo coś źle poszło. Tester musi teraz znaleźć, co było problemem.

W zależności od tego, jaki problem to jest, to może trwać albo 5 minut, albo nawet 5 godzin. To jest niestety bardzo czasochłonne. Jak już wykryjemy problem, to musimy go przypisać do odpowiedniego zespołu czy osoby, która następnie to musi naprawić. Tu znowu pojawia się kolejny problem, że mamy przeróżne osoby, które specjalizują się w innych tematach i ciężko trafić do odpowiedniego zespołu.

Przeważnie to wygląda na takiej zasadzie, że przypisuje się problem w kryteriach jakiejś jednej grupy, ale dostajemy zwrot, że oni tym się nie zajmują. Potem do drugiej, ale dostajesz znowu zwrot. To jest taki ping pong tam i z powrotem, aż w końcu za 3 czy za 4 razem, w końcu trafia do odpowiedniego zespołu.

To też znowu jest bardzo czasochłonne i niestety kosztowne, bo bardzo dużo zajmuje, żeby rozwiązać jakiś problem i to może spowodować opóźnienia w dostarczeniu różnych rzeczy, a tego przecież nie chcemy.

Poprzez ten projekt chcemy usprawnić ten proces. Można tak naprawdę podzielić go na dwie części. Pierwsza część to używanie sztucznej inteligencji i uczenia maszynowego, żeby szybciej wykryć te różne problemy.

Druga część to użycie sztucznej inteligencji i uczenia maszynowego, żeby robić odpowiednie predykcje na podstawie tego, jaki problem był znaleziony, żeby dobrze przypisać od razu za pierwszym razem do odpowiedniego zespołu.

Czyli rozwiązaniem w tym przypadku po pierwsze jest szybkość, redukcja czasu. Po drugie, też w sumie na temat czasu i zaangażowania osób, bo znalezienie właściwej osoby, która może ten problem rozwiązać, z tego co rozumiem, przy takiej skali jak duża firma, nie jest trywialnym problemem.

Czy możesz troszkę więcej powiedzieć na temat tych danych? Jakiego rodzaju dane są na wejściu? Co jest na wyjściu? Jakie są też trudności, jeżeli chodzi o te dane?

Mogę zacząć od drugiej części, bo to mamy bardziej rozwinięte i wdrożone w tej chwili. Stworzyliśmy taki model, który otrzymuje opis problemu od danego testera. Na podstawie tego, jak ten problem został opisany, to go potem przypisujemy odpowiednio do zespołu.

Podobnie jak przy pierwszym projekcie nauczyliśmy się na historycznych danych. Mamy odpowiednią bazę, historię różnych problemów, które były zgłoszone wcześniej, gdzie były przypisane i jaki był opis tych problemów itd. Na wejściu mamy tekst, opis danego problemu po angielsku (na szczęście).

Potem musimy wziąć te dane, skonwertować w odpowiedni sposób, czyli zamienić na wektory, w taki sposób, który model będzie mógł odczytać. Potem uczymy model, że taki opis właśnie należy do takiej grupy, taki do takiej grupy itd. Mniej więcej, w skrócie można powiedzieć, że tak funkcjonuje ta druga część.

Czyli tzw. problem NLP, czyli przetwarzanie języka naturalnego. Powiedziałeś “na szczęście w naszym przypadku po angielsku” i faktycznie to ułatwia sprawę z wielu powodów, m.in. język angielski pod tym względem jest trochę przyjemniejszy, bo ma pewną strukturę i mniej odmian językowych. Jest bardziej przewidywalny i przyjemniejszy, jeśli chodzi o wersję cyfrową, niż np. język polski.

Jeżeli chodzi o wyniki, czy udało się zwiększyć efektywność pracy zespołu testerów i być może jeszcze kogoś?

Tak, na chwilę obecną do jakiegoś stopnia udało się nam usprawnić. Mamy właśnie ten model wdrożony i całkiem dobrze na chwilę obecną działa. W stosunku do tego, jak działał wcześniej, to przypisanie do odpowiedniej grupy, to 3-4 razy trzeba było próbować, zanim się w końcu trafiło do odpowiedniego zespołu.

Teraz model nie jest idealny i nie zawsze taki będzie, więc czasami mogą pojawiać się różne problemy, ale całkiem dużo lepiej działa. Zdecydowanie mniej razy (raz albo 2 razy) trzeba próbować, żeby przypisać do danego zespołu, ale przeważnie za pierwszym razem trafia. Więc jak chodzi o tę część, to dużo bardziej jest proces usprawniony w stosunku do tego, jak było wcześniej.

Jeżeli chodzi o pierwszą część, czyli wykrywanie różnych problemów, to to jest dużo większy problem i to jest coś, co nie będzie rozwiązane tak szybko. Minie jeszcze trochę czasu, żeby poeksperymentować, zrozumieć, o co chodzi, jakie problemy są, jak można je wykryć. Czy dane wyniki tego modelu są przydatne? Co tester konkretnie potrzebuje, żeby odpowiedzieć, dlaczego coś się stało lub nie? Niestety to jeszcze potrwa jakiś czas.

Zwykle powtarzam taką frazę, że jak masz umiejętność X, do tego X dodajesz ML, AI i już dostajesz innowacje. W Twoim przypadku, tym X jest testowanie.

Jak myślisz, na ile branża uczenia masznowego zmieniła lub zmienia branżę testowania? Na ile to już zaczyna wyglądać inaczej? Czy masz jakieś prognozy, jak to może wyglądać za np. 5 lat? Na ile te podejścia, które były jeszcze „wczoraj, jutro już będą nieaktualne”?

Jest to jeszcze trochę świeży i skomplikowany temat. Jak wspomniałem przed chwilą, takie rozwiązania jeszcze trochę zajmą, żeby tak naprawdę bardzo dobrze funkcjonowały. Ale jak chodzi o szacowanie, to można powiedzieć, że to ma duży potencjał w takiej branży. Szczególnie, że procesy inwestygacji danego problemu trwają 5 godzin, a może i więcej.

źródło: giphy.com

W zależności od tego, jak bardzo krytyczny jest dany problem, to za pomocą sztucznej inteligencji lub w ogóle usprawnienia tego całego procesu, wykrywanie tych różnych problemów możemy nawet skrócić do 15-20 minut. Oczywiście, jak oszczędzamy dużo czasu, to oszczędzamy też dużo pieniędzy. W stosunku do tego, ile teraz jest wydawane, żeby znaleźć i poprawiać, wykrywać te różne problemy, to za pomocą sztucznej inteligencji, można powiedzieć, że przynajmniej o połowę te koszta można zmniejszyć.

Może i nawet więcej, jeśli to dobrze się zrobi. Odnośnie przyszłości, następne 5-10 lat to widzę, że sztuczna inteligencja nigdy nie zastąpi testera. To na spokojnie mogę powiedzieć, bo zawsze będą te nowe funkcjonalności, które trzeba będzie stworzyć i to są takie rzeczy, których model nigdy nie przewidzi. Jednak za pomocą modeli z uczenia maszynowego, to my możemy zawsze testować to, co już działa.

To tak naprawdę wszystko rozkłada się na najbardziej fundamentalne rzeczy i funkcjonalności, czyli np. czy stacja bazowa wstała, czy telefon został podłączony, czy to połączyło się z drugą bazą, czy dane zostały wysłane itd. Jest bardzo dużo rzeczy, które model może przewidzieć i wiele z nich można usprawnić.

Po prostu usprawnić cały proces, żeby tester nie zajmował tym, wiedząc, że to na pewno działa poprawnie, ale żeby sfokusować nad danym problemem, który nie działa i poprawić to jak najszybciej. W przyszłości widzę, że uczenie maszynowe będzie bardzo dobrym narzędziem dla testera, ponieważ jego praca będzie przyjemniejsza, bo nie będzie trzeba siedzieć godzinami i szukać problemu.

Doskonale znam to uczucie i byłem nieraz w takich sytuacjach, ale naprawdę dużo można ulepszyć taką pracę i właśnie tak widzę najbliższą przyszłość i dalsze lata.

Czy swoje życie zawodowe widzisz już teraz bez machine learning?

Powiem szczerze, że nie za bardzo. Bardzo mi się to spodobało. W ogóle od liceum byłem bardzo zafascynowany technologią, elektroniką, najnowszymi rzeczami. Wtedy ogromnie się interesowałem komórkami, jakie są najnowsze parametry, funkcjonalności.

Elektronika i technologia strasznie mnie interesowały i to pomału się rozwinęło. Na studiach uczyłem się telekomunikacji i elektroniki, potem to się rozwinęło w programowanie. Potem sztuczna inteligencja, więc to jest naprawdę cudowna i fantastyczna rzecz. To jest po prostu przyszłość. Nie widzę życia bez tego.

Dzięki Daniel za dzisiejszą rozmowę. Bardzo mi miło. Cieszy też Twój entuzjazm i znalezienie się w odpowiednim miejscu, bo czuć, że rzeczy, które teraz robisz to są Twoje rzeczy i życzę Ci, żeby udało Ci się jeszcze bardziej rozwinąć skrzydła, osiągnąć jeszcze więcej i czuć radość z życia. Więc dzięki za rozmowę, do zobaczenia.

Dzięki, cześć.

Po rozmowie okazało się, że jakiś czas temu (chyba ponad 2 lata temu), poznaliśmy się z Danielem na Hackathonie, gdzie byłem w jury i oceniałem różne projekty.

Jego projekt zdobył drugie miejsce. Akurat wtedy jeszcze Daniela nie znałem i dzisiaj musiałem też tę historię sobie przypomnieć. Świat jest bardzo mały, ale ciekawe jest to podejście, kiedy ktoś Cię bardzo dobrze pamięta, a Ty pamiętasz to wydarzenie, ale niekoniecznie pamiętasz wszystkie osoby. Ale jak już kontekst się przypomniało, to wiedziałem dokładnie, jak to wszystko wyglądało, mam bardzo dobrą pamięć wizualną.

Druga rzecz, która też mi przyszła do głowy to cała ta rozmowa była dość przyjemna. Wytworzyła się dość pozytywna atmosfera i to cieszy, kiedy ludzie znajdują swoje miejsce w życiu, bo tak naprawdę, jeżeli obserwujesz dookoła nasz świat, to zobaczysz, jak często osoby się męczą z tego powodu, że znajdują się w niewłaściwym miejscu.

Dlatego bardzo gorąco Ci życzę, jeżeli masz poczucie, że Twoje miejsce pracy to jest jakiś koszmar i to jest coś, co Cię bardzo męczy, to zastanów się nad tym, czy to miejsce jest “Twoje”. A druga rzecz to przygotuj plan ucieczki.

Wiadomo, że nie musisz rzucać papierami natychmiast, bo to różnie może się skończyć i zwykle trzeba robić to zdroworozsądkowo, ale warto zadbać o swoje życie, bo ono jest stosunkowo krótkie i nawet jeżeli trwa 100 lat, to bardzo szybko mija. Życzę Ci znaleźć swoje właściwe miejsce, bo dzięki temu będziesz czuć radość i szczęście. Poczucie radości jest bardzo ważne.

Jeśli zainteresował Cię ten artykuł – podaj go dalej. Rozwijajmy wspólnie społeczność związaną z uczeniem maszynowym i sztuczną inteligencją. Jeśli chcesz aktywnie działać w temacie uczenia maszynowego, to polecam Ci dołączyć do społeczności pasjonatów i praktyków Machine Learning / Data Science – DataWorkshop.

Warto się zapisać się również do newslettera, gdzie będziesz dostawać najnowsze informacje na temat tego, co się dzieje.

źródło: giphy.com

Artykuł Automatyzacja testów dzięki Machine Learning pochodzi z serwisu Biznes Myśli.