data science – Biznes Myśli

Czy developer potrzebuje Machine Learning?

Vladimir — Mon, 09 Aug 2021 05:59:11 +0000

Tym razem mam dla Ciebie nieco inny wpis niż zazwyczaj. Jest to pewien eksperyment. Polega on na tym, że Kajetan Duszyński zaprosił mnie do swojego podcastu, a ja pomyślałem, że warto również opublikować to u mnie.

Dotychczas miałem dwie możliwości: albo głównie ja zadaje pytania, albo prowadzę monolog. Pomyślałem, że fajnie byłoby, żeby ktoś, kto ma trochę inne doświadczenie (programisty), wyciągnął tym razem ze mnie może nieco mniej oczywiste tematy i opinie. Człowiek jest bardzo subiektywny. Dzięki takim eksperymentom będę w stanie wyciągnąć więcej ukrytych warstw. Ciekawy jestem, jak ocenisz tę rozmowę. Koniecznie daj mi znać, jak Ci się podobało.

Ten wpis będzie bardzo przydatny przede wszystkim dla programistów. W szczególności jeżeli mówimy o programistach .NET, C#, bo Kajetan właśnie w tym się specjalizuje.

Kajetan prowadzi podcast Backend na froncie – polecam zajrzeć, a także odwiedzić jego kanał na YouTube.

Kajetan: Cześć Vladimir. Niezwykle mi miło, że udało nam się spotkać. Pierwszy raz pojawia się pewnego rodzaju współpraca, tzn. Backend na froncie łączy się w pewien sposób (chociaż na jeden odcinek) z Twoim podcastem Biznes Myśli. Mam nadzieję, że wyjdzie z tego bardzo ciekawa rozmowa. Na sam początek bardzo bym Cię poprosił o krótkie przedstawienie się, kim jesteś, skąd pochodzisz i dlaczego się tutaj spotykamy.

Vladimir: Cześć Kajetan. Bardzo mi miło, że mnie zaprosiłeś. Cofnę się trochę w czasie, jeżeli chodzi o przemyślenia związane z C#. Za chwilę wyjaśnię, co mam na myśli.

Kim jestem? Zajmuję się wieloma rzeczami, więc ciężko jednoznacznie odpowiedzieć na to pytanie, ale myślę, że najlepiej w tej chwili będzie określić to w ten sposób – przedsiębiorca, inżynier uczenia maszynowego, programista. Nadal programista mimo tego, że dużo moich obecnych projektów jest związana ze strategią, planowaniem, tematami biznesowymi. Jestem prezesem spółki DataWorkshop i sporo rzeczy nowych się pojawiło, ale programowanie dla mnie jest w pewnym sensie medytacją.

Nawet wtedy kiedy nie muszę rozwiązywać konkretnego problemu pisząc kod, ale mam jakiś stres albo coś mi nie wychodzi, to i tak siadam, bo kilka godzin programowania jest super sprawą, żeby trochę odpocząć, odnieść swoje pierwsze sukcesy danego dnia, bo to jest też ważne, żeby mieć ustalony plan dnia. Osoba, która robi rzeczy bardziej abstrakcyjne, dość często ma ten problem, że pewne rzeczy się rozpływają, czyli musisz mieć więcej czasu, żeby to wszystko zrealizować. Dlatego proste czynności, mini programy, które od dawna chciałem zrobić, po prostu są mega fajną rzeczą.

Prowadzę spółkę DataWorkshop, która zajmuje się uczeniem maszynowym, ale na różne sposoby. Z jednej strony wdrażamy uczenie maszynowe, pomagamy, wspieramy inne firmy. Na ten moment udało się wdrożyć już ponad 500 modeli, czyli tyle modeli się kręci na produkcji i zarabia na siebie. Ile ich było trenowanych, to już ciężko byłoby zliczyć. Liczy się przede wszystkim wejście na produkcję, bo zwykle do produkcji nie dochodzi, więc tutaj jestem dumny, że udało się aż tyle.

Druga odnogą jest warstwa edukacyjna. Zrozumiałem w pewnym momencie, że temat uczenia maszynowego sam w sobie jest dość skomplikowany, ale z drugiej strony jak rozumiesz go i chcesz przekazać w inny sposób, to da się to zrobić. Zacząłem to robić najpierw hobbistycznie, tak bardziej dla siebie, miałem taką wewnętrzną potrzebę i okazało się, że to działa i ludzie są zainteresowani.

Robiłem to sobotami, pół roku eksperymentowałem, a potem uznałem, że warto pójść krok dalej i tak uruchomiłem kursy online. W tej chwili już ponad 10 000 osób przeszło przez różne moje inicjatywy. Przy okazji polecam zasubskrybować kanał DataWorkshop.

Trzecia odnoga spółki to lab, eksperymenty wewnętrzne, gdzie robimy fajne rzeczy związane z ML, AI. Teraz robimy kilka, o których za bardzo nikt nie wie, bo to jest eksperyment. Zobaczymy, może kiedyś opowiem o tym więcej.

Prowadzę także podcast Biznes Myśli.

K: No właśnie. Ja byłem pierwszy raz bardzo zestresowany i zdenerwowany przed rozmową z Tobą. Przyznam się szczerze, że w poprzednich rozmowach, które prowadziłem, mniej więcej się jakoś tam orientowałem w samym temacie. Natomiast o ML naprawdę nie wiem zbyt dużo.

Ostatni raz z jakimkolwiek ML, z jakąkolwiek siecią neuronową czy czymkolwiek tego typu miałem kontakt wiele lat temu na studiach i też szczerze mówiąc, specjalnie się tym nie przejmowałem, tylko starałem się jak najszybciej zaliczyć przedmiot. Ale sprzedam od razu, że wczoraj przez chwilę rozmawialiśmy przez telefon i mam wrażenie, że już wczoraj gdybyśmy po prostu nagrali naszą rozmowę przez telefon, to już by nam pół podcastu wyszło. To już mnie mocno uspokoiło.

Dobra, ale w takim razie, żeby cały stres zszedł, żeby dobrze wejść w całą rozmowę, takie szybkie pytanie rozgrzewkowe: powiedz mi jaką ostatnio książkę przeczytałeś albo jaki serial, albo film obejrzałeś? Co mógłbyś polecić?

V: Oglądam zwykle dość mało, ale książki czytam regularnie i aktywnie. Myślę, że w tej chwili nie tyle jakąś techniczną polecę, bo to może nie każdemu się spodoba. Czytałem taką książkę bardziej koncepcyjno-rozwojową.

Ona się nazywa po polsku prawdopodobnie coś w rodzaju “Samuraj bez miecza” czyli taki Samuraj, japoński wojownik, który zwykle ma miecz, a tam właśnie był taki człowiek, który mieszkał w latach tysiąc pięćsetnych w Japonii, który złączył Japonię, a przy tym wszystkim w ogóle nie był wojownikiem w rozumieniu normalnym.

Jego mieczem był jego mózg, intelekt. To była taka bardzo ciekawa historia, chociaż ta ma dwa końce i skończyła się nie tak fajnie. Japonię faktycznie połączył, ale później jego ego zaczęło dawać o sobie znać i on jako zwykły chłopak z małej wsi, stał się prawie cesarzem (formalnie nie mógł nim zostać) i miał całą władzę w Japonii.

Trochę mu w głowie się namieszało i zaczął robić różne dziwne rzeczy. To ciekawe, na ile człowiek może się zmieniać w zależności od swojego otoczenia. Jego ścieżka, jak on to wszystko robił, łączył, jak potrafił zjednać ludzi, łagodzić konflikty itd. to jest bardzo fascynujące. Myślę, że w naszych czasach jest to przydatna lektura.

K: Szczególnie używanie naszego mózgu, bo z tym różnie bywa, ale zostawmy to.

Czym jest uczenie maszynowe?

Skoro ludzie czasem mają problem z uczeniem się i z myśleniem to w jakim sensie rozumiemy, czym jest uczenie maszynowe? W jaki sposób możemy uczyć maszyny?

V: Jest taki mem, gdzie stoją komputery na ławkach, na ścianie jest tablica, stoi nauczyciel i uczy. W pewnym sensie to jest prawda, zaraz wyjaśnię dlaczego. Czym jest uczenie maszynowe? W sumie jest wiele różnych definicji i myślę, że dla programisty najlepiej byłoby zdefiniować w taki sposób: jak działa programista, jak myśli programista i w jaki sposób w ogóle powstaje rozwiązanie?

Żeby programista stworzył rozwiązanie, potrzebuje specyfikacji, czyli prawdopodobnie jakiś biznes analityk przygotowuje pewną specyfikację co trzeba zrobić i krok po kroku jest opisane samo rozwiązanie. De facto człowiek manualnie może to wykonywać, tylko zwykle ręcznie to długo trwa, więc próbujemy to przenieść na poziom kodu. Ale samo rozwiązanie jest wiadome, dla programisty to jest dziwne, jak można byłoby zrobić coś, czego nie wiesz. Programista zawsze wie, jak wygląda rozwiązanie. Jedyne co robi, to przenosi, jest w pewnym sensie tłumaczem, który tłumaczy język ludzki na język komputerowy, używając np. C# albo innego języka do programowania.

Jak działa uczenie maszynowe?

Uczenie maszynowe działa nieco inaczej. W naszym przypadku mamy dane, które są na wejściu i na wyjściu. Jako przykład załóżmy, że chcemy napisać algorytm scoringu, który przewiduje, czy ktoś może dostać kredyt. Akurat jak pracowałem z C# to wtedy w firmie, w której pracowałem, takie rozwiązania były tworzone. To działa w taki sposób, że od banku dostawaliśmy specyfikację i tam było dużo if dość skomplikowanych i trzeba było to wszystko manualnie napisać. W uczeniu maszynowym to byłoby tak, że my dostajemy dane, to taka zwykła tabelka, mamy kolumny i wiersze.

W wierszach jest poszczególny klient, a w kolumnach są opisy klientów, np. płeć, wiek, pensja, kraj, dzielnica. Takich opisów może być np. 50-100 albo nawet tysiące – w uczeniu maszynowym to się nazywa cechami. Jest odpowiedź, np. taka, że ten człowiek kredyt spłacił. To, co my robimy, to przekazujemy do naszego modelu takie informacje czyli dane wejściowe.

Potem mówimy, że to jest odpowiedź: ten człowiek spłacił, a ten nie, więc modelu zrób coś z tymi danymi, czyli zbuduj algorytm na podstawie tych danych, których ci dostarczyliśmy, samodzielnie znajdź takie korelacje, które powodują, że my jesteśmy w stanie później w przyszłości odróżnić klienta, który nam spłaci kredyt od tego, który tego nie zrobi. Różnica główna polega na tym, że ten algorytm powstaje automatycznie. To uczenie maszynowe go wymyśla, a nie człowiek go narzuca z góry.

To ma swoje wady i zalety, ale taka największa zaleta ML to wykrywanie nieoczywistych zależności. Człowiek ma bardzo ograniczone zasoby, jeżeli chodzi o połączenie różnych faktów. Owszem, może brać pod uwagę jednocześnie 5, 7, czasem ktoś mówi, że więcej, ale zwykle mniej. A świat, który nas otacza, jest bardzo skomplikowany, więc my potrzebujemy pewnych narzędzi (podobnie jak mikroskop albo teleskop, gdy badamy kosmos), które potrafią wykonywać pewne czynności szybciej niż człowiek.

Komputer szybciej liczy – nawet nie ma co dyskutować. Tu jest podobnie. Jak zbadamy różne kombinacje o różnych zależnościach, to komputer szybciej znajdzie te zależności, bo po prostu szybciej może przemnażać macierze albo znajdować jakieś tam warunki.

Podsumowując, uczenie maszynowe to jest sposób znalezienia rozwiązania w automatyczny sposób, wykorzystując dane historyczne, które mają pewien opis plus odpowiedź na pytanie, co wydarzyło się na końcu. Później ten akord możemy zastosować, żeby prognozować coś w przyszłości, ale nie tylko, ponieważ jest jeszcze kilka różnych zastosowań.

Czy modele ML krzywdzą?

K: Czy w takim modelu w trakcie projektowania to Ty wskazujesz, jaka cecha ma jaką wagę? Na przykład to, że wiek osoby jest ważniejszy w dawaniu pozytywnej opinii dla kredytu niż to, gdzie mieszka? Zacząłem się właśnie zastanawiać, że jeżeli nagle wyjdzie tak, że ktoś mieszkający w szemranej dzielnicy chciałby dostać kredyt i pomimo tego, że ma pieniądze, stabilną sytuację ale po prostu mieszka w takiej dzielnicy, bo w niej się wychował, to nagle może to się wydać lekko niesprawiedliwe.

Oczywiście domyślam się, że przy tych wszystkich historycznych wpisach, będziemy mieli niewielki odsetek, ale czy gdzieś jesteśmy w stanie nad tym zapanować, jak ten model mimo wszystko działa i lekko go korygować?

V: Poruszasz niezwykle ważny temat, bardzo wrażliwy w uczeniu maszynowym. Zwykle to polega na tym, że to się dzieje automatycznie. To dobrze i źle. Dobrze, bo to się dzieje automatycznie, więc tak naprawdę przekazujemy całą moc modelowi, dzięki temu jesteśmy w stanie wykrywać znacznie więcej, bo nie ograniczamy go i to jest dobre. Ale źle, ponieważ pojawiają się różne problemy etyczne, o których wspomniałeś.

To jest problem, który jest bolączką w tej chwili. Faktycznie może być tak, że jest dzielnica, płeć albo inne rzeczy, które mogą być krzywdzące i to faktycznie tak jest. To jest taki temat, który próbujemy rozwiązać na różne sposoby.

W ogóle wykrywanie, że takie coś jest, też nie jest takie łatwe, bo te bardzo złożone modele są tzw. modelami blackbox. To oznacza, że one działają dobrze albo bardzo dobrze, ale my nie wiemy, jak one działają. To, co teraz przez ostatnie kilka lat stało się bardzo popularnym trendem, to badanie i odkrywanie, podejrzenie, co tam się dzieje w środku tego blackboxa, zrobienie chociaż grey boxa.

Kiedy przynajmniej widzimy, że np. dana cecha wpływa na to i na to, a inna wpływa na jeszcze coś. Jeżeli któraś cecha jest bardziej krzywdząca, to tę cechę się usuwa i to jest najbardziej bezpieczne, co można zrobić.

K: Ok, właśnie mam wrażenie, że dla takiego typowego programisty, taki machine learning może być nieco trudny do zaakceptowania, bo programiści jednak mimo wszystko lubią mieć panowanie nad wszystkim, lubią wiedzieć, że są bogami tych aplikacji i dokładnie wiedzą, co się dzieje w każdym momencie. Jeśli zaś nie wiedzą, to znaczy, że napisali za mało testów i powinni coś zmienić, zrefaktoryzować.

Proces Machine Learning

Ty z kolei mówisz właśnie, że przy ML właściwie tworzysz coś i potem sam do końca nie wiesz, jak to działa. W związku z tym, jak w ogóle wygląda proces ML’owy, od czego się zaczyna, przez jakie kroki przechodzimy, żeby cały proces zbudować?

V: Zaraz wyjaśnię proces, ale skomentuję jedną rzecz a propos trzymania kontroli. Tutaj jest trzymanie kontroli na innym poziomie. Są takie działki, gdzie jest z jednej strony wyzwanie, z drugiej strony obszar, w którym trzeba uważnie dobierać chociażby cechy, które przekazujemy albo sprawdzać, czy model się nie przeuczył.

Jak wygląda proces ogólnie? Na początek musimy zrozumieć (podobnie jak w programowaniu) problem biznesowy. To jest chyba jedyna, wspólna część na początek. Drugi krok to zrozumienie danych, bo w tych prawdziwych danych jest dużo śmieci. Jak to zwykle bywa, pewnie każdy programista, który pracował z bazą danych, wie, co tam jest w środku.

Zwykle to nie jest tak, że firma powstała w jeden dzień, tylko jeden człowiek przyszedł, drugi odszedł, jedna tabelka gdzieś tam dodana, druga usunięta, trzecia na pół usunięta, potem ktoś zrobił duplikaty i potem te same dane są trzymane w trzech różnych miejscach, ale każdy się boi to usunąć, bo nie wiadomo, co się stanie itd. W tym wszystkim trzeba się połapać.

Jeżeli tam jest gdzieś takie miejsce, gdzie ludzie wpisują dane z palca, to jest bardzo niebezpieczne miejsce, bo na pewno tam będzie dużo błędów. Jeżeli mamy importy, Excele czy różne inne rzeczy (w większych firmach mają różne, jeszcze śmieszniejsze formaty), to zawsze mogą być różne kłopoty i problemy.

Duplikaty może i są najmniejszym problemem, ale różne anomalia mogą się pojawiać. Trzeba by więc było zbadać te dane i stwierdzić, czy po pierwsze rozumiemy te dane, potrafimy je połączyć, a po drugie czy jakość tych danych jest wystarczająco dobra, bo jeżeli dane są złe, to cała reszta już nie ma sensu.

Jest takie powiedzenie: ’garbage in, garbage out’, czyli jak wrzucimy śmieci na wejściu, to ML jakikolwiek by on tam zbyt skomplikowany nie był, to nie będzie w stanie wyczarować mądrych rzeczy opierając się na śmieciach.

Przygotowanie danych zajmuje sporo czasu. Umiejętności programowania są tutaj bardzo przydatne, bo trzeba trochę się nagimnastykować, żeby te dane wyciągnąć, połączyć, pogrupować. Jest nawet taki żart, że 60-70% czasu data scientist spędza na czyszczeniu danych, a resztę czasu na narzekaniu, że tyle czasu nad tym spędził. Tak wygląda życie data scientista.

W teorii tam jeszcze jest kilka innych kroków. Jak już mamy przygotowane dane, to możemy zacząć już trenować model. Jeżeli chodzi o model i algorytm, tu jest mnóstwo różnych koncepcji. Spróbujmy wyjaśnić przynajmniej jedną z wersji, żeby to było bardziej zrozumiałe.

Algorytm jest jak suchy przepis, czyli poszczególne kroki, które trzeba wykonywać. A model to jest coś, co już wykonaliśmy na podstawie tego algorytmu i mamy pewien stan w pamięci albo na dysku zapisany. Jako przykład: algorytm może być taki, że mamy napisane jakieś dokumentacje listy if’ów, które mamy wykonać. Model to jest kawałek kodu, który wykonał te if’y, przepuścił przez siebie dane i zatrzymał ten stan w pamięci na dysku czy pamięci RAM.

Algorytmy są różne. Zaczynając od takich bardzo prostych algorytmów: liniowe, drzewa decyzyjne, gradient boostingi albo sieci neuronowe. Proces dobierania algorytmów też w tej chwili już nie jest taki skomplikowany, ale też zajmuje trochę czasu i zazwyczaj jest to zwykła pętla for czyli po prostu iterujesz sobie różne modele i dobierasz taki, który działa najlepiej.

To akurat nie jest duże wyzwanie. Większym jest dobór cech, bo tak jak rozmawialiśmy na początku, jeżeli chodzi o ten przykład ze scoringiem, to jest tak, że możemy wybrać różne cechy (wiek, płeć itd.) i są takie cechy podstawowe, które są dostępne od razu.

Ale też jest proces feature engineering, który polega na tym, że na podstawie obecnych cech, próbujemy znaleźć nowe. To brzmi nieco zagadkowo. Co to znaczy w praktyce? Mamy pewne dane, ale ten algorytm jest w stanie tylko dosłownie wyłapać to, co jest w tych danych. On nie jest w stanie się domyślić. Na przykład, jeśli prognozujemy ceny nieruchomości i mamy zamiast powierzchni, szerokość i wysokość tego mieszkania/domu.

Teraz algorytm nie będzie w stanie pomnożyć tych dwóch liczb, ale to jest ważne, bo powierzchnia jest jednym z kluczowych parametrów, jeżeli chodzi o prognozowanie. W tym przypadku ML engineer będzie kombinować z tymi cechami w taki sposób, aby stworzyć coś nowego. Tutaj zwykle pojawiają się pytania: czy to w ogóle ma jakikolwiek sens? Bo skoro ta informacja już była w danych, to czy to daje jakąkolwiek wartość dodaną? Jak najbardziej daje i to wynika z ograniczoności algorytmów. One nie potrafią rozumować takim rozumieniem człowieka jako taka prawdziwa inteligencja naturalna. One są dość ograniczone. Większość z nich, np. takie popularne algorytmy drzewa decyzyjne to są takie algorytmy zachłanne.

One próbują wykonywać jeden krok do przodu, najlepszy w tym momencie. Ale jak popatrzysz na całą ścieżkę, to nie jest optymalna ścieżka. Przez to, że ta złożoność jest tam zbyt duża, wykonuje się w taki sposób. Zresztą feature engineering to jest ta najciekawsza, w pewnym sensie też najtrudniejsza część związana z uczeniem maszynowym (przynajmniej klasycznym).

Jak już mamy cechy i model, to jest taka trochę pętla. Jak tworzymy nowe cechy, trenujemy model, potem kolejne cechy, trenujemy model i tak sobie kręcimy. Później jeszcze jest jeden wymiar: dobór parametrów. Model sam w sobie ma pewne zewnętrzne parametry. Załóżmy takie drzewo decyzyjne ma pewną głębokość i parametr podaje się z zewnątrz – 5 pytań głąb albo 10 pytań w głąb itd. Czym więcej pytań, tym bardziej szczegółowo wchodzimy w detale. To ma swoje wady i zalety, ale na moment to zostawmy.

Już wybraliśmy cechy, wytrenowaliśmy model, dobraliśmy parametry i w tym momencie oczywiście warto też patrzeć na metrykę sukcesu. To jest właśnie kryterium jakości, np. mamy model A i model B. Każdy z tych modeli ma jakiś wynik. Który model jest lepszy? Możemy subiektywnie podchodzić do tego tematu, ale to jest trochę bez sensu. Są formalne metryki, które po prostu porównują wiersz po wierszu, gdzie błąd jest mniejszy. Ten błąd definiujemy na różne sposoby. Błąd może być taki, jeżeli mówimy np. o scoringu, tam załóżmy, że od 0 do 100. Prawidłowa odpowiedź to 100, a nasz model powiedział 90, czyli pomyliliśmy się o 10 w tym przypadku.

W pierwszym wierszu o 10, w drugim wierszu o 20, w trzecim o 5,i znajdujemy wartość średnią i wychodzi nam jakaś pojedyncza liczba określająca błąd w tym modelu. Potem bierzemy drugi model i liczymy w podobny sposób. Metryki są różne, ta liczba też jest różna. Warto też zrozumieć, że metrykę trzeba umieć dobierać. Teraz nie chcę wchodzić w szczegóły, ale idea polega na tym, że kompresujemy wiedzę. Powiedzmy, że mieliśmy milion wierszy, więc mamy milion prognozowań i w tym przypadku to wszystko spłaszczamy do jednej, pojedynczej liczby, która mówi, na ile dobrze ten model działa. Już ten krok podpowiada intuicyjnie, że gdzieś tu tracimy informacje. Mieliśmy tak dużo wierszy, a opisujemy przy pomocy jednej liczby.

W sumie na tym się kończy prototypowanie, ale to niestety jest problem, bo przez dłuższy czas było tak, że (teraz to już trochę się zmienia) powstawały różne prototypy i na tym to się kończyło. Dlaczego to jest dopiero początek? Bo ten model trzeba wdrożyć gdzieś. Po co model, który coś robi, ale nie daje żadnego zysku? To wdrażanie już bardziej przypomina programowanie, bo jest jakiś serwer, gdzieś wrzucamy nasz kawałek logiki, jakoś to się kręci.

Przy czym jeżeli chodzi o wdrażanie, są różne sposoby. Jednym ze sposobów są mikroserwisy. W szczególności jak to jest napisane w Pythonie, to wtedy ten mikroserwis sobie gada przez REST API, każdy może się z tym zintegrować.

Drugi sposób to np. przez bazę danych, bo wtedy mamy tak, że raz w nocy odpalamy na wszystkich danych, trenujemy nasz model, potem prognozujemy, a wynik zapisujemy po prostu od razu do bazy. Potem każdy, kto chce, może z tej bazy skorzystać.

Są jeszcze inne rozwiązania, jeżeli chodzi o C#, dzisiaj też trochę o tym porozmawiamy, bo jest całkiem ciekawa biblioteczka do tego.

K: No właśnie, ale zanim do tego przejdziemy, zanim przejdziemy już do konkretnych rozwiązań… Widzę już w rozmowie, że mocno oddzielasz programistę od data scientista. Zacznijmy od tego, czy w ogóle taki developer np. C#, potrzebuje machine learningu, potrzebuje wiedzy z tego zakresu?

V: Krótka odpowiedź – TAK. Dlaczego on tego potrzebuje? Chociaż to, że ja oddzielam, to też nie przypadek. To jest tak, że w sumie ja się wyprowadzam ze środowiska programistycznego i są zalety, dlaczego akurat programistom warto pójść w tym kierunku jako data scientist, bo na koniec dnia ten cały kod to jest zwykły kod i te wszystkie problemy, które ma programista, wersjonowanie kodu, dobre nazewnictwo kodu itd. one tu istnieją.

Ludzie, którzy się wyprowadzają bardziej w strony statystyczne albo naukowe, totalnie nie ogarniają tych obszarów i na skutek tego powstają takie śmieci. Jeżeli ktoś myśli, że widział najgorszy kod w swoim życiu, to prawdopodobnie nie widział kodu. Kod powstaje u data scientista, który nie ma takiego doświadczenia programistycznego. Pod tym względem programista ma tutaj ewidentnie przewagę.

Druga sprawa, że tam jeszcze potrzebne jest trochę inne myślenie, więc dlatego to oddzielam. Sam programista jak wkroczy w ten obszar, będzie się czuł trochę niekomfortowo, bo ma pewne braki w wiedzy.

Dlaczego akurat to jest potrzebne dla developera, który nawet nie zamierza tam wkraczać? Świat się zmienia szybciej, niż myślisz. Możesz np. funkcjonować w .NET, a okazuje się, że świat otacza się uczeniem maszynowym. W Azure mamy cognitive services, czyli są warstwy związane z ML. To można bardzo łatwo w tej chwili wykorzystać i już zacząć robić przeróżne, trudne rzeczy wykorzystując tylko API.

Później SQL Server, niby baza danych, ale z jakiegoś powodu tam się pojawiają wdrożone komponenty, które umożliwiają uruchomienie uczenia maszynowego wprost na bazie. Tam co prawda jest język albo Python, albo R – domyślne języki data science. Też mamy dość specyficzne biblioteki dostępne, ale są takie najpopularniejsze algorytmy, być może nie zawsze najlepsze, ale takie wystarczająco dobre (biorąc pod uwagę, że to jest baza danych). Teraz to już jest taki standard, SQL Server 2017 i w górę już posiada takie możliwości. Później pojawiają się jakieś biblioteki, które można wprost sobie wciągnąć do C# czy F# i zrobić prosty ML.

Generalnie rzecz biorąc, to całe otoczenie się przygotowuje. Teraz pytanie: dlaczego to się dzieje? Dzieje się to z bardzo prostego powodu – biznes tego potrzebuje. Zresztą po co robimy kod? Z jednej strony każdy programista powie, bo to jest fajne, ciekawe i zresztą sam też tak powiem. Z drugiej strony programista dostaje pensję dlatego, że rozwiązuje konkretne, biznesowe problemy. Jeżeli pojawi się coś, co jeszcze jest w stanie wzmocnić tę wartość dodaną albo konkurencja zaczyna wyciskać inną firmę, bo wprowadza jakieś bardziej konkurencyjne elementy, to druga firma nie ma za bardzo wyboru, też musi nadawać na podobnych falach.

Uczenie maszynowe jest właśnie takim game changerem czyli narzędziem, który zmienia reguły gry i umożliwia podejmowanie lepszych, sprawniejszych decyzji albo stworzenie lepszego produktu. Wynika to m.in. z tego powodu, że programista sam w sobie musi z góry wszystko przewidzieć. To jest ograniczone samo w sobie, bo mózg nasz ma swoje zalety (np. jeżeli chodzi o abstrahowanie rzeczy), ale jeżeli chodzi o wykrywanie dużych zależności w milionach lub miliardach wierszy, to tutaj się nie wyrabia. Ostatecznie żeby wzmocnić pewne decyzje, to ML tutaj jak najbardziej będzie przydatne.

Trzeba sobie zdawać sprawę, że to nie chodzi o to, że każdy programista nagle się stanie naukowcem albo researcherem. Chodzi bardziej o to, że te światy zaczną się łączyć. W sumie w pewnym momencie już nie będzie takiej dużej granicy.

Zadam takie pytania. Osoby, które pracują w C#, to zwykle jest przede wszystkim backend. Tam da się coś robić na frontend, ale raczej egzotyczne rzeczy. Czy jest możliwa praca C#, jak jest baza danych? W tej chwili odpowiedź brzmi prawdopodobnie nie do końca, bo w ten czy inny sposób, baza danych gdzieś tam jest.

Teraz drugie pytanie jest takie: na ile jesteś ekspertem tej bazy danych? Zwykle to jest tak, że zawsze w firmie jest jedna osoba, która jest ninja, wymiata z tej bazy danych i jak trzeba zrobić coś bardziej złożonego, to się idzie do tej osoby. Każda inna osoba po prostu była na szkoleniu z baz danych, coś tam wie, że jest jakiś indeks i zwykle to wystarcza. I to jest mniej więcej podobna analogia. Taka osoba nie musi umieć wszystkiego jeżeli chodzi o ML, nie musi wymyślać takich rozwiązań, ale bardziej używać gotowych komponentów po to, żeby wzmocnić siebie i rozwiązanie, które dostarczy.

K: Teraz faktycznie zaczyna się to wszystko powoli układać, ale też sobie przypomniałem trochę historii o tym, kiedy w ogóle o samym Tobie, o samym Vladimirze usłyszałem. Pamiętam, że słuchałem podcastu bodajże Marka Jankowskiego „Mała Wielka Firma”, gdzie opowiadałeś o chatbotach. Wtedy sobie tak myślałem, że mówisz, że to już się powoli dzieje, że zbliżają się boty i chatboty wspierane przez AI i że nie będziemy wiedzieli, kiedy rozmawiamy z drugim człowiekiem, a kiedy z maszyną. Jeszcze wtedy tak sobie myślałem: chyba nie jesteśmy aż tak blisko tego wszystkiego.

Teraz w aktualnej firmie, w której pracuję, zastanawialiśmy się nad wprowadzeniem na call center voicebota. Jak się okazało, jak się rozmawia z takim voicebotem, to już jest taka technologia niesamowita, że naprawdę osoba, która nie wie, że rozmawia z botem, nie jest w stanie praktycznie zorientować się, że tam po drugiej stronie, to nie siedzi normalny człowiek.

Rozmowa z Vladimirem.

Zaczynam Ci wierzyć, że faktycznie każdy developer powinien tego machine learningu skosztować, bo to faktycznie zaczyna nas otaczać. Zresztą widać też wielki ciąg na rynku. Tak jak jeszcze kilka lat temu ofert pracy dla data scientistów nie było zbyt dużo i osoby, które chciały pójść w data science, miały pewien problem z tym, że chętnie robiły to hobbystycznie, ale nie było do końca z tym pracy. Teraz już widzę, że zdecydowanie więcej tego się pojawia.

Jednocześnie jestem trochę zaskoczony tym, co mówisz ze względu na to, że zawsze miałem wrażenie, że ten data scientist to po prostu taki troszeczkę inny programista, ale wciąż programista. Czy widzisz coś takiego (i być może to jest też przyszłość), że dla naukowca, osoby, która gdzieś tam pracuje na uniwersytecie, jakiejś akademii, która zajmuje się zawodowo nauką – data scientist to może być zawód przyszłości?

V: W ostatnim odcinku mojego podcastu rozmawiałem z Marcinem Możejko o świecie akademickim. Ten świat jest bardzo niejednolity. Jest jeden bardziej związany ze studiami, które ludzie kończą, robią magistra, ewentualnie doktorat. Drugi to jest taki, który tam po prostu zostaje i to jest taki klasyczny świat, który zwykle my kojarzymy w szczególności w Polsce.

Wspomniana rozmowa z Marciem – odcinek 105 BM

A trzeci to jest w ogóle taki świat, który napędza teraz ML, który nie do końca w pewnym sensie uznaje autorytety albo inaczej definiuje autorytety. Teraz mam na myśli, że normalny świat akademicki działa w taki sposób, że żeby publikacje pojawiły się w czasopiśmie, to trzeba naprawdę się postarać, pokłonić troszkę w różnych miejscach i poczekać pewnie 2-5 lat i dopiero wtedy to się pojawi.

Natomiast ten trzeci świat akademicki, taki buntowniczy, on robi tak, że na Twitterze publikuje link i na tym to się kończy. Potem to cytują inne osoby i okazuje, że to się rozpowszechnia tak gwałtownie. To jest według mnie w porządku w kontekście rozwoju. ML sam w sobie to jest w pewnym sensie też buntownik. Taka dyscyplina polegająca na tym, że próbuje wykorzystywać różne obszary – trochę matematykę, fizykę, statystykę, programowanie czyli takie dziecko wielu rodziców, które nabrało wielu różnych komponentów.

W sposób hakerski połączyło to, co działa, a co nie działo, wyrzuciło. Tam dość często nawet nie ma podstaw naukowych, czyli świat naukowy jest nawet do tyłu. To jest paradoks. Zobacz np. na deep learning. Robi teraz niesamowite wrażenie, zaczynając od deepfake’ów albo te głosy, które tam są generowane, o których wspomniałeś w voicebocie – to jest deep learning.

Deep learning był rozwijany przede wszystkim przez takich naukowców, inżynierów, bardziej nawet inżynierów niż naukowców czyli osoby, które bardziej eksperymentują niż osoby, które na kartce papieru wyprowadzają różne wzory i na podstawie tego wiedzą, że to zadziała.

Tutaj może trzeba zrobić krok wstecz, bo sztuczna inteligencja, pojęcie samo w sobie, powiło się dawno temu. Co najmniej w latach 50-tych zeszłego stulecia, ona była już sformalizowana, ale jeszcze wcześniej przedtem, w latach 40-tych już się coś zaczęło pojawiać. Jeszcze w 1840 r. Ada Lovelace to była pierwsza kobieta, która była programistą koncepcyjnym, bo wtedy jeszcze nie było komputerów.

Ona już tam rozważała czy komputery potrafią mieć intelekt. De facto to się zaczęło bardzo dawno temu, ale przez dłuższy czas (w szczególności w zeszłym stuleciu) to było bardziej borykanie się naukowo-teoretyczne i to nie zadziałało. Później się przełączyło to trochę w innym kierunku, m.in. dlatego, że pojawiła się moc obliczeniowa i tutaj zaczęły się bardziej odbywać takie rewolucje, które działają jak dzieci: spróbujmy, połączmy to w ten sposób albo w inny. Taki może przykład namacalny: w deep learning jest funkcja Aktywacja.

Cokolwiek by to nie znaczyło, teraz brzmi groźnie, ale to jest funkcja, która jest potrzebna, w środku uruchamiamy ją wiele razy. Klasyczna funkcja Aktywacja wygląda w dość złożony sposób, jest tam jakiś Tanh hiperboliczny. Okazało się, że wystarczy wziąć bardzo prostą regułę, która działa w taki sposób (jak to myśli zwykle engineer, bo ten Tanh hiperboliczny bardzo ciężki jest też w obliczeniach), że jeżeli wartość jest większa niż zero, to zwracamy tę wartość, jeżeli mniejsza, to zwracamy zera i tyle.

Taka funkcja to zwykle maks zera i ta wartość i okazało się, że to działa. De facto to nie jest w ogóle różniczkowalne, tam nie ma ani jednej, ani drugiej pochodnej. Tam jest mnóstwo kłopotów matematycznych, ale to działa. To powoduje te rewolucje, które teraz obserwujemy. To jest niesamowite. To jest taki miks tego, co się tu dzieje. To nie jest tak, że klasyczny naukowiec to wszystko wymyślił i napędził.

Druga sprawa jest taka, że klasyczni naukowcy próbują nadganiać to i wydawać kolejne publikacje, dlaczego to zadziałało. Ale dość często są wciąż dość mocno do tyłu, kilka lat co najmniej, a kilka lat w ML, deep learning to cała wieczność.

Podsumowując, naukowcy, którzy tylko pracują na uczelni, dość często sami nie są w temacie, mimo że się wydaje, że lepiej na tych tematach się zna. Dość często naukowcy znają się na teorii, potrafią teoretycznie nieźle się wypowiadać, ale jak powiesz im: zrób voicebota, ale na poziomie takim, że zaimplementuj to na poziomie kodu, to zwykle tego nie zrobią.

K: Totalnie mi się nie składało to, że zestawiliśmy naukowców z buntownikami. Gdzieś mi to już trochę nie grało, także dobrze, że to uściśliliśmy. Właśnie, ale zacząłeś mówić, że o AI zaczęto myśleć już dawno, dawno temu. To mi się znowu trochę nie zgadza z tym, o co chcę zapytać w kolejnej części. Jaka jest różnica pomiędzy ML a AI?

Wszyscy chyba znają ten mem, że ML to jest jakiś tam kod pythonowy, a AI to jest po prostu prezentacja w PowerPoincie. A w 1950 r. chyba jeszcze, jeśli dobrze pamiętam, PowerPointa nie mieliśmy, więc ciężko mówić o jakimkolwiek AI. Jaka jest różnica tak naprawdę?

AI & ML

V: Zamieszanie się wzięło głównie przez dziennikarzy, przez mainstream. Przez to, że te osoby nie do końca wchodziły w szczegóły, a czasem ktoś też chciał to napędzać, więc pewne pojęcia zaczęły się podmieniać. To, co w tej chwili nazywa się AI, to jest zwykłe uczenie maszynowe albo jeszcze mniejszy podzbiór jako deep learning. AI samo w sobie koncepcyjnie to jest znacznie coś szerszego niż uczenie maszynowe.

ML to jeden z rodzajów implementacji AI, ale to nie jest całość. Sztuczna inteligencja, jak sama fraza wskazuje, to jest jakaś inteligencja, która została stworzona w sposób sztuczny. Uczenie maszynowe to jest to, w jaki sposób maszyna może się zacząć uczyć. Sztuczna inteligencja składa się z wielu różnych wymiarów. W ogóle temat jest bardzo ciekawy, złożony, moglibyśmy o tym troszeczkę porozmawiać.

Pomyślmy: czym jest inteligencja? To jest temat bardzo skomplikowany, nie jesteśmy w stanie zdefiniować w pełni, czym jest inteligencja. Alan Turing w swoim czasie próbował to zdefiniować. Skoro nie powiemy, czym jest inteligencja, to spróbujmy przynajmniej trochę jak z tą kaczką jest: jeżeli się zachowuje jak kaczka, to prawdopodobnie to jest kaczka.

Stworzono wtedy taki test, gdzie były dwa pokoje, sędzia i miał on stwierdzić, czy w danym pokoju tekst rozmowy na kartkach pisany był przez człowieka czy maszynę. Jeżeli nie był w stanie tego poprawnie oszacować, to test był udany. Ten test Turinga akurat jest dość ograniczony, bo można udawać zawsze osobę bardziej ograniczoną intelektualnie albo dziecko i w ten sposób można go zhackować.

Pójdźmy jeszcze dalej, jeżeli chodzi o inteligencję. Zobacz, że jak obecnie mówimy o inteligencji, to zwykle myślimy o inteligencji ludzkiej, prawda? Ale przecież to nie jest jedyny rodzaj inteligencji. Jest wiele różnych gatunków, np. inteligencja, którą możemy spotkać w oceanie.

Tam są delfiny albo jakieś inne gatunki, które potrafią robić rzeczy, których ludzie nie potrafią zrobić, np. rozmowy na dłuższych dystansach, kiedy mamy połączenie 1:1 czyli to jest podobnie jakby człowiek był w Krakowie, a drugi w Warszawie i potrafiliby komunikować się bez komórki. My nie potrafimy tak robić, a ryby owszem. Są w wodzie, mają też troszkę inne warunki, ale mniejsza o to.

Jeżeli są co najmniej dwa rodzaje inteligencji (w tej chwili wymieniłem: ludzka i ta w oceanie), to na pewno jest jeszcze wiele innych rodzajów inteligencji. Teraz ta sztuczna inteligencja, która powstanie (a raczej powstanie w ten czy inny sposób), to nie będzie synonimem tej naszej naturalnej inteligencji, a właściwie ludzkiej inteligencji, tylko to będzie jakiś inny gatunek inteligencji. Do tego też trzeba się przyzwyczaić, że w sumie nie do końca wiadomo, jak to można określić, ale to coś powstaje na naszych oczach.

K: A propos powstawania rzeczy na naszych oczach – jakiś czas temu pojawiło się kilka książek, pewnie kilkanaście na temat tego, że należy się bać przyjścia sztucznej inteligencji, bo roboty nami zawładną, bo się staną inteligentniejsze od nas.

Mam nadzieję, że to nam nie grozi, ale sama sztuczna inteligencja zaczyna się pojawiać również w życiu programistów, bo np. mamy ostatnio bardzo głośną premierę narzędzia GitHub Copilot. Tutaj rozumiem taką sztuczną inteligencję wciąż jako narzędzie, jako coś, co ma wspomóc pracę, a nie zabrać ją programistom. Czy właśnie w takim kierunku myślisz, że to cały czas będzie szło, czy może gdzieś tam się wydarzyć coś niedobrego po drodze?

V: Jak zadajesz to pytanie, od razu w mojej głowie kilka takich gałęzi się pojawia, zastanawiam się, od której strony zacząć. A propos niebezpieczeństwa, w tych książkach zwykle mówi się, że powstanie sztuczna inteligencja i pozabija ludzkość, co też wcale nie jest wykluczone. W tej chwili zagrożenie w sumie jest na innym poziomie. Weźmy przychód, który wymieniliśmy na samym początku przy scoringu kredytu, czy to, że ktoś jest kobietą, czarnoskórym albo mieszka w złej dzielnicy, to może sprawić, że dana osoba nie dostanie kredytu. Na podstawie tego różne rzeczy mogą się dziać. Teraz jeżeli takich mikro decyzji zacznie się łączyć coraz więcej, to nagle się okazuje, że losy ludzi są uzależnione od tego, co jakiś algorytm powie.

To już jest niefajne. Popatrzmy na Chiny, choć to jest dość zamknięty kraj, to mają właśnie taki scoring obywatelski. Jeżeli robisz coś niewłaściwie, to wszystko jest podliczane i w jakiś sposób potem egzekwowane, np. masz ograniczony dostęp do konkretnych miejsc czy przywilejów. To nadal nie jest sztuczna inteligencja, która sama zawładnęła ludzkością, ale algorytmy są w rękach pewnych ludzi, którzy mogą wpływać na innych w ten czy inny sposób. To samo w sobie już jest niezwykle duże zagrożenie, o którym wydaje się, że mówi się znacznie mniej, ale to się dzieje na naszych oczach, np. face detection.

Nie wiem, czy ktoś zdaje sobie z tego sprawę, że nawet jak masz maskę, to już po oczach, a nawet po sposobie chodzenia, da się zidentyfikować osobę i potem mając taką informację można robić różne rzeczy.

W Europie jest RODO, które pod tym względem przynajmniej częściowo chroni, ale w innych krajach to jeszcze bardziej się rozpędza. Nie ma co czekać, że powstanie jakiś terminator, który zawładnie ludzkością. Być może ta ludzkość zniszczy sama siebie jeszcze wcześniej. `

Teraz idąc w kierunku programisty. Pamiętam, jeszcze w roku 2018 miałem wykład i mówiłem o Programiście 2.0. Prowadziłem serię prezentacji. One były dość podobne w różnych lokalizacjach, po każdej takiej prezentacji dostałem feedback, rozważałem nad tym, bo trochę też ewoluowała moja prezentacja. Mówiłem tam o kilku ważnych koncepcjach, czyli programista jako zawód raczej zostanie.

Tutaj raczej nie mówimy o tym, że w 100% zostanie wyeliminowany. Ale będą pewne zmiany i to jest też naturalna rzecz. Zresztą jak ktoś pracuje trochę dłużej, przez 5, 10, 15 lat, to wie, jak ta technologia się zmienia cały czas. Język programowania się zmienia i musisz być na bieżąco, żeby mieć pracę. Pojawia się też trochę inny sposób myślenia. Nie wiem, czy zdajesz sobie sprawę, na jakim silniku działa Internet? 40% Internetu działa na jednym silniku.

K: Naprawdę? O tym nie wiedziałem.

V: To jest WordPress czyli PHP.

K: No tak, oczywiście. Jak się faktycznie nad tym zastanowić, to zdecydowanie.

V: Dlaczego o tym mówię? Kiedyś mnie ktoś zainspirował w mailu. Napisał do mnie w taki sposób, że ja nie jest programistą, ale potrafi zainstalować WordPress i wyklikać różne pluginy. Potem mi zaskoczyły trybiki – przecież o to chodzi, że ten programista przyszłości to będzie taki trochę WordPress.

W takim sensie, że nawet nie chodzi o to, że będzie technologia PHP czy C#, bo będzie język, który jest w tej chwili, ale te klocki będą po prostu się składać. To bardziej się sprowadzi do tego, że będą jakieś podpowiedzi różnego rodzaju. Wtedy nie było tego autopilota jeszcze, ale już o tym mówiłem, że do tego to dąży. Widać ten trend. Widać, że to w tym kierunku idzie.

Jest taka analogia – podczas kryzysu zwykle bogaci robią się bardziej bogatsi, a biedniejsi biedniejsi, a klasa średnia się zmniejsza. Pomyślmy, że w tym przypadku zmienimy jednostkę z pieniędzy na doświadczenie programisty, bo o tym ostatnio rozważałem dość długo. Osoby bardziej doświadczone będą jeszcze bardziej doświadczone, a te mniej doświadczone będą jeszcze mniej doświadczone, a przeciętni programiści mogą być wyeliminowani z rynku, bo nie będą potrzebni. Takie powtarzalne kawałki kodu będą tworzone automatycznie.

Ten programista, który w tej chwili jest bardziej doświadczony, kiedyś był też mniej doświadczony, kiedyś był juniorem. Przeszedł proces edukacji, zdobył doświadczenie, tylko wtedy to się opłacało. Opłacało się przede wszystkim pracodawcy, czyli był jakiś biznes, który chciał rozwiązać pewien problem, a do tego był potrzebny programista. Ten człowiek sobie szedł przez tę ścieżkę i się uczył i stał się seniorem.

Z drugiej strony temu człowiekowi zwyczajnie się chciało robić pewne rzeczy. Generalnie nasz mózg jest tak skonstruowany, że jest leniwy, oszczędza energię itd. Nowe pokolenie jeszcze bardziej jest nakręcone na to, żeby oszczędzać energię. W wyniku pojawia się dość ciekawa sytuacja czyli z jednej strony pracodawcy już się nie opłaca męczyć się i płacić duże pieniądze, żeby wyedukować tego człowieka, żeby stał się bardziej doświadczony. Z drugiej strony ten początkujący programista zwykle dość często nawet nie chce, bo można robić jakieś inne rzeczy. Jak masz asystenta, który Ci podpowiada, to będziesz go używać i będziesz takim trochę kierownikiem asystentów.

To jest dość ciekawa analogia. Nie wiem, dokąd to dąży, bo wcześniej o tym nigdy nie mówiłem, ale ostatnio mnie jakoś tak olśniło, że faktycznie osoby na poziomie middle i w kierunku seniora będą zdobywać jeszcze większe doświadczenie i będą bardzo potrzebni, bo zawsze coś będzie się psuło i trzeba będzie to naprawić.

Ale będzie coraz trudniej stać się seniorem w naszym rozumieniu, bo nie będzie za bardzo środowiska, w którym będziesz w stanie przejść tę ścieżkę. To jest moja hipoteza, zobaczymy, czy to się sprawdzi. Wiele rzeczy się zautomatyzuje, tak jak z tym WordPressem. W tej chwili już nie potrzebujesz kogoś wprost, kto będzie Ci pisać od zera WordPress, bo jak pamiętam, jak ja to robiłem kiedyś dawno temu, to jeszcze była taka potrzeba. Teraz jest taki człowiek, który sobie wyklika takie rzeczy i to działa nawet lepiej. W tym sensie, że tam już są ustandaryzowane rozwiązania, sprawdzone na miliardach różnych stron.

Podsumowując, czy zawód programisty się wyeliminuje? Myślę, że nie, bo tutaj jest jeszcze mnóstwo rzeczy, które trzeba robić manualnie. Wiele rzeczy natomiast się zautomatyzuje. Trzeba zrozumieć jeszcze jedną ważną analogię. Dlaczego tak się stanie? Z punktu widzenia biznesu to jest tak, że płaci się pieniądze po to, żeby powstało rozwiązanie. Jeżeli pojawia się alternatywa, że można płacić mniej i to też będzie rozwiązanie, to wiadomo, jaka będzie decyzja. Biznes ma zarabiać i szybciej się rozwijać – tyle. To bardzo prosta, logiczna decyzja. Jeżeli jest jakaś alternatywna ścieżka, która umożliwia szybszy rozwój, to w tę stronę będziemy zmierzać.

Wrócę jeszcze do autopilota. Ja z C# pracowałem prawie przez 3 lata. Dla mnie to jest dość dużo, bo jak już coś robię, to zwykle robię na maksa. Przeczytałem mnóstwo książek, więc na tyle na ile mogłem, zanurzyłem się dość głęboko. Dla mnie wtedy dość ciekawym odkryciem był ReSharper, to był rok 2012, wtedy za bardzo nie wiedziałem, żeby były jakieś podpowiadaczki. ReSharper to była mega fajna rzecz, kiedy sobie klikałeś i nagle pojawiało się mnóstwo kodu. Mimo tego że literek jest dużo, to de facto fizycznie wpisywałem dosłownie kilka literek, jakieś tam skróty klawiszowe i to się robiło.

Pod tym względem wydaje mi się, że dla C# deweloperów to nie powinna być aż taka duża nowość, chociaż zgadzam się z tym, że ten autopilot będzie w stanie robić więcej niż tylko podpowiadać ten tzw. dot-driven development. Czyli w tej chwili mamy dot-driven development, można spodziewać się w przyszłości czegoś więcej. Ale też trzeba uważać, bo OpenAI to jest taka firma, która z jednej strony ma dobrych inżynierów, ale z drugiej strony ma też świetnych marketingowców. Trzeba na to uważać, bo niektóre rzeczy, o których oni mówią, to jest raczej to, co ma się stać, nie stan obecny.

K: Tutaj wracamy do tego, jak dobrze marketing potrafi sprzedać sztuczną inteligencję. Zobaczymy, jak to wychodzi. A propos mojego .NET’owego środowiska, ja już byłem zaskoczony, bo w październiku albo w listopadzie będzie premiera kolejnego .NET. Razem z tym .NET powinno wyjść nowe Visual Studio, które już jest w fazie preview, które już można pobrać.

Ostatnio sobie spróbowałem pobrać u siebie na komputerze, pobawić się troszeczkę. Widać od kilku lat taki trend, że samo Visual Studio chce nadgonić to, co robił ReSharper i ten tzw. intellij code jest coraz lepszy. Ja byłem aż zaskoczony, że w tym najnowszym Visual Studio 2022 zaczynam pisać jakiś kod, zaczynam kolejną linijkę i Visual Studio podpowiada mi, jaka ona powinna być, żeby ten kod zadziałał.

To już dla mnie było dosyć niesamowite, że faktycznie w kilku miejscach to oczywiście ma swoje problemy, bo to nie będzie przewidywało dokładnie tego, co chcemy zrobić, ale myślę, że w wielu przypadkach to może komuś uratować tyłek, bo może przypomnieć o jakiejś konkretnej linijce, którą trzeba wykonać, zanim się wprowadzimy inny kod. Także tutaj też idziemy w dobrą stronę.

Machine Learning dla programistów C# – ML.NET

Przejdźmy już do samego „mięsa” dla mojej społeczności .NET’owej. Zacznijmy od pytania: dlaczego Python? Musimy sobie powiedzieć na samym początku, że Python w Data Science, ML rządzi i nie jest to .NET. Dlaczego Python i czy developer .NET’owy, C# jeżeli chciałby spróbować ML, to musi się tego Pythona nauczyć i musi wdrożyć jakąś aplikację Pythonową w swojej firmie? Czy jeżeli mamy cały stack .NET’owy, to możemy to jakoś miło pożenić?

V: Zacznę od końca. Jakbyś zadał to pytanie rok, dwa, trzy lata temu, to na pytanie czy musi nauczyć się Pythona, moja odpowiedź brzmiałaby, że zdecydowanie TAK. W tej chwili to wygląda inaczej. Jak to się stało, że Python się wystrzelił i stał się w sumie językiem numer jeden? Znów ten argument jest bardzo prosty – BIZNES. Na czym zależy firmom? Na tym, żeby w krótkim w czasie robić więcej rzeczy. Python jest takim językiem, który to umożliwia, bo za pomocą de facto bardzo mało linii kodu jesteś w stanie osiągać bardzo dużo.

Python ma swoje wady i zalety. Zaleta jest taka, że możesz szybko eksperymentować, szybko uruchamiać. Powstał też spory ekosystem np. taka biblioteka jak scikit-learn, która według mnie jest genialną biblioteką, która całkowicie zmieniła oblicze uczenia maszynowego. Ta genialność polega na tym, że ten kto tworzył, na pewno bardzo fajnie ją przemyślał. Przede wszystkim w kontekście architektury, bo uczenie maszynowe samo w sobie jest przyjemniejsze wtedy, kiedy działa jak klocki lego.

Masz model jeden, wpinasz, potem nie działa, wypinasz, wpinasz drugi i przy tym nie zmieniasz wiele kodu np. jedną linijkę. Myślę, że też pamiętasz, jak trzeba było dawniej zrobić sieci neuronowe, to najpierw to się robiło w C++, więc pisało się 200-500 linii kodu i to był tylko model jeden. Jak chcesz napisać model drugi, to tyle samo musisz napisać. To jest totalnie nieużyteczne, nie da się z tym pracować. W scikit-learn to było tak, że wymiana modelu A na B to jest jedna linijka kodu. Jest taki wspólny interfejs, który ma dwie proste metody fit i predict.

To jest genialnie proste, nie ma ani jednej takiej biblioteki przed scikit-learn, która zrobiłaby to na tyle dobrze. Cały ekosystem zaczął się rozwijać i co z tego, że pojawia jakaś alternatywa do Pythona – język Julia. Ten język ma mniej wad, które ma Python, jeżeli chodzi chociażby o wielowątkowość itd., ale nie ma ekosystemu, czyli biblioteki, zależności. To tam gdzieś się rozwija, ale jednak jak chcesz robić M, to potrzebujesz nie tyle języka, potrzebujesz kilka linii kodu i to zaczyna funkcjonować.

Przez to, że Python to zrobił jako jeden z pierwszych i też umożliwia robienie tego w miarę łatwo i szybko, to się zaczęło rozpędzać. Potem podchwycili większych graczy. Google używa Pythona dość regularnie, dość aktywnie w różnych serwisach. Później Uber, Facebook itd. To się zaczęło rozwijać gwałtownie szybko.

Pod tym względem Pythona już nie da się wyprzedzić. Pomyślmy teraz, jaka jest natura problemów data science? Mnóstwo powstającego kodu pojawia się raz, uruchamia się raz i jest do wyrzucenia albo ewentualnie do archiwizacji, żeby później można było sprawdzić ten eksperyment. Dlaczego tak jest? W data science dużo się eksperymentuje i większość eksperymentów się nie udaje. To jest normalne, że 20 czy 100 eksperymentów się nie udaje, a 1 tak. W takim podejściu, musisz bardzo szybko generować kod, bardzo szybko eksperymentować i dopiero później te mniejsze kawałki wdrażać.

Tutaj właśnie jest ten problem niestety z Pythonem, bo ludzie, którzy dużo eksperymentują, piszą ten kod tak bardziej na brudno, przyzwyczają się do tego i potem mniej więcej na tym samym poziomie, ten kod próbują wdrażać i to jest problem, bo takiego kodu nie można wdrażać. Też biznes tego czasem nie rozumie. “Przecież jest jakiś prototyp, więc już można to wdrożyć.”

Gdzieś ta edukacja powinna być uruchamiana i chyba teraz już jest coraz większe zrozumienie. Wydaje mi się, że właśnie ludzie z otoczenia programistów mogą pomóc, a po drugie języki, które są bardziej dostosowane do skali. Jeżeli owszem mamy problem mniejszy, to możemy to wdrożyć w Pythonie. Czasem jednak jeżeli mamy, powiedzmy enterprise, większe projekty, to problem skali może nas tam gdzieś zjeść, chociaż to nie zawsze jest prawda. Czyli nawet w Pythonie też można fajnie się skalować.

Ale jeżeli mówimy o produktach enterprise, które są napisane np. w Javie albo C#, to co miałeś wcześniej do wyboru? Do wyboru miałeś wstawianie mikroserwisu i REST API albo bazy danych, o których mówiłem, że np. do bazy danych się wpisuje wyniki. To czasem działa, ale czasem potrzebujemy coś mieć w czasie rzeczywistym.

Jeżeli chodzi o Java, to było na tyle łatwiej, że tu jest mnóstwo takich Spark i innych podobnych rzeczy, więc dało się to już integrować, ale w C#, .NET było to znacznie bardziej skomplikowane. Faktycznie wcześniej nie było za bardzo możliwości jak tak zrobić, aby nie powstała kolejna rzecz w stacku. Teraz wybór jest i to, co zrobił dobrze Microsoft, to właśnie pojawiła się biblioteka ML.NET.

Ja o tej bibliotece wiedziałem już jakiś czas temu, bo ona pojawiła się w roku bodajże 2018. Ale jak się odezwałeś to pomyślałem, że to jest dobra okazja, żeby zbadać co się dzieje w świecie C#. Więc to zrobiłem i byłem pozytywnie zaskoczony, że faktycznie to dojrzało do ciekawego poziomu.

Zobacz, jeżeli w tej chwili chcesz zacząć wdrażać uczenie maszynowe w .NET, nie wychodząc ze świata .NET – jest to możliwe. Mało tego, poziom tego rozwiązania naprawdę będzie bardzo wysoki, bo z jednej strony ekosystem też już się pojawił w bibliotece ML.NET. Tam jest mnóstwo algorytmów, nie wszystkie owszem, ale wystarczająco dużo. Są takie algorytmy dla klasyfikacji, regresji itd. Widać, że osoby, które to robiły, myślały bardzo szeroko. Są jeszcze elementy, których brakuje, ale to wynika ze złożoności problemu.

Tyle to trwa bez względu na to, że jesteś Microsoftem. Oni zrobili po prostu rozszerzenie czyli np. jest taka biblioteka LightGBM. To jest w sumie biblioteka Microsoftu, ale bardziej była stworzona do integracji z Pythonem i Arcome. Tam się to integruje od dawna i to działa. Ale nie było dobrej integracji z .NET. Może to dziwić, ale tak to było. Obecnie już ta integracja się pojawiła. LightGBM faktycznie jest bardzo dobrą biblioteką, jedną z najciekawszych jeżeli chodzi o klasyczne uczenie maszynowe. 3 najciekawsze według mnie: XGBoost, CatBoost i LightGBM.

Jest jeszcze ONNX. Idea polega na tym, że trenujemy model w czymś innym np. TensorFlow, PyTorch czyli zupełnie inne biblioteki, które są oderwane od .NET. One są napisane na innych technologiach, można też trenować na poziomie Pythona. Później to zapisujemy jako plik binarny i możemy odczytać już w .NET i uruchomić.

Działa to w taki sposób, że istnieją formaty przenośne, języki uniwersalne, które potrafią tę wiedzę, którą model wytrenował, przenieść i odpalić na poziomie .NET. To jest niesamowite. W tej chwili ta wiedza, nasze rzeczy, które już powstały na poziomie TensorFlow, PyTorch to są w sumie najważniejsze biblioteki w deep learningu, które mocno konkurują pomiędzy sobą. Dzięki temu to jest fajne dla końcowych użytkowników, bo się coraz więcej rzeczy w krótkim czasie odbywa. Takie najnowsze osiągnięcia można po prostu sobie pobrać i uruchomić.

W tej chwili np. nie ma problemu, żeby robić rozpoznawanie zdjęć, wykrywanie twarzy, obiektów. To oczywiście od dłuższego czasu można było zrobić na Azurze, czyli wysyłasz przez REST API, ale to ma swoje wady, bo musisz przez API coś wysyłać, musisz się dzielić swoimi danymi. Też nie zawsze to się skaluje, jeżeli chodzi o koszty, jak tych obrazów masz nieco więcej. Warto też zaznaczyć, że to jest technologia, która nie jest Twoja, bo nie wiesz, czy jutro Azure tego nie zamknie albo nie zmieni, albo nie podniesie ceny, albo jeszcze coś innego.

Teraz nawet nie chodzi o Azure jako tako, tylko bardziej o provider. Nie masz nad tym kontroli. Wszystko może się wydarzyć, więc zawsze chcesz w pewnym sensie mieć to rozwiązanie gdzieś bliżej siebie. W tej chwili jest to możliwe, przynajmniej częściowo. Możesz odpalić to lokalnie, Twoje dane nigdzie nie wypływają i co najważniejsze to jest w 100% technologii .NET, czyli nie musisz stawiać żadnych mikroserwisów. Też to dość szybko się rozwija. Jak wczoraj patrzyłem, 20 dni temu wyszedł kolejny release 0.6.

Ciekawostka jest taka, że sami .NET’owcy nie potrafią tego docenić, bo z jakiegoś powodu Microsoft tego jeszcze nie promuje. Nie wiem, czy to jest taka strategia. Być może nie ma pieniędzy na marketing. Ale jeżeli chodzi o dojrzałość tego projektu i efektywność, to mogę potwierdzić, że to jest ciekawe i można tego używać. Ja osobiście tego nie używałem na produkcji, bo nie mam w tej chwili .NET. Microsoft sam się chwali, że używa to u siebie na produkcji w Windowsie, Excelu itd.

Jeszcze jedna rzecz odnośnie biblioteczki. Oni to robili z myślą o skali. Widać, że np. Python ma problem ze skalą. Można to rozwiązywać na różne sposoby, ale mówiąc w skrócie – ma problem. Można coś z tym zrobić, ale domyślnie problem istnieje. Tutaj widać, że biblioteka była przemyślana w taki sposób, aby uruchamiać to na skalę – na miliony, miliardy wierszy, na dużą liczbę danych. To myślę, że w większości projektów w przypadku .NET’owców, którzy pracują właśnie na dużych projektach czyli jakieś banki, instytucje finansowe, to jest świetna wiadomość.

K: Z tym, jak Microsoft w ogóle podchodzi do promowania różnych rzeczy, to mam sam też takie przemyślenie, że ostatnimi czasy Microsoft zdecydowanie promuje weba i samego Clouda, bo widać po prostu, że to im najlepiej wychodzi. To między innymi widać po ankietach na stackoverflow, że ASP.Net Core jest w tej chwili najbardziej uwielbianym frameworkiem webowym, więc faktycznie zaczynają robić to dobrze i myślę, że jak faktycznie sami będą mocno zadowoleni z tych narzędzi ML’owych, to pewnie zaczną też bardziej w to iść.

Tak naprawdę to jest to, co ja nieraz mówiłem, zresztą w ostatnim odcinku mojego podcastu, że sam .NET daje nam olbrzymie możliwości programowania na desktop, urządzenia mobilne, weba i ML. Natomiast aż tak dużo się jeszcze o tym nie mówi ze względu na to, że właśnie machine learning to głównie Python i pewnie tak zostanie. Wciąż ML.NET to będzie nisza, ale tak jak mówisz fajnie, że to może być taka nisza ciekawa dla programistów .NET’owych.

Vladimir, myślę, że na tym możemy jeszcze w tej chwili zakończyć, bo wiem, że moglibyśmy długie godziny jeszcze rozmawiać. Tak naprawdę, jakbyśmy usiedli sobie na spokojnie to 3, 4, 5 odcinków samego podcastu i dla Ciebie, i dla mnie moglibyśmy z tej rozmowy zrobić. Zostawmy sobie coś na przyszłość.

Powiemy o tym, o czym zaczęliśmy rozmawiać tuż przed nagraniem?

V: Tak, właśnie na koniec, już podsumowując. Przy okazji wspomnę, że w ML.NET trzeba pisać kod, ale też jest coś takiego jak ML Build. Więc przynajmniej znajdź, co to jest ML Build, będą też w notatkach linki i spróbuj to uruchomić. Wystarczy poklikać i zobaczysz, jak już to działa. Od razu uprzedzę, że w tej chwili jeżeli człowiek rozumie, jak działa machine learning, to wykorzystanie ML.NET jest w porządku, bo rozumiesz, co to oznacza, rozumiesz, jak to się konfiguruje itd.

Natomiast ja w tej chwili ML.NET traktuję raczej jako narzędzie dla osób, które pracują w .NET i chcą to wdrażać bez żadnych kłopotów, a nie do eksperymentowania, bo eksperymentować nadal będzie łatwiej w Pythonie.

Ale najfajniejsze jest to, że w tym przypadku to otwiera większe możliwości, że w tej chwili osoba, która pracuje w .NET, już nie będzie miała takich wymówek albo ograniczeń, że nie będziemy wdrażać Pythona, bo nie ma jak. Nawet jeśli pracujesz jako developer, spróbuj użyć ML i po prostu pokaż swojemu szefowi, że Ty jesteś w stanie dostarczyć więcej wartości. Bo jeżeli pójdziesz do niego i powiesz: użyjmy ML, to on prawdopodobnie powie nie. Ale jeżeli zrobisz sam, trochę tak po godzinach, bo masz dostęp do danych, jakiś taki projekt hobbystyczny, minimalny, to możesz zobaczyć, jak Twoje życie się odmieni.

Nagle wzrośniesz, będziesz pierwszy ML’owcem, data scientistem, dostaniesz podwyżkę itd. Ale też będzie to dla Ciebie bardzo ciekawe, bo się rozwiniesz.

Zastanawiam się nad takim czymś, żeby dać wsparcie i pomóc deweloperom, programistom poznać uczenie maszynowe. Mają oni swoje zalety, mocne strony czyli potrafią programować, ogarnąć cały komputerowy świat, ale z drugiej strony może im zabraknąć wiedzy ML’owej, żeby to zrozumieć i stosować. Nawet nie tyle, żeby zrozumieć bardzo głęboko, bo nie chodzi o to, żeby wymyślić nowe algorytmy, tylko zrozumieć na tyle, aby umieć to opanować i zacząć to stosować.

To jest podobnie jak kierowca i mechanik. Kierowca nie musi rozumieć w 100% jak działa silnik, ale musi rozumieć, że tam jest kierownica, pedały, trzeba wcisnąć, czasem zahamować. To nie jest aż takie trudne, da się tego nauczyć, ale trzeba przejść ten kurs.

Pojawił się taki pomysł, jeżeli zbierze się zainteresowana grupka, np. 50 osób, żeby zrobić kolejny webinar albo kolejną inicjatywę, gdzie trochę podpowiem Ci jak Ty jako osoba, która zajmuje się programowaniem np. C# albo w ogóle programowaniem, możesz pójść do przodu.

Ilość informacji w Internecie jest za duża. Tyle tego się leje na nasze biedne mózgi, że człowiek nie będzie w stanie filtrować tego, co istotne. Jeżeli zbierze się taka grupa zainteresowanych np. 50 osób, to mogę zorganizować taki warsztat, webinar, na którym pokażę więcej jak zastosować uczenie maszynowe jako programista. Koniecznie się zapisz.

Dołącz

K: Miejmy nadzieję, że zbierze się jak największa liczba zainteresowanych. Jeszcze w tej chwili nie będziemy mówili o żadnych terminach. Terminy sobie spokojnie dogramy, jak faktycznie zobaczymy, że będzie zainteresowanie. Na pewno tak myślę, że spokojnie możemy powiedzieć, że nie będzie to wcześniej niż we wrześniu, bo też jeszcze cały czas jesteśmy w sezonie urlopowo-wakacyjnym, także dajmy sobie spokojnie trochę czasu.

Natomiast zapraszamy na to, żeby poznać ML. Vladimir jest świetnym specjalistą w tej kwestii, więc na pewno bardzo delikatnie i z czułością wprowadzi w te tematy. Tutaj zgłoś się na warsztat.

Tym samym jeszcze raz chciałem Tobie Vladimir podziękować za to spotkanie. Podziękować za to, że zgodziłeś się ze mną porozmawiać i mnie również wprowadzić w tematy ML’owe. Jak zwykle, ja sam się bardzo dużo nauczyłem, więc domyślam się, że dla naszych czytelników będzie to jeszcze ciekawszy odcinek. W takiej sytuacji do usłyszenia gdzieś kiedyś w Internecie cały czas.

V: Dzięki wielkie za trafne pytania i do usłyszenia. Cześć.

Bardzo jestem ciekawy Twojej opinii co myślisz o takich eksperymentach, żeby co jakiś czas to właśnie ktoś mi zadawał pytania, a ja będę odpowiadał? Niekoniecznie to musi być programista, bo teraz właśnie eksperymentujemy, żeby były różne osoby. Być może kolejną osobą musi być ktoś z biznesu.

Jeżeli według Ciebie taki format ma sens, jest to wartościowe, daj koniecznie znać w wygodny dla Ciebie sposób – albo na pocztę, albo w social media, albo jakkolwiek wolisz dotrzeć np. gołębiami Dzięki temu będziemy wiedzieć, jak się rozwijać dalej. Wydaje mi się, że takie eksperymenty mogą mieć sens, natomiast warto też zrozumieć, w którym kierunku robić większy nacisk i które perspektywy w tej chwili są najciekawsze.

Na koniec mam jedną prośbę, poleć przynajmniej jednej osobie ten odcinek, bo może być to ciekawe i wartościowe dla tej osoby.

Artykuł Czy developer potrzebuje Machine Learning? pochodzi z serwisu Biznes Myśli.

Kluczowe role w projekcie Machine Learning

Vladimir — Mon, 03 May 2021 03:00:17 +0000

Dlaczego większość projektów Machine Learning nie odnosi sukcesu lub wręcz upada?

Jakie są kluczowe role, aby projekt miał szansę przeżyć i przynieść wymierne korzyści?

Posłuchaj tego odcinka podcastu lub przeczytaj artykuł, aby odpowiedzieć na te i wiele innych pytań, które zwiększają szansę na powodzenie projektów klasy R&D w branży Data Science i Machine Learning.

Dlaczego tak wiele projektów ML rozpoczyna się, ale większość z nich kończy się bez sukcesu? Czy da się tym efektywniej zarządzać?

Wszystkie szczęśliwe rodziny są do siebie podobne, każda nieszczęśliwa rodzina jest nieszczęśliwa na swój sposób

Lew Tołstoj, Anna Karenina.

Podobnie jest z ML, istnieje wiele przyczyn, co może pójść nie tak, więc próba wymienić je wszystkie może być dużym wyzwaniem. Analizując sytuacje, których byłem świadkiem lub takie, w których mogłem dostrzec pewne szczegóły, aby wyciągać wnioski, zadałem sobie trudu zapytać, czy da się wyłonić z tego kilka punktów, które są ważne, aby projekt ML (niemal każdy) mógł się udać.

Podchodziłem do tego zadania na kilka sposobów. Natomiast zostałem przy dość oczywistej interpretacji i skupiłem się na ludziach. Mówiąc dokładniej – ludzi w pewnych rolach, które są kluczowe dla projektów Machine Learning moim zdaniem.

W zespole powinny się znaleźć pewne role, aby projekt się udał. Teraz nie chcę wymieniać ich wszystkich i rozdrabniać się, ponieważ przy pracy z danymi istnieje wiele ról, takich jak np.:

Machine Learning Engineer
Data Engineer
Machine Learning Researcher

I każdy z nich robi coś swojego, ale w tym dzisiejszym rozważaniu te role połączę w jedno i nazwę ją jako rola techniczna.

Na początek podam Ci prosty wzór, który wręcz jest dość oczywisty. Natomiast następnie przerobimy konkretne przykłady i zobaczysz, że stosując ten prosty schemat naprawdę można szybko wychwycić potencjalne problemy.

Kluczowe role w zespole Machine Learning

Warstwa pierwsza (role):

Marzyciel/Wizjoner
- ma pomysł (marzenie) zrobić “coś”.
Kierownik/Manager/PM
- Potrafi przenieść marzenie na poziom planu (ustawić priorytety, deadline, przypisać zadania do właściwych wykonawców itd).
Wykonawca
- Potrafi wykonać plan (dobrze).

Dodatkowo można powiedzieć, że ta struktura zagnieżdża się, czyli możemy wziąć sobie rolę wykonawcy i tam wyróżnić:

Wykonawca Wizjoner (umie łączyć świat “wykonawcy” ze światem wizjonera)
Wykonawca-Kierownik (umie dobrze zdefiniować np. techniczne zadanie)
Wykonawca-Wykonawca (zrobi dobrze zdefiniowane zadanie)

Pewnie ciekawy jesteś, na czym polega rola: Wizjoner x 2. Simon Sinek powiedział:

„Vision” is the ability to talk about the future with such clarity it is as if we are talking about the past.

„Wizja” to umiejętność mówienia o przyszłości z taką klarownością, jakbyśmy mówili o przeszłości.

Pomyśl, jak dużo znasz wizjonerów (lub mówiąc precyzyjniej osób, które zajmują się wizją) i potrafią ją bardzo precyzyjnie określić? Wizjoner-Wizjoner, to jest człowiek, który więcej czasu spędza w teraźniejszości, aby lepiej wyczuć przyszłość. Natomiast prawda jest taka, że takich ludzi jest mało. Dlatego występowanie wszystkich 9 ról jest przypadkiem idealnym.

Mając przynajmniej takie 3 role (albo nawet 3 x 3), zwiększasz swoje szanse, że Twój projekt ML się uda. Swoją drogą, czy te wszystkie role może pełnić jedna osoba?

W teorii pewnie tak, w praktyce dość rzadkie zjawisko (o ile możliwe). Natomiast te 9 ról wcale nie oznacza zawsze 9 osób. Jedna osoba, może łączyć w sobie kilka ról. Natomiast ważne jest, aby być świadomym tego, czy w Twoim zespole są spełnione istotne role (przynajmniej 3 role).

Opowiem Ci 3 historie, podczas których pojawiły się pewne kłopoty przy projektach. Z jednej strony te kłopoty są dość szczególne i po swojemu “nieszczęśliwe”, ale jeśli przyjrzeć się im dokładniej, to można zobaczyć, że te kłopoty są skutkiem tego, jak rozłożyły się pewne role w projekcie i zespole.

Pochopne budowanie infrastruktury

Spróbujmy lepiej zrozumieć kontekst. Z jednej strony wiemy i także ja to ciągle powtarzam, jak ważne są dane dla ML. To jest prawda. Nie mając danych, nie można wytrenować modelu, bo to jak w tym słynnym powiedzeniu – dane są paliwem dla modelu. Z drugiej strony zdrowy rozsądek jest ważniejszy! Miałem okazję zobaczyć na własne oczy skrajność, która z dużym prawdopodobieństwem może powielać się w wielu przypadkach. O co chodzi?

Pewna spółka wpadła na pomysł, że skoro dane są konieczne ML, to najpierw budujemy infrastrukturę i zbieramy dane. Początek brzmi sensownie, ale co to oznacza w praktyce (słynne pytanie, które często zadajemy w DataWorkshop)? Ta spółka zaprosiła do tego ludzi, którzy znają się na budowaniu infrastruktury IT. Powstał plan, jak fajne pewne procesy można skalować, nawet petabajty danych można obsłużyć. Płacimy tylko wtedy jak używamy te zasoby i dzięki temu mamy duże oszczędności. To wszystko brzmi atrakcyjnie i nawet może sprawić, że jesteśmy na wygranej pozycji już na starcie.

Teraz nie próbuję podważać kwestii technicznych (czy to naprawdę skaluje się i czy płacimy tylko wtedy jak używamy) oraz czy taka infrastruktura jest naprawdę potrzebna, bo docelowo tak, ale …

Zwracam uwagę na coś innego. W tej dyskusji (której byłem świadkiem) zabrakło jednego ważnego pytania, które powinno być zadawane zawsze, a w przypadku początkowego etapu rozwoju projektu ML i firmy szczególnie często.

Po co? Po co nam infrastruktura, która fajnie skaluje się, skoro nawet nie wiemy, jakie dane chcemy zbierać i w jakiej postaci.

Podam Ci analogię, jak to brzmi dla mnie. Zamiast tego, aby zaprojektować dobry biznes model i uruchomić go w rzeczywistości i zweryfikować czy to faktycznie działa, zamiast tego spędzasz swoją całą uwagę, który bank wybrać aby przechowywać tam właśnie zarobione pieniędzy. Tylko jeszcze nie masz tych pieniędzy i nawet nie wiesz, czy będą, bo dopiero testujesz pomysł.

Owszem przydałoby się zarządzać również pieniędzmi we właściwy sposób, ale kolejność działań jest istotna. Myślę, że zgodzisz się z tym, że problem gdzie przechowywać pieniądze jest dość “przyjemniejszy” i na to jest sporo “gotowców”. Ciężej jest pieniądze pozyskać.

Zobacz, jak łatwo jest zgubić koncentrację i zacząć robić niewłaściwe rzeczy. Skupienie się na niewłaściwych rzeczach, nawet kiedy je zrobisz we właściwy sposób – powoduje, że i tak przegrasz (czas, pieniędzy, rynek lub wszystko na raz)!

Jak byłem w Stanach, wtedy pracowałem jako architekt systemu wyszukiwarki w General Electric, to na jednym ze spotkań w pracy zauważyłem napis na tablicy:

The manager does things right; the leader does the right thing.

Menedżer robi rzeczy we właściwy sposób, lider robi właściwe rzeczy. Przykuła moją uwagę ta gra słów: “do things right “ oraz “do right thing”. Robić rzeczy we właściwy sposób vs robić właściwe rzeczy. Taka zwykła odmiana słów i totalnie zmienia sens tego, co robimy.

Zwrócę Twoją uwagę, że pytałem “po co?” nie pytam “po co chmura?” To są różne pytania. Bo chociażby w poprzednim odcinku mówiłem, że chmura daje duże możliwości. Mało tego jako DataWorkshop używamy jej na co dzień i to faktycznie nam pomaga, ale robimy to świadomie. Zobacz, w naszym przypadku to było tak, że najpierw zrozumieliśmy na mniejszą skalę, jakie dokładnie mamy problemy, gdzie faktycznie jest wąskie gardło i potem zaczęliśmy je rozwiązywać.

Przykład: aby skalować środowisko jupyter, czyli naszą platformę (opartą na open-source rozwiązanie), gdzie ludzi trenują modele uczenia maszynowego i robić to największą skalę (1000 lub więcej osób jednocześnie) w dużym stopniu automatyzacji potrzebowaliśmy użyć właściwego narzędzia i go użyliśmy. Mieliśmy problem, znaleźliśmy optymalne rozwiązanie. W tym przypadku najpierw zrozumieliśmy, który problem jest właściwy i następnie go rozwiązaliśmy we optymalny sposób.

W zależności od tego, gdzie jest Twoja firma, również może wybrzmieć zadanie, że model potrzebuje danych do trenowania. Jeśli dopiero zaczynasz lub masz duże zaległości z infrastrukturą – to należy o to zadbać, ale zrób to z głową. Najpierw trzeba znaleźć właściwe rzeczy, np. właściwy problem do rozwiązania.
Podpowiem Ci, jakie pytania stosujemy, aby upewnić się, czy to jest właściwa rzecz. Pytanie jest bardzo proste.

Co się stanie, jeśli tego nie zrobimy? Tylko znów na to pytanie, należy odpowiedzieć w kontekście “co to oznacza w praktyce”. Np. abstrakcyjna rozmowa, jeśli nie mamy infrastruktury IT to nie ma danych, więc nie będziemy trenować modeli ML jest dość abstrakcyjna. Bo równie dobrze można mieć dużo serwerów, które przez przypadek można nazwać jako infrastruktura IT, ale co z tego? Skoro tam gromadzą się losowe rzeczy, które wcale nie są danymi, na które model oczekuje, to nadal mamy ten sam problem.

To w takim razie zadam inne pytanie. Co powinno się stać, aby model wytrenować? Można na to pytanie odpowiedzieć abstrakcyjnie: potrzebne są dane, ale znów używając naszego słynnego pytania “co to oznacza w praktyce?” lub ewentualnie pomocnicze pytanie “jak możemy rozpoznać i zmierzyć ten moment, że mamy dane”. To pytanie powoduje, że zaczynamy bardziej dokładniej rozpisywać ten proces.

Na przykład:

Mamy tabelę w bazie danych.
Która ma 10k rekordów i 150 kolumn.
Każda kolumna to…. oraz mamy nasza odpowiedź (czyli tak zwana zmienna docelowa).

Dobra, to skoro na początek potrzebujemy bazę z 10k (czy nawet 100k) rekordów, to wystarczy najzwyklejsza baza MySQL/PostregSQL, która np. w chmurze da się wyklikać za 5-10 min i automatycznie mieć backup i w razie potrzebny nawet ustawić replikę. To po co na początek spróbować więcej losowych rzeczy? Zamiast tego, aby sprawdzić, czy te dane, które mamy są właściwe?

Oczywiście, mówiąc te słowa, rozumiem, że to może doprowadzić do innej skrajności, kiedy robi się duży dług techniczny. Natomiast to, co próbuję przekazać to idea, że bycie efektywnym wymaga myślenia i ciągłego zadawania sobie pytań, czy to, co robię jest naprawdę właściwym krokiem?

To co sami robimy w ramach DataWorkshop i polecam, to robić, to dużo małych kroków, aby móc szybko i jasno odpowiadać na pytania “co to oznacza w praktyce”. Owszem w małych krokach też można się mylić, ale to mniej boli.

Jeśli dopiero zaczynasz wdrażać ML i nie wiesz, co to oznacza dane, to warto coś zrobić, aby w Twojej głowie było lepsze rozumienie, jakie dane są potrzebne, aby to mogło wytworzyć wartość dodaną. Nie musisz rozumieć wszystkiego, od tego są specjaliści, ale spróbuj zrozumieć podstawy. Obserwuj różne inicjatywy, które robimy w DataWorkshop, część z nich jest też bezpłatna i zbadaj ze zrozumieniem ten temat. Dzięki temu ciężej będzie Ci błądzić i może unikniesz całkowitego zagubienia. Po prostu od razu będziesz wiedzieć, czego chcesz!

Wróćmy do tego, o czym mówiliśmy na początku.Jakich ról zabrakło w tym przypadku?

Był wizjoner. Pojawili się wykonawcy-wykonawcy (czyli osoby, które potrafią np. świetnie skalować storage itd). Natomiast zabrakło spójnika. To znaczy powiem, że w zespole było dużo różnych osób, ale zabrakło wśród nich takiej osoby, która była w stanie wyczuć, na czym polega “marzenie” skonsultować go z wykonawcami, zadając sporo pytań “po co?” i przygotować solidny plan. Wbrew pozorom ta rola jest trudna, tu chodzi o coś więcej niż zwykły project-manager, który pogania i pilnuję deadline.

Czasem tę rolę spełnia pewnie CTO, czasem Data Officier czasem ktoś C-level, nie ważne, ale ważne, aby był człowiek, który z jednej strony potrafił wczuć się w “wizje/marzenie”, z drugiej strony potrafił to przepisać jako plan działań i znaleźć właściwe osoby, które to zrealizują. Nawet powiem więcej, ta osoba powinna sama móc to wszystko napisać (bo wcześniej już to robiła), tylko ze względu na stanowisko brakuje na to czasu. Myślę, że to zdanie jest w stanie dość mocno pomóc, aby sprawdzić, czy w Twoim zespole jest taka osoba.

Kierownik w zespole a biurokratyzacja

Kiedyś Elon Musk w jednym z wywiadów powiedział, na czym ma koncentrować się CEO:

„Spend less time on finance, spend less time in conference rooms, less time on PowerPoint and more time just trying to make your product as amazing as possible„
Spędzaj mniej czasu finansami, spotkaniami, power point i więcej czasu robiąc Twój produkt lepszym jak to tylko jest możliwe.

Ta wypowiedź jest ciekawa, ale nasuwa się inne pytanie. Kiedyś usłyszałem, takie pytanie, który CEO jest lepszy:

Innowator (powiedzmy właśnie taki Musk);
Manager (który stabilizuje procesy);
Prawnik (który walczy o patenty, prawa autorskie itd.);
Urzędnik (który procesuje w nieskończoność).

Jak myślisz, który CEO jest lepszy?

Na początek, nasuwa się (przynajmniej u mnie), że innowator. To jest oczywiste, bo najbardziej mi rezonuję, ale właściwa odpowiedź, brzmi klasycznie – to zależy. To zależy, gdzie jest Twoja firma i o co walczysz. Słuchając (lub czytając wywiadów) z osobami, które zbudowały firmy od zera do potęg, to słyszę dość często, że np. biurokracja jest konieczna, na pewnym etapie rozwoju firmy. Po prostu (w ich doświadczeniu), jak ludzi staje się więcej, powiedzmy więcej niż tysiąc czy kilka tysięcy to musi pojawić się sporo biurokratycznych procesów.

To w tym przypadku, stawiania innowatora jako CEO do takiej firmy, raczej nie zawsze jest dobrym pomysłem. Dla mnie zrozumienie dojrzałości firmy i że ona ma różne potrzeby (różnych liderów) i różnego sposobu myślenia stało się odkrywcze. Z jednej strony to jest oczywiste, ale z drugiej strony stąd płynie wiele ciekawych wniosków.

Nie próbuję powiedzieć, że innowacyjny CEO/ lider jest tylko jedną możliwą opcję, bo fakty jak na razie mówią coś innego. Chociaż może to kwestia zmian, które dojrzewają, po prostu musi przyjść nowe pokolenie i to zmienić, co myślisz?

Warto też zrozumieć, że projekty R&D bardzo potrzebują innowatorów. Bo to jest ich natura. Dlatego przy większych organizacjach opłaca się robić mniejsze niezależne jednostki. Myślę, że dobrym przykładem jest PZU-lab. Więcej możesz posłuchać na ten temat w rozmowie z Marcinem Kurczabem w 69 odcinku podcastu.

Wymieniłem, że w zespole mają się znaleźć co najmniej 3 role, najlepiej 9 ról, aby dowieść projekt ML. Natomiast może się znaleźć znacznie więcej, ale część z tych ról niestety może bardziej zaszkodzić, bo z jednej strony wydaje się, że to jest rola środkowa (czyli kierownik), ale jak to jest w praktyce?

Na ile kierownika w tych moich rolach można nazwać urzędnikiem lub nawet biurokratom? Świadomie używam tych słów, aby podkreślić co próbuję powiedzieć. Jeśli człowiek pełniąc rolę kierownika w projektach ML zachowuje się bardziej jako urzędnik, czyli bardziej dba o papierki i o to, aby wszystko zgadzało się na papierku, to można uznać, że mamy w zespole urzędnika (który “przejmuje” władzę) może przynieść dużo negatywnych konsekwencji i nadal brakuje kierownika.

Kierownik w moim rozumieniu to osoba, który z jednej strony jest bardzo poukładana, ale z drugiej strony ma otwarty umysł, potrafi zrozumieć zmienną i płynność projektów R&D i uwaga znaleźć narzędzie, aby tym ryzykiem zarządzać. Natomiast to narzędzie nie jest banalnym spisywaniem na papierku (czy wersji cyfrowej), tylko coś więcej.

Jako ciekawostka i pewien paradoks. Spotkałem już różnych ludzi, którzy są jeszcze jedną nogą na uczelni (lub już może porzucili) i narzekają, że uczelnie są skostniałymi organizacjami – dużo biurokracji i po prostu nie da się tam rozwijać (z czym ciężko jest nie zgodzić się czasem), więc ten człowiek mówi – rzucam to i idę do biznesu.

Tylko paradoks polega na tym, że ten człowiek (o ile już spędził trochę lat na uczelni) nie potrafi ot tak myśleć inaczej. Psycholodzy na to mają swoją terminologię, natomiast jako programista powiem dość prosto – każdy z nas działa wg programu, który nadpisało mu otoczenie (zaczynając najpierw od rodziców, przyjaciół, kolegi i koleżanek). To może brzmieć dziwnie, przecież sam zarządzam swoim życiem.

Natomiast to jest łatwo sprawdzić, jeśli zaczniesz mierzyć swoje opinię, poglądu do wartości średniej swojego otoczenia. Wiem, że czasem lepiej o tym nie wiedzieć, ale już wiesz dlaczego spędzając więcej czasu w środowisku, w którym wszystko było mocno biurokratyczne, ciężko jest pozbyć się tego myślenia. To jest możliwe, ale to wymaga dużej pracy i otwartości na nowe doświadczenie, zwykle z tym już różnie bywa.

Podsumować ten punkt mogę powiedzieć tak. Kiedy urzędnik trafia na stanowisko kierownika projektów R&D, możesz być prawie pewien – że będzie wszystko zgadzało się na papierkach (np. tak jak to jest lub powinno być NCBR), ale czy wydarzy się coś więcej? To pytanie zostawię dla Ciebie.

Poprawa sprzedaży …

Opowiem Ci trzecią historię.

Chcemy poprawić sprzedaż do istniejących klientów w bazie danych.

Takie zdanie do nas napisała jedna z osób jako pomysł do zastosowania ML.

Spróbujmy przyjrzeć się temu. Sam cel jest zrozumiały, no bo ciężko jest znaleźć biznes, który nie chce poprawić sprzedaży.

Teraz pytanie co powinno się stać, aby to udało się?

W dużym uproszczeniu mamy marzenie, chcemy usprawnić sprzedaż. Kolejnym krokiem jest znaleźć dobrego kierownika i wykonawców. Natomiast należy zrobić to rozsądnie i we właściwej kolejności. Jeśli znajdziesz tylko dobrych fachowych technicznych, to jest duża szansa, że coś dostaniesz, ale nie wiadomo po co. Dlatego najpierw, w ten czy inny sposób, należy zrozumieć, co dokładnie może pomóc, aby sprzedaż wzrosła.

Czy tutaj na pewno ML jest potrzebny? Być może trzeba zostawić telefon lub e-mial na stronie internetowej, aby klienci mogli kontaktować się, być może lepiej opisać swój produkt lub usługi, jakie dokładnie problemy rozwiązuje. Natomiast jeśli to wszystko już jest zrobione i trzeba coś więcej, to może faktycznie warto sięgnąć po ML. Tylko znów, pomyśl dokładniej przed wykonaniem, co chcemy usprawnić.

Istnieje wiele przykładów, kiedy ludzie wprowadzając małe zmiany potrafili osiągnąć duży sukces. Polegało to na tym, aby myśleć wprost, jak zwiększyć x2 sprzedaż, pomyśl, jak możesz usprawnić każdy poszczególny krok (np. w lejku sprzedaży o 2%), to już brzmi zdecydowanie mniej rewolucyjnie, ale jak masz takich kroków 5 sztuk i każdy poprawisz o 2% to masz ostatecznie 2.5 razy lepiej. Zobacz na przykładzie. Mamy 5 kroków. Stan przed był, na każdym kroku przechodzi 10%, stan każdy krok poprawiamy o 2%, czyli konwersja na każdy kroku 12%

Przykład:

100000 => 10000 => 1000 => 100 => 10 => 1
100000 => 12000 => 1440 => 172.8 => 20.7 => 2.5

Mając taką wizję (co nadal nie jest klarowne), ale przynajmniej można próbować zrobić przymiarki i zobaczyć co może pomóc zwiększyć konwersję na każdym kroku o 2%. Być może właśnie ML, ale też nie zawsze. Czasem chodzi o jakieś proste działania.

Natomiast jeśli jednak chodzi o ML, to przynajmniej w tym przypadku właściwy kierownik projektu będzie w stanie przekuć to na właściwie zadania, rozpisać na osi czasu i wyjaśnić wykonawcom, co należy zrobić.

Podsumowanie

Opowiedziałem Ci dzisiaj moje przemyślenia o rolach, które powinny się znaleźć, są co najmniej trzy lub nawet 9, to wizjoner/marzyciel, kierownik oraz wykonawca. Natomiast każdą z tych ról można jeszcze dodatkowo podzielić na kolejne podobne trzy.

Podałem też przykład, że mogą się pojawiać inne role w zespole lub wiele innych osób, ale to często zwykle powoduje więcej kłopotów niż pożytku. Biurokracja w projektach R&D zwykle wprowadza dużo zamieszania. Jeśli Twoja organizacja jest duża i jej natura jest taka, że inaczej nie da się – buduj laby, niezależne komórki, które rządzą się prawami startupów (innowacyjności i mają na czele lidera innowatora).

Bardzo jestem ciekaw Twojej informacji zwrotnej. Właściwe nazwy ról, które nadałem są mało istotne, ale ciekawy jestem, czy masz przykłady z życia wzięte, kiedy któraś inna rola koniecznie jest potrzebna (dla projektów ML) i w moim zestawieniu zostało pominięta? Zapraszam do merytorycznej dyskusji.

Tak się składa, że kolejny odcinek będzie setny. Pewnie to ma być coś ciekawego? Też tak myślę dlatego do usłyszenia za 2 tygodni, już szykuję materiał.

Artykuł Kluczowe role w projekcie Machine Learning pochodzi z serwisu Biznes Myśli.

Oddychaj zdrowiej dzięki Machine Learning

Vladimir — Tue, 29 Sep 2020 07:08:37 +0000

Pozostało niewiele miejsc na ziemi z krystalicznie czystym powietrzem. Żyjąc w zatłoczonych miastach, przebywając ciągle w budynkach narażamy swoje zdrowie na szwank. Oddychaj zdrowiej – słyszymy ciągle. Ale jak? Czy uczenie maszynowe może w tym pomóc?

Mówi się, że człowiek potrafi żyć bez jedzenia około 30 dni, bez wody około 4 dni. To już ekstremalne warunki, bo większość osób nie wytrzyma nawet dnia. Jednakże bez oddychania najdłużej można wytrzymać około 5 minut, choć większość osób jest w stanie wytrzymać około minuty lub nawet mniej.

Później występują nieodwracalne zmiany m.in. w mózgu i game over. Wspominam o tym dlatego, że ważne jest uświadomić sobie na ile powietrze, którym oddychamy, jest ważne dla naszego zdrowia. Teraz nie chcę wchodzić w tematy maseczek, czy je nosić czy nie, bo to jest inny wątek, ale poruszyłem dzisiaj kilka przykładów, które miały zwrócić Twoją uwagę na temat tego, co dla naszego organizmu jest bardzo ważne.

Jeżeli byłby wprowadzony całkowity zakaz jedzenia, to ten przepis być może byłby znacznie mniej szkodliwy niż zakaz oddychania. Czy teraz taki przepis jest wprowadzony? Właśnie pytam Ciebie, zastanów się nad tym, porozważaj na spokojnie i wyciągnij odpowiednie wnioski.

Dzisiaj będziemy rozmawiać na temat zdrowia w kontekście tego, że bardzo dużo czasu spędzamy w budynkach, w prywatnym mieszkaniu, biurze, w szkołach, na uczelniach albo innych zamkniętych pomieszczeniach.

W tych pomieszczeniach też żyjemy, czyli też oddychamy i teraz pytanie: czym oddychamy? Warto zwrócić uwagę, że w tych pomieszczeniach jak więcej gromadzi się ludzi, to od razu tlenu jest coraz mniej, a rośnie stężenie dwutlenku węgla i wtedy nasz organizm po pierwsze czuje się coraz mniej komfortowo, a po drugie tworzy się coraz bardziej niezdrowa atmosfera.

Dzisiejsza rozmowa będzie o startupie, który stara się stworzyć odpowiedni mikroklimat w budynkach. Podchodzą do tego na kilku poziomach m.in. sensory, czyli sposób mierzenia, gdzie jesteśmy i wykrywanie pewnych anomalii.

Drugi przypadek to jest to, żeby odpowiednio tym zarządzać od strony osoby lub firmy zarządzającej, czyli w jaki sposób najlepiej zarządzać energią dla osiągnięcia najbardziej komfortowych warunków.

Cześć Janek. Przedstaw się: kim jesteś, czym się zajmujesz, gdzie mieszkasz?

Nazywam się Janek Szwagierczak. Mieszkam teraz w Kopenhadze, pracuję jako Data Scientist w kopenhadzkim startupie Leapcraft. Zajmujemy się monitorowaniem jakości powietrza i oferujemy czujniki powietrza oraz klimatu w budynkach jako usługę, właśnie z systemem monitorowania i analizy danych. Pracuję w Leapcraftcie jako Data Scientist, więc moją rolą jest przeprowadzanie analizy danych, modelowanie tych danych, tworzenie raportów i rekomendacji dla naszych klientów.

Jaką fajną ostatnio książkę przeczytałeś? Niekoniecznie związaną z tematem machine learning.

Z książek związanych z machine learning ostatnio zacząłem czytać „Comparative Statistical Inference” Vic Barnett. Bardzo interesująca książka, jeśli ktoś szczególnie interesuje się bayesian statistic. Bardzo fajne porównanie pomiędzy klasycznymi metodami w statystyce, a bayesowskimi i teorią decyzji.

Z tych niekoniecznie związanych z machine learningiem czytam właśnie ponownie „Mistrza i Małgorzatę”. Jeśli ktoś jeszcze nie czytał, bardzo polecam.

To jest ciekawe. Dlaczego warto to jeszcze przeczytać albo w ogóle po raz pierwszy to przeczytać?

Dla mnie to przede wszystkim jest bardzo dobrze napisana książka. Trudno mi podać dobry argument, dlaczego warto ją czytać poza tym, że jest to po prostu bardzo przyjemne uczucie. Jest świetnie napisana, bardzo zabawna i ma niesamowity klimat.

A propos „Mistrza i Małgorzaty”, wbrew pozorom ta książka zawiera dużo ciekawych informacji, jeżeli ktoś potrafi złapać wzorce w niej zaszyte. To jest super przyjemna przygoda i tak naprawdę można wiele ciekawych rzeczy wyciągnąć, niż się wydaje na pierwszy rzut oka. Mówisz, że intuicyjne czujesz, że Ci się podoba i myślę, że wczułeś się w te wzorce, chociaż czasem niełatwo jest je opisać.

Również polecam tę książkę, w szczególności jeżeli ktoś wyjeżdża na urlop albo ma luźniejszy okres, gdy może podejść do lektury z otwartym umysłem i spróbować zrozumieć co tak naprawdę jest tam zawarte. Nie czytaj dosłownie, tylko postaraj się zrozumieć, co autor chce przekazać. Jeżeli ktoś tego nie czytał, to na pewno warto co najmniej raz to zrobić.

Tutaj taka ciekawa rzecz wybrzmiała a propos startupu. Jest słynny Uniwersytet Stanforda, który słynie m.in. z tego, że bardzo wspiera startupy, zresztą też ma ziemię, powierzchnię, biura wynajmuje, wspiera startupy w ten czy inny sposób i dzięki temu też dużo zarabia.

Natomiast np. jeśli popatrzymy na Polskę to uniwersytety niby coś tam próbują, ale generalnie rzecz biorąc, nie ma tego trendu, więc startup i uniwersytet to są takie dość rozłączne elementy. Powiedziałeś na początku o Uniwersytecie w Kopenhadze i startupie – proszę rozwiń na ile to w Danii działa w taki sposób, że uniwersytet jest na tyle już nowoczesny i potrafi zrozumieć to, że powinien wspierać startupy, czy to jest raczej taki wyjątek?

Ten startup, w którym pracuję, nie jest powiązany z Uniwersytetem w Kopenhadze, ale faktycznie dosyć często widzę, że są programy organizowane przez uniwersytety dla wspierania startupów. Są takie coworkingowe biura organizowane przez uczelnie, są akceleratory organizowane przez uniwersytety w Danii i wiem, że na pewno Uniwersytet Biznesowy Copenhagen Business School ma taki program.

Są też programy z Uniwersytetu Technicznego i z tego co wiem, Uniwersytet Kopenhaski również coś takiego organizuje. Trudno mi porównać w tej chwili z sytuacją w Polsce, bo nie jestem w tej chwili zorientowany w polskich realiach, ale tutaj można na pewno liczyć na wsparcie, jeżeli ktoś chce zacząć działalność w biznesie i są różne programy, na które można się zapisać.

Porozmawiajmy teraz o Twojej roli w Leapcraft. Jak wygląda Twój dzień pracy, jakie problemy rozwiązujesz, czym w ogóle firma się zajmuje i dlaczego akurat tym?

To jest niewielki startup, więc zajmuję się różnymi rzeczami, nie tylko modelowaniem danych. Chyba każdy Data Scientist mógłby powiedzieć, że modelowanie danych samo w sobie to tylko mały wycinek czasu, który spędzamy w pracy. Dla mnie jest też ważne, żeby zrozumieć problemy, które próbuję modelować i spędzam sporo czasu nad tym, czytając o problemach, z jakimi borykają się nasi klienci i w jaki sposób najlepiej je rozwiązać. Część czasu w pracy spędzam również na budowaniu infrastruktury i usprawnianiu tego, w jaki sposób te dane do nas napływają.

Misja duńskiego startupu Leapcraft, źródło: http://www.leapcraft.dk/

Ogólnie mówiąc, problem, który staramy się rozwiązać w Leapcraftcie, to:

jak znaleźć równowagę pomiędzy dobrym, zdrowym klimatem w budynkach, a optymalnym zużyciem energii i optymalizacją kosztów utrzymania.

Chodzi nie tylko o budynki mieszkalne, ale również o biura, fabryki, pociągi – wszędzie tam, gdzie liczy się klimat w pomieszczeniach, wszędzie tam, gdzie przebywają ludzie, ważne jest, żeby utrzymywać odpowiedni klimat w pomieszczeniach.

Chodzi o temperaturę, wilgotność, zdrowe i czyste powietrze i to łączy się zawsze z pewnymi kosztami utrzymania tego klimatu w budynku. Ponadto, co jest ważne dla tych, którzy tymi budynkami zarządzają i dla tych, którzy są właścicielami tych budynków, oczywiście wentylacja, ogrzewanie i chłodzenie zużywa energię, więc jest powiązane z kosztami, które należy zoptymalizować.

Zdrowy klimat – co to oznacza w praktyce? Powiedziałeś również o temperaturze, wilgotności i czystości. Temperatura w miarę jest zrozumiała, chociaż też ciekawy jestem, czy da się zdefiniować, że np. najlepsza temperatura to jest 19 stopni czy 21?

Ludzie są różni, więc też ciekawy jestem, jak to definiujecie? Czy to zależy od kontekstu biuro A, biuro B, dom itd.? Co to znaczy “dobra wilgotność”? A z czystością zastanawiam się, jak to jest zdefiniowane, jeżeli chodzi o to, dokąd dążycie, czyli jak da się rozpoznać, że klimat jest „zdrowy”? Jak to mierzycie?

Myślę, że część naszej misji polega też na edukowaniu społeczeństwa w tej kwestii, bo klimat wewnętrzny jest kwestią bardzo złożoną i ogół ludzi ma dość ograniczoną wiedzę na ten temat i mimo że jest to coś, co dotyczy nas każdego dnia, bo spędzamy w pomieszczeniach prawie całe nasze życie, to większość ludzi ma bardzo ograniczoną wiedzę na temat tego, co i w jakim stopniu tak naprawdę wpływa na nasze samopoczucie.

Oczywiście temperatura i wilgotność są częścią tego, to są główne składniki tego, co nazywamy czasem komfortem termicznym i to, kiedy czujemy się komfortowo, zależy od wielu czynników. Jest to oczywiście kwestia indywidualna, każdy człowiek będzie odczuwał temperaturę i wilgotność w inny sposób. Zależy to też od tego, jakie wykonujemy czynności, czy jesteśmy aktywni czy nie, jaka jest temperatura i pogoda na zewnątrz i również od wielu innych rzeczy.

Tak więc trudno jest odpowiedzieć, jaka jest optymalna temperatura i wilgotność. Będzie to zależało od danego budynku, od ludzi, którzy w nim przebywają i jak się zachowują.

Jeśli chodzi o jakość powietrza, to jest może trochę łatwiej powiedzieć, bo łatwo jest wymienić rzeczy, które wpływają w sposób negatywny na ludzi przebywających w środku. To, z czego każdy zdaje sobie sprawę w tej chwili, to zanieczyszczenia, toksyny, pyły zawieszone w powietrzu, które są produkowane przez samochody, fabryki. To jest coś, co w ostatnich latach zostało bardzo nagłośnione.

Szczególnie każdy, kto mieszka w Krakowie, zdaje sobie z tego sprawę doskonale, więc na pewno o tym będzie wiedział każdy człowiek. Rzeczą nieco mniej znaną jest problem związany z dwutlenkiem węgla w pomieszczeniach. Dwutlenek węgla produkowany jest kiedy wydychamy powietrze i czym więcej ludzi jest w pomieszczeniu, tym więcej tego dwutlenku węgla może się uzbierać.

Jeżeli pomieszczenie nie jest dobrze wentylowane i w pomieszczeniu znajduje się jednocześnie wiele osób, ten poziom dwutlenku węgla będzie rósł bardzo szybko i będzie to miało negatywny wpływ na nasze samopoczucie, sprawi to, że nie będziemy mogli się skupić, będziemy senni, zmęczeni i ma to duże znaczenie np. w biurach lub szkołach, gdzie w jednym pomieszczeniu znajduje się mnóstwo ludzi, np. 30 dzieci w jednej klasie.

Jeśli okna są zamknięte, w ciągu kilku minut ilość dwutlenku węgla w takim pomieszczeniu może przekroczyć zalecane normy kilkukrotnie i potem będzie to na pewno miało wpływ na to, jak dzieci będą w stanie zapamiętać to, czego się uczą na lekcji albo jak będą w stanie w czasie tej lekcji rozwiązywać zadania. To samo oczywiście dotyczy ludzi pracujących w biurach.

Przypomina mi się jedna historia ze szkoły, podejście trochę oldschoolowe, ale wpisuje się w to, o czym mówisz. Była tam pewna starsza nauczycielka, do której mam bardzo duży szacunek, bo to jest Pani, która robiła rzeczy, które mają sens.

Ona prowadziła fizykę (jeden z moich ulubionych przedmiotów) i zawsze jak była przerwa, to wszyscy musieli opuścić pokój, otwierała wszystkie okna przez całą przerwę, potem wszyscy wchodzili to zamykała. To robiła nawet w zimie i w sali po takim wietrzeniu było bardzo zimno.

Wydawało się to dziwne, ale później człowiek zaczyna doceniać takie rzeczy i rozumie, na ile tlen jest niezbędny, żeby nie tylko żyć, ale jeszcze przy okazji nauczyć się czegoś. Robiła to w taki sposób, jak potrafiła, bo nie było wentylacji innej niż naturalna, ale robiła to bardzo sprawnie. Osoby młodsze, jakoś zdecydowanie mniej zwracały na to uwagę, a to jest ważne.

To, o czym Ty mówisz, to jest krok dalej, czyli wbudować albo wszyć takie rozwiązania w architekturę budynku, żeby mieć odpowiednią wentylację. Dobrze zrozumiałem?

Tak, oczywiście tak byłoby znacznie lepiej. Jeśli chodzi o wietrzenie pomieszczeń, to otwieranie okien jest już dużym krokiem w kierunku polepszania tej sytuacji, więc nie chciałbym też sugerować, że jest to niewystarczające. Jeżeli nie mamy wentylacji, to oczywiście powinniśmy otwierać okna jak najczęściej i będzie to miało dobry wpływ na nasze zdrowie.

Z drugiej strony, wiadomo też z badań, że jeżeli otwieranie okien jest jedynym sposobem na regulowanie temperatury i jakości powietrza w budynkach, to ludzie przeważnie robią to w tragiczny sposób. Czytałem ostatnio artykuł, w którym badacze pokazali, że statystycznie ludzie, którzy chcą regulować temperaturę w pomieszczeniach poprzez otwieranie okien, na ogół nie będą podejmować żadnych akcji, aż do momentu, kiedy będą czuć się bardzo źle z temperaturą wokół nich.

źródło: giphy.com

Wtedy prawdopodobnie otworzą okna i zostaną one otwarte tak długo, aż problem się odwróci i będzie w pomieszczeniu bardzo zimno. Nie tylko świadczy to o tym, że ludzie nie są w stanie w większości przypadków odpowiednio tej temperatury wyregulować i tego typu zachowania mają bardzo negatywny wpływ na zużycie energii w budynkach, ponieważ oczywiście mamy cały czas włączone ogrzewanie w zimie, wiele budynków ma włączone również chłodzenie w lato, są też budynki, które mają wentylację i również możliwość otworzenia okien.

Jeżeli damy ludziom możliwość otwierania okien, kiedy jest włączona wentylacja, możemy doprowadzić do sytuacji, w której wentylacja będzie zużywać dwa razy więcej energii, niż mogłaby w innych okolicznościach, gdyby po prostu była optymalnie wyregulowana.

Też warto zwrócić uwagę na wilgotność, bo w tym przypadku wilgotność też się zmienia. Jeżeli jest tu ciepło, tam zimno to fizyka tutaj robi swoje i wilgotność też nie stoi i nie czeka, prawda?

Tak jak najbardziej. Wilgotność ma też wpływ na to subiektywne odczucie komfortu i oczywiście ma też wpływ na inne rzeczy, związane ze zdrowiem. Jeżeli powietrze wokół nas jest bardzo suche, będzie to zwiększać ryzyko np. infekcji gardła, będzie sprawiać, że będziemy czuć się niekomfortowo. Natomiast zbyt wysoka wilgotność z kolei może doprowadzić do ryzyka powstania pleśni, grzybów i rozwoju innych mikroustrojów, które również będą ryzykiem dla naszego zdrowia.

Pleśń, grzyby są bardzo niebezpieczne dla zdrowia organizmu i z tego, co się wczytywałem w różnych publikacjach, to to jest coś, co wchodzi łatwo w nasz organizm, zwykle już nie opuszcza go i jest trudno z tym walczyć. Są różne metody, ale to nie jest łatwa sprawa, więc na to faktycznie trzeba bardzo mocno uważać.

Już w miarę zdefiniowaliśmy, gdzie jesteśmy, czyli z jednej strony chcemy osiągnąć stan, kiedy wewnątrz pewnego budynku jest odpowiednio stworzony klimat, czyli temperatura, wilgotność, czystość powietrza.

źródło: giphy.com

To chcemy stworzyć, czyli chcemy mieć pewne narzędzia, które potrafią to regulować (ochładzać, ocieplać, nawilżać itd.), ale z drugiej strony na to jest potrzebna energia, żeby włączać te mechanizmy we właściwy sposób z odpowiednią intensywnością.

Jak tutaj pomocne będzie uczenie maszynowe? Jak to wygląda w Waszym projekcie?

Żeby znaleźć ten balans pomiędzy optymalnym klimatem a zużyciem energii, myślę, że pierwszym krokiem ku temu jest pomóc ludziom zrozumieć, jak to działa, co właściwie się dzieje, kiedy otwierają okna, jeżeli mówimy o ludziach, którzy są mieszkańcami budynku, ale także pomóc ludziom, którzy tym budynkiem zarządzają, zrozumieć, jakie są wzorce w pracy tej wentylacji, tego ogrzewania, jak pory roku czy ilość ludzi w budynku i inne wydarzenia na to wpływają.

Pierwszą najważniejszą rzeczą, w której uczenie maszynowe może nam pomóc, jest zidentyfikowanie, gdzie leży problem, jak duży on jest i dopiero później możemy myśleć o jego rozwiązaniu. Problem może być np. taki, że system wentylacji, system ogrzewania, który jest ustawiony w danym budynku, na ogół jest ustawiony albo według pewnych odgórnych wytycznych, albo później jest optymalizowany ręcznie „na oko”, na podstawie skarg ludzi, którzy w danym budynku mieszkają.

Jak się łatwo domyślić, skargi to coś, na czym trudno jest polegać. Ludzie będą się żalić dopiero wtedy, kiedy będą już bardzo nieszczęśliwi, a zarazem są też tacy, którzy żalą się cały czas i trudno jest ocenić, czy faktycznie ilość skarg w danym momencie jest odbiciem tego, jaki jest klimat w danym budynku. Jeżeli budynek nie jest monitorowany, to ludzi, którzy zarządzają danym obiektem, przyprawia to o straszny ból głowy.

Jednym ze sposobów na to, żeby sobie z tym poradzić, jest ciągłe monitorowanie powietrza w budynkach przy pomocy jakiegokolwiek dowolnego systemu czujników z tym, że to oczywiście jest dopiero pierwszy krok. Są budynki, w których te czujniki mamy, są budynki, w których ludzie zarządzający danym obiektem mają dostęp do tych danych, ale jedyne co mogą z tym zrobić, to patrzeć na te wykresy i ręcznie próbować znaleźć jakieś zależności pomiędzy różnymi czynnikami.

Tutaj myślę, że dla takich osób jest to najbardziej wartościowe, gdzie uczenie maszynowe może pomóc, aby im te zależności odszyfrować natychmiast i w czasie rzeczywistym, gdzie mogą dostać rekomendację, odnośnie tego w jaki sposób i w jakim dokładnie zakresie różne parametry systemów, ogrzewania czy wentylacji mogą zostać zmienione do danego budynku albo nawet dla danych pomieszczeń, jeżeli jest to możliwe, gdzie takie coś może stać się częścią ciągłego procesu.

Oczywiście można też pójść z tym krok dalej, jeżeli jest taka możliwość i system taki, który monitoruje i analizuje powietrze w budynku, może też być wejściem dla kolejnego systemu, który będzie ten budynek aktualizował automatycznie. Nie każdy budynek w tej chwili jest w coś takiego wyposażony, ale jest możliwość tworzenia systemów wentylacji i ogrzewania, które będą automatycznie dopasowywać się do sytuacji w budynku.

Powiedziałeś o czujnikach, zastanawiam się z praktycznego punktu widzenia – ile takich czujników trzeba posiadać? Pewnie też to zależy od kształtu powierzchni, czy tam jest open-space, czy jest mnóstwo ścian. Wiadomo, że w każdym pokoju jakiś mikroklimat się wytwarza samodzielnie.

Jak to mniej więcej wygląda? Załóżmy, że ktoś ma mieszkanie 2, 3, 4-pokojowe, to ile czujników trzeba mieć, żeby to w miarę dobrze zmierzyć?

Oczywiście to zależy od tego, jaki problem staramy się rozwiązać. Jeżeli mówisz o osobie prywatnej, która ma własne mieszkanko i chce się dowiedzieć, jaki jest klimat wewnętrzny w mieszkaniu, chce na bieżąco to monitorować i ulepszać w miarę swoich możliwości, wtedy nie ma to aż tak wielkiej różnicy.

Zwykle to powietrze jest zmieszane dość dobrze i różnica w temperaturze pomiędzy jednym końcem pokoju, a drugim w zwykłym budynku mieszkalnym będzie może 0,5 stopnia C. Myślę, że w większości wypadków jeden tego typu czujnik w pokoju wystarczy.

Jeżeli pokoje są ze sobą połączone, oczywiście czasem nie jest koniecznie mieć po jednym czujniku na pokój. Czasami możemy też obejść się z mniejszą ilością.

Można sobie ewentualnie podliczyć, ile takich czujników byśmy potrzebowali. Jak ktoś się zastanawia nad stworzeniem Smart Home u siebie, to już jest pewna podpowiedź.

Pójdźmy teraz dalej, jeżeli chodzi o algorytmy. Powiedziałeś, że pierwsza jest analiza tego, co się pozbiera (pewnie jakieś klastrowanie), a druga rzecz to próba regulowania tego w jakiś sposób. Z punktu widzenia Waszego startupu, gdzie jesteście teraz? Jakie rzeczy już Wam udało się zrobić produkcyjnie? Jakie są w toku, a jakie jeszcze macie w planach?

W tej chwili wydaje mi się, że większość tej wartości, którą dostarczamy naszym klientom, już odbywa się na poziomie przedstawienia analizy danych, czyli niekoniecznie wymaga to zaawansowanych algorytmów uczenia maszynowego, żeby faktycznie pomóc prawie w każdej grupie interesariuszy.

Możemy pomóc poprzez przekazanie raportu na temat tego, jak w danym budynku wygląda sytuacja pomiędzy sezonami, pomiędzy miesiącami, jak to wygląda w ciągu tygodnia, jak w ciągu weekendu. Natomiast tam, gdzie wkracza uczenie maszynowe, na ogół będziemy mieli do czynienia z dwoma typami zadań.

Będzie to coś w rodzaju wykrywania anomalii, czyli będziemy chcieli wiedzieć, kiedy dzieje się coś niespodziewanego, kiedy w danym budynku, pomieszczeniu albo wagonie pociągu dzieje się coś, co jest inne niż zazwyczaj. Takie coś będzie mogło sugerować, że np. coś działa nie w porządku w systemie wentylacji.

Kiedy wykryjemy anomalię, możemy podejrzewać, że np. system wentylacyjny zaczyna się psuć. Taka informacja będzie bardzo istotna dla kogoś, kto zarządza budynkiem, może jeszcze bardziej dla kogoś, kto jest odpowiedzialny za system wentylacji w pociągu, ponieważ wymiana lub naprawa takiego systemu jest rzeczą kosztowną i zawsze te koszta można zminimalizować, jeżeli uda się to wykryć wcześniej.

Poza wykrywaniem anomalii, co jest dla nas interesujące, to modelowanie tego, jak wyglądają poziomy np. dwutlenku węgla czy temperatury w czasie po to, żeby móc przewidywać, jak będą się te wartości rozwijać przeważnie w krótkim terminie. Dzięki temu możemy np. tworzyć rekomendacje dla naszych użytkowników, w rodzaju:

„W tym tygodniu, biorąc pod uwagę prognozy pogody, możemy się spodziewać, że temperatura będzie wyższa na zewnątrz, więc można nieco przykręcić ogrzewanie”.

Jeżeli taka informacja jest dostarczona odpowiednio wcześniej, a nie w momencie, kiedy jest już za późno, to to już może pomóc zoptymalizować zużycie energii i może pomóc poprawić ten klimat wewnętrzny.

Oczywiście jeżeli taki system jest operowany automatycznie, wtedy te parametry systemu mogą być optymalizowane na bieżąco, np. z dnia na dzień albo z tygodnia na tydzień, w zależności od tego, jak rozwija się pogoda na zewnątrz, zależnie od tego jakie są wzorce użytkowania tego budynku przez ludzi, którzy tam mieszkają lub pracują.

To przeważnie będą jakieś zadania regresji i tutaj nie chcę mówić konkretnie, nie mam żadnych ulubionych algorytmów. Moje podejście zawsze jest takie, że warto zacząć od czegoś prostszego. Z mojego doświadczenia przeważnie w tych zadaniach, z którymi się spotykałem w tej branży, proste algorytmy (jakieś algorytmy liniowe albo algorytmy bayesowskie) dają dobre rezultaty.

Niekoniecznie trzeba zaczynać od razu od sieci neuronowych. Ja zawsze cenię sobie prosty model, który będzie łatwy w użyciu i który będzie przede wszystkim łatwy w interpretacji. Myślę, że to stwarza dużą wartość, nie tylko dlatego, że jest przyjemny w implementacji, ale też dlatego, że można łatwo zakomunikować, co tak naprawdę taki model robi.

Zgadza się, jeżeli chodzi w szczególności o prostotę. To jest bardzo ważna rzecz w naszym życiu, bo wszystko dookoła staje się coraz bardziej skomplikowane i umiejętność upraszczania jest bardzo pożądana.

Co prawda nie wszystkie problemy da się rozwiązać w sposób liniowy, ale najważniejsze, że jeżeli jest branża, w której dotychczas w ogóle nic było robione w tym temacie, to używanie nawet modeli liniowych, samo w sobie już daje dużą wartość.

Natomiast jak omawiałeś te przypadki, że wentylacja za chwilę może się zepsuć, więc wykrywaliście anomalia i jakoś to może wpłynąć na niższy koszt naprawy albo drugi przypadek bardziej związany z prognozowaniem, że tutaj może tak dużo ciepła nie jest potrzebne i trzeba wcześniej ludzi o tym zawiadomić.

Czy już macie success story, kiedy pewne rzeczy były wprowadzone i to faktycznie dało namacalne wyniki? Być może to, co już powiedziałeś, to były z życia wzięte historie, czy bardziej opowieści teoretyczne, które mogą się wydarzyć?

Czy już macie takie przypadki, kiedy faktycznie Wasza analiza wpłynęła na realne działanie i mało tego, że wpłynęła to jeszcze ostatecznie coś się zmieniło w pozytywną stronę, że udało się zaoszczędzić energię albo wytworzyć inną wartość dodaną?

Większość projektów, nad którymi w tej chwili pracuję, są jeszcze w toku, więc trudno podać mi liczby, jeśli chodzi o to, jak wiele udało się na przykład zaoszczędzić w danym przypadku. Ten przykład, który podałem z anomaliami i z awarią wentylacji, jest prawdziwy.

To jest coś, co faktycznie udało nam się zrobić, niestety akurat tak się złożyło, że nasz klient nie zareagował odpowiednio szybko, więc nie jestem pewien, czy faktycznie miało to wymierny wpływ na koszty operacji i koszty wymiany tego systemu. Ale przynajmniej z naszej strony byliśmy bardzo dumni, kiedy udało nam się faktycznie coś takiego wykryć wcześniej.

To jest jeszcze inna historia, prawdopodobnie chodzi o jakiegoś większego klienta korporację, tam wszystko dzieje się bardzo wolno i na ile ten czas, który oni potrzebują na reakcję, trzeba zawsze pomnożyć razy X, gdzie X to raczej są tygodnie albo miesiące. Tutaj może być faktycznie wyzwanie, żeby ten czas był jak najdłuższy.

Teraz zapytam trochę z innej strony, bo też ciekawy jestem, jak w ogóle się stało, że firma, w której pracujesz, zaczęła się tym problemem zajmować? Czy to jest przypadek, czy to założyciel firmy, który faktycznie taki problem miał wcześniej? Jak to się stało, że akurat dostrzegliście ten problem i go rozwiązujecie?

Nie jestem w tej firmie od początku, więc trudno mi powiedzieć dokładnie, jak to się zaczęło. Wiem, że nasz CEO od wielu lat zajmował się jakością powietrzą i był zainspirowany tym dążeniem do poprawy jakości życia w miastach, dołożenia tej cegiełki w celu poprawy jakości życia ludzi w ogóle w kwestii klimatu.

Wydaje mi się, że w tej chwili jest to problem bardzo aktualny i każdy czuje się w jakiś sposób z tym problemem związany. Wszystko jedno, czy mówimy o ludziach, którzy dbają o środowisko, czy mówimy o ludziach, którzy po prostu chcą mieć dobre i zdrowe życie, czy mówimy o ludziach, którzy chcą zaoszczędzić pieniądze.

To właśnie wydaje mi się najciekawsze w tym problemie, że wszyscy ci ludzie właściwie mają wspólny cel, że rozwiązanie właściwie jest prawdopodobnie to samo do wszystkich i mimo, że każdy odbiera ten problem inaczej, każdy patrzy na niego z innej strony, to jednak wszyscy będziemy zbiegać się w jednym punkcie, że to rozwiązanie prawdopodobnie będzie takie samo dla wszystkich.

To brzmi bardzo ciekawie, choć rzadko udaje się to osiągnąć. Być może tutaj faktycznie tak się stanie, że pomimo różnych celów u każdej grupy rozwiązanie będzie podobne z punktu widzenia technicznego.

Powiedziałeś, że w tej chwili takie rozwiązania są potrzebne, jest duży trend, żeby takie rzeczy wprowadzać. Prawdopodobnie w tej chwili te wszystkie rozwiązania wprowadzacie w Danii.

Jeżeli weźmiemy sobie taki kraj jak Polska, jak myślisz, w ilu przypadkach wentylacja, temperatura, dwutlenek węgla lub jakiekolwiek inne rzeczy niepożądane wewnątrz budynku nie spełniają normalnych warunków? Na ile ten problem jest realnie duży?

Żadnych liczb nie jestem w stanie podać, ale wydaje mi się, że jest to problem bardzo duży i myślę, że nawet w Danii jest niewiele budynków, które faktycznie w pełni spełniają te normy, które mają komfortowy i zdrowy dla mieszkańców klimat. To jest coś, z czego ludzie zdają sobie sprawę coraz bardziej.

To jest coś, co z pewnością będzie na celowniku po części dlatego, że będą wprowadzane nowe regulacje związane ze zmianami klimatu i przez to w tej chwili wiele większych firm zaczyna już wprowadzać pewne zmiany, politykę większej świadomości w kontekście jakości powietrza i klimatu, bo jeszcze póki co jest to zupełnie dobrowolne. Jestem pewien, że w ciągu następnych lat tego typu regulacje będą wprowadzane odgórnie.

Ponadto ludzie wiedzą więcej na ten temat, zdają sobie sprawę z zagrożeń się z tym związanych i zdają sobie sprawę z tego, że jest to też kwestia zdrowia. Nie tylko to, żeby nie było spalin i smogu na ulicach, ale również to, żeby w naszym własnym domu mieć zdrowy klimat, żeby unikać tych zanieczyszczeń unoszących się w powietrzu, które mogą nas przyprawiać o astmę, mogą spowodować, że łatwiej będziemy się zarażać chorobami zakaźnymi (teraz szczególnie w kontekście pandemii). Zła wentylacja w budynkach ma duży wpływ na ryzyko zakażenia się chorobami zakaźnymi.

Coraz więcej osób o tym wie, więc jestem pewien, że będzie płynęło mnóstwo pieniędzy w tym kierunku. Tutaj w Danii widzę to już na co dzień. Nie wiem, jak jest w Polsce, wydaje mi się, że nawet jeśli jest to na mniejszą skalę w tej chwili, to już niedługo będzie to temat bardzo popularny. Jeżeli ktoś chce się tym zająć, to na pewno będzie dużo okazji.

Popatrzmy na to od strony prywatnych mieszkań. Ktoś stwierdza, że jego mieszkanie nie spełnia warunków i zastanawia się, co może zrobić. Pierwszą rzeczą jest rozpoczęcie mierzenia.

Nie chodzi o skomplikowane czynniki, ale o uświadomienie sobie stanu faktycznego. Druga kwestia to co dalej? Jeżeli zauważymy, że normy nie są spełnione, to nierzadko nie mamy możliwości zmiany tego stanu na poziomie architektury budynku. Nawet jeśli byłoby to do zrobienia, to jest to kwestia sporych kosztów i dużego nakładu czasowego.

Czy w takiej sytuacji należy czekać na dotację i wtedy można oczekiwać jakichś zmian? Staram się zrozumieć, co to oznacza w praktyce. Z jednej strony świetnie, że istnieją już rozwiązania, które pozwalają nam dostrzec, że jakiś problem istnieje, tylko ciekaw jestem, na ile to jest osiągalne w sposób efektywny w przeciętnym budynku w Polsce?

To jest bardzo dobre pytanie, na które trudno mi będzie odpowiedzieć. Z pewnością budynki będą ulepszone, unowocześnione. Nowe budynki, które są teraz wznoszone, już w dużej mierze mają czasem monitoring od razu wbudowany, także jedno co możemy zrobić, to starać się edukować na ten temat.

Tam, gdzie mamy coś do powiedzenia w kwestii sposobu budowania nowych budynków i mamy możliwość coś w tym kierunku podziałać, to powinniśmy. Natomiast jeśli po prostu mieszkamy sobie we własnym mieszkaniu i nie mamy wpływu na to, jak nasz budynek jest zbudowany, to wciąż możemy czytać więcej o czynnikach wpływających na nasze zdrowie w pomieszczeniach.

Powinniśmy wietrzyć pomieszczenia, dbać o to, żeby nie przekręcać za bardzo ogrzewania. Jeżeli mamy możliwość zainwestowania w urządzenia, które regulują wilgotność powietrza, to często jest to pożyteczny pomysł i może nie aż tak bardzo drogi.

Jeżeli mamy możliwość zainwestować w czujniki, to przynajmniej jedno co nam to może dać, to zwiększyć naszą świadomość tego, w jakich dokładnie żyjemy warunkach i wtedy, być może, zainspiruje nas to do zgłębienia sposobów, jak możemy próbować na te warunki wpływać, jeżeli np. widzimy, że mamy problem z wilgotnością, z dwutlenkiem węgla albo z pyłami.

Jeżeli mamy wybór, gdzie zainwestować pieniądze, czy lepiej w nasze zdrowie czy różne tabletki, żeby próbować to zdrowie naprawić, to myślę, że odpowiedź jest oczywista.

Zróbmy wszystko, żebyśmy byli jak najbardziej zdrowi w szczególności teraz, kiedy pewne choroby się rozpowszechniają w różny sposób. Człowiek zdrowy jest po prostu odporny i to jest życie, o które trzeba zadbać. To jest rzecz, której nie da się tak łatwo przywrócić, jeżeli w ogóle się da, jak to się straci.

Zdefiniować zdrowie też jest dość ciężko, to jest inna zagadka logistyczna, bo zwykle wiemy, co to jest choroba, ale brak choroby brzmi jak zdrowie. Tak czy owak dążymy do tego, żeby nasz organizm był w stanie pracować w sposób normalny. Podobnie jak mamy samochód, to wlewamy do niego odpowiedni płyn w odpowiednim czasie.

Niestety często ludzie zapominają o tym i nie dostarczają tego, co najważniejsze dla organizmu, czyli tlenu, wody, wilgotności powietrza albo nie unikamy zanieczyszczeń, które nam szkodzą.

Chcieliśmy ugryźć ten temat od strony uczenia maszynowego, ale bardzo się cieszę, kiedy takie zastosowania techniczne nadają się do tego, żeby użyć je w bardzo praktyczny, namacalny sposób dla nas. Kiedy używamy algorytmów nie tylko po to, żeby generować czasem sztuczne wyniki, tylko takie, które pomagają nam czuć się lepiej i zdrowiej.

Kiedy człowiek jest zdrowy, to ma lepsze samopoczucie i jest bardziej pozytywnie nastawiony, a jako społeczność, wszyscy czujemy się znacznie lepiej, bardziej komfortowo.

Wyobraźmy sobie, że jest biurowiec, w którym występują pewne problemy, jeżeli chodzi o temperaturę, wilgotność powietrza itd. Mierzymy w jakiś sposób nastroje ludzi, są np. kamery, które badają emocje.

Później wprowadzamy zmianę i też mierzymy nastroje. Ciekaw jestem, czy to zmienia w sposób zauważalny nasz nastrój? Nastrój ogólnie zależy od wielu czynników, ale również zależy od tego, jak się czujemy, jak oddychamy, na ile nam brakuje potrzebnych rzeczy do życia.

Tak, absolutnie. Co prawda pomysł z kamerkami jest bardzo zaawansowany, ale wydaje mi się, że to samo można zmierzyć po prostu przy pomocy ankiet. Nawet widzimy to czasem, kiedy pracowaliśmy nad projektami takimi jak przebudowa szkoły, w której klimat wewnętrzny był kiepski.

Teraz właśnie ten remont się kończy i mam nadzieję, że kiedy przeprowadzimy wywiady po remoncie, wtedy zobaczymy w sposób bardziej wymierny, jakie są rezultaty tej przebudowy i jak bardzo zmieniło się postrzeganie tego komfortu i samopoczucia.

Bardzo się cieszę, że takie rozwiązania się pojawiają. Dzięki wielkie Janku za tę rozmowę, za to, że się podzieliłeś swoją historią. Bardzo trzymam kciuki za rozwój, aby technologie (w szczególności uczenie maszynowe) sprawiały, żeby nam – ludziom było lepiej w kontekście życia, zdrowia, żebyśmy na to zwracali uwagę przede wszystkim.

Chodzi mi o to, że to zdrowie samo w sobie musi stać się wartością numer jeden, bo nie da się tego naprawić. Jeżeli je stracimy, to później naprawdę jest ciężko i ten, kto stracił je, to naprawdę potrafi to docenić.

Dokładnie.

Dzięki wielkie za rozmowę.

Dziękuję serdecznie.

Janek przygotował prezent, podobnie jak inni goście podcastu. Jeśli chcesz go otrzymać, zapisz się na newsletter

źródło: giphy.com

Mam nadzieję, że dla Ciebie te informacje były wartościowe i zaczniesz się w sposób zdrowy troszczyć o swoje zdrowie po to, żeby pomóc sobie i swojemu organizmowi czuć się lepiej. Zdrowie jest łatwo stracić, natomiast nie da się do niego łatwo powrócić.

Czasem jest to proces nieodwracalny, nawet jeżeli masz dużo pieniędzy, to jest to taka rzecz, którą ciężko naprawić. W rozmowie z Jankiem wspomniałem o szkodach, które pojawiają się w wyniku zbyt dużej wilgotności, kiedy pojawiają się grzyby i pleśń.

To są rzeczy, z którymi ciężko jest cokolwiek zrobić i w jakikolwiek sposób je naprawić, więc jeżeli masz w swoim mieszkaniu taki stan, że ściany są bardziej wilgotne, to z tym trzeba zrobić coś natychmiast, nie można tego zostawiać, nie można tym w żaden sposób oddychać.

Z drugiej strony, jeżeli wilgotność jest za mała, to też z tym coś trzeba zrobić, bo człowiek jednak potrzebuje wdychać odpowiednie powietrze. Jeszcze inna, bardzo prosta i zrozumiała rzecz – spędzaj trochę więcej czasu na świeżym powietrzu, w szczególności w lecie. Jeśli masz możliwość robić to regularnie, to super.

Jeżeli nie masz możliwości wyjeżdżać do lasu, to przynajmniej wychodź do parku. To jest takie miejsce, gdzie można pomału doładować życiowe baterie.

Na koniec mam dla Ciebie ogłoszenie. Dzisiaj, 28 września, rusza kurs online Praktyczne przetwarzanie języka naturalnego, który potrwa 6 tygodni. To jest taki kurs, gdzie nauczysz się robić wiele rzeczy związanych z przetwarzaniem języka, np. klasyfikacja tekstu, przypisywanie ogłoszeń albo pewnych zgłoszeń, które do Ciebie docierają do pewnych kolejek albo analiza wydźwięku tekstu. Dotkniemy również bardziej skomplikowanych, złożonych algorytmów, które dopiero się pojawiły.

Część z nich jest właśnie z tego roku, więc bardzo gorąco Cię zapraszam do wzięcia udziału. Myślę, że wiele firm chciałoby wdrożyć takie rozwiązania. Jeżeli kurs NLP jest dość złożony, to najpierw zapraszam na kurs Praktyczne uczenie maszynowe od podstaw, który rusza za tydzień.

Jeżeli dzisiejsza rozmowa była dla Ciebie wartościowa, to poleć ją co najmniej jednej osobie. Myślę, że się zgodzisz, że warto zwrócić uwagę na tematy, które zostały poruszone i kto wie, dla Ciebie to być może tylko sekundy, minuty, które masz zainwestować, a komuś być może będziesz w stanie w ten sposób pomóc.

Na pewno pomożesz mi, bo jeżeli robię rzeczy, które mają sens dla innych, to będę je kontynuować. Obserwuję, co się dzieje, jeżeli widzę, że to faktycznie jest pomocne to działam, bo człowiek jest po to, żeby pomagać innym.

Artykuł Oddychaj zdrowiej dzięki Machine Learning pochodzi z serwisu Biznes Myśli.

Łukasz Prokulski – dane i analizy

Vladimir — Mon, 06 Jan 2020 04:00:46 +0000

Cześć. Witam Cię w 72. odcinku podcastu Biznes Myśli. Dzisiejszym gościem jest Łukasz Prokulski. Jeżeli interesujesz się danymi, ich analizą, wizualizacją to myślę, że znasz Łukasza. Od bardzo dawna chciałem z nim nagrać podcast, tylko ciągle nam się to nie udawało z różnych powodów.

Zanim przejdziemy do naszej rozmowy, chciałbym przypomnieć, że 14 marca (Dzień Liczby Pi) odbędzie się, po raz pierwszy w historii Biznes Myśli, spotkanie ze słuchaczami podcastu. Tego dnia miną 3 lata, jak podcast istnieje. Dlaczego warto się pojawić?

To będzie zamknięte spotkanie dla stosunkowo małej grupy osób, żeby się poznać i nawiązać kontakty. O godzinie 12:00 startujemy, więc można będzie przyjechać z różnych zakątków Polski. Specjalnie wybraliśmy taką godzinę, aby możliwy był dojazd także z bardziej oddalonych miejsc – spodziewamy się m.in. gości z Gdańska. Kończymy oficjalnie o 18:00, ale później będzie również szansa na kontynuację rozmów.

W trakcie tego spotkania będzie dużo merytorycznej wiedzy. Zapraszamy też gości, którzy pojawili się już w podcaście. Będzie dużo networkingu, dużo inspiracji. Również będą dyskusje na temat tego, co można jeszcze zrobić rozwijając podcast (a może coś więcej niż podcast?), żeby wartość merytoryczna była jeszcze większa i jeszcze bardziej trafiała do Ciebie. Zapraszam, warto być.

Bilet możesz dostać tutaj.

Teraz przechodzimy do dzisiejszego odcinka podcastu – rozmowa z Łukaszem.

Cześć Łukasz! Przedstaw się – kim jesteś, czym się zajmujesz, gdzie mieszkasz?

Cześć Vladimir. Jestem Łukasz Prokulski. Jestem analitykiem danych, człowiekiem, który robi głównie jakieś wykresy, raporty. Przynajmniej tak to wyglądało w ciągu ostatnich kilku lat mojej kariery zawodowej. Mieszkam w Warszawie, gdzie pracuję w dużej instytucji finansowej. Doświadczenie mam głównie przy projektach IT, gdzie przeważnie zajmowałem się wyciąganiem danych na temat tego, ile czasu trwają te projekty, ile pochłaniają zasobów. Przygotowywałem z tego wszelakie zestawienia z próbą optymalizacji co robić, żebyśmy projekty kończyli szybciej.

Powiedz co ostatnio ciekawego przeczytałeś?

Ostatnio wreszcie udało mi się skończyć książkę „Sapiens. Od zwierząt do bogów”. Strasznie długo mi to szło, ale to chyba ze względu na to, że mam dosyć mało czasu (poza pracą i rodziną) na takie spokojne zajęcie się czytaniem. To jest książka, której rekomendacje krążą w naszym środowisku IT od jednej do drugiej osoby. W sumie zainteresowałem się nią po warsztatach, które odbyły się w 2018 r. Gdzieś na konferencji ktoś ją polecił i tak po dłuższym czasie trafiła w moje ręce. Polecam również i ja.

Widziałem Twoje komentarze na Facebooku: „DNA to szatan”.

Tak. Co kilka stron są takie zdania perełki w tej książce. Skłania to do przemyśleń o tym, jak się rozwijaliśmy jako gatunek i co nas czeka w przyszłości.

Skąd w Tobie pasja do danych i ich analizy? Jak zrodził się prowadzony przez Ciebie blog o danych i analizie? Przy okazji sprawdziłem, kiedy go zacząłeś – 4 stycznia 2005 r. Post wyglądał tak: „Mam swoją domenę. Mam swój host. Założyłem tego bloga. Zobaczymy, czy coś z tego wyjdzie…”.

I wyszło całkiem fajnie. Dzisiaj też o tym będziemy rozmawiać. Widać, że cały czas dodajesz kolejne artykuły. Ostatni wpis (jak nagrywałem ten odcinek) pojawił się 13 grudnia, czyli nie tak dawno temu. Czuć, że masz determinację, więc porozmawiamy trochę o tym. Ale najpierw – skąd ta pasja?

Jestem z wykształcenia fizykiem jądrowym. Śmieję się zawsze, jak mówię, kim jestem z wykształcenia, że pracuję w jednej z wielu polskich elektrowni atomowych. Pewnie gdzieś te studia i bardzo duża ilość laboratoriów, gdzie trzeba było przygotowywać różne dane, analizować z różnych pomiarowych przyrządów doprowadziły mnie do tej pasji.

Później w karierze zawodowej trafiły mi się miejsca, gdzie zajmowałem się dużą ilością danych. Może nie w takim rozumieniu, jak obecnie big data, ale to były setki czy tysiące wierszy w Excelu z 50 kolumnami. W którymś momencie Excel przestał mi wystarczać.

Wpadła mi w ręce książka o języku R. Zobaczyłem, że to jest dosyć proste dla mnie do zaadaptowania na własne cele. I tak po prostu testowałem – jestem zdania, że najlepiej uczyć się poprzez ćwiczenia i małe projekciki. Chcąc nauczyć się rysowania mapki z jakimiś informacjami na niej szukałem danych przez ich analizowanie, próbowanie i wizualizację – w ten sposób uczyłem się czegoś nowego. Stwierdziłem, że to może być też ciekawe dla innych.

W sumie nie było żadnych materiałów po polsku na ten temat. Stwierdziłem: dlaczego nie napisać czegoś na blogu? Tak z tygodnia na tydzień powstawały nowe posty i trwa to do dzisiaj. Zbudowałem wokół bloga fanpage’a na Facebooku – kręci się to dalej.

Jeszcze raz mogę Ci pogratulować, jeżeli chodzi o determinację, bo 14 lat to jest długi okres czasu. Jak teraz nagrywam podcast 3 lata, to wiem, jaki wysiłek trzeba włożyć, żeby odcinki pojawiały się w sposób regularny. To jest kawał pracy.

To trochę nie tak, bo ja założyłem tego bloga i kupiłem domenę (rzeczywiście 14 lat temu) z myślą o tym, że coś chciałbym napisać od siebie. Na początku pisałem o tym, co zobaczyłem w kinie, jakiej muzyki posłuchałem, dawałem komentarz do wydarzeń około internetowych. Później miałem strasznie długą przerwę, a o analizie danych zacząłem pisać 2-3 lata temu. Więc nie liczyłbym, że mój blog na temat analizy danych ma 14 lat.

Próbowałem przypomnieć sobie, kiedy po raz pierwszy trafiłem na Twój blog. Było to jakiś czas temu, ale myślę, że tak 3 lata temu (może trochę więcej), ale na pewno pisałeś już o analizie danych. Moją uwagę przykuła jakość postów, to jak dogłębnie grzebiesz w tych danych pokazując kolejne wykresy. Jeżeli ktoś nie słyszał o tym blogu, to bardzo gorąco zapraszam.

Mówiąc o danych – często pojawia się takie stwierdzenie, że są dane dobrej i złej jakości. Ta druga kategoria bardzo przeszkadza firmom, żeby efektywniej działać, podejmować właściwe decyzje, być bardziej innowacyjnymi. Czy mógłbyś wyjaśnić (najlepiej poprzez przykłady), kiedy możemy mówić, że dane są dobrej, a kiedy złej jakości?

Dobrej jakości dane muszą być pewne. Załóżmy, że zbieramy dane z czujników np. o temperaturze, wilgotności powietrza. Jeśli mamy pewność, że te instrumenty pomiarowe stabilnie pracują, nie mają żadnych momentów, kiedy przestają zbierać dane, mierzą tę prawdziwą temperaturę czy wilgotność – to możemy mówić o tym, że mamy dobre dane.

Dane są dobre, jeśli są ciągłe i w odczytach powiedzmy co 1 minutę rzeczywiście te odczyty nie różnią się od siebie. Jeżeli nie ma takiej sytuacji, że w ciągu pierwszej minuty mamy 10 stopni, w ciągu następnej 50, natomiast w trzeciej minucie odczyt wskazuje 10 stopni, to powinno wszystko być w porządku. W przeciwnym wypadku należy podejrzewać, że coś jest nie tak z instrumentem pomiarowym.

To troszeczkę też wyjaśnia, czym są złe dane. “Złe” bardziej w znaczeniu “zniekształcone”. Dużo też jest danych zbieranych przez różne instytucje bez pomysłu na to, co z nimi zrobić. Mamy taki strumień danych czy pisany wolnym tekstem, w plikach excelowskich czy w innych źródłach (zdjęciach, filmach).

W sytuacji kiedy te dane są nieustrukturyzowane w żaden sposób, mogą być złymi danymi. Mamy Excele z raportami sprzedaży z kilku miejsc w Polsce, z różnych oddziałów, z kolejnych miesięcy, ale każdy wygląda inaczej. To są troszeczkę złe dane. One mogą mieć merytoryczną wartość, ale do późniejszej obróbki nie są tak bardzo przydatne. Później trzeba się nad nimi namęczyć aby przygotować te dobre dane.

No właśnie. To jest ciekawa rzecz. Wydaje się, że większość firm, jeżeli sprawdzić jakość danych, które posiadają w tym momencie, to jest właśnie to, co opisałeś: są różne oddziały, różne historie w czasie się wydarzyły (był jeden zespół, drugi zespół, jedna osoba pracowała, odeszła, potem kolejna).

Myślę, że w wielu firmach pojawia się właśnie to kryterium oceny jako złej jakości dane. Co z tym zrobić? Jak sprawić, żeby przejść od danych złej do dobrej jakości? Masz przydatne triki, które się sprawdzają u Ciebie? Czy to jest zawsze tak, że to jest sztuka i ciężko to opisać jednoznacznie?

To zależy od momentu zbierania wymagań do takiej analizy. Jeśli powiemy sobie: „Ok, od dzisiaj będziemy zbierać dane na jakiś tam temat”, to analityk, który później z tymi danymi będzie pracował, może założyć, jakich rzeczy potrzebuje, co powinno być zbierane i w jakiej formie. Czy w formie wpisów do bazy danych, plików płaskich typu *csv czy Exceli? To już jest kwestia wtórna. Na “dzień dobry” takiego zbierania danych możemy określić, że zbieramy konkretne informacje.

Jeśli już przechodzimy na taki projekt z danymi zebranymi przez pewien okres czasu, z danymi, które już istnieją i nie możemy nałożyć na nie jakiś wymagań – to zaczyna się praca pod tytułem “trzeba to oczyścić i przygotować”. Tutaj chyba nie ma złotych środków. Możemy oczekiwać, że liczby będą w formie liczbowej (liczbami całkowitymi czy dziesiętnymi), teksty będą w formie tekstowej bez żadnych ozdobników takich jak znaczniki HTML, a co z tym zrobić dalej to już kwestia problemu.

Niestety nie da się powiedzieć, że przy każdym zadaniu trzeba wykonać następujące kroki. One są podobne za każdym razem, ale nie ma złotego przepisu.

Spróbujmy może ugryźć to trochę z innej strony, tak żeby jakaś porada się pojawiła i kilka konkretnych punktów. Załóżmy, że teraz mówimy o przyszłości.

Czyta nas osoba decyzyjna i myśli sobie: „zdaję sobie sprawę, że jak do tego nie podejdę w sposób strategiczny, to dane będą złej jakości. Prawdopodobnie muszę coś zrobić, żeby było inaczej”.

Jakiej porady, możesz udzielić takiej osobie? Na co koniecznie warto zwrócić uwagę w momencie, kiedy projektujesz proces zbierania i przechowywania danych, żeby później te dane łatwo było wyciągnąć do analizy i ostatecznie wykorzystać choćby w uczeniu maszynowym lub w podobnych zaawansowanych podejściach? Co zrobić, aby dane były dobrej jakości? Jak najlepiej to zaprojektować?

To zależy od merytorycznego zakresu tych danych. Jeśli mówimy o zebraniu informacji o ludziach, którzy przyszli do naszego sklepu internetowego z jakiejś kampanii reklamowej, to pewnie byśmy chcieli wiedzieć, skąd użytkownik przyszedł, czy przyszedł sam szukając nas w wyszukiwarce, czy kliknął w jakąś reklamę, jaka to była reklama, co na niej było, o której godzinie przyszedł, jakie produkty przeglądał, co kupił, czy kupił w ogóle, ile zostawił pieniędzy.

To są takie rzeczy, na których można zrobić bardzo ciekawą analizę i dobrą segmentację klientów. Załóżmy jednak, że ktoś zapomni o zbieraniu informacji o czasie wizyty w sklepie oraz o konkretnych reklamach, które go na stronę sprowadziły. Wtedy nie wiemy, kiedy warto puszczać reklamy i które się najlepiej sprawdzają (który wariant tekstu, która grafika itd.). Po zebraniu takich danych przez powiedzmy 3 miesiące, przyjdzie analityk, spróbuje zbudować jakieś kategorie tych produktów.

Coś mu z tego wyjdzie, ale czy biznesowo to będzie przydatne na przyszłość do budowania kolejnych kampanii? Mam wątpliwości. Ważne jest to, żeby wiedzieć, co z tymi danymi chcemy zrobić później. Super jest zbierać jak najwięcej danych, ale takie zbieranie danych bez celu to magazynowanie rzeczy tzw. „przydasiów”. Jeśli nie wiemy, po co nam te dane, to oczywiście możemy je zbierać, tylko później szukanie pomysłów na ich wykorzystanie to nie jest to. W biznesie powinniśmy wiedzieć, czego oczekujemy.

Co właśnie jeżeli nie wiemy w tym momencie, ale później przychodzi ktoś, kto ma pewne inspiracje i przemyślenia? Jeśli nie mielibyśmy tych danych, to nie da się ich w jednym ruchu zebrać (rok, dwa, pięć lat wstecz). Tutaj warto byłoby podejść bez żadnych skrajności, żeby z jednej strony zbierać to, czego już potrzebujemy, ale z drugiej strony może być tak, że za chwilę dowiemy się czegoś i wtedy zrozumiemy: „Aha, to warto było zbierać jeszcze coś więcej niż to co zebraliśmy”. Co o tym myślisz?

Tak, masz rację. Być może są jakieś informacje zebrane w danej organizacji i ktoś przychodzi, ogląda sobie te informacje i mówi: „Gdybyśmy wiedzieli jeszcze to, to byłoby nam łatwiej. Ale z tego co mamy, możemy wyciągnąć jakieś wnioski”. W takim przypadku – “zbieramy dane a nie wiemy po co”, najważniejsze jest usystematyzowanie tego zbierania, czyli np. słowniki zamknięte (żeby to nie były rzeczy wpisywane z palca).

Pamiętam, jak przy jakiejś okazji byłem w Urzędzie Miasta i pani, z którą rozmawiałem przy składaniu wniosku mówiła, że Zielona Góra w systemie państwowym przetrzymującym informacje o obywatelach jest zapisana na 16 czy 17 sposobów. To jest przecież jedno i to samo miasto. Raz jest przez „ó”, raz jest “góra” a raz “Góra”, pojawiają się literówki – dramat.

Dlatego warto wprowadzać słowniki do rzeczy, które w naszym obszarze są zamknięte. Oczywiście słownik zawsze można poszerzyć. Lepiej poszerzyć słownik o kolejne miasto niż o kolejną wersję Zielonej Góry. Podobnie jest z innymi kategoriami danych. Liczby niech będą liczbami. Jak one są z przecinkiem, z wartością dziesiętną to niech to zawsze będzie przecinek, a nie wymienne z kropką.

Grunt, aby zawsze to był ten sam znak rozdzielający. Daty niech będą ustalone w konkretnym formacie. Ostatnio miałem taką sytuację, że przygotowałem narzędzie, które z Excela generowało prezentację w *pdf. Tam data dzieliła prezentację na osobne strony z wybranym informacjami. Wszystko było dobrze, póki w Excelu data była excelową datą. W jednym czy dwóch wierszach ktoś napisał “lipiec 2010 r.” jako ciąg tekstowy i mechanizm przestał działać. To są takie sytuacje typu wspomnianej Zielonej Góry.

Teraz klaruje nam się taka jedna mocna prawda – unikajmy możliwości podawania informacji wprost wpisanych przez człowieka. Człowiek jest bardzo niedeterministyczny. Nawet ta sama osoba w różne dni (a tym bardziej miesiące, lata) wpisze na to samo miejsce coś innego. Jeszcze bardziej się to komplikuje, jeżeli mówimy o różnych oddziałach. Warto więc zrobić słowniczki albo różnego rodzaju checkboxy itd.

A propos dat, przypomniało mi się, że w szczególności kiedy pracujesz z danymi mieszanymi czyli np. z Europy i ze Stanów, to wszystko jeszcze bardziej się przekręca. W Stanach używa się innego formatu daty (miesiąc-dzień-rok) i wtedy jak masz 9-10-2019 to nie wiadomo czy to jest 9 października czy 9 września.

Tak, to prawda. Jeszcze przyszło mi do głowy, że jeśli pracujesz w biznesie, w którym na całym świecie w ciągu doby coś się dzieje i ważna jest godzina tego wydarzenia, to warto też trzymać strefę czasową, bo nasza 18:00 to nie 18:00 w Australii.

Tak. Dość często się stosuje UTC (czyli strefa zerowa), więc to też może być wygodne. Warto też pamiętać, że dobrze jest umieć odczytać godzinę, która była w tym momencie fizycznie w miejscu zdarzenia. Przykładowo, jak robimy prognozowanie, to godzina fizyczna ma jednak wpływ, czy to była noc, czy dzień. Nawet godzinne przesunięcie może mieć duże znaczenie dla ostatecznego wyniku.

Kilka porad już nam się utworzyło. Jeszcze jednym ze sposobów zbierania danych jest tzw. scrapowanie, czyli zbieranie danych przy pomocy pajączka. Zauważyłem w Twoich postach kilkakrotnie, że o tym wspominasz. Mógłbyś wyjaśnić, czym jest scrapowanie?

Scrapowanie czy zbieranie informacji ze stron internetowych polega w dużym uproszczeniu na tym, co może zrobić nieskończona liczba praktykantów w naszym biznesie w nieskończonym czasie.

Można napisać do tego skrypty, pajączki. Po co robić powtarzalną pracę ludźmi, skoro mogą to zrobić maszyny? Polega to na tym, że przechodzimy od strony do strony w ramach jednej kategorii produktów, następnie to samo robimy na kolejnych kategoriach i sczytujemy stamtąd interesujące nas informacje (cenę produktu, jego kategorię, kolor czy inne cechy, przechodzimy do kolejnego produktu i robimy to samo) i te dane zapisujemy do późniejszej analizy.

W ten sposób zrobiłem kilka rzeczy np. jak szukałem samochodu, to napisałem post, który wykorzystał dane zebrane z serwisu ogłoszeniowego z samochodami. Jak chciałem wynająć mieszkanie to zrobiłem coś podobnego z innym serwisem. Czy to jest dobre zachowanie? To kwestia dyskusyjna.

Ja staram się nie nadwyrężać serwisów, z których pobieram dane, tj. korzystam w sposób udający przeglądarkę, zwykłego użytkownika. Nie chcę, żeby w ciągu 1 sekundy serwer sklepu czy innego serwisu, musiał odpowiedzieć 30-40 razy na moje zapytania, tylko daję mu odpocząć chwilę. Taka dobra praktyka. Pytajmy co sekundę albo dwie, udając takiego użytkownika, który rzeczywiście w ciągu 1 sekundy nie przeczyta 30 stron (raczej jedną czy dwie).

Warto też spojrzeć na polityki prywatności, regulaminy i tego typu zapisy na stronach – zweryfikować, czy można to robić. W pierwszej kolejności jednak polecam przede wszystkim poszukać API i pobierać dane serwisu, które są dostępne przez API.

Dzięki temu nie wczytujemy wszystkich informacji w tym tych zbędnych (obrazki i wszystko co jest przydatne człowiekowi oglądającemu stronę), a pobieramy już gotowe informacje w przygotowanym ładnym formacie. Nie musimy bawić się też w czyszczenie tych danych, przerabianie formatów i tego typu zabawy.

Bardzo się cieszę, że zwróciłeś uwagę na to, żeby robić odstępy w czasie. Osobiście widziałem, jak często ludzie po prostu wysyłają za dużo requestów. To jest mega nieetyczne i problematyczne, gdy administrator musi się zajmować tymi żądaniami, odciąć tego użytkownika itd.

Podsumujmy to, co powiedziałeś. Po pierwsze sprawdźmy, czy jest API. Jeżeli API na pierwszy rzut oka jest niedostępne, to może jednak jest gdzieś schowane. Warto też zapytać wprost, czy można zebrać dane.

Zazwyczaj w przypadku projektów bardziej edukacyjnych administratorzy zdecydują się na współpracę, bo takiemu sklepowi czy firmie (jeżeli jest to w miarę dojrzała struktura) na tym powinno zależeć. Też pewnie zachęcą potem, żeby podzielić się swoimi wynikami.

Druga rzecz, to jeżeli jednak nie ma API i nie ma możliwości się dostać, a bardzo byśmy chcieli, to warto się zapoznać prawnie z regulaminem, polityką prywatności, skonsultować się z prawnikiem, gdyż w większości przypadków nie da się tego jednoznacznie zinterpretować.

Jeżeli jest to raczej w celach prywatnych to jest bardzo cienka granica, bo tak naprawdę równie dobrze mogę skopiować sobie linijka po linijce do Excela – to to nie może być zakazane samo w sobie, bo to są dane publiczne. Jeżeli więc nie jest to zakazane, to w jaki sposób można zakazać, że robię to w sposób nie w 100% banalny, tylko automatyzuję proces?

Dopóki to jest prywatny użytek, edukacyjny to zwykle nie ma większego problemu. Natomiast pojawia się on wtedy, jeżeli robimy to komercyjnie, a w szczególności jeżeli budujemy konkurencyjne rozwiązania, czyli zbieramy dane i stawiamy podobny serwis.

Trzecia rzecz, to jeżeli nic nie mam, nie ma żadnego prawa i chcemy sobie to trochę zautomatyzować, to pamiętajmy o takich prostych zasadach etycznych. Nie nadużywajmy tej automatyzacji, nie wysyłajmy za dużo requestów na sekundę.

Warto sobie założyć malutką maszynkę w chmurze. Niech ona zbiera te dane przez tydzień, ale tak powoli, strona po stronie i wszyscy będą zadowoleni, nikomu to nie będzie przeszkadzało.

Jeszcze pozwolę sobie dodać jedną rzecz. Teraz np. bawię się strumieniem informacji z Twittera. Pewnie za jakiś czas powstanie z tego post na blogu.

Zbieram tweety według różnych słów kluczowych i zapisuję je w bazie. Analizując zapisane dane widzę jakich rzeczy nie zapisałem i które muszę policzyć po fakcie. Interesuje mnie np. liczba tweetów w danej godzinie, w danym dniu tygodnia. W bazie zapisuję tylko datę wysłania tweeta razem z godziną.

Żeby dostać się do informacji o dniu tygodnia i godzinie, muszę tę datę rozłożyć na składowe części. To uświadamia mi, że zebrałem już jakąś ilość danych i teraz kolejne operacje będą wymagały tego, żeby rozłożyć posiadane informacje na drobniejsze części. Można było to rozłożyć wcześniej na poziomie zbierania danych.

To trochę nawiązując do tego, o czym mówiliśmy przy projektowaniu procesu zbierania danych. Warto też przy web scrapingu pomyśleć o tym, co później z tymi danymi będziemy robić, żeby nie okazało się, że po tygodniu zbierania danych brakuje nam jakiejś jednej informacji i musimy przepuścić jeszcze raz cały ten serwis zbierając te same informacje plus jedną dodatkową. Warto sprawdzać też tego typu rzeczy i myśleć o tym do przodu.

Tutaj też bardzo trzeba uważać. Jak zbieramy dane i później je przekształcamy np. dodajemy logikę, to trzeba bardzo uważać, żeby nie popełnić błędu. Wtedy jeżeli nie mamy źródła prawdy, to nie mamy innej opcji niż zacząć jeszcze raz od nowa, żeby to ewentualnie naprawić.

Myślę, że w przypadku, o którym wspominasz, pewnie sensowniejszym mogłoby być zbieranie surowych danych i do tego dodanie dnia, miesiąca, godziny. Te dane surowe ja bym trzymał z tego powodu, że znając życie człowiek i tak popełnia bugi, więc ostatecznie fajnie jest mieć lokalną wersję surową, żeby można było do niej wrócić w razie potrzeby.

Nie jest to aż takie przyjemne, bo trzeba przemierzyć wszystkie dane. Jeżeli tych danych jest więcej niż tysiąc, to może to trochę zająć czasu. Niemniej to i tak jest znacznie łatwiejsze niż ponowne zbieranie danych, ponieważ strumień cały czas płynie.

Tak, ja bardziej pod tym kątem, że strumień płynie, my pobieramy z niego pewne dane, wzbogacamy je rozbijając datę na składowe po to, żeby w jakimś innym procesie on-linowo pokazać, że o danej godzinie było X elementów.

Jeśli tych danych jest bardzo dużo i są zapisane w tabeli esquelowej, z której musimy zrobić selecta po godzinie, to łatwiej zrobić go po tej godzinie, jeśli ona jest wyodrębnioną kolumną, niż zbierać wszystkie dane i tę godzinę wyciągnąć już z tych danych źródłowych. Myślmy też o tym, co się z tymi danymi będzie działo później. Żeby je wzbogacić o pewne elementy w procesie zbierania.

To co powiedziałeś o zbieraniu danych surowych – zawsze. Zawsze trzeba mieć dane surowe, oryginalne, bo rzeczywiście gdzieś po drodze może się okazać, że coś dodaliśmy czy usunęliśmy. Posiadając dane źródłowe nie trzeba będzie powtarzać całego procesu, który może być nie do powtórzenia.

Załóżmy teraz, że mamy dane. Przechodzimy do ich analizy i tu sam w sobie proces już nie jest taki trywialny. Pojawia się szereg wyzwań. Z Twojej perspektywy – spróbuj wymienić wyzwania, które mogą się pojawić? Jak sobie z tym poradzić?

To wszystko zależy. To takie ulubione powiedzenie informatyków w rozmowach z biznesem – to zależy.

Najtrudniejsze rzeczy to chyba czyszczenie danych, czyli to, co mówiłem o brakujących danych albo momentami zakłóconych z jakiegoś powodu: bo przyrządy zbierające nie działały, bo ktoś wpisał “Zielona Gura” itp. Mówi się, że przy projekcie analitycznym 80% czasu to jest właśnie oczyszczanie danych i normalizacja. Później narysowanie wykresów czy zbudowanie modeli idzie dosyć szybko, jeśli dane są dobre (czyste, bez zakłóceń, bez wartości odstających).

Najtrudniej jest właśnie zdecydować, co z tymi danymi chcemy zrobić. Jakich cech potrzebujemy ewentualnie dodatkowych? Czy liczby są z jakiegoś przedziału i może warto to znormalizować? Czy rozkład tych liczb jest specyficzny, nie jest rozkładem normalnym?

Twoje posty charakteryzują się dużą ilością wykresów – można je robić na różne sposoby. Można je poprostu zrobić i czasem ładnie wyglądają, ale największa wartość z punktu widzenia biznesu jest wtedy, kiedy patrzysz na wykres i rozumiesz, co masz zrobić. Nie tak, że się zastanawiasz, tylko to jest oczywiste, tzw. action label.

Czyli co takiego zrobić z naszymi wykresami, żeby one były faktycznie pomocne, kiedy interpretacja tych wykresów nie wymaga od Ciebie dłuższego zastanawiania, tylko patrzysz i widzisz. Jakieś złote porady od Łukasza?

Przeczytałem kilka artykułów na temat wizualizacji danych i tego jak efektywnie pokazywać ane. Pamiętam, że byłem na wykładzie w Warszawie człowieka, który robi takie rzeczy. Chyba tylko 2 albo 3 informacje na wykresie powinny być pokazane na raz, czyli jeśli mamy np. wykres ceny akcji, to jest czas i cena. Nie dodajemy do tego koloru, wolumenu, liczby sprzedanych akcji, logarytmu i porównania z czymś innym.

Czasami trzeba wykres jednej spółki porównać z indeksem giełdowym – to wystarczą dwie linie na jednym wykresie, gdzie na osi X mamy czas, a na osi Y wartość indeksów. Jedna, dwie informacje na raz – tak żeby to łatwo, jednym rzutem oka można było zrozumieć i bez dodatkowej osoby, która musi wytłumaczyć, że jeśli w danym momencie wykres spadł, to wtedy coś tam znaczy. Przede wszystkim nie przeładowanie.

Druga rzecz to typ wykresu, który opowiada daną historię. Jeśli coś się dzieje w czasie – linia. Jeśli coś jest w kilku kategoriach – słupki. Jeśli coś pokazuje dwa powiązane ze sobą parametry – wykres punktowy, gdzie jeden element jest na jednej osi, a drugi na drugiej. Czasami potrzeba dodać trzeci, to wtedy albo kolor, albo wielkość punktu.

Proste zasady, które tak naprawdę wystarczy zastosować. Jest pełno materiałów w Internecie na ten temat. Ja staram się ostatnio wkoło fanpage’a i bloga budować profil na Instagramie, gdzie też pokazuję ciekawe wizualizacje. Może one też kogoś zainspirują.

A propos interpretowalności wykresów, mam dwa kolejne pytania.

Przy pomocy wykresu można manipulować opinią ludzi, wpływać na wyniki. W jaki sposób można być bardziej odpornym na manipulację? Można znaleźć bardzo dużo materiałów w Internecie mówiących o tym, jak przedstawiając wykresy w ten czy inny sposób, można osiągnąć takie wyniki, które się chce osiągnąć.

Tak, najczęstszy przykład to słupki poparcia dla partii w telewizji. Wykres słupkowy zawsze u podstawy powinien mieć 0. Sam zauważyłem, że np. Excel nie zaczyna słupków od 0. Robiąc szybko wykres słupkowy, mamy wartości 900 i 1000, a Excel zaczyna przecięcie z osią w okolicach 800. To jest mylące, bo to pokazuje różnice między jedną wartością a drugą, ale w skali zawężonej (do samych szczytów słupków, a nie na całości).

Mylące są osie podwójne, gdzie mamy dwie rzeczy pokazane na jednym wykresie. Jedna seria danych jest na jednej osi opisana, a druga jest na drugiej i one do siebie pasują, tylko jedna zmienia się o wartości od 0 do 1, a druga np. od 1 mln do 2 mln.

Dużo jest też kwestii związanych z tym, że korelacja nie oznacza przyczynowości. Bardzo dużo jest takich wykresów, które mówią o liczbie utonięć w basenie, w powiązaniu z liczbą filmów z jakimś aktorem. Tutaj zostaje zdroworozsądkowe myślenie, bo można pokazać dwie liczby ze sobą powiązane, bo ich przebiegi w czasie wyglądają podobnie, ale powinniśmy się zastanowić, czy to rzeczywiście ma jakiś wpływ. Może to być ciekawe, ale czy jedno ma wpływ na drugie?

Niekoniecznie. To, że dwie cechy zachowują się podobnie, nie znaczy, że są ze sobą powiązane. Jeśli chodzi o ten temat, można zobaczyć materiały o złych wykresach – Przemek Biecek z Politechniki Warszawskiej prowadzi bloga, na którym co roku ogłasza mini konkurs na najgorzej zrobione wykresy opublikowane w mediach. Polecam – tam są czasami perełki. Teraz rok zbliża się ku końcowi i myślę, że Przemek przygotuje kolejną serię.

Polecam sprawdzić kategorię “Zły wykres” na tym blogu. W zeszłym roku był temat odry w Polsce. W telewizji pokazano wypaczone dane mówiące, że wskaźnik zachorowań rośnie, a później na innych danych można było zobaczyć, że to wszystko się waha w czasie. Ostateczne wnioski różniły się od tego, co pokazano w telewizji.

Idąc dalej – manipulacja. Chciałbym to podzielić na dwie kwestie: świadoma manipulacja z użyciem danych i ta wywołana przez błąd. Na co muszę uważać i co muszę dodatkowo sprawdzić jako osoba tworząca wizualizację danych, żeby przypadkiem nie zniekształcić rzeczywistości?

To chyba te elementy, o których wspomniałem mówiąc o tym, jak można oszukiwać na wykresach. Gdzieś widziałem ostatnio wykres zmiany średniej temperatury na przestrzeni ostatnich lat. Na jednym wykresie był spadek – tylko wykres uwzględniał ostatnie 10 lat. Drugi wykres pokazywał ostatnie 30 lat i był lekki wzrost. A na wykresie, który uwzględniał ostatnie 150 lat był gwałtowny wzrost.

Jest to pewien sposób na oszukiwanie danych. Często jest tak w korporacjach, że jakieś wyniki dla zarządu trzeba przygotować i ma być widoczny wzrost. Nieważne czy rzeczywiście urosło czy nie – ma być pokazany wzrost. To jest “świetna” szkoła oszukiwania w wykresach. Zawsze można dobrać okres w ten sposób, żeby rosło. Bazę, czyli wcześniejszy pomiar też – albo to jest miesiąc, albo rok temu. Nie ważne, da się zrobić tak, żeby rosło.

Można powiedzieć, że nie urosło albo spadło coś co jest złe. Np. sprzedaż nam nie wzrosła, ludzie którzy sprzedają odeszli z pracy, to możemy powiedzieć, że spadły koszty sprzedaży. Jest to prawda, a niekoniecznie mówi o tym, że jest dobrze. Chociaż spadek kosztów sprzedaży może być czymś dobrym. Przy spadku wartości sprzedaży – już nie koniecznie. Jakie było pytanie?

Pytałem o to, na co należy uważać, żeby niechcący nie zmanipulować danych. Ze swojej strony dodam, że należy maksymalizować krytyczne myślenie.

Czy to jest faktycznie rzeczywistość, czy tylko ułamek obrazu, który wyrwaliśmy z big picture i to jest kawałek wyciętej wiedzy?

No tak, właśnie takie krytyczne spojrzenie i stawianie się po dwóch stronach barykady jest dobrym rozwiązaniem. Dobrze jest skonsultować się z kimś, bo jako autor wykresów czy modelu ciężko jest o inny punkt widzenia. W końcu napracowałeś się nad tym i wierzysz w to, co robisz. Być może jest jakiś mały kamyczek, który wywróci Twoje myślenie do góry nogami i da krytyczne spojrzenie.

Niekoniecznie jesteś w stanie znaleźć to w sobie tym bardziej pracując pod presją czasu. Chcesz oddać jak najszybciej swoją pracę, bo terminy gonią. Wtedy druga osoba się przydaje, która powie, że: Nie, jakby to było na niebiesko, a nie na zielono, to by było lepiej. Nawet tego typu proste rzeczy. Albo: pokazujesz tutaj dane z ostatniego tygodnia, a popatrz na cały kwartał czy rok. Jak to się zachowa?

Podsumowując ten wątek, możemy powiedzieć, że po pierwsze – krytyczne myślenie. Trzeba to rozwijać, bo to jest bardzo ważna umiejętność związana z danymi i z całym tym obszarem. Druga rzecz to warto po prostu zapytać kolegę, koleżankę, co o tym myślą. Szczególnie, że ta osoba nie jest w to wkręcona emocjonalnie w ten temat, albo przynajmniej przez chwilę robiła coś innego. To ona będzie miała świeże spojrzenie.

Mnie studia nauczyły takiego krytycznego myślenia i spojrzenia na świat. Jakby ktoś zapytał, co zawdzięczam fizyce, to na pierwszym miejscu byłoby takie powątpiewanie w rzeczywistość. Czy to co widzę, jest prawdziwe? Czy to, co widzę, ma sens? Chcę to też przekazać na blogu w swoich tekstach, że być może to, co widzimy, nie jest prawdziwe, może trzeba szukać głębiej.

Być może dlatego one są na tyle ciekawe, bo nie pokazują tylko zmiany czegoś na podstawie danych. Z drugiej strony to konsultacja. Kiedyś pracowałem jako człowiek projektujący interfejsy stron internetowych. Fajnie było robić badania z użytkownikami, zapłacić masę pieniędzy za to, żeby ich zapytać, czy button powinien być czerwony czy zielony, z prawej czy z lewej.

Najtańszym, najprostszym i najszybszym rozwiązaniem okazywał się tzw. test korytarzowy. Czyli idziesz korytarzem, łapiesz 4-5 osób, które nie pracują nad tym co Ty i zadajesz im dokładnie te same pytania, które możesz zadać na testach za grube pieniądze. Możesz pokazać komuś wykres i zapytać, co na nim jest zaprezentowane, jak on to rozumie.

Wracając do Twojego bloga, bo już na początku powiedziałem, że są na nim bardzo ciekawe artykuły. Jest tam bardzo dużo treści, których skonsumowanie wymaga dużo czas. Co w szczególności polecasz przeczytać? Z którego artykułu jesteś wyjątkowo dumny?

Najpopularniejsze są artykułu o danych, które wyciągnąłem z portalu Sympatia – jakich cech szukają mężczyźni, jakich kobiety u swoich partnerów. Te teksty są w moich odczuciu takie sobie. Najbardziej pamiętam tekst „Sprzedam Opla” o szukaniu samochodu. Tam zastosowałem właściwie wszystko, co mi przyszło wtedy do głowy i drążyłem głębiej i głębiej. Tekst mówi o tym, że zebrałem dane z serwisu ogłoszeniowego, wiedziałem, jakiej marki szukałem i w jakim mniej więcej roczniku.

Więc w jaki sposób znaleźć najlepszą okazję dla tego samochodu? Ile kosztuje średnio model wyprodukowany w danym roku? Jaki ma średnio przebieg? Ale też zacząłem się zastanawiać wtedy, czy wartość samochodu z biegiem lat się zmienia? Jak się zmienia w zależności od marki czy modelu?

Korzystając z tych oferowanych cen, czy rocznik 2010 dużo straci na wartości, kiedy minie rok? Weźmy rocznik 2009 dzisiaj i sprawdźmy, jaka jest różnica między cenami. Tam jest jeszcze kilka takich elementów. To jest chyba najlepszy mój tekst. Taki w miarę łatwy do przeczytania, a też pokazujący najwięcej rzeczy, które można (z dosyć prostych informacji) wyciągnąć. Mamy tylko rok, przebieg i cenę danego samochodu – 5 czy 6 kolumn w Excelu. Oczywiście nie pisałem tego w Excelu. Excel jest fajny, ale do zbierania danych.

Już zbliżając się ku końcowi naszej rozmowy chciałbym porozmawiać o przyszłości.

Jaką przyszłość widzisz? Jak powinien wyglądać dostęp do danych w idealnym świecie według Ciebie?

W idealnym świecie wszystkie instytucje, które są opłacane z podatków, powinny mieć dane otwarte, dostępne przez API. Chciałbym wiedzieć, ile zgłoszeń do straży miejskiej w okolicy mojego osiedla miało miejsce w ostatnim miesiącu. Chciałbym, żeby te dane były dostępne online. To kosztuje infrastrukturę, to kosztuje ludzi, którzy te dane wprowadzają.

Ludzie są omylni, wprowadzają je w różny sposób. Przez to, że w Polsce nie mamy tego typu informacji, nie jesteśmy w stanie zrobić zadań z konkursów publikowanych na Kaggle, gdzie mamy np. nowojorską policję czy mandaty samochodowe z Los Angeles i tego typu zestawy danych. Nie jesteśmy w stanie powtórzyć tych ćwiczeń dla naszego kraju. Jeśli chodzi o dane bardziej komercyjne, to tu już zależy od właściciela danych, czyli od firmy, która je zbiera. Czyli im więcej pokaże, tym bardziej może się odsłonić przed konkurencją. Może być to różnie. Fajnie by było, gdyby instytucje co jakiś czas organizowały np. hackathony i publikowały dane, na których można poćwiczyć.

Tutaj myślę bardziej pod kątem osób, które uczą się analizy danych. Bardzo fajny zestaw danych ostatnio opublikował Narodowy Fundusz Zdrowia, gdzie były informacje o zachorowaniach na jakiś rodzaj raka. Dane o pacjentach i o tym, jakie leki biorą.

Koleżanka napisała wpis gościnny na ten temat. Sam tego nie pisałem, więc nie pamiętam dokładnie zestawu danych, ale były one w ciekawy sposób zanonimizowane. To też jest jakiś sposób na to, żeby dana firma pokazała swoje dane nie odsłaniając wszystkiego. Dane z NFZ były w jednej części z 2 lat, a w drugiej części dotyczącej już osób – z 2 kolejnych lat, więc te dwa okresy nie zazębiały się. To teoretycznie uniemożliwiało sprawdzenie, z którego miejsca w kraju są pacjenci i jakie biorą leki. Już o dotarciu do konkretnej osoby nie mówiąc.

Trzymam kciuki w takim razie, żeby czytały nas również osoby decyzyjne, które mają wpływ na to, żeby te dane zostały udostępnione. Tak naprawdę nie chodzi o to, żeby dołożyć kolejną pracę. Wbrew pozorom taka analiza przygotowana przez ludzi, którzy po prostu z ciekawości, po pracy, w weekendy mogą coś przeanalizować i pokazać, jak można to jeszcze bardziej usprawnić. To będzie przestrzeń do poprawy i usprawnienia czegoś.

Dzięki wielkie Łukaszu za dzisiejszą rozmowę i życzę Ci dużo ciekawych postów na Twoim blogu. Do zobaczenia, do usłyszenia.

Dzięki serdeczne. Miło było porozmawiać z Tobą, Vladimirze. Mam nadzieję, że to nie ostatni raz, kiedy się spotykamy.

Jak wspomniałem, blog Łukasza znalazłem już kilka lat temu. Poznaliśmy się również na żywo też już kilka lat temu. Łukasz sprawia na mnie bardzo pozytywne wrażenie, bo ma dość specyficzny pogląd na życie, dość specyficznie komentuje różne zjawiska, ma również ciekawe poczucie humoru, które warto umieć zrozumieć. Też z tego powodu obserwuje go na fanpage’u i różne inne komunikaty, które gdzieś wrzuca. Bardzo się cieszę, że mieliśmy okazję porozmawiać.

Nie jestem pewny, czy udało się pokazać się w 100% głębokość myśli, jeżeli chodzi o Łukasza, bo on jest człowiekiem skromnym. Polecam sprawdzić jego blog. To naprawdę robi wrażenie, jaki wysiłek wkłada i jakie ma podejście, jeżeli chodzi o analizę danych i wizualizację, wyciąganie odpowiednich wniosków.

Pamiętam jak w jednej z rozmów, Łukasz powiedział, że jeżeli chodzi o wyciąganie wniosków z wykresów, to jedną z trudniejszych rzeczy jest (w trakcie tworzenia postów) to, że jak patrzysz na wykres, to już wiadomo, o co chodzi. Po co to jeszcze wysyłać?

No właśnie. Ale to nie jest takie oczywiste dla wszystkich. Warto powiedzieć, że czym bardziej wykres staje się oczywisty, tym lepiej te wnioski się wyciąga. Jeszcze taką ciekawostkę Ci zdradzę – Łukasz przede wszystkim używał język R (o to zapomniałem go zapytać), ale widzę, że ostatni post już się pojawia też w języku Python. Nie wiem, co to oznacza w praktyce, ale niech to będzie taka mała zagadka.

To tyle na dzisiaj. Dziękuję Ci bardzo za wspólnie spędzony czas. Do zobaczenia, do usłyszenia, do przeczytania.

Pamiętaj, 14 marca widzimy się na zjeździe słuchaczy i czytelników Biznes Myśli.

Artykuł Łukasz Prokulski – dane i analizy pochodzi z serwisu Biznes Myśli.