dane – Biznes Myśli

Statystyka w biznesie i marketingu – opowiada Janina Bąk

Vladimir — Mon, 25 May 2020 05:57:32 +0000

Statystyka umożliwia lepiej i trafniej podejmować decyzje. To bardzo ważna dziedzina nauki. Uczenie maszynowe też wykorzystuje sporo elementów ze statystyki. Dzisiaj chciałbym ten temat rozszerzyć, dlatego zaprosiłem do rozmowy Janinę Bąk, znaną i lubianą specjalistkę tej dziedziny. Janinę bardzo wyróżnia to, że potrafi mówić o tych trudnych rzeczach w sposób zrozumiały, który można łatwo przyswoić i zastosować.

Z tej rozmowy dowiesz się:

czym jest statystyka,
czy statystyka kłamie,
jak może wykorzystać statystykę w biznesie,
jak dobrze przeprowadzić test A/B,
na co zwrócić uwagę przygotowując ankietę,
czy źródła naukowe zawsze mówią prawdę.

Cześć Janina. Przedstaw się: jak się nazywasz, gdzie mieszkasz, czym się zajmujesz i skąd się przeprowadziłaś ostatnio?

Nazywam się Janina Bąk. Robię w życiu głównie trzy rzeczy, tzn. prowadzę bloga janinadaily.com, gdzie trochę piszę o swoim życiu, a trochę staram się popularyzować naukę, bo przez bardzo długi czas byłam wykładowczynią akademicką i uczyłam studentów statystyki oraz metodologii badań. Teraz staram się uczyć tego wszystkich, głównie ludzi w marketingu, ale nie tylko.

Co ostatnio fajnego przeczytałaś, o czym warto wspomnieć? Jaka była wartość tej książki?

Moją własną książkę.

fot. Julia Knap

O Twojej książce jeszcze osobno porozmawiamy, a może coś jeszcze warto polecić?

Przeczytałam książkę Adama Kucharskiego „Czas epidemii”. Bardzo często o niej teraz mówię i słyszę: „No dobra, ale pandemia za oknem i jeszcze o tym czytać, to już trochę za dużo”, ale to nie jest prawda. Adam Kucharski jest matematykiem i epidemiologiem. Już wiele epidemii w swoim życiu widział i badał. Bardzo fajnie w tej książce tłumaczy nam, w jaki sposób rozwijają się epidemie, jak się wygaszają. W gruncie rzeczy dużo jest w tej książce optymizmu i po lekturze można nabrać poczucia, że damy radę – już nie z takimi rzeczami sobie radziliśmy.

Brzmi optymistycznie. Rozmawiamy w maju 2020 r., zobaczymy, jak to będzie wyglądało za kilka lat, na przestrzeni czasu.

Czy statystyka jest dla Ciebie narzędziem?

Nie tylko dla mnie. Dla każdego jest narzędziem i zawsze to powtarzam. Nie jest to jej wada. Mówię, że ona jest narzędziem dlatego, że bardzo często spotykam się z takimi stwierdzeniami, że np. statystyka kłamie. Statystyka nie kłamie, tylko ludzie kłamią na temat statystyk. Statystyka jest tylko narzędziem, żeby znaleźć odpowiedź na jakieś pytania. Jeśli użyjemy jej źle, to jasne jest to, że dostaniemy błędne wnioski, ale to nie jest wina statystyki czy metod badawczych. Jest to wina tego, że nie potrafimy z nich poprawnie korzystać.

źródło: giphy.com

Czy statystyka jest pomocna dla biznesu? Na czym polega ta pomocność? Na jakie pytania, statystyka może pomóc odpowiedzieć lepiej?

Na wszystkie. Wiem, że to jest odpowiedź, która teoretycznie może nie satysfakcjonować, ale tak naprawdę statystyka czy jakiekolwiek badania konsumenckie, marketingowe czy efektywności, dają nam odpowiedź na pytanie np. czy wprowadzenie jakiegoś nowego produktu ma sens? Równie dobrze da nam odpowiedź na pytanie, czy nasze działania marketingowe przynoszą odpowiednie skutki? Pozwoli nam wyodrębnić jakieś czynniki, które są kluczowe dla sprzedaży. Mamy też w statystyce modele predykcyjne, więc jesteśmy w stanie również wymodelować w pewnym sensie, jak nasza firma będzie się dalej rozwijać. Jeśli mamy dobrych ludzi od analityki, to oni są w stanie znaleźć odpowiedź na niemal każde pytanie, jeśli tylko mają odpowiednie dane.

Na które pytania biznesowe, nie wykorzystując statystyki, ciężko będzie sobie odpowiedzieć we właściwy sposób?

Załóżmy, że mamy stronę www, bo zakładam, że teraz ciężko o biznes, który takiej strony nie ma i nie prowadzi jakiejś formy działalności w ten sposób. Jeśli np. nie analizujemy ruchu użytkowników na stronie, to w sumie nie wiemy, czy ta nasza strona działa, czy ludzie przez nią kupują, czy ona działa w prawidłowy sposób, jeśli chodzi o UX, czyli użyteczność. Jeśli dodamy do tego analitykę (zarówno jakościową jak i ilościową), to już bardzo łatwo i szybko możemy np. znaleźć punkty zapalne, miejsca, w których nasza strona nie działa albo gdzie nasi klienci się gubią.

Możemy sprawdzić, że pewien procent naszych klientów dodaje produkty do koszyka, ale nigdy nie finalizuje tej sprzedaży. Dzięki analityce możemy znaleźć odpowiedź na pytanie: dlaczego te osoby nie kończą procesu zakupowego? Jeśli tego nie mierzymy i nie sprawdzamy, to strona gdzieś tam sobie wisi. Teoretycznie nie kosztuje nas to dużo pieniędzy, bo hosting to nie jest majątek, jeśli chodzi o roczne wydatki.

Ja myślę o tym inaczej – jeśli tego nie mierzymy, to tracimy pieniądze, które moglibyśmy zarabiać. Jeśli zoptymalizujemy swoje działania marketingu online, strony www czy sprzedażowe, to zarobimy więcej, niż jeśli nie będziemy tego robić.

Posiadając informacje na jakiś temat (np. ktoś wchodzi na stronę, coś tam robi), wyciąganie wniosków na podstawie tych informacji też nie jest takie łatwe. Jeżeli tych wejść było dosłownie dwa, to powiedzenie czegokolwiek sensownego w tym momencie byłoby trudne.

Statystyka pomaga dołożyć warstwę albo wymiar pewności. Na ile możemy zaufać posiadanej informacji?

Zauważ, że jeśli na naszą stronę wchodzą dwie osoby, to też jest jakaś informacja, której powinniśmy się przyjrzeć. Na podstawie ruchu czy zachowań tych dwóch użytkowników możemy wyciągnąć jakieś wnioski, ale ta niepewność jest dość spora. Jeśli wiemy, że faktycznie nikt naszej strony nie odwiedza, to to też jest informacja, z którą należy się zmierzyć i zastanowić się dlaczego.

Te dwie osoby to może być mama albo mąż, żona, ale to już inna historia.

Zacząłem od tego, jak statystyka może być pomocna przy odpowiadaniu na pytania, a tak naprawdę warto zrobić krok wstecz. Odpowiedź na pytania to jest fajna rzecz, ale zadawać właściwe pytania to jest sztuka.

Czy statystyka również może być pomocna przy znalezieniu właściwych pytań i co to oznacza w praktyce?

Tak, to jest cudowne, co powiedziałeś. Oprócz tego, że statystyka pozwala nam znaleźć odpowiedź, to jest również sztuką zadawania trafnych pytań. Jeśli chodzi o przykłady, to miałam kiedyś taki case z jednoosobowym biznesem, który wdrożył zupełnie nowy produkt i to był e-book, który był ściśle dedykowany do grupy docelowej tej dziewczyny. Był promowany głównie na jej grupach tematycznych.

Miało to bardzo duży sens, ponieważ tam były kobiety, do których ten produkt był targetowany i które były mocno związane z autorką. Można było założyć, że tamta sprzedaż rzeczywiście pójdzie nieźle. No i poszła nieźle, ale tak im się tylko wydawało (bo ja znalazłam się w tym projekcie, wtedy, gdy miałam wyjaśnić, co poszło nie tak). Okazało się, że było bardzo dużo kliknięć w link, który kierował na landing page produktowy. Tych kliknięć było 13 000, czyli mamy 13 000 potencjalnie kupionych egzemplarzy.

Tylko one się ucieszyły, ucieszył się Facebook, bo za każde kliknięcie pobiera odpowiednią opłatę, ale nikt nie sprawdził, ile z tych przejść skończyło się konwersją, czyli ile osób z tych 13 000 “kliknięć” produkt kupiło. Okazało się, że ten wskaźnik był bliski zeru. W momencie, kiedy porównaliśmy te dwa wskaźniki, to pierwsze pytanie, które się nasuwa, to dlaczego?

Gdybyśmy ich nie porównali to możemy się cieszyć, że wygenerowaliśmy 13 000 kliknięć i założyć, że najpewniej jakaś konwersja była, ale dopiero gdy spojrzeliśmy na te wskaźniki, to okazało się, że tam rzeczywiście jest jakiś problem i trzeba mu się przyjrzeć.

Dużo botów z krajów azjatyckich pewnie zawitało.

Nie, było to znacznie ciekawsze, bo to, co się tam stało to to, że do linka przyczepiła się emotikonka i absolutnie każdy, kto klikał w link, był przenoszony na stronę błędu. Czyli coś, co bardzo łatwo można rozwiązać poprzez ustawienie sobie w Google Analytics – 404 alerts. Tam tego nie było. Prosty ludzki błąd, który absolutnie każdemu może się zdarzyć, ale który kosztował bardzo dużo potencjalnej sprzedaży.

Czy mogłabyś powiedzieć coś więcej o alertach 404 w Google Analytics?

To jest bardzo prosta funkcja do ustawienia w Google Analytics, która polega na tym, że jeśli rzeczywiście na Twojej stronie będzie znacząca liczba wyświetleń 404 (czyli użytkownik nie jest w stanie wejść na stronę), to dostaniesz powiadomienie mailowe.

To jest proste, bo odbierasz maila i widzisz, że coś jest nie tak z Twoją stroną i trzeba się tym zająć. Jest to coś co każdy powinien uruchomić, zwłaszcza jeśli ma stronę bezpośrednio sprzedażową, bo zakładam, że nawet blogi sprzedają czy wszelkie treści content marketingowe. Głównie jeśli mamy stronę z produktami czy sklepy online, to to jest bardzo ważne.

Jak przygotowywałem się do tej rozmowy to zastanawiałem się, w których obszarach jesteś, jeżeli chodzi o zastosowanie statystyki. Wcześniej pracowałaś na uczelni, gdzie byłaś wykładowcą i uczyłaś studentów, jak używać statystykę.

Teraz głównie koncentrujesz się na biznesach, ale z branży marketingowej. Dlaczego akurat branża marketingowa? Czy to przypadek?

Chciałabym, żeby to wybrzmiało, że ja rzeczywiście zawodowo najczęściej uczę, szkołę, wykładam dla firm i korporacji. Niekoniecznie dla działów marketingowych, również działów sprzedaży, analizy danych. Ten zakres jest dość szeroki, bo właśnie na to pozwala statystyka, żeby używać jej w wielu różnych celach, ale jeśli ktoś nas czyta, kto nie ma do czynienia z marketingiem, to chciałabym, żeby wciąż czytał, bo drugą częścią mojej działalności jest faktycznie to, żeby przekonać absolutnie wszystkich (nieważne, czym się zawodowo zajmują), że z analizą danych, statystyką można i należy się zaprzyjaźnić.

Ma to znaczenie dla każdego, nawet jeśli nie potrzebujemy analizować danych swojej strony internetowej, to np. potrzebujemy wiedzieć, jak się nie dać oszukać gazetowym nagłówkom czy raportom branżowym. Tym też się bardzo chętnie zajmuję, żeby ludzie byli bardziej świadomi tego, jak wyciągać wnioski z otaczającego nas świata.

Wystąpienia Janiny podczas konferencji Ilovemkt.

Spróbuj wymienić 5 branż, gdzie statystyka aż krzyczy, żeby ją zastosować, ale z jakiegoś powodu tak się nie dzieje albo dzieje się to powoli.

Nie mam danych, żeby móc powiedzieć, gdzie się nie dzieje. Wiem, że jest przydatna absolutnie wszędzie. Podaj mi jakąkolwiek branżę, a ja Ci powiem, jak można tam wykorzystać statystykę. Wiem, że poziom świadomości czy np. to, jak zaawansowane są te analizy, różni się pomiędzy branżami, większymi a mniejszymi firmami, bo budżety tu mają znaczenie, ale każdy może skorzystać na nawet najbardziej podstawowej analizie danych.

Uważam, że absolutnie każdy powinien się z tym zaprzyjaźnić. Z takich dobrych obserwacji to widzę, że coraz częściej jestem zapraszana do bardzo różnych firm (nie tylko marketingowych, ale też np. PR-owych) i bardzo często tam jest taki brief, że chcielibyśmy być bardziej data-driven. Jest to trend, żeby teraz zwrócić się ku danym i to jest bardzo pozytywne. Myślę, że tyle się o tym mówi, tyle na konferencjach można zobaczyć fajnych przykładów tego, w jaki sposób analityka rzeczywiście przyniosła efekty, że coraz więcej firm zwraca się właśnie ku liczbom, danym i systematycznym analizom.

O data-driven nagrywaliśmy 25. odcinek. Wracając do pytania, które zadałem wcześniej, spróbujmy go rozwinąć na przykładach. Myślę, że w tym przypadku skupimy się na marketingu, bo myślę, że będzie Ci łatwiej podać przykłady.

Data Driven Organisation – odcinek 25. – rozmowa z Wojtkiem Ptakiem

Istnieje taki jeden z dużych problemów z marketingu – modelowanie atrybucji, czyli skąd wiemy, który kanał jest najbardziej efektywny, za co płacimy, czy płacimy na Facebooku czy Google. Czy mogłabyś przybliżyć najpierw kontekst modelowania atrybucji? Czy istnieją jakieś praktyczne wskazówki od Janiny, jak sobie najlepiej na dzień dzisiejszy poradzić z tym problemem?

Na początek to, co może zrobić absolutnie każdy, czyli odpalamy Google Analytics i statystyki opisowe. Sprawdzamy, który kanał przyniósł nam najwięcej wyświetleń czy konwersji. Nie musimy tutaj stawiać kropki. Zastosujmy najprostsze modelowanie regresyjne, gdzie zmienną zależną będzie np. sprzedaż.

Wtedy to będzie regresja logistyczna, czyli 0 – nie doszło do sprzedaży, 1 – doszło do sprzedaży. Ewentualnie regresja liniowa, gdzie zmienną zależną będzie kwota, za którą dokonała się sprzedaż. Wtedy możemy wrzucić te wszystkie kanały atrybucji w pakiet zmiennych niezależnych i sprawdzić, który z nich działa najlepiej, ma największe znaczenie dla tej sprzedaży i jak to się kształtuje.

Zosia zobaczyła po raz pierwszy reklamę o produkcie, wymarzonej książce, najpierw na Facebooku, kliknęła i przeszła na blog autora tej książki. Poczytała sobie artykuł, zobaczyła i zaczęła się zastanawiać nad zakupem.

Następnie zapomniała o tym, bo musiała zająć się innymi rzeczami. Minęło trochę czasu i na Google pojawiła się reklama książki, w którą Zosi też kliknęła. Później jeszcze w różnych innych miejscach. Na samym końcu pojawia się newsletter. Ostatecznie Zosia po przemyśleniach, postanowiła kupić książkę. Ostatni link prowadził z newslettera, gdzie zakup został dokonany.

Co powinniśmy przekazać do tego modelu, żeby stwierdzić, co tak naprawdę wpłynęło na decyzję Zosi o zakupie książki?

Są narzędzia, które potrafią budować bardziej szczegółowe ścieżki użytkowników. Oczywiście, jeśli patrzymy tylko na ten końcowy efekt, czyli np. w tym wypadku – przejście z newslettera, to liczymy się z tym, że mierzymy tylko te bezpośrednie drogi do zakupu. Musimy być świadomi, że jest tam pewna niepewność.

Szacuje się, że takie pośrednie drogi do zakupu (czyli np. że ktoś widział reklamę online, ale nie kupił, później zobaczył znajome logo na ulicy i kupił) mogą stanowić nawet 40% zakupów, które nie pojawią nam się w bezpośrednich danych, ale i na to są sposoby. Jest to metodologia badania Brand Lift, gdzie mierzymy, czy osoby, które np. widziały naszą reklamę albo kojarzą naszą markę, częściej niż grupa kontrolna dokonywały zakupu albo mają intencje zakupowe, czyli rozważają nasz produkt.

To wszystko da się mierzyć. Nie jest ważnym, czy używamy modeli regresyjnych, najbardziej rozpowszechnionej analizy danych zastanych czy projektujemy bardziej wyszukane badania typu Brand Lift – zawsze tam będzie ta niepewność. Tylko ja zawsze mówię ludziom: „Ok, ale co mamy w zamian?”. Albo bierzemy te wyniki badań czy wyniki liczbowe, staramy się znaleźć tam jak najwięcej i oczywiście mamy z tyłu głowy, że może coś przegapiliśmy, albo że są obszary, których po prostu nie da się zmierzyć, ale to nie jest słabość tej metody.

To jest zaleta, bo my możemy o tym cały czas myśleć i wiedzieć, że takie są wyniki naszych analiz, ale jeszcze nie stawiamy kropki, dalej trzeba się temu przyglądać. Trzeba jeszcze eksperymentować i sprawdzać, bo pamiętajmy, że marketing, jak i każda działka działka biznesu, jest dynamicznym procesem. To nie jest tak, że ja sobie coś wymodeluję i wyjdzie mi, że ten, ten i ten czynnik mają największe znaczenie dla moich zasięgów organicznych na Facebooku i przez kolejne 3 lata, będę trzaskać według tego swoje strategie social media.

Nie, wszystko się zmienia, więc wszystko musimy co jakiś czas aktualizować i to jest zupełnie ok. Jak ktoś mi mówi, że statystyka się myli, mówię: „Tak, a co mamy w zamian? Mamy zdrowy rozsądek? No nie”. Człowiek jest bardzo omylny. Zawsze podaję tu taki przykład:

„Jeśli Twój zdrowy rozsądek mówi coś, a mój mówi coś innego, to kto ma rację?”.

Najgorsze co możemy powiedzieć, to to, że: „Ja czuję, mam intuicję, mój zdrowy rozsądek mówi mi coś”. No nie, jeśli my, używając statystyki, się czasem mylimy, to jeszcze bardziej mylimy się, gdy wierzymy tej mitycznej intuicji.

“Co mamy w zamian?” – to brzmi bardzo ciekawie. Sam czasem tak mówię, co prawda w innym kontekście, ale to jest ciekawa rzecz. Przypomniała mi się jedna rozmowa z człowiekiem, który m.in. zajmuje się reklamą billboardów, czyli pracuje w dziale, który decyduje, ile pieniędzy wydać na taką reklamę.

Dla mnie zawsze było ciekawe, jak to w ogóle jest zarządzane? Skąd wiemy, ile trzeba wydać? Zapytałem go, w jaki sposób mierzy efektywność. Dostałem odpowiedź, że to jest proste, są jakieś tabelki, na których widzisz, że tyle osób tę reklamę zobaczyło. Kto te tabelki przygotowuje? Jest w nich informacja że, np. 100 tys. osób zobaczyło tę reklamę.

źródło: giphy.com

Czy faktycznie ją widziało? W jakim stanie tę reklamę zobaczyli? W mojej głowie pojawił się od razu szereg pytań, co z tą informacją zrobić. Zastanawiam się, jak często w tej branży pada pytanie: wybrać opcję A czy B? Czy może bardziej pytanie jest takie: czy wybrać opcję A, czy w ogóle nic nie wybierać? Jeżeli nie jesteśmy pewni, to może w ogóle lepiej tego nie robić? Zapytałem tę osobę, czy nie próbował takiej reklamy w ogóle nie tworzyć i zobaczyć, co się stanie. Odpowiedział, że nie, bo nikt by na to nie zezwolił.

Odpowiedź na Twoje pytanie jest dość prosta – to zależy od naszego celu. Jeśli chcemy wiedzieć, które copy sprzedażowe konwertuje najlepiej, to przeprowadzamy testy A/B i sprawdzamy, czy rzeczywiście lepsza jest wersja A czy B. Jeśli mamy jakieś działania marketingowe, np. nagle zaczęliśmy organizować live na fejsie, bo wszyscy mówili, że tak trzeba robić, to rzeczywiście możemy analizować te dane albo pod kątem, czy lepiej robić te live’y czy nie robić, bo jest to strata czasu, albo możemy to analizować, czy lepiej robić live’y czy jednak inwestować w webinary. To zależy od tego, co chcemy osiągnąć.

Fajnie opowiedziałeś o tych billboardach, bo istnieją takie działania marketingowe, gdzie musimy się opierać na jakiś podstawowych korelacjach, ale ten poziom niepewności jest dość wysoki. Zawsze lubię mówić, że niewykorzystywanie analityki w marketingu czy w działaniach online jest niewykorzystywaniem ogromnego potencjału, bo tak naprawdę właśnie działania online, w porównaniu do takich tradycyjnych form marketingu, możemy zmierzyć. Z tego naprawdę żal nie skorzystać.

Rozwińmy ten obszar, który możemy mierzyć, bo ja się tam czuję zdecydowanie bardziej komfortowo. Powiedz troszkę więcej, czym są A/B testy, do czego służą? Jakie najbardziej popularne błędy zwykle się popełnia przy robieniu A/B testów?

A/B testy to jest bardzo rozpowszechniona forma testu i praktycznie każde narzędzie analityczne pozwala to dość łatwo zaimplementować. Testami A/B sprawdzamy np. dwie różne wersje kolorystyczne strony albo copy sprzedażowego. Użytkownicy są kierowani do każdej z wersji losowo, bo tak działają wszelkie badania eksperymentalne, że ta losowość musi tam istnieć.

Sprawdzamy, czy np. użytkownicy, którzy widzieli copy, częściej konwertowali, jakkolwiek sobie zdefiniujemy konwersję, czy to będzie wypełnienie formularza, czy sprzedaż, czy np. czerwony przycisk zadziałał lepiej niż zielony. Czyli możemy sprawdzać różne wersje tego samego, np. różne wersje kolorystyczne strony, różne wielkości przycisków na stronie, różne grafiki reklamowe i sprawdzić po prostu, co działa lepiej.

Największym błędem w testach A/B jest kończenie ich przed czasem. Mamy jakieś założenia, że np. test A/B będzie trwał 30 dni i z wzoru na liczebność próby policzyliśmy, że musi przez niego przejść tyle i tyle osób, ale kończymy go wcześniej, bo w sumie widzimy, że zdecydowanie ta druga wersja działa lepiej, więc nie ma co dalej czekać.

Jest to duży błąd, bo wtedy popełniamy błąd pierwszego rodzaju, czyli taki podstawowy błąd we wnioskowaniu statystycznym, kiedy to pojawia nam się w danych coś, co tak naprawdę nie ma miejsca. Czyli w tym wypadku wyciągamy wniosek, że wersja B konwertuje lepiej, ale tak naprawdę one działają dokładnie tak samo.

Myślę, że warto tu wspomnieć, że z jednej strony jest wyliczanie tych liczb, stosowanie pewnych wzorów statystycznych, ale żyjemy w czasach, kiedy ludzie przygotowali przepiękne kalkulatory i te rzeczy się dzieją bardzo łatwo. Nie ma co się przerażać, bo żeby dobrać te liczby, nie trzeba kończyć doktoratu. Wystarczy kliknąć w link.

Oprócz tego, że mamy kalkulatory, to większość programów i tak to wyliczy za nas. Nie musimy się tym martwić.

W kontekście A/B testu, pamiętam jak jakiś czas temu, jak dopiero zaczynałem to robić, to dla mnie było odkryciem robienie na początek A/A testów. Wtedy okazało się, że dobranie tych grup spójnie, nie jest aż takie trywialne.

Czyli tak naprawdę dzieliłem te grupy na dwie części i pokazywałem im dokładnie to samo. Spodziewałem się, że statystyka musi mi udowodnić (załóżmy, że liczby dobrze dobrałem), że owe grupy są identyczne. Wbrew pozorom to na początek zwykle nie wychodzi.

Ale robiłeś ten test na całej populacji czy na jakiejś próbie?

Na większej grupie. Problem polegał na tym, że sposób, w jaki dzielimy te osoby, nie jest tak łatwo zaprogramować, bo np. Zośka, która wchodzi przez tablet, iPhone, komputer, za każdym razem może dostawać różne informacje.

Ostatecznie to się sprowadza do tego, że ta grupa jest podzielona w sposób zły (tzn. nie jest jednorodna). Musi być tak, że do jednej i drugiej grupy muszą trafić spójne obiekty czy osoby, w pewien sposób nie wyróżniające się. Nie może być tak, że do jednej grupy trafili emeryci, a do drugiej nastolatki.

Wiadomo, ale właśnie dlatego przydzielamy ludzi losowo. My jako badacze (bo tak naprawdę, jeśli implementujemy taki test, to jest to forma badania), nie mamy żadnego wpływu na to, kto zobaczy wersję A, a kto wersję B. Jest to taka forma kontroli statycznej, czyli właśnie próba okiełznania tych innych zmiennych i czynników, które mogą mieć znaczenie dla zmiennej zależnej (w naszym wypadku – dla konwersji).

Toteż tutaj ta losowość jest kluczowa i dlatego Cię zapytałam, czy przeprowadzałeś ten test na całej populacji (czyli absolutnie wszystkich, którzy np. weszli na tę stronę) czy np. tylko przez 3 dni. Wtedy to również nie jest losowa próba, bo może przez te 3 dni coś się działo, np. były matury, a Ty akurat sprzedajesz e-booki, jak się szybciej uczyć i zdecydowanie więcej maturzystów niż zwykle weszło na Twoją stronę.

Absolutnie żaden test A/B i żadna analiza danych nie jest prosta. Jest zawsze mnóstwo czynników, o których musimy pomyśleć, ale to też jest zupełnie ok, jeśli sobie eksperymentujemy, próbujemy znaleźć odpowiedź na jakieś pytania i nam to nie wychodzi. Największą zaletą takiej podstawowej analityki jest to, że dostęp do tych wszystkich danych jest darmowy.

Jedyne co tracimy, to czas, który może być i jest szalenie cenny. Jednakże to nie jest tak, że podejmujemy jakieś podstawowe próby analizy i żeby ich dokonać, musimy od razu zapłacić kilkaset dolarów. Absolutnie w każdej wersji, nie ważne po co my używamy takiej analizy danych czy wnioskowania, dajmy sobie przestrzeń na to, żeby się czasem mylić. Ja też się czasem mylę, wyciągam pochopne wnioski, też daję się czasem wpuścić w maliny.

To nie jest tak, że jak coś tam nam nie wyjdzie to powinniśmy rzucić to na zawsze i już nigdy w życiu na to nie spojrzeć, bo jesteśmy głąbami matematycznymi. Tylko dajmy sobie przestrzeń na to, żeby właśnie eksplorować, sprawdzać i uczyć się na własnych błędach.

To popieram, popełnianie błędów jest najlepszym rozwojem pod warunkiem, że wyciągamy wnioski. Jak słyszę o testach A/B, to od razu czuję taki wewnętrzny szacunek do tego, bo żeby to zrobić dobrze, to trzeba to robić nie dorywczo.

Nie da się tego zrobić szybko. Szybki test A/A podnosi trochę szacunek do tego, żeby nauczyć się robić to dobrze, ale jak już złapiesz, o co chodzi, to wtedy naprawdę daje to bardzo fajne odpowiedzi. Nagle się okazuje, że pewne rzeczy, które firma robiła przez pół roku, tak naprawdę w ogóle nie wpływają na sprzedaż. W sposób logiczny nasuwa się pytanie, czy mogliśmy tego nie robić?

Jeszcze jest taki jeden obszar, o który chciałem Cię zapytać. Na Twoich prezentacjach często opowiadasz o ankietach. W jaki sposób takie ankiety konstruować? Jak zadawać pytania? Czy sposób sformułowania pytania wpłynie na wynik? Ostrzegasz też, że jeżeli zachęcisz swojego słuchacza, uczestnika, klienta, żeby ankietę wypełnił, bo dajesz mu jakiś bonus, to zwiększasz szansę na bzdurne wyniki i też trzeba być na to wyczulonym. Jak zrobić to dobrze?

Byłabym ostrożna, z mówieniem „na pewno”, że np. na pewno źle wypełni, jak damy mu jakiś gratis albo wypełni na “odwal się”. To nie jest tak. W niektórych sytuacjach danie osobie czegoś za wypełnienie ankiety, zadziała bardzo dobrze. W innych nie będzie to najlepszym pomysłem. Podawałam ten przykład dlatego, że musimy pamiętać, że choćbyśmy zaoferowali ludziom coś najlepszego na świecie za wypełnienie ankiety, to jeśli ta ankieta jest źle skonstruowana, to oni jej nie wypełnią.

Nie będzie to wynikało z ich złej woli, tylko jeśli nadwyrężymy trochę ich cierpliwość (np. poprzez zadawanie pytań, których nie da się zrozumieć albo poprzez zadawanie 300 pytań i liczenie na to, że ktoś spędzi 2 godziny swojego życia, odpowiadając na naszą ankietę) to nic nam nie pomoże. Wiem, że to nie zabrzmi zbyt dobrze, ale w mojej książce “Statycznie rzecz biorąc” są 3 rozdziały dotyczące badań ankietowych.

Jestem trochę dumna z tego, jak je skonstruowałam dlatego, że jestem absolutną psychofanką badań ankietowych. To jest moje ulubione zlecenie, gdy dostaje od firmy briefing, że chcą przeprowadzić badania ankietowe i jak to zrobić dobrze. Dlaczego aż 3 rozdziały? Większość ludzi myśli: „Dobra, biorę kartkę papieru, szkicuję pytania i rozdaję”. No nie, w badaniach ankietowych najpierw musimy pomyśleć o dobraniu odpowiedniej próby, czyli kto naszą ankietę dostanie.

Później powinniśmy pomyśleć, jak prawidłowo skonstruować te pytania i tu czyha na nas bardzo dużo pułapek, które są bardzo dobrze zbadane. Mamy np. efekt kolejności pytań, czyli to, które pytanie pojawi się po którym, może w jakiś sposób wpłynąć na odpowiedź. Oczywiście na to też mamy remedium. Możemy np. wyświetlać pytania losowo, gdy jest taka możliwość.

Jest mnóstwo błędów poznawczych, na które nasi respondenci są narażeni, np. efekt społecznych oczekiwań, czyli że odpowiadają nie tak jak jest zgodnie z prawdą, tylko tak jak myślą, że jest pożądane społecznie. Mówię o tym wszystkim, bo to jest naprawdę bardzo szeroki temat. Ja np. na Infoshare miałam wystąpienie dotyczące badań ankietowych i ono przybliżyło te wszystkie niebezpieczeństwa, związane z projektowaniem złych kwestionariuszu – ale te 20 minut to zdecydowanie za mało. Są całe podręczniki, jak przeprowadzać takie badania.

Warto to robić trochę skuteczniej i trochę lepiej niż: „Mam 5 minut to naszkicuję sobie na kartce 5 pytań, rozdam rodzinie i na tej podstawie będę wiedzieć, czy wprowadzić nowy produkt na rynek”. Można się zdziwić i stracić bardzo dużo pieniędzy.

Wystąpienie Janiny dotyczące dotyczące badań ankietowych.

A propos prezentacji o ankietach przypomnę pewne slajdy. Na jednym pojawiło się zadanie: „Opisz siebie” i to zwykle wypełniało 85% osób i 2-4 słowa średnio się pojawiały w opisie. Jak pytanie brzmiało: „Opisz siebie dokładnie w 7 słowach” to wzrosła ilość słów z 2-4 do 4,5 i 98% osób to wypełniło.

Inny przykład miał jeszcze lepsze wyniki. Tam pytanie brzmiało: „Wymień Twoje ulubione potrawy” i wtedy padała średnia 6 słów, a przy pytaniu: „Wymień Twoje ulubione potrawy dokładnie w 2 minuty”, średnia słów wyniosła 35. To robi efekt wow, więc polecam obejrzenie tej prezentacji. Jest bardzo ciekawa, można się wiele nauczyć i zastosować.

Nawiązując nieco do prezentacji, spróbujmy powiedzieć, czym jest tzw. psychografia. Dlaczego ona może być pomocna? Później nawiążmy do raportu Deloitte. Chciałbym rozwinąć ten temat o rozjazd wyników w ankietach. Później jak sprawdzisz de facto, to jest nieco inna rzeczywistość, niż nam mogła się wydawać.

Psychografia to jest bardzo bliska kuzynka demografii. Jest to taki trochę rys psychologiczny i behawioralny naszych odbiorców, czyli np. czym się interesują. Częścią psychografii jest to, jakich wyborów dokonujemy, czym jesteśmy zainteresowani.

Marketing online daje nam wspaniałe możliwości, by to sprawdzać. Możemy to sprawdzić na Facebooku, w Google Analytics. Możemy, jeżeli przeprowadzamy badania ankietowe, również o to zapytać i stworzyć profil psychograficzny osoby. Problem polega na tym, że zawsze musimy mieć z tyłu głowy, że nie zawsze wiemy, jaka jest jakość tych danych zastanych.

Mówiłam o tym w kontekście raportu Deloitte, który to rynku w Wielkiej Brytanii postanowił sprawdzić. Zwyczajnie wziął jakąś grupę danych zastanych o swoich klientach i następnie każdego z tych klientów spytał: „Ok, to jest to, co wie o Tobie Internet. Czy to prawda?”. Tam okazało się, że istnieje bardzo wiele zmiennych, które są kluczowe dla naszych analiz i wniosków, które bardzo często są nieaktualne albo nieprawidłowe, np. „czy masz dzieci, czy nie?” Kluczowa zmienna dla naszych produktów. Tam, o ile pamiętam było jedynie 50% trafności.

Ja mam tu pod ręką. Tam było dla 2/3 – maksymalnie 50%, a dla 1/3 – maksymalnie 25%.

Patrz, ile danych było nieaktualnych lub nietrafnych. Wiemy, że coś takiego istnieje, bierzemy pod uwagę, że zwłaszcza te dane psychograficzne, które dostarcza nam Facebook czy Google Analytics, mogą być niedoskonałe. Mamy to z tyłu głowy, ale to nie znaczy, że musimy je wyrzucić do kosza. Musimy starać się wyłuskać z tego całego jeziorka danych te najwyższej jakości.

To, co udowodniło nam Deloitte, to nazywa się signal to noise ratio, też o tym mówię w prezentacjach. Czyli to jest właśnie taki stosunek danych, które są nieprawidłowe, są pewnym szumem (np. ktoś się zapisał do naszego newslettera 5 lat temu i wciąż tam jest, ale tak naprawdę w ogóle naszych maili nie czyta) do danych, które rzeczywiście coś sygnalizują, czyli niosą nam jakieś informacje.

Czasem nic z tym nie zrobimy, jeśli Facebook nam mówi, że nasi użytkownicy mają takie i takie zainteresowanie, to możemy się starać to zweryfikować np. badaniem ankietowym (to też będzie niedoskonałe, ale zawsze coś), ale czasem możemy to sprawdzać, np. czyśćmy co jakiś czas swojego newslettera i usuwajmy ludzi, którzy od 5 lat nie otworzyli żadnego maila, bo tracimy na nich pieniądze.

Nie potrzebujemy mieć takich ludzi w bazie, z pożytkiem również dla tych ludzi, ponieważ nie będziemy im zaśmiecać skrzynki. Co jakiś czas, sprawdzajmy jakość swoich danych. Sprawdzajmy, na ile mamy aktualne dane o klientach. Na ile to, w jaki sposób dane urządzenie pobiera te dane, jest prawidłowe i na ile możemy temu ufać.

Wszystko, o czym dzisiaj mówimy, sprowadza się tak naprawdę do tego, jakby mówić, że kochamy te komórki Excela, ale od tych komórek Excela znacznie ważniejsze są nasze szare komórki i żeby o wszystkim co robimy, mierzymy – pomyśleć. Wracamy do Twojego pierwszego pytania, że statystyka jest narzędziem, ale jeśli nie używamy jej mądrze i nie będziemy myśleć o tym, co robimy, co analizujemy, jakie wnioski wyciągamy, to możemy się przejechać na tym.

W sprzedaży, w zespołach marketingu ostatnio dość popularne się stało robienie person, czyli stwierdzenie, jak wygląda potencjalna grupa klientów. Zwykle to działa tak, że otwieramy sobie Facebooka, patrzymy np. jakie tam są zainteresowania.

Twoja prezentacja również była na ten temat, kiedy browar był targetowany do złej grupy (obok był akademik). Jak oceniasz na dzień dzisiejszy, na ile sensowne jest tworzenie person w sposób manualny? Co możemy zrobić, żeby podnieść jakość tych person?

Tak, jest zasadne. Wiem, że ja korzystam dużo z osiągnięć techniki i różnych narzędzi analityki danych, ale jeśli chodzi o marketing to absolutnie nie neguję takich bazowych rzeczy, o których musimy myśleć, czyli np. tworzenia person czy strategii marki. Nigdy nie powinniśmy z tego rezygnować, bo żeby mieć co mierzyć, to musimy mieć jakąś sensowną jakość danych.

Dobrze by było, żeby mieć jeszcze jakiś sensowny, przemyślany biznes, bo pamiętajmy, że to nie jest też tak, że bierzemy wszystkie dane i mierzymy co popadnie, tylko to musi być zgodne z celem naszej marki i z naszą strategią. Tak, tworzenie manualne person, tworzenie szczegółowej strategii marki, zastanowienie się nad całą filozofią – jak najbardziej tak. To nie jest tak, że powinniśmy teraz wyrzucić za okno wszystkie podręczniki Kotlera.

Nie, wręcz przeciwnie, przyjrzyjmy im się z dużą dozą miłości. Czytajmy bloga Pawła Tkaczyka. Musimy zacząć od rzeczy bazowych w tworzeniu i budowaniu swojego biznesu, a potem przejść do zaawansowanych analiz.

Czyli pewnie tak jak to zwykle bywa, wygrywa pewien miks. Mistrz musi poznać wszystkie dziedziny i wybrać te najlepsze, które działają w tym konkretnym kontekście.

Często mówisz o tym, aby sprawdzać informacje w źródłach. Zwykle to wynika z tego, że faktycznie sporo osób pomija ten krok. Mnie martwi to, że jest pewien problem z tymi źródłami. Problem jest taki, że świat w tej chwili funkcjonuje w dość ciekawy sposób. Mam teraz na myśli to, że jest inna metryka sukcesu, tzn. naukowcom tak naprawdę zależy na tym, żeby dostać granty. To się stawia na pozycję numer jeden.

No nie, to nie jest prawda. Nam nie chodzi o to, żeby dostać grant. My potrzebujemy dostać grant, by móc badać to, co chcemy.

W teorii jest właśnie tak jak powiedziałaś, ale de facto jak to badam, to zauważyłem, że jest pewne uzależnienie od tego, że dąży to w takim kierunku, że nie opłaca się, żeby te badania skończyły się porażką, bo jak się skończą porażką to ciężej będzie się obronić z tymi grantami.

Nie chcę teraz dyskutować, czy to, co powiedziałem jest prawdą, czy nie. Bardziej chcę zapytać – jak to działa u Ciebie? Jeżeli chcesz zbadać jakiś wątek i znajdujesz informację, np. ta informacja jest publikacją naukową, czy to już wystarczy, żeby Janina zaufała tej informacji, czy jeszcze są jakieś kryteria, dzięki którym to weryfikujesz i są takie przypadki, kiedy odrzucasz?

Czyli to, że jest taka publikacja, to nie jest wystarczające, żebyś zaufała i posługiwała się tą informacją w przyszłości?

Tu są dwie rzeczy. Po pierwsze – nie, nie jest tak, że potrzebujemy jakiegoś konkretnego wyniku, żeby dostać grant, bo grant dostaje się na przeprowadzenie badania. To jaki to będzie wynik, w żaden sposób sposób nie wpływa na to, czy dostanę te pieniądze czy nie. Dostaję je przed badaniem.

Druga rzecz jest taka, że zawsze powtarzam, że nawet jeśli coś nam w badaniu nie wyjdzie, to to nie jest porażka. Myślmy o tym w ten sposób, że np. wychodzi mi, że moje live’y w żaden sposób nie przekładają się na konwersję.

Teoretycznie jest to porażka, ale tak naprawdę nie, bo to też jest informacja, która pozwoli zoptymalizować moje działania w taki sposób, aby przynosiły zyski. Tutaj też zawsze podaję taki przykład, że jeśli mamy próbę kliniczną nowego leku i wychodzi nam, że on nie działa, to to nie jest porażka.

Informacja, że on nie działa, również jest informacją, że nie musimy tracić np. pieniędzy czy czasu pacjentów na podawaniu im leku, który nie przyniesie żadnych skutków tylko, że musimy szukać dalej. To nie jest tak, że szukamy tylko dobrych wiadomości. Jasne jest to, że chcielibyśmy, jak analizujemy dane dotyczące swoich działań marketingowych, zawsze widzieć, że wszystko się udaje i wszystko jest super. Ale nawet jeśli nie, to to jest informacja i potrafimy sobie z tym poradzić.

Jeśli chodzi o źródła, to jest to coś, o czym mówię bardzo często w świecie marketingu i nie tylko. Sprawdzajmy, kto wykonał dane badanie oraz na kim zostało przeprowadzone, w jaki sposób. Dlatego ja Cię zapytałam, w jaki sposób sprawdziłeś to, że ci badacze i granty funkcjonują, tak jak funkcjonują.

Sprawdzajmy, jeśli to był kwestionariusz np. ankiety, jakie pytania zostały zadane. Pamiętajmy, że wnioski to nie paprotki, więc nie można ich przesadzać z miejsca na miejsce. Istotne jest na jakim rynku, w jakim kraju i kiedy zostało przeprowadzone dane badanie. Jest cała checklista rzeczy, które musimy sprawdzić, żeby móc ocenić, czy ten wniosek jest rzetelny czy niekoniecznie, czy to teoria spiskowa czy badanie naukowe.

Myślę, że powinniśmy wyrobić w sobie taki nawyk. Obojętnie czy czytamy jakiś raport branżowy, czy jakiś artykuł na jakimkolwiek portalu. Niekoniecznie nawet branżowy, ale dotyczący świata czy jakiejś tam rzeczywistości społecznej. Miejmy taką checklistę w głowie i zawsze zadawajmy sobie te kilka podstawowych pytań.

Z tego co rozumiem, domyślnie stopień zaufania u Ciebie do publikacji naukowych jest dość wysoki, ale też trzeba to sprawdzać. Dla mnie to jest ważne, bo szczerze mówiąc, czasem czuję mocną samotność polegającą na tym, że jak czytam coś, zadaję sobie pytanie – czemu mam temu ufać?

Ten kontekst, zwykle pomijany, jest mega istotny. Teraz nawet nie chodzi o marketing, a o wszystkie tematy – chociażby pandemia, która się rozwija. W jaki sposób czerpać informacje i w jaki sposób mieć pewność, że mają one sens? Nie wszystko możesz zweryfikować. Nie masz laboratorium, w którym możesz powtórzyć ten sam wynik, więc stąd ta wątpliwość. Jestem ciekaw, jak Ty do tego podchodzisz.

To nie jest tak, że jeśli widzę, że artykuł jest naukowy, to w ciemno myślę sobie, że musiał być rzetelny. Niestety, już samo posiadanie tytułu naukowego nie oznacza, że ktoś jest rzetelny. Mamy też w nauce kilka spektakularnych przykładów przekłamań. Uważam, że zawsze możemy to zweryfikować, bo nawet jeśli jakaś gazeta nie podaje szczegółowej metodologii, to podaje skąd zaczerpnęła jakieś informację (np. z danego badania).

Wtedy wchodzimy na Google Scholar i szukamy artykułu źródłowego. To jest coś, o czym zawsze mówię. Możemy starać się wyciągnąć wniosek na podstawie czegoś, co pojawiło się na jakimś generycznym portalu i fajnie, że się pojawia, bo naukę też trzeba popularyzować. Nie jest to tak, że wszyscy muszą do śniadania robić przegląd artykułów naukowych. Ale jak coś nas wyjątkowo zainteresuje to zachęcam, byśmy sprawdzili to źródło w Google Scholar.

W sumie nawet nie, jak nas zainteresuje, ale nawet jeśli coś nas zdziwi i stwierdzimy, że to nie jest możliwe. Wtedy zajrzyjmy do raportu źródłowego i sprawdźmy to.

Jaki najpiękniejszy wykres widziałaś w swoim życiu?

Nie wiem, ja lubię wszystkie wykresy. Zależy, co chcę z nich wyczytać. Raczej na odwrót jakbyś mnie zapytał, to ja mam cały folder złych wykresów takich, które manipulują i wprowadzają w błąd. Jeśli chodzi o mój ulubiony, to nie mam ulubionego. Zawsze sprawia mi dużo przyjemności patrzeć na dobre przykłady wizualizacji danych.

Dobrze, dziękuję bardzo za udzielone odpowiedzi. Powiedz jeszcze coś więcej na temat, nad którym ostatnio dłużej pracowałaś, czyli Twoją książkę. Komu ją polecasz? Co tam można znaleźć?

Książka ma tytuł „Statystycznie rzecz biorąc”, co trochę naprowadza, o czym jest. Ma też podtytuł, który naprowadza jak jest napisana – „Ile trzeba zjeść czekolady, żeby zdobyć Nobla”. Tak sobie wymyśliłam jej strukturę, że rzeczywiście tłumaczę tam takie podstawowe zagadnienia tego, jak przeprowadzać badania naukowe, jak myśleć i wnioskować statystycznie. Od zupełnych podstaw do regresji.

Jest to książka popularnonaukowa dla absolutnie każdego. Moim celem było nauczyć ludzi, w jaki sposób weryfikować informacje. Jeśli chcą przeprowadzać badania, to jak przeprowadzać je prawidłowo. Również wykształcić taki nawyk, taką checklistę w głowie, jeśli gdziekolwiek o czymś czytamy, to w jaki sposób zweryfikować, czy to ma sens czy nie.

Z drugiej strony, głównie zależało mi na tym, żeby to rzeczywiście była książka dla każdego. Po pierwsze, żeby napisana była takim językiem, że absolutnie każdy zrozumie i z tego co dostaję feedback, czytają ją nawet nastolatki i bardzo im się podoba i jest dla nich zrozumiałe. Z drugiej strony, dla każdego w sensie, że nie ważne, czym się zajmujemy w życiu myślę, że każdy znajdzie tam coś przydatnego, co albo mu ułatwi życie prywatne, albo mu ułatwi życie zawodowe, albo i to i to.

Janina czyta fragment swojej książki 🙂

Bardzo dziękuję za poszerzenie tej informacji, dla kogo jest ta książka i to, że osoby młode są zainteresowane, bo to jest bardzo ważne. Mam takie wrażenie, że jest taka trochę skrzywiona społeczność pod kątem nauk ścisłych.

Oczywiście, nie robiłem badań i mogę się mylić, ale jakoś matematyka i nauki ścisłe stają się mniej popularne w moim odczuciu. Podejrzewam, że takie książki popularnonaukowe zwiększą popularność tej dziedziny.

Dzięki wielki Janina za rozmowę i życzę Ci wszystkiego dobrego.

Dziękuję pięknie.

Tematy związane ze statystyką i tematy powiązane, czyli to, co już wędruje w uczenie maszynowe, to jest tak naprawdę już nasza rzeczywistość. Osoby, które wcześniej robiły zupełnie coś innego i są z zupełnie innej branży, też potrzebują mieć pewne narzędzia, aby podejmować decyzje.

Narzędzia te pojawiają się w różnych momentach naszego życia, np. posługujemy się samochodem albo autobusem, żeby dojechać do pracy i to już nikogo nie dziwi. Podobnie, elementy związane ze statystyką albo wszystkie modele, które już powstały w uczeniu maszynowym, bo uczenie maszynowe mocno się inspirowało na statystyce i to czasem się też przecina.

To jest ta rzecz, która będzie konieczna, żeby wyciągać wartościowe informacje i podejmować trafne decyzje. Oczywiście, tutaj zawsze jest obarczona błędem. Nie można liczyć na to, że to jest takie narzędzie, które mówi w sposób prosty 0 czy 1, kupi czy nie kupi. To jest praca z prawdopodobieństwem i wymaga dużego szacunku. Trzeba ostrożnie do tego podchodzić, ale ten kto próbuje, zaczyna rozumieć, jak tego używać.

Później już ciężko wyobrazić sobie życie bez takich narzędzi jak statystyka. Polecam sprawdzić, spróbować i rozwijać swoje umiejętności w tym kierunku, bo może się okazać, że wiele decyzji, które podejmujesz, podniesie swoją jakość, jeżeli będziesz robić to, wykorzystując statystykę.

Artykuł Statystyka w biznesie i marketingu – opowiada Janina Bąk pochodzi z serwisu Biznes Myśli.

Łukasz Prokulski – dane i analizy

Vladimir — Mon, 06 Jan 2020 04:00:46 +0000

Cześć. Witam Cię w 72. odcinku podcastu Biznes Myśli. Dzisiejszym gościem jest Łukasz Prokulski. Jeżeli interesujesz się danymi, ich analizą, wizualizacją to myślę, że znasz Łukasza. Od bardzo dawna chciałem z nim nagrać podcast, tylko ciągle nam się to nie udawało z różnych powodów.

Zanim przejdziemy do naszej rozmowy, chciałbym przypomnieć, że 14 marca (Dzień Liczby Pi) odbędzie się, po raz pierwszy w historii Biznes Myśli, spotkanie ze słuchaczami podcastu. Tego dnia miną 3 lata, jak podcast istnieje. Dlaczego warto się pojawić?

To będzie zamknięte spotkanie dla stosunkowo małej grupy osób, żeby się poznać i nawiązać kontakty. O godzinie 12:00 startujemy, więc można będzie przyjechać z różnych zakątków Polski. Specjalnie wybraliśmy taką godzinę, aby możliwy był dojazd także z bardziej oddalonych miejsc – spodziewamy się m.in. gości z Gdańska. Kończymy oficjalnie o 18:00, ale później będzie również szansa na kontynuację rozmów.

W trakcie tego spotkania będzie dużo merytorycznej wiedzy. Zapraszamy też gości, którzy pojawili się już w podcaście. Będzie dużo networkingu, dużo inspiracji. Również będą dyskusje na temat tego, co można jeszcze zrobić rozwijając podcast (a może coś więcej niż podcast?), żeby wartość merytoryczna była jeszcze większa i jeszcze bardziej trafiała do Ciebie. Zapraszam, warto być.

Bilet możesz dostać tutaj.

Teraz przechodzimy do dzisiejszego odcinka podcastu – rozmowa z Łukaszem.

Cześć Łukasz! Przedstaw się – kim jesteś, czym się zajmujesz, gdzie mieszkasz?

Cześć Vladimir. Jestem Łukasz Prokulski. Jestem analitykiem danych, człowiekiem, który robi głównie jakieś wykresy, raporty. Przynajmniej tak to wyglądało w ciągu ostatnich kilku lat mojej kariery zawodowej. Mieszkam w Warszawie, gdzie pracuję w dużej instytucji finansowej. Doświadczenie mam głównie przy projektach IT, gdzie przeważnie zajmowałem się wyciąganiem danych na temat tego, ile czasu trwają te projekty, ile pochłaniają zasobów. Przygotowywałem z tego wszelakie zestawienia z próbą optymalizacji co robić, żebyśmy projekty kończyli szybciej.

Powiedz co ostatnio ciekawego przeczytałeś?

Ostatnio wreszcie udało mi się skończyć książkę „Sapiens. Od zwierząt do bogów”. Strasznie długo mi to szło, ale to chyba ze względu na to, że mam dosyć mało czasu (poza pracą i rodziną) na takie spokojne zajęcie się czytaniem. To jest książka, której rekomendacje krążą w naszym środowisku IT od jednej do drugiej osoby. W sumie zainteresowałem się nią po warsztatach, które odbyły się w 2018 r. Gdzieś na konferencji ktoś ją polecił i tak po dłuższym czasie trafiła w moje ręce. Polecam również i ja.

Widziałem Twoje komentarze na Facebooku: „DNA to szatan”.

Tak. Co kilka stron są takie zdania perełki w tej książce. Skłania to do przemyśleń o tym, jak się rozwijaliśmy jako gatunek i co nas czeka w przyszłości.

Skąd w Tobie pasja do danych i ich analizy? Jak zrodził się prowadzony przez Ciebie blog o danych i analizie? Przy okazji sprawdziłem, kiedy go zacząłeś – 4 stycznia 2005 r. Post wyglądał tak: „Mam swoją domenę. Mam swój host. Założyłem tego bloga. Zobaczymy, czy coś z tego wyjdzie…”.

I wyszło całkiem fajnie. Dzisiaj też o tym będziemy rozmawiać. Widać, że cały czas dodajesz kolejne artykuły. Ostatni wpis (jak nagrywałem ten odcinek) pojawił się 13 grudnia, czyli nie tak dawno temu. Czuć, że masz determinację, więc porozmawiamy trochę o tym. Ale najpierw – skąd ta pasja?

Jestem z wykształcenia fizykiem jądrowym. Śmieję się zawsze, jak mówię, kim jestem z wykształcenia, że pracuję w jednej z wielu polskich elektrowni atomowych. Pewnie gdzieś te studia i bardzo duża ilość laboratoriów, gdzie trzeba było przygotowywać różne dane, analizować z różnych pomiarowych przyrządów doprowadziły mnie do tej pasji.

Później w karierze zawodowej trafiły mi się miejsca, gdzie zajmowałem się dużą ilością danych. Może nie w takim rozumieniu, jak obecnie big data, ale to były setki czy tysiące wierszy w Excelu z 50 kolumnami. W którymś momencie Excel przestał mi wystarczać.

Wpadła mi w ręce książka o języku R. Zobaczyłem, że to jest dosyć proste dla mnie do zaadaptowania na własne cele. I tak po prostu testowałem – jestem zdania, że najlepiej uczyć się poprzez ćwiczenia i małe projekciki. Chcąc nauczyć się rysowania mapki z jakimiś informacjami na niej szukałem danych przez ich analizowanie, próbowanie i wizualizację – w ten sposób uczyłem się czegoś nowego. Stwierdziłem, że to może być też ciekawe dla innych.

W sumie nie było żadnych materiałów po polsku na ten temat. Stwierdziłem: dlaczego nie napisać czegoś na blogu? Tak z tygodnia na tydzień powstawały nowe posty i trwa to do dzisiaj. Zbudowałem wokół bloga fanpage’a na Facebooku – kręci się to dalej.

Jeszcze raz mogę Ci pogratulować, jeżeli chodzi o determinację, bo 14 lat to jest długi okres czasu. Jak teraz nagrywam podcast 3 lata, to wiem, jaki wysiłek trzeba włożyć, żeby odcinki pojawiały się w sposób regularny. To jest kawał pracy.

To trochę nie tak, bo ja założyłem tego bloga i kupiłem domenę (rzeczywiście 14 lat temu) z myślą o tym, że coś chciałbym napisać od siebie. Na początku pisałem o tym, co zobaczyłem w kinie, jakiej muzyki posłuchałem, dawałem komentarz do wydarzeń około internetowych. Później miałem strasznie długą przerwę, a o analizie danych zacząłem pisać 2-3 lata temu. Więc nie liczyłbym, że mój blog na temat analizy danych ma 14 lat.

Próbowałem przypomnieć sobie, kiedy po raz pierwszy trafiłem na Twój blog. Było to jakiś czas temu, ale myślę, że tak 3 lata temu (może trochę więcej), ale na pewno pisałeś już o analizie danych. Moją uwagę przykuła jakość postów, to jak dogłębnie grzebiesz w tych danych pokazując kolejne wykresy. Jeżeli ktoś nie słyszał o tym blogu, to bardzo gorąco zapraszam.

Mówiąc o danych – często pojawia się takie stwierdzenie, że są dane dobrej i złej jakości. Ta druga kategoria bardzo przeszkadza firmom, żeby efektywniej działać, podejmować właściwe decyzje, być bardziej innowacyjnymi. Czy mógłbyś wyjaśnić (najlepiej poprzez przykłady), kiedy możemy mówić, że dane są dobrej, a kiedy złej jakości?

Dobrej jakości dane muszą być pewne. Załóżmy, że zbieramy dane z czujników np. o temperaturze, wilgotności powietrza. Jeśli mamy pewność, że te instrumenty pomiarowe stabilnie pracują, nie mają żadnych momentów, kiedy przestają zbierać dane, mierzą tę prawdziwą temperaturę czy wilgotność – to możemy mówić o tym, że mamy dobre dane.

Dane są dobre, jeśli są ciągłe i w odczytach powiedzmy co 1 minutę rzeczywiście te odczyty nie różnią się od siebie. Jeżeli nie ma takiej sytuacji, że w ciągu pierwszej minuty mamy 10 stopni, w ciągu następnej 50, natomiast w trzeciej minucie odczyt wskazuje 10 stopni, to powinno wszystko być w porządku. W przeciwnym wypadku należy podejrzewać, że coś jest nie tak z instrumentem pomiarowym.

To troszeczkę też wyjaśnia, czym są złe dane. “Złe” bardziej w znaczeniu “zniekształcone”. Dużo też jest danych zbieranych przez różne instytucje bez pomysłu na to, co z nimi zrobić. Mamy taki strumień danych czy pisany wolnym tekstem, w plikach excelowskich czy w innych źródłach (zdjęciach, filmach).

W sytuacji kiedy te dane są nieustrukturyzowane w żaden sposób, mogą być złymi danymi. Mamy Excele z raportami sprzedaży z kilku miejsc w Polsce, z różnych oddziałów, z kolejnych miesięcy, ale każdy wygląda inaczej. To są troszeczkę złe dane. One mogą mieć merytoryczną wartość, ale do późniejszej obróbki nie są tak bardzo przydatne. Później trzeba się nad nimi namęczyć aby przygotować te dobre dane.

No właśnie. To jest ciekawa rzecz. Wydaje się, że większość firm, jeżeli sprawdzić jakość danych, które posiadają w tym momencie, to jest właśnie to, co opisałeś: są różne oddziały, różne historie w czasie się wydarzyły (był jeden zespół, drugi zespół, jedna osoba pracowała, odeszła, potem kolejna).

Myślę, że w wielu firmach pojawia się właśnie to kryterium oceny jako złej jakości dane. Co z tym zrobić? Jak sprawić, żeby przejść od danych złej do dobrej jakości? Masz przydatne triki, które się sprawdzają u Ciebie? Czy to jest zawsze tak, że to jest sztuka i ciężko to opisać jednoznacznie?

To zależy od momentu zbierania wymagań do takiej analizy. Jeśli powiemy sobie: „Ok, od dzisiaj będziemy zbierać dane na jakiś tam temat”, to analityk, który później z tymi danymi będzie pracował, może założyć, jakich rzeczy potrzebuje, co powinno być zbierane i w jakiej formie. Czy w formie wpisów do bazy danych, plików płaskich typu *csv czy Exceli? To już jest kwestia wtórna. Na “dzień dobry” takiego zbierania danych możemy określić, że zbieramy konkretne informacje.

Jeśli już przechodzimy na taki projekt z danymi zebranymi przez pewien okres czasu, z danymi, które już istnieją i nie możemy nałożyć na nie jakiś wymagań – to zaczyna się praca pod tytułem “trzeba to oczyścić i przygotować”. Tutaj chyba nie ma złotych środków. Możemy oczekiwać, że liczby będą w formie liczbowej (liczbami całkowitymi czy dziesiętnymi), teksty będą w formie tekstowej bez żadnych ozdobników takich jak znaczniki HTML, a co z tym zrobić dalej to już kwestia problemu.

Niestety nie da się powiedzieć, że przy każdym zadaniu trzeba wykonać następujące kroki. One są podobne za każdym razem, ale nie ma złotego przepisu.

Spróbujmy może ugryźć to trochę z innej strony, tak żeby jakaś porada się pojawiła i kilka konkretnych punktów. Załóżmy, że teraz mówimy o przyszłości.

Czyta nas osoba decyzyjna i myśli sobie: „zdaję sobie sprawę, że jak do tego nie podejdę w sposób strategiczny, to dane będą złej jakości. Prawdopodobnie muszę coś zrobić, żeby było inaczej”.

Jakiej porady, możesz udzielić takiej osobie? Na co koniecznie warto zwrócić uwagę w momencie, kiedy projektujesz proces zbierania i przechowywania danych, żeby później te dane łatwo było wyciągnąć do analizy i ostatecznie wykorzystać choćby w uczeniu maszynowym lub w podobnych zaawansowanych podejściach? Co zrobić, aby dane były dobrej jakości? Jak najlepiej to zaprojektować?

To zależy od merytorycznego zakresu tych danych. Jeśli mówimy o zebraniu informacji o ludziach, którzy przyszli do naszego sklepu internetowego z jakiejś kampanii reklamowej, to pewnie byśmy chcieli wiedzieć, skąd użytkownik przyszedł, czy przyszedł sam szukając nas w wyszukiwarce, czy kliknął w jakąś reklamę, jaka to była reklama, co na niej było, o której godzinie przyszedł, jakie produkty przeglądał, co kupił, czy kupił w ogóle, ile zostawił pieniędzy.

To są takie rzeczy, na których można zrobić bardzo ciekawą analizę i dobrą segmentację klientów. Załóżmy jednak, że ktoś zapomni o zbieraniu informacji o czasie wizyty w sklepie oraz o konkretnych reklamach, które go na stronę sprowadziły. Wtedy nie wiemy, kiedy warto puszczać reklamy i które się najlepiej sprawdzają (który wariant tekstu, która grafika itd.). Po zebraniu takich danych przez powiedzmy 3 miesiące, przyjdzie analityk, spróbuje zbudować jakieś kategorie tych produktów.

Coś mu z tego wyjdzie, ale czy biznesowo to będzie przydatne na przyszłość do budowania kolejnych kampanii? Mam wątpliwości. Ważne jest to, żeby wiedzieć, co z tymi danymi chcemy zrobić później. Super jest zbierać jak najwięcej danych, ale takie zbieranie danych bez celu to magazynowanie rzeczy tzw. „przydasiów”. Jeśli nie wiemy, po co nam te dane, to oczywiście możemy je zbierać, tylko później szukanie pomysłów na ich wykorzystanie to nie jest to. W biznesie powinniśmy wiedzieć, czego oczekujemy.

Co właśnie jeżeli nie wiemy w tym momencie, ale później przychodzi ktoś, kto ma pewne inspiracje i przemyślenia? Jeśli nie mielibyśmy tych danych, to nie da się ich w jednym ruchu zebrać (rok, dwa, pięć lat wstecz). Tutaj warto byłoby podejść bez żadnych skrajności, żeby z jednej strony zbierać to, czego już potrzebujemy, ale z drugiej strony może być tak, że za chwilę dowiemy się czegoś i wtedy zrozumiemy: „Aha, to warto było zbierać jeszcze coś więcej niż to co zebraliśmy”. Co o tym myślisz?

Tak, masz rację. Być może są jakieś informacje zebrane w danej organizacji i ktoś przychodzi, ogląda sobie te informacje i mówi: „Gdybyśmy wiedzieli jeszcze to, to byłoby nam łatwiej. Ale z tego co mamy, możemy wyciągnąć jakieś wnioski”. W takim przypadku – “zbieramy dane a nie wiemy po co”, najważniejsze jest usystematyzowanie tego zbierania, czyli np. słowniki zamknięte (żeby to nie były rzeczy wpisywane z palca).

Pamiętam, jak przy jakiejś okazji byłem w Urzędzie Miasta i pani, z którą rozmawiałem przy składaniu wniosku mówiła, że Zielona Góra w systemie państwowym przetrzymującym informacje o obywatelach jest zapisana na 16 czy 17 sposobów. To jest przecież jedno i to samo miasto. Raz jest przez „ó”, raz jest “góra” a raz “Góra”, pojawiają się literówki – dramat.

Dlatego warto wprowadzać słowniki do rzeczy, które w naszym obszarze są zamknięte. Oczywiście słownik zawsze można poszerzyć. Lepiej poszerzyć słownik o kolejne miasto niż o kolejną wersję Zielonej Góry. Podobnie jest z innymi kategoriami danych. Liczby niech będą liczbami. Jak one są z przecinkiem, z wartością dziesiętną to niech to zawsze będzie przecinek, a nie wymienne z kropką.

Grunt, aby zawsze to był ten sam znak rozdzielający. Daty niech będą ustalone w konkretnym formacie. Ostatnio miałem taką sytuację, że przygotowałem narzędzie, które z Excela generowało prezentację w *pdf. Tam data dzieliła prezentację na osobne strony z wybranym informacjami. Wszystko było dobrze, póki w Excelu data była excelową datą. W jednym czy dwóch wierszach ktoś napisał “lipiec 2010 r.” jako ciąg tekstowy i mechanizm przestał działać. To są takie sytuacje typu wspomnianej Zielonej Góry.

Teraz klaruje nam się taka jedna mocna prawda – unikajmy możliwości podawania informacji wprost wpisanych przez człowieka. Człowiek jest bardzo niedeterministyczny. Nawet ta sama osoba w różne dni (a tym bardziej miesiące, lata) wpisze na to samo miejsce coś innego. Jeszcze bardziej się to komplikuje, jeżeli mówimy o różnych oddziałach. Warto więc zrobić słowniczki albo różnego rodzaju checkboxy itd.

A propos dat, przypomniało mi się, że w szczególności kiedy pracujesz z danymi mieszanymi czyli np. z Europy i ze Stanów, to wszystko jeszcze bardziej się przekręca. W Stanach używa się innego formatu daty (miesiąc-dzień-rok) i wtedy jak masz 9-10-2019 to nie wiadomo czy to jest 9 października czy 9 września.

Tak, to prawda. Jeszcze przyszło mi do głowy, że jeśli pracujesz w biznesie, w którym na całym świecie w ciągu doby coś się dzieje i ważna jest godzina tego wydarzenia, to warto też trzymać strefę czasową, bo nasza 18:00 to nie 18:00 w Australii.

Tak. Dość często się stosuje UTC (czyli strefa zerowa), więc to też może być wygodne. Warto też pamiętać, że dobrze jest umieć odczytać godzinę, która była w tym momencie fizycznie w miejscu zdarzenia. Przykładowo, jak robimy prognozowanie, to godzina fizyczna ma jednak wpływ, czy to była noc, czy dzień. Nawet godzinne przesunięcie może mieć duże znaczenie dla ostatecznego wyniku.

Kilka porad już nam się utworzyło. Jeszcze jednym ze sposobów zbierania danych jest tzw. scrapowanie, czyli zbieranie danych przy pomocy pajączka. Zauważyłem w Twoich postach kilkakrotnie, że o tym wspominasz. Mógłbyś wyjaśnić, czym jest scrapowanie?

Scrapowanie czy zbieranie informacji ze stron internetowych polega w dużym uproszczeniu na tym, co może zrobić nieskończona liczba praktykantów w naszym biznesie w nieskończonym czasie.

Można napisać do tego skrypty, pajączki. Po co robić powtarzalną pracę ludźmi, skoro mogą to zrobić maszyny? Polega to na tym, że przechodzimy od strony do strony w ramach jednej kategorii produktów, następnie to samo robimy na kolejnych kategoriach i sczytujemy stamtąd interesujące nas informacje (cenę produktu, jego kategorię, kolor czy inne cechy, przechodzimy do kolejnego produktu i robimy to samo) i te dane zapisujemy do późniejszej analizy.

W ten sposób zrobiłem kilka rzeczy np. jak szukałem samochodu, to napisałem post, który wykorzystał dane zebrane z serwisu ogłoszeniowego z samochodami. Jak chciałem wynająć mieszkanie to zrobiłem coś podobnego z innym serwisem. Czy to jest dobre zachowanie? To kwestia dyskusyjna.

Ja staram się nie nadwyrężać serwisów, z których pobieram dane, tj. korzystam w sposób udający przeglądarkę, zwykłego użytkownika. Nie chcę, żeby w ciągu 1 sekundy serwer sklepu czy innego serwisu, musiał odpowiedzieć 30-40 razy na moje zapytania, tylko daję mu odpocząć chwilę. Taka dobra praktyka. Pytajmy co sekundę albo dwie, udając takiego użytkownika, który rzeczywiście w ciągu 1 sekundy nie przeczyta 30 stron (raczej jedną czy dwie).

Warto też spojrzeć na polityki prywatności, regulaminy i tego typu zapisy na stronach – zweryfikować, czy można to robić. W pierwszej kolejności jednak polecam przede wszystkim poszukać API i pobierać dane serwisu, które są dostępne przez API.

Dzięki temu nie wczytujemy wszystkich informacji w tym tych zbędnych (obrazki i wszystko co jest przydatne człowiekowi oglądającemu stronę), a pobieramy już gotowe informacje w przygotowanym ładnym formacie. Nie musimy bawić się też w czyszczenie tych danych, przerabianie formatów i tego typu zabawy.

Bardzo się cieszę, że zwróciłeś uwagę na to, żeby robić odstępy w czasie. Osobiście widziałem, jak często ludzie po prostu wysyłają za dużo requestów. To jest mega nieetyczne i problematyczne, gdy administrator musi się zajmować tymi żądaniami, odciąć tego użytkownika itd.

Podsumujmy to, co powiedziałeś. Po pierwsze sprawdźmy, czy jest API. Jeżeli API na pierwszy rzut oka jest niedostępne, to może jednak jest gdzieś schowane. Warto też zapytać wprost, czy można zebrać dane.

Zazwyczaj w przypadku projektów bardziej edukacyjnych administratorzy zdecydują się na współpracę, bo takiemu sklepowi czy firmie (jeżeli jest to w miarę dojrzała struktura) na tym powinno zależeć. Też pewnie zachęcą potem, żeby podzielić się swoimi wynikami.

Druga rzecz, to jeżeli jednak nie ma API i nie ma możliwości się dostać, a bardzo byśmy chcieli, to warto się zapoznać prawnie z regulaminem, polityką prywatności, skonsultować się z prawnikiem, gdyż w większości przypadków nie da się tego jednoznacznie zinterpretować.

Jeżeli jest to raczej w celach prywatnych to jest bardzo cienka granica, bo tak naprawdę równie dobrze mogę skopiować sobie linijka po linijce do Excela – to to nie może być zakazane samo w sobie, bo to są dane publiczne. Jeżeli więc nie jest to zakazane, to w jaki sposób można zakazać, że robię to w sposób nie w 100% banalny, tylko automatyzuję proces?

Dopóki to jest prywatny użytek, edukacyjny to zwykle nie ma większego problemu. Natomiast pojawia się on wtedy, jeżeli robimy to komercyjnie, a w szczególności jeżeli budujemy konkurencyjne rozwiązania, czyli zbieramy dane i stawiamy podobny serwis.

Trzecia rzecz, to jeżeli nic nie mam, nie ma żadnego prawa i chcemy sobie to trochę zautomatyzować, to pamiętajmy o takich prostych zasadach etycznych. Nie nadużywajmy tej automatyzacji, nie wysyłajmy za dużo requestów na sekundę.

Warto sobie założyć malutką maszynkę w chmurze. Niech ona zbiera te dane przez tydzień, ale tak powoli, strona po stronie i wszyscy będą zadowoleni, nikomu to nie będzie przeszkadzało.

Jeszcze pozwolę sobie dodać jedną rzecz. Teraz np. bawię się strumieniem informacji z Twittera. Pewnie za jakiś czas powstanie z tego post na blogu.

Zbieram tweety według różnych słów kluczowych i zapisuję je w bazie. Analizując zapisane dane widzę jakich rzeczy nie zapisałem i które muszę policzyć po fakcie. Interesuje mnie np. liczba tweetów w danej godzinie, w danym dniu tygodnia. W bazie zapisuję tylko datę wysłania tweeta razem z godziną.

Żeby dostać się do informacji o dniu tygodnia i godzinie, muszę tę datę rozłożyć na składowe części. To uświadamia mi, że zebrałem już jakąś ilość danych i teraz kolejne operacje będą wymagały tego, żeby rozłożyć posiadane informacje na drobniejsze części. Można było to rozłożyć wcześniej na poziomie zbierania danych.

To trochę nawiązując do tego, o czym mówiliśmy przy projektowaniu procesu zbierania danych. Warto też przy web scrapingu pomyśleć o tym, co później z tymi danymi będziemy robić, żeby nie okazało się, że po tygodniu zbierania danych brakuje nam jakiejś jednej informacji i musimy przepuścić jeszcze raz cały ten serwis zbierając te same informacje plus jedną dodatkową. Warto sprawdzać też tego typu rzeczy i myśleć o tym do przodu.

Tutaj też bardzo trzeba uważać. Jak zbieramy dane i później je przekształcamy np. dodajemy logikę, to trzeba bardzo uważać, żeby nie popełnić błędu. Wtedy jeżeli nie mamy źródła prawdy, to nie mamy innej opcji niż zacząć jeszcze raz od nowa, żeby to ewentualnie naprawić.

Myślę, że w przypadku, o którym wspominasz, pewnie sensowniejszym mogłoby być zbieranie surowych danych i do tego dodanie dnia, miesiąca, godziny. Te dane surowe ja bym trzymał z tego powodu, że znając życie człowiek i tak popełnia bugi, więc ostatecznie fajnie jest mieć lokalną wersję surową, żeby można było do niej wrócić w razie potrzeby.

Nie jest to aż takie przyjemne, bo trzeba przemierzyć wszystkie dane. Jeżeli tych danych jest więcej niż tysiąc, to może to trochę zająć czasu. Niemniej to i tak jest znacznie łatwiejsze niż ponowne zbieranie danych, ponieważ strumień cały czas płynie.

Tak, ja bardziej pod tym kątem, że strumień płynie, my pobieramy z niego pewne dane, wzbogacamy je rozbijając datę na składowe po to, żeby w jakimś innym procesie on-linowo pokazać, że o danej godzinie było X elementów.

Jeśli tych danych jest bardzo dużo i są zapisane w tabeli esquelowej, z której musimy zrobić selecta po godzinie, to łatwiej zrobić go po tej godzinie, jeśli ona jest wyodrębnioną kolumną, niż zbierać wszystkie dane i tę godzinę wyciągnąć już z tych danych źródłowych. Myślmy też o tym, co się z tymi danymi będzie działo później. Żeby je wzbogacić o pewne elementy w procesie zbierania.

To co powiedziałeś o zbieraniu danych surowych – zawsze. Zawsze trzeba mieć dane surowe, oryginalne, bo rzeczywiście gdzieś po drodze może się okazać, że coś dodaliśmy czy usunęliśmy. Posiadając dane źródłowe nie trzeba będzie powtarzać całego procesu, który może być nie do powtórzenia.

Załóżmy teraz, że mamy dane. Przechodzimy do ich analizy i tu sam w sobie proces już nie jest taki trywialny. Pojawia się szereg wyzwań. Z Twojej perspektywy – spróbuj wymienić wyzwania, które mogą się pojawić? Jak sobie z tym poradzić?

To wszystko zależy. To takie ulubione powiedzenie informatyków w rozmowach z biznesem – to zależy.

Najtrudniejsze rzeczy to chyba czyszczenie danych, czyli to, co mówiłem o brakujących danych albo momentami zakłóconych z jakiegoś powodu: bo przyrządy zbierające nie działały, bo ktoś wpisał “Zielona Gura” itp. Mówi się, że przy projekcie analitycznym 80% czasu to jest właśnie oczyszczanie danych i normalizacja. Później narysowanie wykresów czy zbudowanie modeli idzie dosyć szybko, jeśli dane są dobre (czyste, bez zakłóceń, bez wartości odstających).

Najtrudniej jest właśnie zdecydować, co z tymi danymi chcemy zrobić. Jakich cech potrzebujemy ewentualnie dodatkowych? Czy liczby są z jakiegoś przedziału i może warto to znormalizować? Czy rozkład tych liczb jest specyficzny, nie jest rozkładem normalnym?

Twoje posty charakteryzują się dużą ilością wykresów – można je robić na różne sposoby. Można je poprostu zrobić i czasem ładnie wyglądają, ale największa wartość z punktu widzenia biznesu jest wtedy, kiedy patrzysz na wykres i rozumiesz, co masz zrobić. Nie tak, że się zastanawiasz, tylko to jest oczywiste, tzw. action label.

Czyli co takiego zrobić z naszymi wykresami, żeby one były faktycznie pomocne, kiedy interpretacja tych wykresów nie wymaga od Ciebie dłuższego zastanawiania, tylko patrzysz i widzisz. Jakieś złote porady od Łukasza?

Przeczytałem kilka artykułów na temat wizualizacji danych i tego jak efektywnie pokazywać ane. Pamiętam, że byłem na wykładzie w Warszawie człowieka, który robi takie rzeczy. Chyba tylko 2 albo 3 informacje na wykresie powinny być pokazane na raz, czyli jeśli mamy np. wykres ceny akcji, to jest czas i cena. Nie dodajemy do tego koloru, wolumenu, liczby sprzedanych akcji, logarytmu i porównania z czymś innym.

Czasami trzeba wykres jednej spółki porównać z indeksem giełdowym – to wystarczą dwie linie na jednym wykresie, gdzie na osi X mamy czas, a na osi Y wartość indeksów. Jedna, dwie informacje na raz – tak żeby to łatwo, jednym rzutem oka można było zrozumieć i bez dodatkowej osoby, która musi wytłumaczyć, że jeśli w danym momencie wykres spadł, to wtedy coś tam znaczy. Przede wszystkim nie przeładowanie.

Druga rzecz to typ wykresu, który opowiada daną historię. Jeśli coś się dzieje w czasie – linia. Jeśli coś jest w kilku kategoriach – słupki. Jeśli coś pokazuje dwa powiązane ze sobą parametry – wykres punktowy, gdzie jeden element jest na jednej osi, a drugi na drugiej. Czasami potrzeba dodać trzeci, to wtedy albo kolor, albo wielkość punktu.

Proste zasady, które tak naprawdę wystarczy zastosować. Jest pełno materiałów w Internecie na ten temat. Ja staram się ostatnio wkoło fanpage’a i bloga budować profil na Instagramie, gdzie też pokazuję ciekawe wizualizacje. Może one też kogoś zainspirują.

A propos interpretowalności wykresów, mam dwa kolejne pytania.

Przy pomocy wykresu można manipulować opinią ludzi, wpływać na wyniki. W jaki sposób można być bardziej odpornym na manipulację? Można znaleźć bardzo dużo materiałów w Internecie mówiących o tym, jak przedstawiając wykresy w ten czy inny sposób, można osiągnąć takie wyniki, które się chce osiągnąć.

Tak, najczęstszy przykład to słupki poparcia dla partii w telewizji. Wykres słupkowy zawsze u podstawy powinien mieć 0. Sam zauważyłem, że np. Excel nie zaczyna słupków od 0. Robiąc szybko wykres słupkowy, mamy wartości 900 i 1000, a Excel zaczyna przecięcie z osią w okolicach 800. To jest mylące, bo to pokazuje różnice między jedną wartością a drugą, ale w skali zawężonej (do samych szczytów słupków, a nie na całości).

Mylące są osie podwójne, gdzie mamy dwie rzeczy pokazane na jednym wykresie. Jedna seria danych jest na jednej osi opisana, a druga jest na drugiej i one do siebie pasują, tylko jedna zmienia się o wartości od 0 do 1, a druga np. od 1 mln do 2 mln.

Dużo jest też kwestii związanych z tym, że korelacja nie oznacza przyczynowości. Bardzo dużo jest takich wykresów, które mówią o liczbie utonięć w basenie, w powiązaniu z liczbą filmów z jakimś aktorem. Tutaj zostaje zdroworozsądkowe myślenie, bo można pokazać dwie liczby ze sobą powiązane, bo ich przebiegi w czasie wyglądają podobnie, ale powinniśmy się zastanowić, czy to rzeczywiście ma jakiś wpływ. Może to być ciekawe, ale czy jedno ma wpływ na drugie?

Niekoniecznie. To, że dwie cechy zachowują się podobnie, nie znaczy, że są ze sobą powiązane. Jeśli chodzi o ten temat, można zobaczyć materiały o złych wykresach – Przemek Biecek z Politechniki Warszawskiej prowadzi bloga, na którym co roku ogłasza mini konkurs na najgorzej zrobione wykresy opublikowane w mediach. Polecam – tam są czasami perełki. Teraz rok zbliża się ku końcowi i myślę, że Przemek przygotuje kolejną serię.

Polecam sprawdzić kategorię “Zły wykres” na tym blogu. W zeszłym roku był temat odry w Polsce. W telewizji pokazano wypaczone dane mówiące, że wskaźnik zachorowań rośnie, a później na innych danych można było zobaczyć, że to wszystko się waha w czasie. Ostateczne wnioski różniły się od tego, co pokazano w telewizji.

Idąc dalej – manipulacja. Chciałbym to podzielić na dwie kwestie: świadoma manipulacja z użyciem danych i ta wywołana przez błąd. Na co muszę uważać i co muszę dodatkowo sprawdzić jako osoba tworząca wizualizację danych, żeby przypadkiem nie zniekształcić rzeczywistości?

To chyba te elementy, o których wspomniałem mówiąc o tym, jak można oszukiwać na wykresach. Gdzieś widziałem ostatnio wykres zmiany średniej temperatury na przestrzeni ostatnich lat. Na jednym wykresie był spadek – tylko wykres uwzględniał ostatnie 10 lat. Drugi wykres pokazywał ostatnie 30 lat i był lekki wzrost. A na wykresie, który uwzględniał ostatnie 150 lat był gwałtowny wzrost.

Jest to pewien sposób na oszukiwanie danych. Często jest tak w korporacjach, że jakieś wyniki dla zarządu trzeba przygotować i ma być widoczny wzrost. Nieważne czy rzeczywiście urosło czy nie – ma być pokazany wzrost. To jest “świetna” szkoła oszukiwania w wykresach. Zawsze można dobrać okres w ten sposób, żeby rosło. Bazę, czyli wcześniejszy pomiar też – albo to jest miesiąc, albo rok temu. Nie ważne, da się zrobić tak, żeby rosło.

Można powiedzieć, że nie urosło albo spadło coś co jest złe. Np. sprzedaż nam nie wzrosła, ludzie którzy sprzedają odeszli z pracy, to możemy powiedzieć, że spadły koszty sprzedaży. Jest to prawda, a niekoniecznie mówi o tym, że jest dobrze. Chociaż spadek kosztów sprzedaży może być czymś dobrym. Przy spadku wartości sprzedaży – już nie koniecznie. Jakie było pytanie?

Pytałem o to, na co należy uważać, żeby niechcący nie zmanipulować danych. Ze swojej strony dodam, że należy maksymalizować krytyczne myślenie.

Czy to jest faktycznie rzeczywistość, czy tylko ułamek obrazu, który wyrwaliśmy z big picture i to jest kawałek wyciętej wiedzy?

No tak, właśnie takie krytyczne spojrzenie i stawianie się po dwóch stronach barykady jest dobrym rozwiązaniem. Dobrze jest skonsultować się z kimś, bo jako autor wykresów czy modelu ciężko jest o inny punkt widzenia. W końcu napracowałeś się nad tym i wierzysz w to, co robisz. Być może jest jakiś mały kamyczek, który wywróci Twoje myślenie do góry nogami i da krytyczne spojrzenie.

Niekoniecznie jesteś w stanie znaleźć to w sobie tym bardziej pracując pod presją czasu. Chcesz oddać jak najszybciej swoją pracę, bo terminy gonią. Wtedy druga osoba się przydaje, która powie, że: Nie, jakby to było na niebiesko, a nie na zielono, to by było lepiej. Nawet tego typu proste rzeczy. Albo: pokazujesz tutaj dane z ostatniego tygodnia, a popatrz na cały kwartał czy rok. Jak to się zachowa?

Podsumowując ten wątek, możemy powiedzieć, że po pierwsze – krytyczne myślenie. Trzeba to rozwijać, bo to jest bardzo ważna umiejętność związana z danymi i z całym tym obszarem. Druga rzecz to warto po prostu zapytać kolegę, koleżankę, co o tym myślą. Szczególnie, że ta osoba nie jest w to wkręcona emocjonalnie w ten temat, albo przynajmniej przez chwilę robiła coś innego. To ona będzie miała świeże spojrzenie.

Mnie studia nauczyły takiego krytycznego myślenia i spojrzenia na świat. Jakby ktoś zapytał, co zawdzięczam fizyce, to na pierwszym miejscu byłoby takie powątpiewanie w rzeczywistość. Czy to co widzę, jest prawdziwe? Czy to, co widzę, ma sens? Chcę to też przekazać na blogu w swoich tekstach, że być może to, co widzimy, nie jest prawdziwe, może trzeba szukać głębiej.

Być może dlatego one są na tyle ciekawe, bo nie pokazują tylko zmiany czegoś na podstawie danych. Z drugiej strony to konsultacja. Kiedyś pracowałem jako człowiek projektujący interfejsy stron internetowych. Fajnie było robić badania z użytkownikami, zapłacić masę pieniędzy za to, żeby ich zapytać, czy button powinien być czerwony czy zielony, z prawej czy z lewej.

Najtańszym, najprostszym i najszybszym rozwiązaniem okazywał się tzw. test korytarzowy. Czyli idziesz korytarzem, łapiesz 4-5 osób, które nie pracują nad tym co Ty i zadajesz im dokładnie te same pytania, które możesz zadać na testach za grube pieniądze. Możesz pokazać komuś wykres i zapytać, co na nim jest zaprezentowane, jak on to rozumie.

Wracając do Twojego bloga, bo już na początku powiedziałem, że są na nim bardzo ciekawe artykuły. Jest tam bardzo dużo treści, których skonsumowanie wymaga dużo czas. Co w szczególności polecasz przeczytać? Z którego artykułu jesteś wyjątkowo dumny?

Najpopularniejsze są artykułu o danych, które wyciągnąłem z portalu Sympatia – jakich cech szukają mężczyźni, jakich kobiety u swoich partnerów. Te teksty są w moich odczuciu takie sobie. Najbardziej pamiętam tekst „Sprzedam Opla” o szukaniu samochodu. Tam zastosowałem właściwie wszystko, co mi przyszło wtedy do głowy i drążyłem głębiej i głębiej. Tekst mówi o tym, że zebrałem dane z serwisu ogłoszeniowego, wiedziałem, jakiej marki szukałem i w jakim mniej więcej roczniku.

Więc w jaki sposób znaleźć najlepszą okazję dla tego samochodu? Ile kosztuje średnio model wyprodukowany w danym roku? Jaki ma średnio przebieg? Ale też zacząłem się zastanawiać wtedy, czy wartość samochodu z biegiem lat się zmienia? Jak się zmienia w zależności od marki czy modelu?

Korzystając z tych oferowanych cen, czy rocznik 2010 dużo straci na wartości, kiedy minie rok? Weźmy rocznik 2009 dzisiaj i sprawdźmy, jaka jest różnica między cenami. Tam jest jeszcze kilka takich elementów. To jest chyba najlepszy mój tekst. Taki w miarę łatwy do przeczytania, a też pokazujący najwięcej rzeczy, które można (z dosyć prostych informacji) wyciągnąć. Mamy tylko rok, przebieg i cenę danego samochodu – 5 czy 6 kolumn w Excelu. Oczywiście nie pisałem tego w Excelu. Excel jest fajny, ale do zbierania danych.

Już zbliżając się ku końcowi naszej rozmowy chciałbym porozmawiać o przyszłości.

Jaką przyszłość widzisz? Jak powinien wyglądać dostęp do danych w idealnym świecie według Ciebie?

W idealnym świecie wszystkie instytucje, które są opłacane z podatków, powinny mieć dane otwarte, dostępne przez API. Chciałbym wiedzieć, ile zgłoszeń do straży miejskiej w okolicy mojego osiedla miało miejsce w ostatnim miesiącu. Chciałbym, żeby te dane były dostępne online. To kosztuje infrastrukturę, to kosztuje ludzi, którzy te dane wprowadzają.

Ludzie są omylni, wprowadzają je w różny sposób. Przez to, że w Polsce nie mamy tego typu informacji, nie jesteśmy w stanie zrobić zadań z konkursów publikowanych na Kaggle, gdzie mamy np. nowojorską policję czy mandaty samochodowe z Los Angeles i tego typu zestawy danych. Nie jesteśmy w stanie powtórzyć tych ćwiczeń dla naszego kraju. Jeśli chodzi o dane bardziej komercyjne, to tu już zależy od właściciela danych, czyli od firmy, która je zbiera. Czyli im więcej pokaże, tym bardziej może się odsłonić przed konkurencją. Może być to różnie. Fajnie by było, gdyby instytucje co jakiś czas organizowały np. hackathony i publikowały dane, na których można poćwiczyć.

Tutaj myślę bardziej pod kątem osób, które uczą się analizy danych. Bardzo fajny zestaw danych ostatnio opublikował Narodowy Fundusz Zdrowia, gdzie były informacje o zachorowaniach na jakiś rodzaj raka. Dane o pacjentach i o tym, jakie leki biorą.

Koleżanka napisała wpis gościnny na ten temat. Sam tego nie pisałem, więc nie pamiętam dokładnie zestawu danych, ale były one w ciekawy sposób zanonimizowane. To też jest jakiś sposób na to, żeby dana firma pokazała swoje dane nie odsłaniając wszystkiego. Dane z NFZ były w jednej części z 2 lat, a w drugiej części dotyczącej już osób – z 2 kolejnych lat, więc te dwa okresy nie zazębiały się. To teoretycznie uniemożliwiało sprawdzenie, z którego miejsca w kraju są pacjenci i jakie biorą leki. Już o dotarciu do konkretnej osoby nie mówiąc.

Trzymam kciuki w takim razie, żeby czytały nas również osoby decyzyjne, które mają wpływ na to, żeby te dane zostały udostępnione. Tak naprawdę nie chodzi o to, żeby dołożyć kolejną pracę. Wbrew pozorom taka analiza przygotowana przez ludzi, którzy po prostu z ciekawości, po pracy, w weekendy mogą coś przeanalizować i pokazać, jak można to jeszcze bardziej usprawnić. To będzie przestrzeń do poprawy i usprawnienia czegoś.

Dzięki wielkie Łukaszu za dzisiejszą rozmowę i życzę Ci dużo ciekawych postów na Twoim blogu. Do zobaczenia, do usłyszenia.

Dzięki serdeczne. Miło było porozmawiać z Tobą, Vladimirze. Mam nadzieję, że to nie ostatni raz, kiedy się spotykamy.

Jak wspomniałem, blog Łukasza znalazłem już kilka lat temu. Poznaliśmy się również na żywo też już kilka lat temu. Łukasz sprawia na mnie bardzo pozytywne wrażenie, bo ma dość specyficzny pogląd na życie, dość specyficznie komentuje różne zjawiska, ma również ciekawe poczucie humoru, które warto umieć zrozumieć. Też z tego powodu obserwuje go na fanpage’u i różne inne komunikaty, które gdzieś wrzuca. Bardzo się cieszę, że mieliśmy okazję porozmawiać.

Nie jestem pewny, czy udało się pokazać się w 100% głębokość myśli, jeżeli chodzi o Łukasza, bo on jest człowiekiem skromnym. Polecam sprawdzić jego blog. To naprawdę robi wrażenie, jaki wysiłek wkłada i jakie ma podejście, jeżeli chodzi o analizę danych i wizualizację, wyciąganie odpowiednich wniosków.

Pamiętam jak w jednej z rozmów, Łukasz powiedział, że jeżeli chodzi o wyciąganie wniosków z wykresów, to jedną z trudniejszych rzeczy jest (w trakcie tworzenia postów) to, że jak patrzysz na wykres, to już wiadomo, o co chodzi. Po co to jeszcze wysyłać?

No właśnie. Ale to nie jest takie oczywiste dla wszystkich. Warto powiedzieć, że czym bardziej wykres staje się oczywisty, tym lepiej te wnioski się wyciąga. Jeszcze taką ciekawostkę Ci zdradzę – Łukasz przede wszystkim używał język R (o to zapomniałem go zapytać), ale widzę, że ostatni post już się pojawia też w języku Python. Nie wiem, co to oznacza w praktyce, ale niech to będzie taka mała zagadka.

To tyle na dzisiaj. Dziękuję Ci bardzo za wspólnie spędzony czas. Do zobaczenia, do usłyszenia, do przeczytania.

Pamiętaj, 14 marca widzimy się na zjeździe słuchaczy i czytelników Biznes Myśli.

Artykuł Łukasz Prokulski – dane i analizy pochodzi z serwisu Biznes Myśli.

Sztuczna inteligencja i bezpieczeństwo

Vladimir — Mon, 09 Dec 2019 04:00:26 +0000

Czy wiesz, że zgodnie z raportem Capgemini, ponad połowa osób decyzyjnych w tematach bezpieczeństwa twierdzi, że analitycy cyberbezpieczeństwa są zbyt przytłoczeni bieżącymi zadaniami, na skutek czego 23% zidentyfikowanych incydentów nie jest skutecznie zbadanych?

Jak sobie z tym radzić? To bardzo zły znak, że analitycy odpowiadający za bezpieczeństwo firm nie są w stanie przetworzyć 100% znalezionych zagrożeń z odpowiednim zrozumieniem. Lekarstwem na ten problem może być właśnie sztuczna inteligencja.

W tym samym raporcie można znaleźć informację, że 48% badanych szacuje, że budżety na AI w cyberbezpieczeństwie wzrosną średnio o 29% w 2020 roku. Warto zauważyć, że taki wzrost nie jest naturalnym zjawiskiem, lecz wskazuje na to, że dostrzeżono, jak ważna jest stabilizacja w tym obszarze.

Vladimir Alekseichenko

Spotkanie społeczności BiznesMyśli

Nim przejdę do głównego tematu, mam ważne ogłoszenie. 14 marca 2020 roku podcast BiznesMyśli będzie świętował 3 lata swojej działalności. Przez ten czas wydarzyło się wiele ciekawych rzeczy. Biblioteka podcastów liczy już 70 odcinków, w których wzięło udział bardzo dużo ciekawych gości, co zaowocowało ponad 160 tys. pobraniami.

Utwierdza mnie to w przekonaniu, że treści, które przygotowujemy w ramach BiznesMyśli są dla Ciebie ciekawe i wartościowe. Jeśli słuchasz podcastu regularnie, to już dużo wiesz na temat uczenia maszynowego. Poznałeś też mnie bardzo dobrze i teraz nadszedł moment, żebym to ja poznał lepiej Ciebie, prawda?

Jakiś czas temu zasugerowałem, że może warto spotkać się z okazji urodzin podcastu i prosiłem słuchaczy o wypełnienie ankiety. Bardzo Ci dziękuję, jeśli tam też jest Twój głos. Większość wybrała dzień spotkania w weekend. To akurat dobrze składa się, bo 14 marca to sobota.

Tym samym zapraszam Cię na unikalne, pierwsze spotkanie BiznesMyśli. Odbędzie się ono w Krakowie w sobotę, 14 marca 2020r. Już mamy zarezerwowaną salę dla 50 osób. Natomiast, żeby dać równe szanse każdemu sprzedaż biletów ruszy 16 grudnia o 20:00. Zapisz się na newsletter, żeby dostać e-mail z przypomnieniem i linkiem do sklepu.

Jak dużo ludzi w Twoim otoczeniu interesuje się uczeniem maszynowym? Czy chcesz poznać osoby, które mają podobne zainteresowania do Ciebie i też słuchają podcastu BiznesMyśli? Być może chcesz poznać personalnie część gości z podcastu? Na tym spotkaniu będzie nawet coś więcej…

Zdradzę Ci tajemnicę: ostatnio mieliśmy gorącą dyskusję w zespole i próbowaliśmy odpowiedzieć na pytanie: co dalej? Czy warto rozwijać podcast? Jak to pogodzić z tym, że jestem dość zajęty oraz moją mocną stroną jest część merytoryczna, a nie cała otoczka, która jest równie potrzebna, a jednocześnie mocno angażująca?

Zdecydowaliśmy dalej się rozwijać, bo dzieją się fajne rzeczy i warto po prostu inwestować energię, czas i po prostu środki w tak wartościowe działania. Na dzień dzisiejszy w produkcję odcinków jest zaangażowanych 5 osób. Natomiast ogarnięcie całego procesu w tak zwanym międzyczasie staje się wyzwaniem. Stąd decyzja – zatrudnić redaktora naczelnego podcastu, rolą którego jest uporządkować cały proces i jeszcze bardziej podnieść jakość.

W tym momencie BiznesMyśli traktujemy jak prawdziwą redakcję, oczywiście dopiero zaczynamy materializować pomysły, więc daj nam trochę czasu, żeby zobaczyć te zmiany.

Wracając do spotkania na żywo, czyli 14 marca. To będzie moment, w którym będzie można wpłynąć na to, jak dalej będzie rozwijał się podcast. Chociaż, mówiąc “podcast”, to trochę za mało, ponieważ już planujemy zrobić coś więcej… ale pierwsi o tym dowiedzą się uczestnicy marcowego spotkania.

Wiem, że każdy jest zajęty, też ciągle z tym walczę, ale Twoja obecność będzie dla mnie podziękowaniem i powiedzeniem, że to, co udało się zrobić z podcastem przez ten czas, jest wartościowe dla Ciebie. Dla jasności dodam, też tam będę przez cały czas, po to, żeby lepiej Cię poznać.

Zapraszam też osoby spoza Krakowa na weekend, jest tu co robić

Webinarium “Jak sobie radzić z feature engineering?”

W czwartek 12 grudnia o 19:00 odbędzie się bezpłatne webinarium na temat “jak sobie radzić z feature engineering?”. Webinarium jest skierowane do osób, które chcą poznać machine learning od strony praktyczno-technicznej. Jeśli to przemawia do Ciebie – zapraszam.

Sztuczna inteligencja i bezpieczeństwo

Teraz wracamy do głównego tematu odcinka, mianowicie bezpieczeństwa oraz tak zwanej sztucznej inteligencji. W ramach spółki DataWorkshop, której jestem założycielem i prezesem, pomagamy firmom wdrażać uczenie maszynowe we właściwy sposób. Podczas jednej z ostatnich konsultacji rozmawialiśmy o bezpieczeństwie i to mnie zainspirowało, żeby strukturyzować różne kawałki mojej wiedzy i dzielić się tym z Tobą.

Przy okazji dodam, że bardzo chętnie angażujemy się w projekty, w których trzeba walczyć ze złem lub niesprawiedliwością. Osobiście cieszę się jak dziecko, kiedy świat staje się chociażby odrobinkę lepszy, bardziej sprawiedliwy.

W tym artykule omówię trzy logiczne obszary związane z bezpieczeństwem:

Cyberbezpieczeństwo
Ataki na modele uczenia maszynowego
Anonimowe dane i bezpieczeństwo

O każdym z tych wątków można napisać osobny tekst, ale tutaj chciałbym wprowadzić Cię w ten temat, a w przyszłości rozwinąć poszczególne zagadnienia głębiej.

Zachęcam również do zapoznania się z 36 odcinkiem, w którym Hubert Rachwalski, CEO Nethone, opowiadał o tym, co robią w Nethone i o wykrywaniu oszustw.

Cyberbezpieczeństwo

Jak podaje CEO Cisco (Chuck Robbins, w ubiegłym roku Cisco zablokowało siedem trylionów zagrożeń, czyli 20 miliardów zagrożeń dziennie w imieniu swoich klientów (oznacza to ponad 200 ataków na sekundę). Ta liczba jest za duża, żeby w nią uwierzyć, ale podaję linki, skąd pochodzi ta informacja. Robi to wrażenie.

Ten problem nie dotyczy tylko USA, w Polsce też dzieje się sporo. Jedna z najbardziej gorących spraw, to morele.net. Urząd Ochrony Danych Osobowych nałożył karę 2,8 mln zł na internetowy sklep Morele.net. Ma to związek z atakiem hakerskim i wyciekiem danych klientów w październiku 2018 roku. Łącznie wyciekło 2,2 mln kont użytkowników. Sytuacja jest dość głośna, bo część osób apeluje, że takimi karami Urząd Ochrony Danych Osobowych motywuje hakerów do działania.

W pewnym sensie jest to kozioł ofiarny, dzięki czemu wiele firm uszczelnia swoje procedury z obawy przed karą. Niestety hakerzy nadal mogą wykraść dane, ale jak to bywa w urzędach, liczą się prawidłowe papierki, a nie realne działania.

Popatrzmy na świat oczami hakera. Oczywiście wielki biznes to smaczny kąsek, bo tam są duże pieniądze, ale jednocześnie są tak zwykle większe zasoby IT i większość luk jest zamknięta. Szanse na osiągnięcie czegoś cennego są niewielkie.

Zupełnie inna historia to średnie i małe firmy. Kompetencje pełnoetatowych specjalistów tam często pozostawiają wiele do życzenia. W rezultacie mamy nie tylko drobne luki w systemie, ale wręcz otwarte drzwi dla atakujących. Jeśli akurat prowadzisz firmę, w której nie ma zatrudnionego na cały etat zespołu bezpieczeństwa, to warto zatrzymać się na chwilę i zastanowić się jak i kiedy podjąć właściwe działania.

Zapraszam Cię do obejrzenia prezentacji “czy AI to srebrna kula w cyberbezpieczeństwie?”. Pierwsza połowa tej prezentacji to wprowadzenie kontekstu, czym jest tak zwana sztuczna inteligencja, ale potem są podawane przykłady użycia w firmie. Żeby zaoszczędzić Twój czas, opowiem o trzech przytoczonych w prezentacji przykładach.

Campaign Hunting

W tym przypadku chodziło o wykrywanie grup oszustw. Na przykład, ta sama grupa czy osoba ma tendencje się powtarzać tworząc np. złośliwy URL. Robi to w taki sposób, że w różnych miejscach można znaleźć pewne podobne elementy. Na skutek tego można próbować zautomatyzować mechaniczny proces i zrozumieć pewne atrybuty (ciągle nowe), które wpływają na to, że to działanie jest złośliwe.

Na skutek tej inicjatywy udało się zwiększyć jakość o 10%, czyli to, co wcześniej nie było wykrywane, udało się wykryć.

Huntress

W tym projekcie chodziło o to, że osoby, które próbują znaleźć dziury w systemie, nie piszą całego kodu od zera, zwykle wykorzystują gotowe komponenty i za tym stoi już pewna logika. Idea jest taka, żeby w środowisku testowym lub tak zwanej piaskownicy (sandbox) próbować przesuszać różnego rodzaju sztuczny lub mniej sztuczny ruch, żeby pewne rzeczy się wydarzyły i pojawiły się wzorce, na których model będzie mógł się nauczyć i następnie skutecznie wykrywać podejrzane ruchy na serwerach produkcyjnych.

W ten sposób udało się wykryć dodatkowe 13% procent zagrożeń.

CADET

Tak zwany Context Aware DETection. Jak oglądałem tę prezentację, to było pierwsze, o czym pomyślałem. Wiem, jak skuteczna jest analiza całego kontekstu i na ile dobre to wyniki może dawać. Używamy teraz regularnie takiego podejścia dla naszych klientów (o ile mają odpowiednie dane), bo wyniki zaskakują swoją jakością.

W tym przypadku był analizowany cały kontekst, np. jak powstał link, dokąd prowadził, jak zachował się użytkownik, czy gdzieś pod drodze był sms itd. Każdy proces wymaga od nas innych czynności, a każdy z nas może to robić inaczej. O tym nie było mówione w prezentacji, ale już czuć drzemiący w tym potencjał. Na przykład analizując taki kontekst można stwierdzić, w jakim stopniu dana osoba jest podatna na oszustwa. Ostatecznie w bezpieczeństwie najsłabszym ogniwem zawsze jest człowiek.

Inny przykład – PetSmart, popularny amerykański sklep zoologiczny, zaoszczędził $12 milionów wykorzystując AI do wykrywania oszustw. We współpracy z Kount, PetSmart wdrożył rozwiązanie, które bada miliony transakcji i ich wyniki. Inteligentny system określa legalność każdej transakcji porównując ją ze wszystkimi innymi przeprowadzonymi transakcjami. Wykryte fałszywe zamówienia są anulowane, co oszczędza pieniądze firmy bez szkody dla marki.

W jaki sposób wyliczono $12 milionów oszczędności? Śledząc oszustów internetowych w 2017 r. PetSmart mógł anulować prawie 4 miliony fałszywych zamówień. Koszt składa się z kilku komponentów: niepotrzebnego zaangażowania pracowników, kosztów wysyłki, kosztu towarów, obciążeń zwrotnych, opłat i grzywien, które mogą przełożyć się na $3-3,50 za każdego dolara w nieuczciwych opłatach, co daje łączną roczną kwotę około $12 milionów.

Jak widać, potencjał jest duży. Muszę w tym miejscu podkreślić, że ekspert od bezpieczeństwa nadal jest bardzo potrzebny. Problem jest w tym, że ekspertów trudno skalować (jest duży deficyt na rynku), więc machine learning może być bardzo dobrym asystentem i wsparciem w tej nierównej walce.

Trenowanie modeli machine learning

Przejdźmy do kolejnego obszaru,czyli potencjalnych zagrożeń w uczeniu maszynowym.

Model jest naiwny i wszystkiemu wierzy, ponieważ uczy się dosłownie na tych danych, które dostał. Jeśli w tych danych były pewne problemy, np. anomalia czy stereotypy społeczne, to model potraktuje to jako to, co istnieje i dopasuje się do rzeczywistości. Stąd pojawia się szereg problemów i te wszystkie tak zwane “biasy”, np. błąd poznawczy.

Zaburzone dane

Teraz mówiłem o przypadku, kiedy model uczył się na danych. Dane są brudne (bo tak zwykle jest), ale nikt świadomie nie próbował wprowadzić modelu w błąd. Teraz pomyśl inaczej. Co jeśli ktoś, chce oszukać Twój model w ten czy inny sposób i zaczyna generować sztuczne dane? Robi to, żeby zaburzyć rozumienie.

Jakiś czas temu robiłem projekt o wykrywaniu oszustw dla amerykańskiej firmy związanej z ubezpieczeniami. Zrobiłem wtedy projekt pilotażowy i udało się znaleźć kilka ciekawych rzeczy. Po pierwsze czynniki, które wpływały na to, że dana sprawa jest oszustwem czy nie, okazały się inne niż zakładano. Na przykład bardzo mocno wpływała na to ocena osoby, która zgłaszała szkodę. Gdyby analizować głębiej, można było znaleźć zależności, które wskazywały na podobieństwa między zgłaszającymi osobami i stwierdzić, że tworzą grupy czy wręcz organizacje.

Druga rzecz to jakość modelu. Wynik był całkiem dobry – ponad 90% precyzji. Natomiast, jak to zwykle bywa, gdy zaczynasz drążyć temat, to pojawia się szereg pytań. W jaki sposób w bazie pojawia się informacja, że dana sprawa jest oszustwem? Odpowiedź: to jest praca manualna odpowiednich ludzi (rozsianych po Stanach). To już brzmi mało stabilnie, bo ludzie nawet z procedurami działają różnie (pytanie tylko jak bardzo różnie).

Kolejna rzecz, która jest jeszcze ważniejsza, to przy takim podejściu nie ma żadnej gwarancji, że to było oszustwo, bo tak naprawdę to są jedynie wykryte oszustwa przez manualne procedury, pozostaje pytanie jak dużo zostało pominięte? Wtedy zaproponowałem eksperyment, żeby sprawdzić sprawy, które przed tym nie były oznaczone jako oszustwo, ale model z dużym stopniem pewności twierdzi, że są. Nie znam wyniku, bo tej informacji już nie dostałem, ale myślę, że w ten sposób udało się wykryć kolejną warstwę przypadków, które wcześnie były ignorowane.

Dlatego jest tak ważne uważać na dane, na których model się trenuje, uświadamiać sobie, w jaki sposób te dane powstały. Kto był zaangażowany w ten proces? Czym się kierował (wiedza, motywacja itd.)? Model traktuje dane na poważnie, beż żadnego filtru krytycznego. Są pewne triki, jak można z tym walczyć i wykrywać pewną niespójność w danych, ale to temat na inną okazję.

Widzenie komputerowe

Inny problem związany jest z widzeniem komputerowym (ang. computer vision). Wyobraź sobie, że masz model, który daje bardzo dobry wynik, np. rozpoznaje, że dany obiekt to znak drogowy, banan lub coś innego. Wystarczy nakleić przylepkę na ten obiekt lub obok i wynik z prognozowania modelu może nagle stać się zupełnie inny.

Źródło: artykuł Adversarial Patch

Najciekawsze jest to, że na tej przylepce zwykle jest coś bardzo abstrakcyjnego.

Źródło: artykuł Adversarial Patch

To jest problem i to dość złożony, bo nie da się tak łatwo tego obejść. To jest w pewnym sensie hackowanie neuronów sieci wiedząc, gdzie mają słabe miejsca i przy pomocy innych sieci tworzenie takich kształtów, które wpłyną na wynik.

Są też inne publikacje na ten temat, np. zespołu Google Brain, który ten wątek kontynuuje, więc jeśli dla Ciebie to jest ciekawe, to zapraszam do dalszej lektury.

Źródło: artykuł Adversarial Reprogramming of Neural Networks

Już wiesz, że model jest bardzo czuły na dane, na których się uczy i można go oszukać podając odpowiednio przygotowane dane na wejściu. Model nie ma krytycznego myślenia.

Kopiowanie modelu

Wyobraźmy sobie, że mamy gotowy model. Ten model jest wdrożony i jest tajemnicą naszego przedsiębiorstwa. Wszystko jest tak zrobione, że ciężko sam model będzie skraść. Nasz system jest bardzo szczelny i zespół nad tym czuwa. Czy to oznacza, że można spać spokojnie? Okazuje się, że można częściowo lub nawet więcej skopiować model, nie kopiując fizycznie oryginału. Jak?

Już podaję Ci przykład. Załóżmy, że masz wytrenowany bardzo dobrej jakości model, o którym Twoja konkurencja może tylko marzyć. Zainwestowałeś w to cały majątek i cieszysz się, że masz takie fajne rozwiązanie. W momencie, w którym umożliwiasz innym korzystanie z tego modelu (może to być Twoją usługą), pojawia się co najmniej jedno niebezpieczeństwo.

Osoba, która zaczyna wysyłać dużą ilość zapytań i dostaje odpowiedzi z Twojego modelu, może na podstawie tych danych wytrenować nowy model, który będzie zachowywał się podobnie. Stąd trzeba pomyśleć, jak można zapobiec tego typu atakom.

Ten problem wcale nie jest taki trywialny. Jeśli Twój model faktycznie jest bardzo wartościowy, to lepiej nie wystawiać go na zewnątrz lub wprowadzić dodatkową warstwę, która znacząco utrudni wyżej opisane zagrożenie. Takim zabezpieczeniem może być np. konieczność rejestracji – wtedy jest łatwiej ograniczyć liczbę żądań. Warto zastosować pewne ograniczenia przy zakładaniu kont, np. podanie numeru telefonu. Czym bardziej wartościowy jest model, tym większa jest konieczność zabezpieczenia się przed atakami.

Anonimowość danych

Czy wiesz, że żeby zrobić zbiór danych anonimowym, to naprawdę trzeba się postarać? Żyjemy w czasach, kiedy zostawiamy mnóstwo cyfrowych śladów. Uczynienie tylko oczywistych informacji anonimowymi, np. usunięcie imienia, nazwiska czy adresu email już nie jest wystarczające. Opowiem Ci trzy historie, które mogą bardziej Ci wyjaśnić kontekst.

Nowojorskie taksówki

Pierwsza to zbiór danych taksówek z Nowego Jorku. To bardzo ciekawa historia, bo z jednej strony w tym zbiorze danych nie było podanego imienia i nazwiska pasażerów, więc może się wydawać, że ciężko w ten sposób wyciągnąć dane personalne, a jednak…

Dotkniemy teraz świata celebrytów, którzy są śledzeni na każdym kroku. W praktyce to oznacza, że są zdjęcia w internecie, na których widać nr taxi, miejsce oraz kto tam przyjechał (lub odjechał). Na przykład, wpisując do Google “celebrities in taxis in Manhattan in 2013”, można zobaczyć to na przykładzie. W ten sposób te dane stają się bardziej personalne. Można w ten sposób zobaczyć, dokąd pojechała dana osoba, może gdzie mieszka lub gdzie mieszkają jego czy jej bliscy.

Statystyki Netflixa a IMDb

Netflix zorganizował jakiś czas temu konkurs i opublikował dane, które teoretycznie były anonimowe. Faktycznie z tych danych, ciężko było wnioskować cokolwiek więcej. Znów chodzi o zachowanie i powiązania. Istnieje osobny projekt z opiniami o nazwie IMDb. Okazuje się, że ludzie wyrażali swoją opinię po filmie w obu miejscach mniej więcej w tym samym czasie. Natomiast w IMDb już jest więcej informacji o użytkowniku, np. login. Łącząc te dane można już wyciągnąć znacznie więcej informacji m.in. poglądy polityczne lub inne w zależności o treści wypowiedzi.

Aplikacje sportowe

Jeśli biegasz lub jeździsz rowerem, to pewnie kojarzysz aplikację Strava. W roku 2017 opublikowany został anonimowy zbiór danych użytkowników. Wyglądało to dość bezpiecznie, ale coś poszło nie tak. Żołnierze trenują regularnie, żeby mieć odpowiednią kondycję. To jest naturalne.

Natomiast żołnierze z Ameryki są dość nowocześni i używają właśnie podobnych aplikacji jak Strava. Analizując aktywność użytkowników na mapie można znaleźć regularną aktywność w dość ciekawych rejonach, np. Syria czy Afganistan. To, co było tajemnicą, w tak prosty sposób staje się danymi publicznymi. Tutaj możesz znaleźć więcej szczegółów.

Jak widzisz, udostępnienie danych publicznie może stać się nie lada wyzwaniem, chociaż to wcale nie oznacza, że nie warto tego robić. Wbrew pozorom, bardzo cieszę się, że w Polsce dane stają się coraz bardziej publiczne. Dzięki temu nie tylko ekskluzywna grupa ludzi czy firm, może je analizować, ale również każdy, kto chce. To jest dobry trend i warto, żeby się rozwijał, tylko trzeba być bardziej świadomym tego, że czasem coś może pójść nie tak :).

Bezpieczeństwo jest niezwykle ważnym elementem każdego przedsiębiorstwa i dotyczy także uczenia maszynowego. Z każdym nowym rozwiązaniem zawsze wiążą się pewne zagrożenia, na które należy się odpowiednio przygotować. To w Twojej gestii i interesie jest, aby Twój biznes mógł prawidłowo i efektywnie funkcjonować zapobiegając zagrożeniom, których można naturalnie się spodziewać.

Artykuł Sztuczna inteligencja i bezpieczeństwo pochodzi z serwisu Biznes Myśli.