Machine Learning i Cyber Security
Biznes,  Edukacja,  Podcast

Machine Learning & Cyber Security



Mamy jesień. Dzieci poszły do szkoły, a my zaczynamy kolejny odcinek podcastu Biznes Myśli. 


Dzisiejszym gościem jest Mirosław Mamczur. Mirek już kiedyś był w odcinku, ale to była króciutka wypowiedź tuż po kursie, bo Mirek jest absolwentem kursu „Praktyczne uczenie maszynowe od podstaw”. To była pierwsza edycja. Dla mnie, dla DataWorkshop i dla Mirka był to pierwszy kurs, w którym wziął udział. Opowiadał, że się wahał czy warto, czy nie, ale potem zdecydował się i na tym wiele skorzystał. 





Ja jestem bardzo zadowolony. Jak słuchasz regularnie to wiesz, że w momencie, kiedy udaje się pewien potencjał rozpędzić i troszkę ukierunkować to sprawia mi to wielką dumę, że to jest to co naprawdę chcę robić, na czym mi zależy. Nie zawsze to jest łatwe, ale jak to się dzieje to czujesz tak, że to idzie w dobrym kierunku. 



Co teraz mam na myśli?



Mirek przeszedł bardzo ciekawą ścieżkę i cały czas się rozwija. Jest bardzo fajnie ukierunkowany, jeżeli chodzi o rozwój Data Science. Prowadzi swój blog miroslawmamczur.pl, który jest bardzo ciekawy – polecam poczytać artykuły, które tworzy. Jestem wdzięczny Mirkowi, że posłuchał jak namawiałem w ramach kursu, że warto się dzielić swoim doświadczeniem, bo dopiero wtedy zaczynasz się uczyć. To była taka bardzo szczera podpowiedź, bo na swoim własnym doświadczeniu sprawdziłem, że to działa. Jeżeli faktycznie chcesz poznać jakiś temat to musisz go wyjaśnić komuś. Najlepiej komuś, kto totalnie tego tematu nie rozumie, bo musisz w bardzo prosty sposób zacząć używać pewne sformułowania, analogie. Jeżeli uda Ci się wyjaśnić zawiły temat w prosty sposób to jest duża szansa, że faktycznie go rozumiesz. 



Jeżeli będziesz próbował się schować w pewnym sensie za jakieś abstrakcyjne pojęcia matematyczne, bardzo skomplikowane rzeczy to jest duża szansa, że kopiujesz pewne oznaczenia, które były gdzieś na wykładach, ale wcale tego nie rozumiesz. To nie oznacza, że np. matematyka jest zła. Nie, matematyka jest językiem poznania pewnego świata. Ona nie jest dobra, ani zła, a bardziej język jak np. teraz mówię po polsku (co też musiałem kiedyś się nauczyć) i żeby się porozumieć to mówię teraz po polsku. Tak samo jest z matematyką – żeby pewne rzeczy lepiej zrozumieć w ML to tą matematykę warto poznać, ale z drugiej strony jeżeli się chowamy za tym językiem to wtedy prawdopodobnie nie wszystko rozumiemy wystarczająco dobrze. Jeżeli nie jesteś w stanie wyjaśnić zawiły temat w prosty sposób to jest duże prawdopodobieństwo, że tego tematu nie rozumiesz. 


Stąd było to moje polecenie, że warto się dzielić, rozwijać i próbować przekazywać wiedzę, jeżeli chcesz się uczyć. Ale też tam jest wiele innych tematów, np. jak pomagasz ludziom to się wytwarza energia, pojawia się większa motywacja i jak już ktoś to zrobił to wie o czym ja mówię, bo ta energia jest konieczna, aby iść dalej i się rozwijać.


Jeżeli chodzi o kursy, 6 września rusza mój autorski online kurs „Analiza danych w Python”. To jest poziom zero dla osób zupełnie początkujących w tym temacie, które chcą wystartować. Natomiast 13 września rusza mój kolejny autorski kurs NLP. Tutaj w tym przypadku chodzi o tekst, przetwarzanie języka naturalnego i ten kurs jest troszkę bardziej złożony, więc polecam wszystkim osobom, które już znają fundamenty albo przerobili mój kurs „Praktyczne uczenie maszynowe od podstaw”, albo w jakiś inny sposób zdobyli wiedzę o ML, sieciach neuronowych itd. 



Co będziemy tam robić? W tej branży związanej z tekstem, naprawdę się odbyły rewolucje w ostatnie 2-3 lata i cały czas się odbywają. Pojawiły się nowe rozwiązania, zupełnie nowe podejścia, których dotychczas nigdy nie było. Pewne mechanizmy już były odkryte wcześniej, ale co z tego, jak tego nikt nie używał w taki sposób – więc można powiedzieć, że tego nie było. To, że ktoś coś tam wiedział to jest bezwartościowe, dopóki się tego nie zastosuje. 


Wcześniej świat NLP wyglądał w taki sposób, że to było łączenie dwóch światów. Drugi to statystyka i w końcu potem ML. Wcześniej tych lingwistów było znacznie więcej niż osób, które bardziej zajmowała się metodami statystycznymi albo uczeniem maszynowym. Teraz to się zmieniło. Teraz to wygląda tak, że taki lingwista być może w ogóle już jest niepotrzebny albo gdzieś tam może jest potrzebny, ale w zdecydowanie mniejszym stopniu. Mało tego, te modele, które w tej chwili są uruchamiane, one są bardzo skomplikowane, ale żeby ich zacząć używać to wcale nie potrzebujesz rozumieć tych wszystkich szczegółów.






Oczywiście im więcej chcesz tego używać to lepiej się zanurzyć, ale to tak wygląda podobnie jak teraz z samochodami czyli ten samochód może być aż tak bardzo skomplikowany, ale żeby kierować tym samochodem, nie masz za dużo przestrzeni, żeby dotykać różnych guzików. Trochę to się sprowadza w kierunku samochodów autonomicznych, z zastosowaniem ML, kiedy więcej rzeczy się odbywa niezależnie i osoby, które będą tego używać, trochę bardziej przypominają takich operatorów. Te rozwiązania, o których ja mówię to się nazywa tzw. transformery i ta cała rodzina m.in. BERT to jest algorytm wymyślony przez Google.





Oczywiście Google inspirował się na kilku innych rozwiązaniach, które powstały. M.in. ten BERT został wdrożony też w wyszukiwarkę Google i to już na wielu rynkach. Zmieniła się też jakość, m.in. to co się zmieniło to kontekst czyli jak piszemy to samo słowo, które pisze się w taki sam sposób, np. słowo „zamek” albo kilka innych podobnych to nie mając kontekstu to nie wiesz, o który zamek chodzi. Czy o zamek budynek, czy o zamek w drzwiach, czy w kurtce. Teraz mając kontekst, czytając do tyłu albo z przodu to jesteś w stanie lepiej wyczuć co to słowo oznacza w praktyce. Więc o tych rzeczach będziemy rozmawiać.





Też będziemy rozmawiać o NERze. NER to jest skrót od Named Entity Recognition czyli wykrywanie jednostek nazwanych. W skrócie chodzi o to, że np. mamy jakąś umowę, w której są bardzo istotne fakty, np. miasta Kraków czy Warszawa. Wychwytujemy sobie, że to jest miasto, a zawartością tego jest Kraków (albo Warszawa). Albo też wychwytujemy sobie kawałek takiej informacji – 13 września 2021 to jest data, a zawartość jest taka jak powiedziałem albo np. NLP online kurs czyli wychwytujemy, że to jest nazwa kursu. 


Najciekawsze jest to, że są takie predefiniowane klasy, np. imiona, pieniądze itd. Ale są też takie rzeczy, że można sobie to spokojnie rozszerzyć pod swoje własne potrzeby, pod konkretną domenę, w której operujesz – medycyna, finanse, jakakolwiek inna branża, wystarczy tylko wprowadzić swoje nazewnictwo i można w ten sposób badać. Właściwie tych zastosowań jest tu mnóstwo. 


Podam taki przykład – wyobraź sobie, że mamy popularną książkę np. Harry Potter i teraz pomyślmy w ten sposób, że chcemy złapać wszystkich bohaterów na osi czasu. Mamy oś czasu, niech to będą numery stron od 1 do 500 i teraz sobie układamy Harry Potter pojawia się na stronie 5, 15, 20 itd. Na tej osi czasu pojawiają się różni bohaterzy. Możemy sobie zobaczyć, którzy bohaterzy, w których miejscach się pojawiali albo możemy sobie zbadać wydźwięk tekstu, w którym kontekście się pojawiali albo czy pojawiały się tam jakieś inne jednostki takie jak np. pieniądze, jakieś nazewnictwa itd. Takie rzeczy robi się w miarę prosto. 



Jeżeli chcesz poznać zasady jak się robi przetwarzanie języka naturalnego, zaczynając od prostych rzeczy, ale skupimy się też na najnowszych technikach. Jeżeli chcesz to poznać i rozwijać się to bardzo gorąco zapraszam Cię do wzięcia udziału. Właściwie poprzednia edycja była rok temu, teraz powtarzamy, robimy drugą edycję. Kiedy będzie kolejna to jeszcze nie wiem, ale może za rok, zobaczymy.


Bardzo gorąco zapraszam do wysłuchania dzisiejszego odcinka z Mirosławem.


Cześć Mirek. Przedstaw się kim jesteś, czym się zajmujesz i gdzie mieszkasz. 


Cześć Vladimir. Witam wszystkich słuchaczy podcastu Biznes Myśli. Nazywam się Mirosław Mamczur i mieszkam w pięknym Wrocławiu. Aktualnie pracuje w Santander Bank Polska i wykorzystuję sztuczną inteligencję do walki z cyberprzestępcami. W wolnych chwilach uwielbiam gotować, a wieczorami jak uśpimy z żoną nasze dwie córeczki to wtedy jak mam chwilkę czasu dla siebie to siadam do jakiegoś napisania artykułu na moim blogu, gdzie staram się dzielić w miarę prosto wiedzą o uczeniu maszynowym i opisuję te modele czy te metody, których ostatnio właśnie wykorzystywałem w pracy.


Wiele ciekawych rzeczy powiedziałeś, ale tak tradycyjnie zaczniemy – jaką ostatnio fajną książkę przeczytałeś? Podziel się jedną myślą, dlaczego warto tą książkę przeczytać.


Nazywa się „Jedna rzecz” G. Kellera. Jest to książka odnośnie jednego ważnego pytania, które warto sobie stawiać i zastanawiać się nad jego odpowiedzią. Ta książka przeprowadza nas przez proces myślenia, pracy nad sobą, zmusza do refleksji. Mogę zacytować to pytanie, które dało mi dużo do myślenia: „Jaką jedną rzecz mogę zrobić, ale taką, że gdy będzie zrobiona, wszystko inne stanie się prostsze lub nieistotne”. To pytanie warto sobie zadawać nie tylko biznesowo, ale też zacząłem myśleć nad tym pytaniem w dziedzinach tj. jak rodzina, zdrowie, duchowieństwo. To jest taka fajna książka, która mnie zmusiła do refleksji. Tym bardziej polecam właśnie słuchaczom.


Stosujesz to w praktyce, czy dobrze to zrozumiałem?

Tak.


Dobrze. Porozmawiajmy teraz o Twojej ścieżce zawodowej, a mianowicie jak popatrzy się na Twój profil na Linkedin, widać, że już od 13 lat pracujesz w banku. Właściwie cały czas w jednym miejscu, co prawda pewne rzeczy się zmieniały, ale to jest też ciekawa sprawa. Widać, że z jednej strony Twoja ścieżka się zmieniała w taki sposób, że na początku zajmowałeś się bardziej analizą danych, później pojawia się słowo Data Science i w tym kierunku poszedłeś. Z drugiej strony to jeżeli patrzymy na obszar zastosowań to najpierw to był bardziej obszar związany z kredytami, ocenianie ryzyka, a później się przełączyłeś już na obszar, w którym obecnie jesteś czyli cyberbezpieczeństwo. Czy to jest świadomy wybór czy przypadek? 


Powiedziałbym pewnie, że jedno i drugie. W sumie masz rację, że dużą część życia poświęciłem obszarowi kredytów, bo to jest już chyba 13 lat w banku Santander. Przez pierwsze lata pracowałem jako analityk baz danych i wyciągałem tam wnioski i obserwacje na zadawane pytania przez dyrektorów czy inne osoby zarządzające. Potem jakoś tak naturalnie przyszedł czas, że powstał cały dział związany z Data Science, AI i płynnie przeszedłem do niego. Tam przez wcześniejsze 3 lata tworzyłem właśnie modele dla ryzyka kredytowego. Można powiedzieć, że jak już tyle lat się siedzi w jednym temacie to albo można się zdecydować, że chce się być maksymalnym ekspertem, albo spróbować coś może zmienić i poszukać czegoś innego. Można powiedzieć, że tutaj świadomie zacząłem szukać nowych wyzwań czy nowych problemów do rozwiązania. 


Ten przypadek tutaj też był. Dlaczego? Ponieważ zwolniło się akurat jedno miejsce w teamie cyber, więc zdecydowałem się tam od razu udać, a że mam takie poczucie wewnętrznej misji, by troszeczkę zostawić ten świat lepszym to ten temat związany z cyber wydawał mi się idealną rzeczą, żeby właśnie w to się zaangażować, nauczyć i spróbować pomóc naszym klientom czy bankowi walczyć z cyberprzestępcami.


Podsumowując, zarówno to była świadoma zmiana jak i przypadek.


Patrząc na tytuły, które masz wpisanie chociażby na Linkedin, widać, że w pewnym momencie przełączyłeś się od osoby, która analizuje, projektuje w tym przypadku ryzyko kredytowe na rolę Data Scientist. Najpierw to była rola Data Scientist w obszarze ryzyka kredytowego, ale później to była rola w obszarze bezpieczeństwa.


Przypomnij troszkę kontekst, jak to się stało, że jesteś Data Scientistą?

Z tego co pamiętam to przede wszystkim to się wzięło z tego, że wtedy już szukałem czegoś innego, zmian, ponieważ zajmowałem się przede wszystkim budowaniem procesów kredytowych, a chciałem zaangażować się w coś nowego. Wtedy też to był przypadek, że cały dział powstał Data Science. Była możliwość zaangażowania się w niego, tylko, że trzeba było się nauczyć najróżniejszych, nowych elementów, tj. budowa modeli, wykorzystanie sztucznej inteligencji. To było takie poczucie w środku: „Ej, fajnie by było to zrobić, może mi się to spodoba”. Rzeczywiście, od kiedy poznałem Data Science, uczenie maszynowe to zakochałem się. Mam nadzieję, że z wzajemnością. I tak jakoś się to życie już potoczyło. 




Artykuł Mirka. Kliknij tutaj, aby przeczytać jego historię przebranżowienia.

Porozmawiajmy teraz dokładniej o cybersecurity. Jak to tłumaczycie u siebie na język polski?

Cyberbezpieczeństwo.


Ok, dlaczego pytam? Bo jak patrzyłem na różne źródła m.in. na wiki to inaczej to się tłumaczy, te tłumaczenia niekoniecznie mi się podobały. Trzymajmy się cyberbezpieczeństwa. Czym jest cyberbezpieczeństwo? Ta cała działka jest bardzo szeroka i konkretnie w Twoim przypadku kogo i od czego chronić? Najlepiej podaj jakieś konkretne przykłady, żeby to było jak najbardziej zrozumiałe dla mnie i dla słuchaczy podcastu.


Masz rację, ta dziedzina cyber jest bardzo szeroka. Mimo, że pracuję już w ten domenie prawie rok to dalej mam wrażenie, jakbym był na samym początku, byłbym żółtodziobem i niewiele co rozumiał. Ale w tym momencie, jeżeli pytasz o kogo i co chronimy to ja bym powiedział, że w teamie, w którym pracuję, mamy dwóch głównych odbiorców naszych prac. 


Pierwszymi odbiorcami jest właśnie zespół ekspertów walczących z wyłudzeniami pieniędzy od naszych klientów. To są tacy cyberprzestępcy, którzy okradają ludzi na wiele najróżniejszych sposobów. Wydaje mi się, że takim najbardziej, najczęściej spotykanym sposobem, który jest znany i coraz bardziej powszechny i ludzie coraz bardziej są na szczęście wyczuleni na niego to jest tzw. fishing, że np. do Ciebie przyszedł by jakiś dedykowany e-mail z linkiem, jak wchodzisz w niego to masz podstawioną jakąś stronę, np. która wygląda bardzo identycznie jak bank czy może jakaś strona do przelewów, gdzie można podać numery karty płatniczej. Jak przestępcy dostaną już te dane to wtedy przystępują do działania i próbują wykraść pieniądze albo z karty debetowej czy kredytowej, albo zalogować się do bankowości internetowej i tam okraść tego klienta. 


Innym typem fraudów to są tzw. fraudy socjotechniczne. One są bardzo ciekawe, ponieważ głównie opierają się na socjotechnikach stosowanych przez przestępców. Takim przykładem może być coś dla czego robiliśmy ostatnio ciekawe modele – fraudy inwestycyjne. To polega że dzwoni do Ciebie jakaś osoba, przedstawia się, że jest znanym inwestorem i reklamuje Ci zysk z gwarancją sukcesu, że min. 30% zarobisz w 2 tygodnie. Musisz tylko też gdzieś te pieniądze przelać. To są właśnie takie socjotechniki wykorzystywane przez tych oszustów.


 

Najważniejsze jest uczyć klientów i wszystkich dookoła, żeby byli odporni na takie rzeczy. Ale każdy ma w życiu słabsze momenty i może niestety złapać się na takie oszustwo. Więc trzeba być bardzo świadomym. 


Natomiast drugim odbiorcom naszych prac jest tzw. blue team. To jest team ekspertów od cyberbezpieczeństwa, który walczy z atakami na infrastrukturę naszego banku, gdzie właśnie hakerzy szukają jakiś podatności w systemach, luk, żeby można byłoby się wślizgnąć do naszej infrastruktury. Głównie w celu po to, żeby po prostu wykraść dane, a później najprawdopodobniej szantażować różnymi opłatami na temat tego wycieku.


Jak mówiłeś o socjotechnikach, my też troszkę rozmawialiśmy o tym przed nagraniem tego podcastu. Przypomniała mi się historia o klasycznym, słynnym hakerze Kevin Mitnick, który z jednej strony jest słynny z tego, że jest takim hakerem, ale z drugiej strony, to co on przede wszystkim robił to były właśnie bardziej takie socjotechniki czyli on nie tyle hakował tylko bardziej dzwonił albo udawał kogoś innego i dostawał się do różnych zasobów. To jest ciekawa rzecz, bo to się działo już dawno temu.



W odróżnieniu od takich bugów komputerowych, które jak się znajdzie to zwykle w miarę szybko da się załatać, natomiast ten bug u ludzi jest bardzo ciężko naprawić. W tym przypadku zostaje nam szerzenie wiedzy, edukacja i dzielenie się z ludźmi. Ale też trzeba mieć dużo pokory, że ciężko jest to naprawić. Więc cieszę się, że akurat to przy okazji przypomnieliśmy. 



Tak, ale też dokładnie potwierdzam to co mówisz. Wydaje mi się, że to jest najskuteczniejsza mimo wszystko broń hakerów i to się nie zmieni, że takie techniki socjotechniczne są najczęściej stosowane. Przypomniało mi się nawet jak kiedyś pisałem na bloga artykuł o deepfakach to tam znalazłem taki ciekawy przykład – pierwszego deepfake’a podobno (nie było to potwierdzone nigdzie), gdzie rzeczywiście wyłudzono duże pieniądze od kogoś, ponieważ ktoś podszył się deepfake’iem pod głos prezesa i kazał gdzieś dokonać przelewu. Ale nie wiemy czy to był rzeczywiście deepfake czy po prostu ktoś miał bardzo podobny głos i w ten sposób wykorzystał socjotechnikę na jednej z osób w firmie. 


Teraz spróbujmy troszkę bardziej to zawęzić, aby więcej wybrzmiało konkretów. Oczywiście zdaję sobie sprawę, że z jednej strony nie możesz powiedzieć wszystkiego wprost, bo to zaprzecza regułom bezpieczeństwa. Po to się to robi, żeby to było trochę nieznane i skuteczne. Z drugiej strony fajnie, żeby wybrzmiały jakieś konkrety, żeby dało się pewne rzeczy zrozumieć lepiej. Dlatego proponuję, aby skupić się teraz na najbardziej popularnych zagrożeniach, które w tej chwili występują (w szczególności w obszarze finansowym). Przy czym zróbmy to na dwa wymiary czyli pierwszy wymiar z punktu widzenia instytucji, firmy, a drugi wymiar to z punktu widzenia zwykłego człowieka. 


Z tego co ja zauważam to przejdźmy najpierw z perspektywy zwykłego zjadacza chleba, takiego jakim jesteś Ty czy ja. To są właśnie te wszystkie fraudy związane z wykradzeniem od nas numerów kart, żeby wykraść z nich środki albo dostać się do naszego konta. Bo tak naprawdę, jak podamy gdzieś informacje na jakieś stronie o karcie kredytowej, razem z kodem CVV z tyłu plus datą to to żaden problem jest, za wschodnią granicą, czy w Rosji czy w Chinach kupić w sklepie coś od razu na tą kartę, a po chwili dać informację do sklepu, że jednak rezygnujemy z zakupu i prosimy, żeby zwrócić te środki na inne konto i podajemy inne konto. W ten sposób pozbywamy klienta tych pieniążków. To są takie główne zagrożenia. 


Tak samo dużym zagrożeniem dla przeciętnej osoby jest to, żeby uważać gdzie się logujemy do systemu bankowego. Też dość często widać próby wykradzenia loginu i hasła i próby dodania np. telefonu, jeżeli dodatkowo autoryzujemy przelewy, jako nowego telefonu. Tutaj też przestępcy stosują najróżniejsze socjotechniki, żeby w tym kierunku pójść. 


Więc to jest trend i on można powiedzieć, że się nasila, bo jest sporo stron prowadzonych u nas w Polsce tj. niebezpiecznik, sekurak, zaufana trzecia strona, gdzie tam naprawdę eksperci opisują ile tych ataków jest, ile ludzi się do nich zgłasza i tego jest coraz więcej. Na przykład teraz na dużą skalę są ataki związane z OLX, już chyba prowadzone od października tamtego roku. To polega na tym, że jak wystawiasz przedmiot to automatycznie już przestępcy mają programy, że chwilkę po tym robią kopię tej strony, wystawiają gdzieś linka, podsyłają Ci innego link i mówią: „Ej, ja kupię ten przedmiot, tylko wejdź w ten link i podaj mi numer karty, a w ten sposób ja zapłacę”. W ten sposób właśnie starają się oszukiwać. 


To jest takie duże zagrożenie dla nas. Tu bym powiedział prosto – najprostszym zabezpieczeniem jest uwaga i zdrowy rozsądek. 


Są też takie wyłudzenia w stylu, że dzwoni bank i mówi, że właśnie tutaj dzwoni specjalny team, że właśnie zablokowali transakcję i próbują klienta namówić, żeby zainstalował jakieś oprogramowanie. Najbezpieczniej jest, jak dzwoni bank z takimi prośbami, rozłączyć się i jeszcze raz zadzwonić samemu do banku. Bo nie oszukujmy się, większość banków ma dzisiaj systemy only channel. Ma wszystkie informacje, o wszystkich próbach kontaktu, więc będzie miał tą informację czy rzeczywiście coś takiego się działo czy nie. Czyli mimo wszystko nie ufać jak ktoś tak dzwoni z różnymi rzeczami.



Z perspektywy firm to bym powiedział, że ciekawym zagrożeniem, które tak z mojego punktu widzenia widzę to jest tzw. ransomware. Jest to złośliwe oprogramowanie, co blokuje dostęp do komputera i do danych i wymusza okup. Kiedyś to wyglądało w ten sposób, że głównie przestępcy takie rzeczy instalowali przeciętnym zjadaczom chleba, takim pojedynczym osobom.




Natomiast to co zauważyli, że tam była mowa o znacznie mniejszych kwotach, jakie można było wykraść. Te grupy cyberprzestępcze zauważyły, że może zamiast atakować dużo ludzi to lepiej się skoncentrować na jakiejś konkretnej, dużej firmie i zrobić jakąś dedykowaną akcję czy atak, bo dzięki temu, jak takiej dużej firmie, np. jakiemuś bankowi rzeczywiście by zablokowali dostęp, dodatkowo jeszcze by okradli dane, wyciągnęli je na zewnątrz to tam pewnie mowa już o okupach rzędu kilku-kilkunastu milionów. Nie mam niestety takich informacji o kwotach, ale to jest takie zagrożenie dla firm, które ja widzę.



Mówiłeś o oszustwach z kartami i przypomniała mi się rozmowa, osobny odcinek 36, gdzie rozmawiałem z Hubertem z firmy Nethone. Tam właśnie było więcej powiedziane o tym jak takie różne niefajne przypadki się dzieją, że karty się wykorzystuje, potem pieniądze się zwracają i sklep potrafi zbankrutować. Z tego co wiem to np. na takich rynkach jak Brazylia, ten problem jest bardzo duży. Polecam odsłuchać ten odcinek.


Powiedziałeś o trendach, a powiedz teraz trochę więcej na temat wyzwań. Jakie są największe, technologiczne wyzwania na ten moment według Ciebie?


Z technologicznego punktu widzenia to wydaje mi się, że najlepiej by było porozmawiać z prawdziwymi ekspertami cyberbezpieczeństwa. Natomiast ja mogę powiedzieć o wyzwaniach z punktu Data Science, z którymi na co dzień działamy. To są dwa punkciki. Przejdźmy też do tych dwóch odbiorców osobnych.


Pierwszym w przypadku fraudów, powiedziałbym, że to dość niewielka ilość danych i to na szczęście, że nie ma tego nie wiadomo jak dużo. Ale przede wszystkim tutaj dużym problemem jest ciągła zmienność.




Bo nawet jak zbudujemy jakiś model czy wyłapiemy jakieś fajne reguły, które pomagają nam ustrzec i uratować klientów przed takimi atakami na nich to nie możemy na długo osiąść na laurach, ponieważ Ci cyberprzestępcy bardzo szybko dostosowują się do nowej rzeczywistości i zaczynają zmieniać sposób działania. Wtedy zaczyna się znowu walka na nowo. Znowu wymyślą jakiś inny sposób, musimy się szybko dostosować, spróbować jak najlepiej to zaadresować i tak ciągle się ścigamy. 


Natomiast w przypadku tego drugiego elementu czyli obrony np. infrastruktury to tutaj mówimy o dużej liczbie danych sieciowych. Tutaj głównym problemem, przed którym my jako Data Scientist’i pracujący np. w banku stoimy to jest często brak danych. Albo np. zostaliśmy jakiś czas temu poproszeni o zbudowanie modelu, który by wspierał te narzędzia, które mamy dzisiaj do wykrywania, tunelowania DNS. Takiego ruchu, na który większość firm nie patrzy. Tutaj nie dostaliśmy prawie żadnych danych, tylko prośba była, żebyśmy spróbowali coś zrobić, przewidzieć czy tu jest np. tunelowanie czy nie. Do tego trzeba było mieć troszkę otwarty umysł i się zastanowić jak trzeba to zrobić. 



Na szczęście sieć osób zajmująca się cyberbezpieczeństwem to jest coś takiego fajnego, że oni są tak samo otwarci, tak jak zauważyłem to na początku jak wszedłem do świata Data Science, że Data Scientist’i i całe ugrupowanie ludzi zajmujący się uczeniem maszynowym jest dość otwarty. Pokazuje swoje różne rozwiązania. Tak samo jest tutaj. Można było łatwo znaleźć w sieci jakieś narzędzia, których bezpiecznicy czyli osoby, które właśnie zajmują się tym przede wszystkim cyberbezpieczeństwem, używają po to, żeby nauczyć jak inni ich atakują i w którym kierunku pójść.





Więc wzięliśmy parę takich narzędzi, spróbowaliśmy sami zrobić atak poprzez tunelowanie tego ruchu DNS i w ten sposób zbudowaliśmy właśnie próbkę, odpowiednio później już flagując na 29:40 i mogliśmy pociągnąć ten temat dalej. Później już wykorzystaliśmy proste sieci, żeby w ten sposób to wytrenować i całkiem fajnie to zadziałało. 



Później jak wdrożyliśmy ten model na produkcji to też się udało wyłapać kilka tunelowań, o których wiedzieliśmy, ale tutaj mieliśmy potwierdzenie, że rzeczywiście model to wykrył. Na szczęście to były dobre tunelowania w stylu np. takich jak Google używa do Google Analytics, gdzie też wykorzystuje ten tunel DNS, żeby jakieś tam pojedyncze rzeczy wysłać.



Wiele ciekawych rzeczy, tutaj przy okazji spróbuję troszkę skomentować i dopytać. Pierwsza rzecz, którą powiedziałeś, że nie ma za dużo danych. Prawdopodobnie miałeś na myśli, że chodzi o te przypadki oszustw. Pewnie danych jest dużo jako transakcji tylko takie transakcje, które są powiązane z oszustwami jest mała. To oczywiście jest bardzo dobrze dla banku, natomiast źle dla osoby, która robi rozwiązania czyli taki ML Engineer. On potrzebuje przypadków, żeby model nauczyć. Jak tych przypadków jest bardzo mało to jest problem.



Tutaj oczywiście są różne sposoby jak sobie można z tym radzić, aby w sposób sztuczny dogenerować takie dane. Ale z drugiej strony trzeba przyznać, że to nie jest taka trywialna sprawa i tam jest mnóstwo różnych wyzwań, które po prostu potrafią zepsuć te rozwiązania. Tu jestem bardzo ciekaw jak to robicie u siebie. Nie wiem na ile możesz tu powiedzieć, więc przy okazji skomentuj za chwilę.



Ale drugą rzecz też skomentuj, a propo jak powiedziałeś, że po obu stronach jest taka walka, gra, która nigdy się nie kończy. To jest taki żywy organizm, który cały czas się dostraja czyli jedna strona próbuje oszukać drugą, a druga strona próbuje zgadnąć i jakoś się obronić. Najciekawsze w tym wszystkim, jeżeli tak się na chwilę odetniemy i będziemy obserwatorami, zobaczyć jaka kreatywność się wyłania w tym całym organizmie.




Też zdawać sobie sprawę, że skoro to jest jako żywy organizm czyli za tym stoi też żywa istota to nie da się w sposób jednoznaczny napisać jeden algorytm i być bezpiecznym. Nie ma ani jednego algorytmu, który potrafił przeżyć ewolucję żywego organizmu. Więc to też jest ciekawa rzecz.


Tutaj oczywiście jest taki największy problem, szkoda, że ta cała energia, cały potencjał, twórczość, którą się angażuje (w szczególności po stronie osób, które oszukują), że się angażują do takich rzeczy. Bardzo fajnie byłoby te osoby zaangażować dla dobra społeczności.




W jakiś sposób też, żeby dostawali wynagrodzenie za to, bo trzeba przyznać, że te osoby muszą mieć kreatywność, aby wymyślić takie ciekawe algorytmy. Niestety mają talenty, ale angażują je w bardzo złym miejscu, bardzo zły sposób. Z różnych powodów nie chcemy dyskutować dlaczego tak się dzieje, być może po prostu tak jest najłatwiej. Co o tym myślisz?


Tak. Odnośnie tych danych, o których mówiłeś to rzeczywiście ostatnio skorzystaliśmy z takiej metody SMOTE, którą też tam ostatnio na blogu opisałem. Jest bardzo ciekawa do generowania danych tylko tam też trzeba uważać na klątwę wielowymiarowości przy dorzucaniu kolejnych charakterystyk czy danych, żeby nie zgubić tej generalizacji problemu. To jest skomplikowany temat, ale dużo można się tu ciekawych rzeczy nauczyć i spróbować różnych technik. 


Tutaj może warto od razu podpowiedzieć naszym słuchaczom, że klasy niezbilansowane występują nie tylko w przypadku, kiedy walczymy np. z oszustami, ale również w takich sytuacjach, kiedy to na czym nam zależy, to zjawisko występuje bardzo rzadko czyli np. to może być też sprzedaż, kiedy mamy bardzo dużo zimnych leadów (tylko 1% albo jeszcze mniej), ostatecznie konwertuje.




W tym przypadku to jest z technicznego punktu widzenia bardzo podobna sytuacja czyli mamy zdarzenia, na których nam zależy bardzo mało i zdarzenia, na których nam nie zależy znacznie więcej. Też warto powiedzieć, że biblioteczka SMOTE, ona może się przydać, tylko trzeba bardzo uważać, w szczególności kiedy mówimy o tym, żeby dogenerować nowe próbki, bo kiedy mówimy o zmniejszaniu liczby próbek to działa całkiem dobrze. Natomiast kiedy tworzymy w sposób sztuczny takie zdarzenia, które wcześniej nigdy nie wystąpiły to trzeba dobrze rozumieć co dokładnie my robimy i czy w tym przypadku nie wprowadzamy w błąd nasz model. 


Tak, ogólnie temat niezbalansowanych danych jest ciekawy, bo nigdzie nie ma wprost powiedziane co znaczy, że są dane niezbalansowane. Jak będzie 60 do 40 good do bad to też są już niezbalansowane? To jest taki płynny temat. Ciekawe pytanie.


Jeżeli chodzi o klasy niezbalansowane, tutaj jak mamy do czynienia 1 vs. 99 albo chociaż 1 vs. 95 to zwykle uznaje się, że to jest niezbilansowana. Ale faktycznie nie ma jednoznacznej definicji, kiedy mówimy, że klasy są niezbilansowane. Czyli nie ma takiej jakiejś wartości X,  mniejsze niż X to są niezbilansowane, a większe to zbilansowane.


Teraz porozmawiajmy o zastosowaniach ML, ale jeszcze trochę skomentujmy jedną rzecz. Powiedziałeś przed chwilą np. o atakach, które udało się zrobić. Bardzo jestem ciekaw jak się czułeś, bo prawdopodobnie robiliście to nie na produkcyjnym systemie tylko jakiś taki techniczny był tam postawiony. Pamiętam jak byłem na szkoleniu bezpieczeństwa i tam też były przeróżne narzędzia dostępne i można było właśnie to uruchomić. Takie różne gotowce, które po prostu są dostępne w sieci.




Ty to uruchamiasz, nawet bez większej wiedzy programistycznej, właściwie możesz w ogóle nie umieć programować. Po prostu uruchamiasz te polecenia, które są dostępne na stronie i to robi całkiem duże wrażenie czyli potrafię faktycznie złamać wiele stron ot tak. Pamiętam jak na to patrzyłem i myślałem o tym to brzmi dość groźnie, bo to jest dostępne publicznie. Z drugiej strony taka otwartość, chyba ostatecznie wygra i ma więcej zalet, bo dzięki temu systemy jednak stają się bardziej odporne, bo te najbardziej podatne błędy albo te narzędzia, które są łatwo dostępne, są po prostu dostępne i każdy może to potestować i się zabezpieczyć. Co myślisz o tej otwartości?


Też myślę długoterminowo. Z perspektywy mam nadzieję, że ta otwartość wygra z tym tematem. 


Podziel się teraz proszę na konkretnych przypadkach, jak udało się zastosować ML, ale żeby to było bardziej zrozumiałe to niech wybrzmią jakieś liczby, być może procenty. Wiem, że to może być trudne, ale jednak spróbujmy. Być może część informacji jesteś w stanie ujawnić i w żaden sposób to nie będzie szkodliwe ani dla Ciebie, ani dla kogoś innego. Więc bardzo proszę podziel się konkretami.



Jasne. To też mogę się podzielić dwoma jakimiś przykładami, z tych dwóch osobnych kawałeczków, które robimy. Ostatnio dostaliśmy taką dość ciekawą prośbę, czy moglibyśmy w ogóle przygotować model wykrywający jeden ze specyficznych typów ataku, który powinien być widoczny, jakbyśmy analizowali logi z bankowości internetowej. Tutaj był bardzo ciekawy problem, ponieważ dostaliśmy tylko informację o jednej takiej próbie ataku.




Oczywiście to jest zbyt mało, żeby zbudować jakikolwiek model, więc tutaj musieliśmy podejść bardziej otwarcie, troszeczkę się zastanowiliśmy co możemy zrobić i odwróciliśmy ten problem, bo pomyśleliśmy, że jeżeli to jest atak i tak rzadko występuje to podejdźmy do tematu jak do wykrywania anomalii, gdzie tak naprawdę uczenie maszynowe jak najbardziej może nam pomóc przy tym. Wtedy wzięliśmy tak naprawdę te logi z aplikacji, patrzyliśmy tam przede wszystkim po sesji czyli jak ktoś się loguje to mamy odpowiedni numerek sesji, to był nasz klucz. Jak wzięliśmy tą sesję to sobie ładnie poukładaliśmy kroczek po kroczku co się działo, co w tym momencie np. użytkownik zrobił, w które miejsce wszedł, jakie informacje pobrał ze strony, czy pobrały się wszystkie czcionki, czy zrobił coś niestandardowego. 


Oczywiście tam też dodatkowo, fajnie się złożyło, że mieliśmy informację, o timestamp’ach czyli jakie były odstępy czasowe między tymi rzeczami. Jak mieliśmy te rzeczy to tak naprawdę te logi to był długi kawałek tekstu. Maszyny tekstu nie za bardzo lubią i nie kochają przetwarzać, więc zmieniliśmy to na liczby wykorzystując tzw. Label Encodera czyli np. jakiejś jednej wartości przypięliśmy cyferkę 1, jakiejś innej cyferkę 2. Oczywiście połączyliśmy to z preprocessingiem, żeby nie było zbyt dużo tych liczb (skończyło się na ok. 12-13 tys. unikalnych liczb czy nazw). 


Później mając taki wektor liczb i czasu to udało nam się wytrenować autoencoder, który posłużył, żeby te długie wektory z tą informacją o czasie i wszystkim, zmieścić w 32 nowych charakterystykach. Mając te charakterystyki, wtedy wykorzystaliśmy fajny algorytm tzw. las izolacji, który pomaga właśnie wyciągnąć te wszystkie najważniejsze zmienne. Później jak mieliśmy już te zmienne (outlier) to na to nałożyliśmy jeszcze jedną fajną technikę – klasteryzację.




Zrobiliśmy 20 klastrów i mając takich 20 klastrów na tym pół procencie populacji, która była anomaliami, sprawdziliśmy właśnie w którym miejscu był ten jeden atak i zaczęliśmy patrzeć czy te pozostałe rzeczy z tej klasy są podobne. Właśnie jesteśmy w trakcie analizy tych klas i tutaj chciałem pokazać jak fajnie można podejść do niektórych tematów, że niby tutaj jedną rzecz robiliśmy, a otrzymaliśmy 20 klas outlierów i patrzymy teraz na te klasy. One są dość ciekawe, bo z jednej z tych klas widzimy tzw. klientów, którzy się zapętlają w którymś miejscu. Nie mamy dość dużej wiedzy domenowej, żeby to przeanalizować, dlatego teraz będziemy rozmawiać już z osobnymi osobami czy zespołami, które pomogą nam to prześledzić. Ale to może być np. fajna informacja dla osób zajmujących się UX – „Ej, w tym miejscu niektórzy klienci się zapętlają, możemy coś tutaj pomóc”. 




Mamy inną taką klasę, gdzie widzimy takie w miarę stabilne te timestampy czyli takie same różnice czasów pomiędzy jakimiś akcjami to możliwe, że w tej klasie to będą rzeczy związane z tzw. scrapingiem czyli maszyny, które wchodzą i scrapują coś ze stron. Więc podeszliśmy do problemu w jeden sposób, otrzymaliśmy nie tylko wynik tego jednego, ale innych rzeczy, więc powiedziałbym, że właśnie ten Machine Learning w czymś takim może rzeczywiście realnie pomóc. 


Odnośnie konkretnych liczb to bym powiedział, że w przypadku cyber to strasznie ciężko byłoby powiedzieć o business case. Jak to wycenić? Ja to traktuję jak ciągły wyścig zbrojeń, że im bardziej się dozbroimy, tym będziemy takim miejscem, w które może ciężej będzie atakować i może zaatakować kogoś innego, słabszego. Więc ja bym powiedział, że tutaj ciężko mówić o jakiś konkretach np. liczbowych, ile to przynosi pieniędzy dla banku. Nie wyobrażam sobie, żeby jakiś bank pozwolił na taki atak, bo można powiedzieć, że to strasznie kiepsko by wyglądało wizerunkowo, jakby się dopuścił takiego ataku któryś bank.


Drugi przykład, który mogę podać to chociażby to o czym mówiliśmy wcześniej, o tych fraudach najróżniejszych. Tutaj też ostatnio budowaliśmy bardzo ciekawy model, który miał na celu wykryć tzw. fraudy inwestycyjne. Czyli to jest ten przykład, o którym mówiłem Tobie, że ktoś dzwoni do Ciebie, namawia Cię na inwestycję życia i wtedy w jakiś sposób próbuje, żebyś po prostu przelał mu środki. Tutaj była duża robota po stronie ekspertów, którzy zajmują się walką z fraudsterami, ponieważ wyłapali oni kilka sygnałów, które wyprzedzają takie fraudy. Dzięki tym sygnałom jesteśmy w stanie w ogóle wtedy wyłapać 90% wszystkich takich wyłudzeń.





Oczywiście ze względów bezpieczeństwa nie mogę powiedzieć co to są za sygnały. Nie mniej jednak to pozwoliło nam już nie patrzeć na wszystkie transakcje, tylko spojrzeć na jakiś wycinek transakcji. Chyba zamknęliśmy się, że takich transakcji mamy dziennie ok. 20 tys. Nie mniej jednak, te 20 tys. transakcji do przeglądnięcia to też jest rzecz nierealna. Trzeba byłoby naprawdę mnóstwo ludzi zatrudnić, żeby na to spojrzeć i szkoda ich czasu, żeby każdą z nich przeglądać mimo wszystko. Zbudowaliśmy już model na tym wycinku konkretnym, które wyłapywał te 20 tys. transakcji i na tym spróbowaliśmy zbudować model, który przewidzi czy ta transakcja ma duże prawdopodobieństwo tego, że to jest fraud inwestycyjny czy nie.



Co się okazało, zbudowaliśmy dość prosty model, który miał kilkanaście charakterystyk. Wykorzystaliśmy gradient boosting do tego. Okazało się, że z tych 20 tys., nakładając odpowiedni próg odcięcia, ustalony razem z biznesem, wyciąga ten model dziennie 20-30 transakcji.


20-30 transakcji to super, bo to spokojnie jesteśmy w stanie przejrzeć. Okazuje się, że dla tych 20-30 transakcji, mniej więcej co trzecia to jest rzeczywista próba wyłudzenia czy fraudy. Z tego co usłyszałem to jest dość duży sukces, żeby była aż taka skuteczność. Na bieżąco oczywiście też monitorujemy ten model, żeby zobaczyć czy poniżej tego progu odcięcia czegoś też nie przepuszczamy. 


To są chyba takie liczby, które rzeczywiście pokazują ten kierunek ML w tych działaniach. Przede wszystkim automatyzacja jakiś tam rzeczy i wsparcie czy dawanie narzędzi odpowiednim jednostkom, żeby mieli lepsze narzędzia do walki z cyberprzestępcami.


Mam nadzieję, że odpowiedziałem na to pytanie, które mi zadałeś, w miarę jasno.

Bardzo dziękuję, że w ogóle o tym powiedziałeś.

Ja też przepraszam, że szczegółów nie mówię, ale nie możemy. Ale takie same metody, których używamy czy sposób myślenia w jakim działamy, mam nadzieję, że to też może zainspiruje innych. Może w innych dziedzinach słuchacze będą mogli tego użyć. 


Wszystko jest zrozumiałe, bo nie mogły wybrzmieć zbyt konkretne rozwiązania. Ale to coś już wybrzmiało, już jest całkiem fajne. Właściwie wybrzmiał kierunek myślenia. Np. to co ze mną bardzo rezonuje, takie kreatywne podejście.







W Polsce z jednej strony w ogóle ML jeszcze nie jest aż tak popularne. Coraz bardziej jest popularne, coraz więcej firm zaczyna to wdrażać, ale czasem mam wrażenie, że ML stosuje się zbytnio w sposób liniowy. Teraz nawet nie chodzi mi o modele liniowe, tylko bardziej sposób myślenia. Takie kreatywne podejście. Jak w tym przypadku wybrzmiało, że był tylko jeden przypadek tej sytuacji, którą chcieliście wykryć to na pewno jest mało, żeby wytrenować dobrze model. Więc można trochę odkręcić myślenie i zacząć wykrywać anomalia, np. wykorzystując chociażby ten autoencoder wspomniany.



To jest ciekawe, bo życie pokazuje, że wtedy, kiedy zaczniemy patrzeć na te narzędzia, które mamy, zaczniemy używać ich w sposób troszkę bardziej twórczy, bardziej kreatywny to nagle okazuje się, że sytuacje, które właściwie nie do końca wydaje się, że da się rozwiązać – da się, tylko trzeba po prostu inaczej zastosować to narzędzie, które posiadamy. Na przykład mamy jakieś zdarzenia, np. transakcje, które opisujemy przy pomocy tysiąca, dziesiątki tysięcy czy nawet 100 tys. przeróżnych cech i te wszystkie cechy sprowadzamy do np. 30.





Właściwie nie do końca wiemy czym są te cechy, bo autoencoder nam nie daje możliwości podejrzeć wprost, że cecha pierwsza oznacza to coś, a cecha druga coś innego, ale wiemy, że  z jakiegoś powodu autoencoder uznał, że możemy skompresować tą przestrzeń informacji do 30 sygnałów i każdy sygnał za coś jest odpowiedzialny. Później możemy tam nałożyć jeszcze kilka warstw, np. lasy izolacji lub klastrowanie. To pokazuje takie ciekawe podejście i myślę, że jeszcze wiele firm nie zdaje sobie sprawy jak dużo da się wycisnąć z danych, które posiadają i zacząć robić to w trochę nieoczywisty sposób.



My też mamy na swoim liczniku w DataWorkshop parę mniej oczywistych przypadków, m.in. też używaliśmy autoencoder, ale robiliśmy zupełnie coś innego. Ale to też pokazuje po raz kolejny jak ten model jest uniwersalny. Też polecam myśleć bardziej tak kreatywnie.


Już nie będę dalej drążyć ten temat jeżeli chodzi o szczegóły, bo zdaję sobie sprawę, że są pewne granice, których raczej nie wolno przekraczać. Chociaż tutaj jeszcze raz się chce skomentować, że to co już wybrzmiało np. socjotechniki. To jest taki żywy organizm, psychologia itd. Tutaj takie narzędzia techniczne, ML’owe nie zawsze się sprawdzają, ale w niektórych przypadkach też da się złapać pewne sygnały i całkiem skutecznie to u Was wyszło.



Zmieniam temat na zupełnie inny.


Już niebawem rusza mój autorski online kurs NLP przetwarzanie języka naturalnego. Bierzesz udział w tej edycji. Powiedz jak to się stało, że dołączyłeś do kursu? Czy to jest taki bardziej konkretny cel, że rozwijasz się i będziesz to stosować wprost czy to bardziej tak z ciekawości, chcesz poszerzyć swoje umiejętności, bo zdajesz sobie sprawę, że nie do końca wiesz, kiedy co będzie potrzebne, ale czujesz, że poszerzenie horyzontu naprawdę jest bardzo ważną rzeczą. Jeżeli człowiek rozwija się, dopiero wtedy jak pozbiera różne kropeczki to dopiero te kropki zaczynają się łączyć w jeden obraz. 



Powiedz proszę jak to widzisz.

Szczerze, powiedziałbym, że to jest ciągła ciekawość i chęć poszerzania wiedzy, ponieważ w Data Science nie siedzę długo. To jest dopiero 4 lata, więc naprawdę jeszcze dużo rzeczy fajnie byłoby poznać. Zanim zdecyduję się np. na jakąś specjalizację, że chcę się dokładnie w NLP rozwijać albo w computer vision, albo w czymś innym. Na razie to po prostu chcę poznać jak najwięcej elementów, żeby spróbować łapać różne konteksty. Żeby właśnie wykorzystywać te rzeczy, które poznajemy do całkiem innych zagadnień. Czyli próbować troszeczkę wciągnąć więcej kreatywności do standardowych rozwiązań, które może dadzą nam lepsze efekty czyli głównie dlatego. 



Właściwie 4 lata temu, jak rozpoczynałem swój pierwszy autorski online kurs w ramach DataWorkshop to też dołączyłeś do tego kursu. Dla Ciebie to też był pierwszy online kurs, gdzie zdobywałeś wiedzę. W ramach tego kursu m.in. namawiałem uczestników kursu, aby jeżeli chcą poszerzyć swoją wiedzę i faktycznie jeszcze bardziej przyspieszyć to oprócz tego co przerobiliśmy na kursie to warto również rozpędzać się jeszcze bardziej. Jak to zrobić? To właśnie jest to m.in. przekazanie wiedzy kolejnej osoby lub osobom. Można robić to na różne sposoby, m.in. polecałem taki klasyczny format, np. blog, vlog albo ja np. robiłem malutkie spotkania wewnątrz firmy. Tam było dosłownie kilka osób, wszystkich znałem, więc to było też troszkę łagodniejsze i przyjemniejsza historia.



To na pierwszy rzut oka wydaje się takie trochę paradoksalne o co chodzi z tym szerzeniem wiedzy i mówienie komuś. To stwierdzenie, że jak dopiero chcesz się nauczyć to musisz komuś to wyjaśnić.


Ale po chwili zastanowienia się to wszystko staje się logiczne, bo człowiek jest bardzo ograniczony i bardzo łatwo się schować z różnymi abstrakcyjnymi pojęciami. Zdecydowanie lepiej jest weryfikować siebie, tłumacząc komuś czy faktycznie rozumiesz to co tłumaczysz. Polecałem to oczywiście nie dlatego, że gdzieś tam przeczytałem w książce, tylko wiedziałem ze swego własnego doświadczenia, że to działa. Ciągle to stosuje i wiem, że m.in. dzięki temu, bardzo szybko się rozwinąłem w wielu obszarach. Bardzo jestem wdzięczny Tobie i dumny, że ruszyłeś. Też pamiętam ten mail, który wysłałeś z podziękowaniem i dla mnie to było takie wzruszające, bo to też jest taka moja misja pomagać, podpowiadać, inspirować. 



Ciekawy jestem co dla Ciebie teraz znaczy blog, jak z tym się czujesz i na ile to była dobra decyzja?


Dziękuję przede wszystkim za polecenia. W sumie rzeczywiście Ty mnie zainspirowałeś, żeby właśnie tym się dzielić. Choć na początku miałem olbrzymią ilość demonów w głowie, że jak zacznę opisywać to większość ludzi będzie krytykować, że to nie do końca jest tak. Ale rozprawiłem się z tymi demonami w taki sposób, że zakładam, że akurat ludzie zajmujący się AI czy ML są bardzo otwarci. Nawet wszystkie krytyczne komentarze to raczej jest to próba pomocy mi i przyjąć to po prostu, że ludzie chcą mi pomóc jak najbardziej. Dzięki czemu będę mógł stać się lepszą osobą, jeszcze lepiej w tym co robię.



 

Blog sam w sobie przede wszystkim nauczył mnie systematyczności, że raz na jakiś czas siadam, opisuję te rzeczy. To jest dość istotne, żeby rzeczywiście tej systematyczności starać się uczyć, jeżeli ktoś ma ochotę rozwijać się. Taka rzecz, że dzielę się tymi informacjami to, że muszę lepiej zrozumieć to zagadnienie i wtedy mam też takie poczucie wewnętrzne, że skoro ja skumałem to tym bardziej inne osoby bez problemu sobie poradzą, bo nie używam siebie, żebym bym jakąś wybitnie inteligentną osobą. Więc jak mi się to udało to tym bardziej każdy może przeczytać tą rzecz i zrozumieć to zagadnienie.



To też taka chęć pomocy innym, że przynajmniej w taki sposób mogę tej społeczności AI, ML pomóc, dzieląc się tą wiedzą i może kogoś zainspirować do jakichś rzeczy czy pomóc w niektórych przypadkach, czy może zainspirować młodsze osoby, które jeszcze się zastanawiają czy w to wchodzić czy nie i odczarować, że to nie jest nic takiego skomplikowanego, że każdy może sobie z tym tematem poradzić, jeżeli tylko ma samozaparcie, chęć pracy i nie boi się ubrudzić rąk przede wszystkim przy oczyszczaniu danych, bo większość naszej pracy to z danymi, a niekoniecznie z samymi modelami.



Bardzo trzymam kciuki za rozwój bloga, bo też warto powiedzieć, że z jednej strony te treści, które tworzysz, one dość często są robione w sposób zabawowy i to tak bardzo przyjemnie się czyta. To dobrze, bo te tematy czasem są dość złożone. Ale z drugiej to trzeba przyznać, że ta treść jest merytorycznie, wiele przykładów jest, więc warto to przeczytać.


Jeszcze taka ciekawostka, jak przygotowywałem się do tego odcinku, jak myślałem, rozważałem różne rzeczy, też m.in. przeczytałem na Twoim blogu o Top 5 mocnych stron. Na pierwszym miejscu masz właśnie odkrywczość i to jest takie logiczne. Z drugiej strony, ludzie, którzy mają ten talent, w szczególności w top 1 to są ludzie, którzy non stop generują przeróżne pomysły. To niby brzmi bardzo fajnie, ale z drugiej strony, jeżeli ten talent jest niedojrzały to bardzo to komplikuje życie.



Teraz zastanawiam się jak z tym się czujesz? Jedna sprawa to talent, formalności itd. tylko Ty jako Mirek, jak się czujesz z tym talentem? Czy faktycznie masz tak, że łatwo Ci idzie wymyślanie przeróżnych rzeczy? Jak sobie z tym wszystkim radzisz, aby jakoś się odnaleźć w rzeczywistości?



Wydaje mi się, że rzeczywiście te talenty, które można poznać to jest coś bardziej wrodzonego co wynieśliśmy czy jak się rozwijaliśmy jako dzieci. Podobno tych talentów za bardzo nie można się wyuczyć i rzeczywiście kiedyś nie rozumiałem np. na burzach mózgów, dlaczego inni nie potrafią rzucać pomysłami, a mi to wychodzi jak z rękawa. Po prostu każdy ma jakieś talenty i musi się ich nauczyć. Ja przywykłem do mojego talentu mnóstwa pomysłów. Jedynie co to teraz staram się bardziej pilnować. Jak mam jakieś pomysły to nie rzucać ich na prawo i lewo, ewentualnie zapisać sobie na boczku, na spokojnie przemyśleć. Rzeczywiście na drugi dzień czy po kilku godzinach, ja stwierdzę, że to nie jest takie głupie i można się tym podzielić to dopiero wtedy przedstawić ten pomysł komuś innemu. 



Troszkę to wymagało pracy z mojej strony. W szczególności, że tam jeszcze jednym z talentów jest aktywator, który jak rzuci pomysł to od razu najchętniej rzuciłby wszystko inne co robił i zacząłby nową rzecz robić. Dlatego staram się otaczać innymi ludźmi, dla których jest ważne, żeby to po kolei zrobić, wszystko ładnie ułożyć, zaplanować, widzieć wszystkie przeciwności. Mi brakuje tych cech, lubię się takimi innymi osobami wtedy otaczać. Wtedy fajnie w ogóle wygląda współpraca. 



Też tak rozważałem o tym, że osoby, które mają odkrywczość w top 5 to z dużym prawdopodobieństwem się odnajdą właśnie w roli Data Scientistów. Dlaczego? Bo to jest takie naturalne. Data Scientist cały czas musi coś odkrywać, poszukiwać. Taka kreatywność się przydaje. 



Ciekawym byłoby podejściem, aby coraz częściej ludzie sięgali po takie świadome decyzje, w których miejscach lepiej się odnajdą. Dlaczego to jest takie ważne? Po prostu widzę dużo ludzi, którzy znajdują się nie na właściwym miejscu. Z tego powodu rodzi się bardzo dużo różnego rodzaju frustracji. W swoim miejscu to nie znaczy, że to jest komfortowe miejsce, że nic nie musisz robić.




Bardziej o coś innego mi chodzi. Chodzi o to, że jak jesteś w swoim miejscu to nawet mimo tych różnych trudności, których masz to idziesz cały czas do przodu, cały czas masz energię, bo to jest dla Ciebie naturalne, aby te rzeczy pokonywać, niż wtedy kiedy jesteś nie na swoim miejscu. Wtedy człowiek mimo tego, że ciało żyje to duchownie zaczyna umierać. Więc myślę, że to jest bardzo ważne, aby zrozumieć swoje mocne strony. Nie ważne jak my je nazwiemy, czy przy pomocy testu czy zapytamy samych siebie.


Też taka druga ciekawostka, bo jesteś z Wrocławia i jak myślałem o tym to mi się skojarzyła jeszcze jedna osoba, która właściwie jest z Wrocławia. Teraz co prawda mieszka bardziej w okolicach, jest to osoba dość znana w kręgach IT – Andrzej Krzywda. On ma software house, jest prezesem i też programuje cały czas. Też właśnie ma odkrywczość na pierwszym miejscu. Wtedy tak pomyślałem: a czy to jest tak trochę powiązanie geograficzne, że np. w pewnych obszarach, pewne talenty występują częściej.



Tutaj oczywiście nie mam w tej chwili danych, ale dane takie są. Np. ze wszystkich osób, które zrobiły taki test, widać, że niektóre talenty występują nieco częściej w pewnych krajach i np. chociażby w Polsce, odkrywczość pojawia się w top 11, a na całym świecie w top 15. Na całym świecie ten talent jest nieco bardziej rzadszy, chociaż ta różnica w tym przypadku nie jest aż tak duża, ale widać, że np. w Polsce odkrywczość pojawia się częściej. Czy to wynika genetycznie czy z uwarunkowań, życie zmusza czasem, aby takie pewne talenty lepiej rozwinąć. 



Teoretycznie, te talenty, które wykrywamy w tym teście to niby są takie, które pojawiają się naturalnie, które po prostu nie da się już zdobyć. To są po prostu urodzone talenty.


Jeszcze dopytam o wizję. Na szczęście też masz taki talent w swoim top. Jak myślisz, jakie kamienie milowe na najbliższych 5-10 lat uda się zrobić, jeżeli chodzi o rozwój uczenia maszynowego? Co się zmieni? Tutaj możesz powiedzieć z jednej strony tak ogólnie czyli w ogóle jako ML, całość, ale też możesz troszkę bardziej się skupić na tematach związanych z tym, czym się zajmujesz czyli z cyberbezpieczeństwem. Wybierz sam jak chcesz o tym opowiedzieć.


Jak sobie o tym myślę czy tak jak mi się wydaję, bo widzę, że świat się zmienia to ja bym powiedział, że w ciągu najbliższych 5 czy 10 lat to ML staje się dostępne dla przeciętnych ludzi, zwykłego przedsiębiorcy, mniejszych firm. Teraz przede wszystkim z ML korzystają większe firmy, korporacje, które stać na to.




Natomiast mi się wydaje, że to pójdzie w takim kierunku, że te wszystkie modele, które są tworzone, analizy, wykrywanie anomalii to pójdzie w takim kierunku, że dowolna osoba dostanie jakieś tam proste rzeczy do składania klocków, podepnie swoje dane, automatycznie będzie zbierać te informacje i dawać właśnie takie informacje, np. sprzedawcom, że np. warto byłoby koło mleka postawić jeszcze jajka, bo najczęściej to jest brane. Wydaje mi się, że to w takim kierunku przede wszystkim pójdzie. Nie tylko Data Scientist będą robić czy ludzie od danych, a mam nadzieję, że to pójdzie w takim kierunku, że będzie dostępne bardziej powszechnie dla osób.



 

A odnośnie cyber security to jak sobie o tym myślę to wydaje mi się, że mogę mieć troszeczkę więcej tutaj obaw i to pewnie z tego powodu, że z tego co kojarzę to w tym momencie jeszcze nie ma ani jednego potwierdzonego ataku jakiegoś oprogramowanie, narzędzia, które ma w sobie zaszytą sztuczną inteligencję.




Natomiast pewnie wraz z rozwojem AI, zastanawiam się czy np. w przyszłości te wszystkie deepfake’i, które będą bardziej dokładne, będzie można obraz podmienić samego siebie i głos, czy to pójdzie w tym kierunku, że jeszcze wzmocnią bardziej te ataki phishingowe i jeszcze łatwiej będzie nakłonić klientów do podania jakiś rzeczy i okradzenia ich. Ale to mam nadzieję, że nauczymy się z tym działać, że coś nam pomoże, może technologia. Mam nadzieję, że to pójdzie w dobrym kierunku mimo wszystko.


Dobrze, potwierdzam, że nagraliśmy, więc zostaje nam za jakieś 5 albo 10 lat spotkać się i wspólnie zweryfikować co się wydarzyło, a co nie. 


Bardzo dziękuję Ci Mirek za wspólnie spędzony czas, za to, że w ogóle udało się go znaleźć i podzielić się swoimi przemyśleniami, swoją ścieżką. Też pewne rzeczy bardziej prywatne odkryć i porozmawiać o talentach, bo myślę, że to jest inspirujące i to są tematy, które nie zawsze na co dzień poruszamy, a tu nam się udało. Dzięki wielkie i do usłyszenia.


Dziękuję bardzo za rozmowę. Do usłyszenia i trzymajcie się wszyscy.


Bardzo dziękuję za to, że wspólnie spędziliśmy ten czas. Mam nadzieję, że historia Mirosława była dla Ciebie inspirująca, ciekawa, odkrywcza i pewne rzeczy, które wybrzmiały są ciekawe. Podziel się proszę co o tym myślisz, które rzeczy Cię być może bardziej zainteresowały i też podziel się taką informacją zwrotną czy chcesz, aby takie historie pojawiały się częściej. Być może to też jest takie inspirujące i wpływa na to, jakie decyzje podejmujesz.


Na koniec jeszcze powiem dwie rzeczy. Ruszyliśmy w ramach DataWorkshop z taką inicjatywą jak DWClub i to jest inicjatywa, która umożliwia w bardzo łatwy sposób rozpocząć przygodę z uczeniem maszynowym.




Przy czym na siebie wzięliśmy rzeczy najtrudniejsze czyli przygotowanie całego środowiska, przykłady itd., a ja dla Ty w łatwy sposób masz dostęp 24/7, przerabiasz te zadania tak jak Ci jest wygodnie i ciągle dodajemy kolejne rozwiązania i cały czas słuchamy czego jeszcze brakuje. Dzięki temu, będąc w DWClub wpływasz na to co będzie dalej.



Uczestnictwo jest bardzo dostępne, opłata to jedynie 20 zł miesięcznie. Dzięki temu zyskujesz myślę, że znacznie więcej. Jeśli jeszcze nie wiesz co to jest to bardzo gorąco zapraszam do dołączenia. 


Podpowiem, że we wrześniu szykuje się kolejna ciekawa inicjatywa. 




Na koniec mam dla Ciebie jeszcze jedną prośbę. Proszę podziel się przynajmniej z jedną osobą tym odcinkiem i powiedz, że istnieje podcast Biznes Myśli. Dzięki temu rozwijamy się wspólnie, ja też mam energię, motywację, aby nagrywać kolejne odcinki i wytwarzać wartość dodaną dla Ciebie.


Tyle na dzisiaj. Bardzo dziękuję za wspólnie spędzony czas. Do usłyszenia, do zobaczenia. Cześć. 



Od 2013 roku zacząłem pracować z uczeniem maszynowym (od strony praktycznej). W 2015 założyłem inicjatywę DataWorkshop. Pomagać ludziom zaczać stosować uczenie maszynow w praktyce. W 2017 zacząłem nagrywać podcast BiznesMyśli. Jestem perfekcjonistą w sercu i pragmatykiem z nawyku. Lubię podróżować.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *