W poście o 10 powodach, dla których warto uczyć się języka programowania Python pojawiają się kierunki dalszego rozwoju. Obok web developmentu (odsyłam do posta: Junior Python Developer – wymagania) na pewno ciekawymi są analiza danych w Pythonie, Data Science, Uczenie Maszynowe (Machine Learning) czy Sztuczna Inteligencja i wszystko co dotyczy tych tematów. Tylko czy jest to kierunek, dla każdego?
Czym się zajmuje Data Scientist?
Data Science to dosłownie nauka o danych, więc Data Scientist, moglibyśmy przetłumaczyć jako naukowiec zajmujący się danymi. Na szczęście w języku polskim nazwy stanowisk w branży IT zostają w oryginale.
Aktualnie jest to dziedzina, która łączy naukowe, matematyczne metody z techniczną częścią, czy bardziej byśmy powiedzieli – inżynieryjną. Mamy tutaj algorytmy, systemy baz danych, programowanie przy całkiem dużym zapleczu akademickim, wiedzy matematycznej, statystycznej i analitycznej. Same dane nie są dla nas tak ważne jak wiedza jaka z nich płynie.
Jak wygląda praca w Data Science?
Na pewno różnie w zależności od danych z jakimi pracuje i jakich używa narzędzi. Najogólniejsza definicja byłaby Data Scientist zajmuje się przetwarzaniem danych.
Dzisiaj dane gromadzimy wszędzie, ale same w sobie ogromne bazy danych (Big Data) jeszcze nie niosą wiedzy, wyciągnięcie wiedzy, wniosków, wyników przynosi korzyść firmom. Dane są tak ogromne, że gdyby stosować standardowe algorytmy ich przetwarzania, przetwarzający nie dożyłby końca, stąd niezbędne są techniki uczenia maszynowego czy wykorzystywanie sztucznej inteligencji.
Data Science – stwórz swoją ścieżkę nauki
Jesteśmy przekonani, że Data Science jest kierunkiem idealnym dla nas. Załóżmy, że nauczyliśmy się podstaw Pythona. Całkiem nieźle radzimy sobie z prostymi i bardziej skomplikowanymi programami konsolowymi. Może udało nam się skończyć jakieś pierwsze skrypty automatyzujące pracę z plikami pełnymi danych np. csv czy excel.
Stajemy przed pytaniem co dalej?
Skąd brać inspirację czego się uczyć i jak zaplanować sobie kolejne etapy?
Gdzie znaleźć materiały do nauki za darmo?
Junior Data Scientist – wymagania
Możemy skorzystać z tego co pisałam dla was w poście „Jak zacząć programować, by nie przestać” czyli oprzeć się o wymagania w ofertach pracy (przykład pliku tabelki z planem we wspomnianym poście).
Spójrzmy na kilka przykładowych ofert na staż/junior Data Science.
To, co faktycznie jest dla nas przydatne w tym ogłoszeniu (chociaż może wyglądać strasznie) to lista wymagań. Otrzymujemy tutaj duży przegląd, co jest używane na stanowisku Data Scientist.
Dodatkowo zaznaczone jest, że idealny kandydat jest już zaznajomiony z większością podanych wymagań, tym bardziej, że oferta jest kierowana przede wszystkim do studentów specjalizacji nauk o danych.
Tutaj wymagania znacznie mniejsze, ale pojawia się język programowania R i znajmość Excela.
R to język programowania popularny wśród naukowców i badaczy z różnych dziedzin (niekoniecznie ścisłych) Służy do do obliczeń statystycznych, oczyszczenia danych, analizowania danych i tworzenia wykresów.
To jeszcze jedno ogłoszenie na stanowisko Junior Data Scientist
Podsumowując idealny kandydat na juniora / stażystę w obszarze Data Science może w CV wpisać przynajmniej część z poniższych wymagań:
- znajomość statystyki, analizy danych i wizualizacji danych
- język programowania Python (w stopniu pozwalającym na samodzielne pisanie skryptów)
- pakiety do analizy danych w Pythonie tj. Pandas, Numpy, SciPy, Matplotlib
- PySpark
- język programowania R i RStudio
- bazy danych SQL i NoSQL
- modele uczenia maszynowego (wie czym są i potrafi korzystać)
- przetwarzanie języka naturalnego (NLP)
- studia z kierunku ścisłego (uczenie maszynowe, NLP, matematyka, informatyka, informatyka, statystyka, fizyka, inżynieria itp.)
- aktywne konto na GitHub/Kaggle
- Excel
Materiały do nauki Data Science
Główny powód dzisiejszego posta, to duża inspiracja z jednej z grup na fb:
Czy poleci ktoś kompleksowy kurs z analizy danych (Python plus SQL), po którym jest szansa znaleźć pracę?”.
Zajmę się pierwszą częścią pytania.
Materiały do nauki Data Science po polsku
Z materiałami po angielsku nie ma problemu. Gdy zaczynamy przeglądać materiały po polsku, bo jest ich po polsku mało.
- Kurs – Jak zacząć karierę w Data Science (Strefa Kursów)
- Data Science od podstaw. Analiza danych w Pythonie – Joel Grus. To książka, która zawsze znajduje się w zestawieniach najlepszych książek na start w Data Science (oryginał: Data Science From Scratch by Joel Grus)
- Uczenie maszynowe z użyciem Scikit-Learn i TensorFlow. Wydanie II – Aurélien Géron. Nie jest to książka na pierwszy wybór. Jeśli masz za sobą naukę od podstaw Data Science i po zrobieniu kursów, mini projektów chcesz pójść dalej, albo może masz doświadczenie to wówczas wydawnictwo Oreilly przychodzi z pomocą.
- Kariera w Data Science – Jacqueline Nolis, Emily Robinson. Książka ta dostała już kopniaka w tyłek od helionu na start. Otóż przetłumaczyli jej tytuł jako „Skazany na sukces. Kariera w Data Science” yyy, że co? oryginalny tytuł to „Build a Career in Data Science”. Ktoś na siłę chciał być kreatywny, przez co pewnie sama bym po tę książkę nie sięgnęła czując zapach kołczing’u z daleka. Książka robi jednak dokładnie to co obiecuje – przekazuje informacje o ścieżce kariery, od podjęcia decyzji, przez role w Data Science (różny nazwy stanowisk), po porady jak zdobyć pierwszą pracę. Jest przy tym merytoryczna i podaje konkretne technologie i narzedzia używane przez topowe firmy IT na świecie.
- Ścieżka Machine Learning Engineer (Strefa kursów) – zaczyna niby od początku, ale podstawy programowania czy już własną naukę Data Science trzeba za sobą mieć, kwota nie jest mała (chociaż stosunkowo niska do innych źródeł po polsku dlatego tutaj zostawiam).
źródło: cybercoders.com
Data Science – materiały po angielsku
Językiem wymaganym w branży IT jest język angielski i tu mamy więcej materiałów do nauki.
Moim zdaniem, szczególnie z warty uwagi jest darmowy kurs Data Science, który przygotował IBM i znajduje się na platformie EdX. Ścieżkę tę zapisałam dawno temu dla mojej koleżanki, która chciała rozwijać się w Data Science (zrezygnowała), ale skorzystała z niej moja siostra, która przeszła całą ścieżkę dla własnej satysfakcji.
Ścieżka: IBM Data Science + programowanie w Pythonie
Wymagania wstępne:
- podstawowa wiedza dotycząca nauk obliczeniowych np. kurs CS50
- wcześniejsze doświadczenie w programowaniu w dowolnym języku może być przydatne
- (moja sugestia) zainstalowany Toggle albo inne narzędzie, aby mierzyć czas i skupic się tylko na nauce!
1. Python Basics for Data Science (Podstawu Pythona z Data Science
- poziom: początkujący (0)
- minimalny czas potrzebny do ukończenia: 2-5 godz. tygodniowo
- przewidywany czas kursu: 1 tydzień
- https://www.edx.org/course/python-basics-for-data-science-ibm
2 Analyzing Data with Python (Analiza danych w Pythonie)
- poziom: wstępny (1)
- minimalny czas potrzebny do ukończenia: 3-6 godz. tygodniowo
- przewidywany czas kursu: 3-4 tyg.
- https://www.edx.org/course/data-analysis-with-python
3. Machine Learning with Python: A Practical Introduction (Uczenie maszynowe w Pythonie: praktyczne wprowadzenie)
- poziom: wstępny (1)
- minimalny czas potrzebny do ukończenia: 4-6 godz. tygodniowo
- przewidywany czas kursu: 5-6 tyg.
- https://www.edx.org/course/machine-learning-with-python
4. Visualizing Data with Python (Wizualizacja danych w Pythonie)
- poziom: średniozaawansowany (2)
- minimalny czas potrzebny do ukończenia: 2-4 godz. tygodniow
- przewidywany czas kursu: 5 week
- https://www.edx.org/course/data-visualization-with-python
Coursera – IBM Data Analyst Professional Certificate
Co ciekawe, IBM ma również swój kurs na platformie Coursera pod nazwą „IBM Data Analyst Professional Certificate„, w którego wkład wchodzą te same kursy plus rozszerzenie. Na Courserze znajdziecie ten kurs w 9 modułach, w tym zawiera moduł z SQL.
Materiały są za darmo. Każdy moduł można przejść jako osobny darmowy kurs. Płatny jest certyfikat ukończenia (czyli podobnie jak na platformie EdX).
- Introduction to Data Analytics – Wprowadznie do analizy danych
- Excel Basics for Data Analysis – Podstawy Excela do analizy danych
- Data Visualization and Dashboards with Excel and Cognos – Wizualizacja danych i pulpity nawigacyjne z Excel i Cognos
- Python for Data Science, AI & Development – Programowanie w Pythonie
- Python Project for Data Science – Projek w Pythonie
- Databases and SQL for Data Science with Python – Bazy danych i SQL
- Data Analysis with Python – Analiza danych w Pythonie
- Data Visualization with Python – Wizualizacja danych w Pythonie
- IBM Data Analyst Capstone Project – Projekt końcowy
Na pewno Coursera znacznie ułatwia kolejność nauki, natomiast w moim odczuciu jednak korzystanie z niej jest mniej intuicyjne niż edX. Dla wielu osób nie jest jasne, że same kursy są za darmo, a płaci się za uzyskanie certyfikatu potwierdzającego ukończenie kursu (edX ma to samo, ale jednak jakoś lepiej to komunikują 😉 ). Czy warto zapłacić za certyfikat, odpowiedziałabym – to zależy, ale na chwilę obecną – nie. Takie certyfikaty są potwierdzeniem umiejętności, ale na rekrutacji czy wpiszemy w CV kurs czy kurs ukończony certyfikatem nie wpłynie znacznie na ocenę naszej kandydatury.
Zadania praktyczne
Nabyte umiejętności trzeba trenować cały czas.
We wpisie 1000 zadań do nauki Pythona, podrzuciłam wam też zadania Project Euler (zadania matematyczne) oraz 101 Exercises for Data Analysis (Python) – czyli zadania wprowadzające w Data Science.
Power BI
W wielu ogłoszeniach pojawia się również Power BI – to narzędzie, a właściwie zestaw narzędzi od Microsoftu, które pozwala łączyć dane z wielu źródeł i je wizualizować. Power BI jest dostępny w wersji darmowej jako Power BI Desktop, a MS udostępnia sporo materiałów dla początkujących i nietylko https://docs.microsoft.com/en-gb/learn/powerplatform/power-bi
Jeśli podobał Ci się ten wpis – podaj go dalej!
Pod postem polecajcie śmiało materiały, które wam pomogły
Cieszę się, że wróciłaś! Długo czekałem na coś nowego! Mam nadzieję, że teraz nie znikniesz na rok :p, co do wpisu jest ciekawy, konkretny i bardzo pomocny! 😉
rowniez sie ciesze, ze wrocilas! ostatnio wlasnie coraz powazniej mysle nad zajeciem sie programowaniem (mialam troche pythona na studiach) i twoj blog zdecydowanie ulatwia wlasna organizacje pracy nad tym. z tym wpisem rowniez spadlas mi z nieba, dzieki! <3 i czekam na kolejne 🙂
Świetny wpis, z resztą przyda mi się taka baza polecanych linków 🙂
Aktualnie przebranżawiam się ze ścieżki wdrożeń ERP – IT na analityka danych i widzę, że pojęcia analiza danych i data science w kontekście ofert pracy często bywają zamienne 🙂
W każdym razie często spotykam się z dodatkowym wymaganiem – znajomości narzędzia do wizualizacji, czyli Power BI/Tableu/Data Studio, nie uważasz, że to również jest potrzebne?
Świetne podsumowanie. Dziękuję!
Jak dobrze znowu Cię czytać! Długo kazałaś na siebie czekać, ale jak zwykle było warto. Zastanawia mnie jedna sprawa na którą być może znasz odpowiedź. Dlaczego w części ogłoszeń pojawia się Excel i Power BI? To co w zasadzie można w nich zrobić da się zrobić w całym wcześniej wymienionym stack-u technologicznym. Chodzi mi mniej więcej o to czy to nie jest trochę tak jak z niektórymi ogłoszeniami na np. analityka finansowego, sprzedaży itp.
Już wyjaśniam:
Często w ogłoszeniach piszą wymagania; bazy danych (SQL, Access), Excel + VBA, Power BI lub inne narzędzie typu BI jakie mają. Jak widzę takie ogłoszenie to już wiem, że te wymagania są
przekombinowane, bo większość tego co można zrobić chociażby za pomocą SQL + Power BI
sprawia, to że nie potrzebuję VBA w Excelu i wcale nie trzeba umieć Excela biegle. Albo jeśli mam te same dane w bazach SQL i umiem pisać zapytania to nie jest konieczna znajomość Accessa. Wiem, że przynajmniej w części tego typu ogłoszeń wynika to z tego, że HR pisze ogłoszenia i niekoniecznie się orientuje co i jak i wrzucają wszystko co się da.
Pytanie czy w kwestii Data Science i szerzej programowania nie jest tak samo lub podobnie?
Bardzo ciekawy artykuł.
Zapotrzebowanie na ekspertów data science i pokrewnych obszarów związanych ze zbieraniem i przetwarzaniem danych wzrosło w III kw. br. o 58 proc. Tak mocno poszła w górę liczba ofert pracy – wynika z analizy Just Join IT.
Co zmieniłabyś dzisiaj, po roku. W tym wpisie, i meen? Co zmieniło się na rynku. Chciałbym tu wrócić.. kiedyś.