Junior Data Scientist – wymagania i materiały do nauki

Roadmapa data science

W poście o 10 powodach, dla których warto uczyć się języka programowania Python pojawiają się kierunki dalszego rozwoju. Obok web developmentu (odsyłam do posta: Junior Python Developer – wymagania) na pewno ciekawymi są analiza danych w Pythonie, Data Science, Uczenie Maszynowe (Machine Learning) czy Sztuczna Inteligencja i wszystko co dotyczy tych tematów. Tylko czy jest to kierunek, dla każdego?

Czym się zajmuje Data Scientist?

Data Science to dosłownie nauka o danych, więc Data Scientist, moglibyśmy przetłumaczyć jako naukowiec zajmujący się danymi. Na szczęście w języku polskim nazwy stanowisk w branży IT zostają w oryginale.

Aktualnie jest to dziedzina, która łączy naukowe, matematyczne metody z techniczną częścią, czy bardziej byśmy powiedzieli – inżynieryjną. Mamy tutaj algorytmy, systemy baz danych, programowanie przy całkiem dużym zapleczu akademickim, wiedzy matematycznej, statystycznej i analitycznej. Same dane nie są dla nas tak ważne jak wiedza jaka z nich płynie.

Jak wygląda praca w Data Science?

Na pewno różnie w zależności od danych z jakimi pracuje i jakich używa narzędzi. Najogólniejsza definicja byłaby Data Scientist zajmuje się przetwarzaniem danych.

Dzisiaj dane gromadzimy wszędzie, ale same w sobie ogromne bazy danych (Big Data) jeszcze nie niosą wiedzy, wyciągnięcie wiedzy, wniosków, wyników przynosi korzyść firmom. Dane są tak ogromne, że gdyby stosować standardowe algorytmy ich przetwarzania, przetwarzający nie dożyłby końca, stąd niezbędne są techniki uczenia maszynowego czy wykorzystywanie sztucznej inteligencji.

Data Science – stwórz swoją ścieżkę nauki

Jesteśmy przekonani, że Data Science jest kierunkiem idealnym dla nas. Załóżmy, że nauczyliśmy się podstaw Pythona. Całkiem nieźle radzimy sobie z prostymi i bardziej skomplikowanymi programami konsolowymi. Może udało nam się skończyć jakieś pierwsze skrypty automatyzujące pracę z plikami pełnymi danych np. csv czy excel.

Stajemy przed pytaniem co dalej?
Skąd brać inspirację czego się uczyć i jak zaplanować sobie kolejne etapy?
Gdzie znaleźć materiały do nauki za darmo?

Roadmapa data science

Junior Data Scientist – wymagania

Możemy skorzystać z tego co pisałam dla was w poście „Jak zacząć programować, by nie przestać” czyli oprzeć się o wymagania w ofertach pracy (przykład pliku tabelki z planem we wspomnianym poście).

Spójrzmy na kilka przykładowych ofert na staż/junior Data Science.

staż Data Science wymagania

To, co faktycznie jest dla nas przydatne w tym ogłoszeniu (chociaż może wyglądać strasznie) to lista wymagań. Otrzymujemy tutaj duży przegląd, co jest używane na stanowisku Data Scientist.

Dodatkowo zaznaczone jest, że idealny kandydat jest już zaznajomiony z większością podanych wymagań, tym bardziej, że oferta jest kierowana przede wszystkim do studentów specjalizacji nauk o danych.

Tutaj wymagania znacznie mniejsze, ale pojawia się język programowania R i znajmość Excela.
R to język programowania popularny wśród naukowców i badaczy z różnych dziedzin (niekoniecznie ścisłych) Służy do do obliczeń statystycznych, oczyszczenia danych, analizowania danych i tworzenia wykresów.

To jeszcze jedno ogłoszenie na stanowisko Junior Data Scientist

ścieżka kariery data science

Podsumowując idealny kandydat na juniora / stażystę w obszarze Data Science może w CV wpisać przynajmniej część z poniższych wymagań:

  • znajomość statystyki, analizy danych i wizualizacji danych
  • język programowania Python (w stopniu pozwalającym na samodzielne pisanie skryptów)
  • pakiety do analizy danych w Pythonie tj. Pandas, Numpy, SciPy, Matplotlib
  • PySpark
  • język programowania R i RStudio
  • bazy danych SQL i NoSQL
  • modele uczenia maszynowego (wie czym są i potrafi korzystać)
  • przetwarzanie języka naturalnego (NLP)
  • studia z kierunku ścisłego (uczenie maszynowe, NLP, matematyka, informatyka, informatyka, statystyka, fizyka, inżynieria itp.)
  • aktywne konto na GitHub/Kaggle
  • Excel

Materiały do nauki Data Science

Główny powód dzisiejszego posta, to duża inspiracja z jednej z grup na fb:

Czy poleci ktoś kompleksowy kurs z analizy danych (Python plus SQL), po którym jest szansa znaleźć pracę?”.

Zajmę się pierwszą częścią pytania.

Z materiałami po angielsku nie ma problemu. Gdy zaczynamy przeglądać materiały po polsku, bo jest ich po polsku mało.

  • Kurs – Jak zacząć karierę w Data Science (Strefa Kursów) –
  • Data Science od podstaw. Analiza danych w Pythonie – Joel Grus. To książka, która zawsze znajduje się w zestawieniach najlepszych książek na start w Data Science (oryginał: Data Science From Scratch by Joel Grus)
  • Uczenie maszynowe z użyciem Scikit-Learn i TensorFlow. Wydanie II – Aurélien Géron. Nie jest to książka na pierwszy wybór. Jeśli masz za sobą naukę od podstaw Data Science i po zrobieniu kursów, mini projektów chcesz pójść dalej, albo może masz doświadczenie to wówczas wydawnictwo Oreilly przychodzi z pomocą.
  • Kariera w Data Science – Jacqueline Nolis, Emily Robinson. Książka ta dostała już kopniaka w tyłek od helionu na start. Otóż przetłumaczyli jej tytuł jako „Skazany na sukces. Kariera w Data Science” yyy, że co? oryginalny tytuł to „Build a Career in Data Science”. Ktoś na siłę chciał być kreatywny, przez co pewnie sama bym po tę książkę nie sięgnęła czując zapach kołczing’u z daleka. Książka robi jednak dokładnie to co obiecuje – przekazuje informacje o ścieżce kariery, od podjęcia decyzji, przez role w Data Science (różny nazwy stanowisk), po porady jak zdobyć pierwszą pracę. Jest przy tym merytoryczna i podaje konkretne technologie i narzedzia używane przez topowe firmy IT na świecie.
  • Ścieżka Machine Learning Engineer (Strefa kursów) – zaczyna niby od początku, ale podstawy programowania czy już własną naukę Data Science trzeba za sobą mieć, kwota nie jest mała (chociaż stosunkowo niska do innych źródeł po polsku dlatego tutaj zostawiam).

ścieżka kariery
źródło: cybercoders.com

Data Science – materiały po angielsku

Językiem wymaganym w branży IT jest język angielski i tu mamy więcej materiałów do nauki.

Moim zdaniem, szczególnie z warty uwagi jest darmowy kurs Data Science, który przygotował IBM i znajduje się na platformie EdX.
Ścieżkę tę zapisałam dawno temu dla mojej koleżanki, która chciała rozwijać się w Data Science (zrezygnowała), ale skorzystała z niej moja siostra, która przeszła całą ścieżkę dla własnej satysfkacji.

Ścieżka: IBM Data Science + programowanie w Pythonie

Wymagania wstępne:

  • podstawowa wiedza dotycząca nauk obliczeniowych np. kurs CS50
  • wcześniejsze doświadczenie w programowaniu w dowolnym języku może być przydatne
  • (moja sugestia) zainstalowany Toggle albo inne narzędzie, aby mierzyć czas i skupic się tylko na nauce!

1. Python Basics for Data Science (Podstawu Pythona z Data Science

  • poziom: początkujący (0)
  • minimalny czas potrzebny do ukończenia: 2-5 godz. tygodniowo
  • przewidywany czas kursu: 1 tydzień
  • https://www.edx.org/course/python-basics-for-data-science-ibm

2 Analyzing Data with Python (Analiza danych w Pythonie)

  • poziom: wstępny (1)
  • minimalny czas potrzebny do ukończenia: 3-6 godz. tygodniowo
  • przewidywany czas kursu: 3-4 tyg.
  • https://www.edx.org/course/data-analysis-with-python

3. Machine Learning with Python: A Practical Introduction (Uczenie maszynowe w Pythonie: praktyczne wprowadzenie)

  • poziom: wstępny (1)
  • minimalny czas potrzebny do ukończenia: 4-6 godz. tygodniowo
  • przewidywany czas kursu: 5-6 tyg.
  • https://www.edx.org/course/machine-learning-with-python

4. Visualizing Data with Python (Wizualizacja danych w Pythonie)

  • poziom: średniozaawansowany (2)
  • minimalny czas potrzebny do ukończenia: 2-4 godz. tygodniow
  • przewidywany czas kursu: 5 week
  • https://www.edx.org/course/data-visualization-with-python

Coursera – IBM Data Analyst Professional Certificate

coursera - kurs Data Science za darmo

Co ciekawe, IBM ma również swój kurs na platformie Coursera pod nazwą „IBM Data Analyst Professional Certificate„, w którego wkład wchodzą te same kursy plus rozszerzenie. Na Courserze znajdziecie ten kurs w 9 modułach, w tym zawiera moduł z SQL.

Materiały są za darmo. Każdy moduł można przejść jako osobny darmowy kurs. Płatny jest certyfikat ukończenia (czyli podobnie jak na platformie EdX).

  1. Introduction to Data Analytics – Wprowadznie do analizy danych
  2. Excel Basics for Data Analysis – Podstawy Excela do analizy danych
  3. Data Visualization and Dashboards with Excel and Cognos – Wizualizacja danych i pulpity nawigacyjne z Excel i Cognos
  4. Python for Data Science, AI & Development – Programowanie w Pythonie
  5. Python Project for Data Science – Projek w Pythonie
  6. Databases and SQL for Data Science with Python – Bazy danych i SQL
  7. Data Analysis with Python – Analiza danych w Pythonie
  8. Data Visualization with Python – Wizualizacja danych w Pythonie
  9. IBM Data Analyst Capstone Project – Projekt końcowy

Na pewno Coursera znacznie ułatwia kolejność nauki, natomiast w moim odczuciu jednak korzystanie z niej jest mniej intuicyjne niż edX. Dla wielu osób nie jest jasne, że same kursy są za darmo, a płaci się za uzyskanie certyfikatu potwierdzającego ukończenie kursu (edX ma to samo, ale jednak jakoś lepiej to komunikują 😉 ). Czy warto zapłacić za certyfikat, odpowiedziałabym – to zależy, ale na chwilę obecną – nie. Takie certyfikaty są potwierdzeniem umiejętności, ale na rekrutacji czy wpiszemy w CV kurs czy kurs ukończony certyfikatem nie wpłynie znacznie na ocenę naszej kandydatury.

Zadania praktyczne

Nabyte umiejętności trzeba trenować cały czas.
We wpisie 1000 zadań do nauki Pythona, podrzuciłam wam też zadania Project Euler (zadania matematyczne) oraz 101 Exercises for Data Analysis (Python) – czyli zadania wprowadzające w Data Science.

Jeśli podobał Ci się ten wpis – podaj go dalej!