Warsztat badacza danych

2021L

Kod przedmiotu17N2-WBD
Punkty ECTS 3
Typ zajęć Ćwiczenia laboratoryjne
Wykład
Przedmioty wprowadzająceWstęp do programowania
Wymagania wstępneUmiejętność programowania w python
Opis ćwiczeń1. Przygotowanie danych do analiz D.S. czyszczenie, zmiany formatu, standaryzacja. 2. Pakiety Pythona: pandas, NumPy, Matplotlib, SciPy, Scikit-learn. Przykłady na platformie Jupiter Notebook lub Spyder zastosowania w/w pakietów do analizy i wizualizacji danych w PCA, klasyfikacji i regresji w drzewach i losowych lasach, SVM. 3. Pakiety R: podstawowe pakiety data mining (2-3) i wizualizacja ggplot2. 4. Pakiety MATLAB: podstawowe pakiety ANN. 5. Analiza sieci w SPSS AMOS (SEM) i Cytoscape lub Networks (Grafy). (Ćwiczenia z pakietami Pythona i R polegałaby na pisaniu kodu z gotowych skryptów – z wyjaśnieniami, komentarzami dla każdego kroku i użytych znaków, czy modułów. Tego typu metoda uczenia tzw. top-down miałoby na celu również oswojenie z kodami języków Python i R przed systematycznym ich nauczaniem)
Opis wykładów1. Definicje w Data Science: od statystycznej analizy danych do Machine Learning. 2. Podstawowe metody D.S., przegląd i omówienie podstawowych algorytmów: Regresja, liniowa, wieloraka i logistyczna, LDA, PCA, drzewa decyzyjne i losowe lasy (regresja i klasyfikacja), Naive Bayes, KNN, SVM, ANN (główne typy), modele strukturalne, ścieżki, sieci i grafy. 3. Przegląd narzędzi informatycznych: środowisko Anaconda (Jupyter Notebook, Spyder, R-Studio), programy wielozadaniowe MATLAB, SAS, programy specjalistyczne do analizy sieci SPSS AMOS, Cytoscape.
Cel kształceniaCelem przedmiotu jest zapoznanie studenta z aktualnie używanymi powszechnie narzędziami Data Science oraz nauczenie umiejętności wyboru narzędzia do celu badania danych oraz wstępnego posługiwania się wybranymi programami komputerowymi dedykowanymi zaawansowanym technikom analizy danych.
Literatura podstawowa1) Albon C., Uczenie maszynowe w Pythonie. Receptury. , O’Reilly/Helion., 2019 2) Boschetti A., Massaron L., Python. Podstawy nauki o danych. , Packt/Helion, 2016 3) Geron A., Uczenie maszynowe z uzyciem Scit-Learn I TensorFlow, O’Reilly/Helion, - 4) Grus J., Data Science od podstaw. Analiza danych w Pythonie. , O’Reilly/Helion, 2018 5) McKinney W., Python w analizie danych. , O’Reilly/Helion, 2018 6) Mrozek B., Mrozek Z., MATLAB i Simulink. Poradnik użytkownika. , Helion, 2018 7) Wickham H, Grolemund G., Język R. Kompletny zestaw narzędzi dla analityków danych., O’Reilly/Helion, 2018
Literatura uzupełniająca
Uwagi