Skrypty to zajęć Statystyka II (laboratoria oraz seminarium, łącznie 30 godzin), które prowadzę na Wydziale Fizyki Technicznej i Matematyki Stosowanej (WFTiMS) na Politechnice Gdańskiej. Po raz pierwszy zajęcia prowadziłem wiosną 2024.
Przykładowy rozkład tematów w ciągu semetru (15 zajęć po 90 minut):
-
Tydzień 1: Wprowadzenie to metod uczenia maszynowego: terminologia, oznaczenia, dekompozycja bias-variance, metoda walidacji krzyżowej.
-
Tydzień 2: Regresja liniowa: metoda najmniejszych kwadratów, metoda największej wiarygodności, dobór zmiennych objasniających (forward/backward selection).
-
Tydzień 3: Regularyzacja: regresja grzbietowa (ridge), regresja lasso, regresja elastic net.
-
Tydzień 4: Regresja logistyczna: metoda największej wiarygodności, algorytm Newtona-Raphsona, uogólniony model liniowy (GLM).
-
Tydzień 5-7: Drzewa regresyjne i klasyfikacyjne, bagging, lasy losowe, boosting (AdaBoost, Gradient Boosted Trees, XGBoost).
-
Tydzień 8-9: Uogólnione modele addytywne (GAM): funkcje sklejane, splajny kubiczne, algorytm MARS, splajny wygładzające, regresja lokalna (LOESS).
-
Tydzień 10: Metody uczenia nienadzorowanego: analiza składowych głównych (PCA), algorytm t-SNE, grupowanie wokół centroidów.
-
Tydzień 11-12: Sieci neuronowe: perceptron, sieci neuronowe typu feedforward, splotowe sieci neuronowe (CNN), sieci typu autoencoders, biblioteki Keras oraz Tensorflow.
-
Tydzień 13-15: Prezentacja projektów wykonanych przez studentów.
Dodatki, które można wykorzystać do powtórki niektórych zagadnień:
-
Dodatek A: Metoda największej wiarygodności
-
Dodatek B: Metody bootstrapowe
-
Dodatek C: Metody spadku wzdłuż gradientu
Literatura:
-
[ESL] Hastie T., Tibshirani R., Friedman J., The Elements of Statistical Learning. Data Mining, Inference and Prediction., 2nd edition, Springer
-
[ITSL] James G., Witten D., Hastie T., Tibshirani R., An Introduction to Statistical Learning with Applications in R, Springer