Analiza eksploracyjna + elementy inżynierii cech + test współczynników korelacji
Definicja zadania
- Cel główny – praca nad zbiorem danych:
- analiza eksploracyjna,
- elementy inżynierii cech (ang. feature engineering),
- testowanie statystyczne zmiennych opisujących i zmiennej opisywanej,
- dekompozycja (widmowa) zbioru zmiennych opisujących,
- testowanie statystyczne składowych zmiennych opisujących (wyniku dekompozycji) i zmiennej opisywanej,
- konkurs: uzyskanie (w wyniku dekompozycji PCA) – z użyciem metod zaawansowanej inżynierii cech (Deep Feature Synthesis i TPOT) – jak największej liczby ortogonalnych składowych zmiennych opisujących istotnie skorelowanych (alpha = 0.05) ze zmienną opisywaną.
- Język programowania: Python
- W przypadku problemów sprzętowych zalecane rozwiązanie serwerowe
- Określony zbiór danych: dane wybranego (wybór z uzasadnieniem) tzw. partnera (identyfikowanego przez wartość kolumny partner_id) ze zbioru Criteo Sponsored Search Conversion Log Dataset [https://ailab.criteo.com/criteo-sponsored-search-conversion-log-dataset/]Proszę zgłaszać wybór wersji alternatywnej zadania domowego i wybór partner_id (uwaga: można zmienić decyzję) w kanale Slack #lab-sad-alt-project.
- Analiza eksploracyjna, w tym szereg rozdzielczy (jeden bądź więcej), histogramy (ważny jest poprawny dobór liczby przedziałów), wyznaczenie wartości statystyk opisowych, dodatkowe wykresy oraz krótka analiza słowna (wypunktowanie najważniejszych wniosków/obserwacji)
- Test statystyczny: postawić co najmniej jedną hipotezę dotyczącą danych i przetestować ją z użyciem jednego ze znanych testów. W przypadku gdy zbiór danych stanowi całą populację należy wylosować/wyodrębnić podzbiór oraz finalnie skomentować czy popełniono błąd I rodzaju lub błąd II rodzaju
- elementy inżynierii cech (ang. feature engineering): użycie Deep Feature Synthesis i TPOT lub podobnego pakietu (działającego na pojedynczej tabeli) oraz selekcja cech: w wariantach: w1) bez cech jakościowych w2) z cechami jakościowymi używanymi jak ilościowe
- Testowanie statystyczne wyselekcjonowanych zmiennych opisujących i zmiennej opisywanej przy przyjęciu za pojedynczą wartość zmiennej opisywanej sumy wartości w kolumnie SalesAmountInEuro w danym dniu dla danej wartości product_id – dla każdej pary (dzień, product_id), dla której wartość zmiennej opisywanej jest niezerowa; wymagane jest, aby liczba kliknięć dla tejże pary (dzień, product_id) była jedną ze zmiennych opisujących
- Dekompozycja (widmowa) zbioru wyselekcjonowanych zmiennych opisujących: użycie PCA w implementacji Sklearn [https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.PCA.html]
- Testowanie statystyczne głównych składowych zmiennych opisujących (wyniku dekompozycji) i zmiennej opisywanej
- Quasi-konkurs: uzyskanie – dla wartości partner_id określonej głosowaniem na kanale Slack #lab-sad-alt-project – jak największej liczby ortogonalnych składowych zmiennych opisujących istotnie skorelowanych (alpha = 0.05) ze zmienną opisywaną
Forma i termin realizacji
- Zalecany jest intensywniejszy niż „standardowy” kontakt z prowadzącym (vide kanał Slack #lab-sad-alt-project) – szczególnie na etapie „rozpoznawania treści zadania”.
- Wynikiem powinien być plik zip z plikiem notebooka Python (dodatkowo zapisanym w pliku pdf i html).
- Wynik powinien zawierać:- dane studenta (imię, nazwisko, nr indeksu, nr grupy lab.),
– część dotycząca analizy eksploracyjnej (wykresy, wartości statystyk, komentarze – opis powyżej) – 3 pkt.
– część dotycząca testowania hipotez (sformułowanie hipotez, wybór testu, weryfikacja wymagań, obliczenia i wynik wraz z wnioskiem) – 3 pkt.
– część dotycząca inżynierii cech (wybrane metody, użyte modele danych) – 3 pkt.
– część dotycząca testowania statystycznego wyselekcjonowanych zmiennych opisujących (sformułowanie hipotez, wybór testu, weryfikacja wymagań, obliczenia i wynik wraz z wnioskiem) – 3 pkt.
– część dotycząca testowania statystycznego wyselekcjonowanych zmiennych opisujących (sformułowanie hipotez, wybór testu, weryfikacja wymagań, obliczenia i wynik wraz z wnioskiem) – 3 pkt.
– część dotycząca testowania statystycznego głównych składowych zmiennych opisujących (wyniku dekompozycji) i zmiennej opisywanej (sformułowanie hipotez, wybór testu, weryfikacja wymagań, obliczenia i wynik wraz z wnioskiem) – 3 pkt.
– część dotycząca uzyskanej metryki konkursowej (prezentacja wyniku) – 3 pkt.– podsumowanie w formie wypunktowania: motywacje wyborów, wnioski, propozycje dalszych kroków, itp. – 1 pkt.
- Termin: 14.06 (grupy wtorkowe), 10.06 (grupa czwartkowa), 3.06 (grupy piątkowe). Za każdy rozpoczęty tydzień spóźnienia -10 % od oceny. Sposób wysłania i forma: e-mail do prowadzącego (uwaga: w tym wypadku nie wystarczy tylko wysłanie na Slack (choć można dodatkowo powiadomić prowadzącego)); załączniki do emaila: (i) sprawozdanie (pdf/html z Jupyter Notebook) oraz (ii) kod (plik ipynb).
UWAGA: Istnieje też wersja podstawowa zadania