Zadanie domowe w wersji alternatywnej (dla chętnych)

Analiza eksploracyjna + elementy inżynierii cech + test współczynników korelacji

Definicja zadania

  • Cel główny – praca nad zbiorem danych:
    • analiza eksploracyjna,
    • elementy inżynierii cech (ang. feature engineering),
    • testowanie statystyczne zmiennych opisujących i zmiennej opisywanej,
    • dekompozycja (widmowa) zbioru zmiennych opisujących,
    • testowanie statystyczne składowych zmiennych opisujących (wyniku dekompozycji) i zmiennej opisywanej,
    • konkurs: uzyskanie (w wyniku dekompozycji PCA) – z użyciem metod zaawansowanej inżynierii cech (Deep Feature Synthesis i TPOT) – jak największej liczby ortogonalnych składowych zmiennych opisujących istotnie skorelowanych (alpha = 0.05) ze zmienną opisywaną.
  • Język programowania: Python
  • W przypadku problemów sprzętowych zalecane rozwiązanie serwerowe
  • Określony zbiór danych: dane wybranego (wybór z uzasadnieniem) tzw. partnera (identyfikowanego przez wartość kolumny partner_id) ze zbioru Criteo Sponsored Search Conversion Log Dataset [https://ailab.criteo.com/criteo-sponsored-search-conversion-log-dataset/]Proszę zgłaszać wybór wersji alternatywnej zadania domowego i wybór partner_id (uwaga: można zmienić decyzję) w kanale Slack #lab-sad-alt-project.
  • Analiza eksploracyjna, w tym szereg rozdzielczy (jeden bądź więcej), histogramy (ważny jest poprawny dobór liczby przedziałów), wyznaczenie wartości statystyk opisowych, dodatkowe wykresy oraz krótka analiza słowna (wypunktowanie najważniejszych wniosków/obserwacji)
  • Test statystyczny: postawić co najmniej jedną hipotezę dotyczącą danych i przetestować ją z użyciem jednego ze znanych testów. W przypadku gdy zbiór danych stanowi całą populację należy wylosować/wyodrębnić podzbiór oraz finalnie skomentować czy popełniono błąd I rodzaju lub błąd II rodzaju
  • elementy inżynierii cech (ang. feature engineering): użycie Deep Feature Synthesis i TPOT lub podobnego pakietu (działającego na pojedynczej tabeli) oraz selekcja cech: w wariantach: w1) bez cech jakościowych w2) z cechami jakościowymi używanymi jak ilościowe
  • Testowanie statystyczne wyselekcjonowanych zmiennych opisujących i zmiennej opisywanej przy przyjęciu za pojedynczą wartość zmiennej opisywanej sumy wartości w kolumnie SalesAmountInEuro w danym dniu dla danej wartości product_id – dla każdej pary (dzień, product_id), dla której wartość zmiennej opisywanej jest niezerowa; wymagane jest, aby liczba kliknięć dla tejże pary (dzień, product_id) była jedną ze zmiennych opisujących
  • Dekompozycja (widmowa) zbioru wyselekcjonowanych zmiennych opisujących: użycie PCA w implementacji Sklearn [https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.PCA.html]
  • Testowanie statystyczne głównych składowych zmiennych opisujących (wyniku dekompozycji) i zmiennej opisywanej
  • Quasi-konkurs: uzyskanie – dla wartości partner_id określonej głosowaniem na kanale Slack #lab-sad-alt-project – jak największej liczby ortogonalnych składowych zmiennych opisujących istotnie skorelowanych (alpha = 0.05) ze zmienną opisywaną

Forma i termin realizacji

  • Zalecany jest intensywniejszy niż „standardowy” kontakt z prowadzącym (vide kanał Slack #lab-sad-alt-project) – szczególnie na etapie „rozpoznawania treści zadania”.
  • Wynikiem powinien być plik zip z plikiem notebooka Python (dodatkowo zapisanym w pliku pdf i html).
  • Wynik powinien zawierać:- dane studenta (imię, nazwisko, nr indeksu, nr grupy lab.),

    – część dotycząca analizy eksploracyjnej (wykresy, wartości statystyk, komentarze – opis powyżej) – 3 pkt.

    – część dotycząca testowania hipotez (sformułowanie hipotez, wybór testu, weryfikacja wymagań, obliczenia i wynik wraz z wnioskiem) – 3 pkt.

    – część dotycząca inżynierii cech (wybrane metody, użyte modele danych) – 3 pkt.

    – część dotycząca testowania statystycznego wyselekcjonowanych zmiennych opisujących (sformułowanie hipotez, wybór testu, weryfikacja wymagań, obliczenia i wynik wraz z wnioskiem) – 3 pkt.

    – część dotycząca testowania statystycznego wyselekcjonowanych zmiennych opisujących (sformułowanie hipotez, wybór testu, weryfikacja wymagań, obliczenia i wynik wraz z wnioskiem) – 3 pkt.
    – część dotycząca testowania statystycznego głównych składowych zmiennych opisujących (wyniku dekompozycji) i zmiennej opisywanej (sformułowanie hipotez, wybór testu, weryfikacja wymagań, obliczenia i wynik wraz z wnioskiem) – 3 pkt.
    – część dotycząca uzyskanej metryki konkursowej (prezentacja wyniku) – 3 pkt.

    – podsumowanie w formie wypunktowania: motywacje wyborów, wnioski, propozycje dalszych kroków, itp. – 1 pkt.

  • Termin: 14.06 (grupy wtorkowe), 10.06 (grupa czwartkowa), 3.06 (grupy piątkowe). Za każdy rozpoczęty tydzień spóźnienia -10 % od oceny. Sposób wysłania i forma: e-mail do prowadzącego (uwaga: w tym wypadku nie wystarczy tylko wysłanie na Slack (choć można dodatkowo powiadomić prowadzącego)); załączniki do emaila: (i) sprawozdanie (pdf/html z Jupyter Notebook) oraz (ii) kod (plik ipynb).

UWAGA: Istnieje też wersja podstawowa zadania