Analiza eksploracyjna + test statystyczny
Definicja zadania
- Cel główny – praca nad zbiorem danych: analiza eksploracyjna i testowanie statystyczne
- Wybór zbioru danych:- użycie zbioru już istniejącego:
- https://www.kaggle.com/datasets
- https://scholarworks.umass.edu/data/
- https://stat.gov.pl/podstawowe-dane/
- https://github.com/fivethirtyeight
- https://www.openintro.org/
- inne źródło
- użycie własnego zbioru (posiadanego lub zebranego)
Proszę zgłaszać wybrany zbiór (uwaga: można zmienić decyzję) w kanale Slack 2023-lab-sad-dataset – chodzi o to by zbiory były unikalne (wybór na zasadzie „kto pierwszy zgłasza ten rezerwuje dany zbiór”).
- Analiza eksploracyjna, w tym szereg rozdzielczy (jeden bądź więcej), histogramy (ważny jest poprawny dobór liczby przedziałów), wyznaczenie wartości statystyk opisowych, dodatkowe wykresy oraz krótka analiza słowna (wypunktowanie najważniejszych wniosków/obserwacji)
- Test statystyczny: postawić co najmniej jedną hipotezę dotyczącą danych i przetestować ją z użyciem jednego ze znanych testów. W przypadku gdy zbiór danych stanowi całą populację należy wylosować/wyodrębnić podzbiór oraz finalnie skomentować czy popełniono błąd I rodzaju lub błąd II rodzaju
Forma i termin realizacji
- Wynikiem powinien być plik zip z plikiem notebooka R (dodatkowo zapisanym w pliku pdf i html).
- Wynik powinien zawierać:- dane studenta (imię, nazwisko, nr indeksu, nr grupy lab.);- opis zbioru danych: skąd pochodzi (warto podać link, jeśli istnieje), co zawiera, jak powstał (czy jako obserwacja, czy jako wynik eksperymentu), itp. (maks. pół strony) – 1 pkt.– część dotycząca analizy eksploracyjnej (wykresy, wartości statystyk, komentarze – opis powyżej) – 6 pkt.
– część dotycząca testowania hipotez (sformułowanie hipotez, wybór testu, weryfikacja wymagań, obliczenia i wynik wraz z wnioskiem) – 7 pkt.
– podsumowanie w formie wypunktowania: motywacje wyborów, wnioski, propozycje dalszych kroków, itp. – 1 pkt.
- Termin: 14.06 (grupy wtorkowe), 10.06 (grupa czwartkowa), 3.06 (grupy piątkowe). Za każdy rozpoczęty tydzień spóźnienia -10 % od oceny. Sposób wysłania i forma: e-mail do prowadzącego (uwaga: w tym wypadku nie wystarczy tylko wysłanie na Slack (choć można w ten sposób dodatkowo powiadomić prowadzącego)); załączniki do emaila: (i) sprawozdanie (pdf/html z Jupyter Notebook) oraz (ii) kod (plik ipynb) + (iii) ewentualnie dane (jeśli nie zostały wskazane w formie linku lub uzyskane od prowadzącego).
UWAGA: Istnieje też wersja alternatywna zadania dla bardziej ambitnych 😉