Dopasowanie
linii trendu do widoku pozwala na
badanie:
-
zależności pomiędzy dwoma miarami (zmiennymi liczbowymi) na wykresie
rozrzutu,
-
zależności miary od daty (zmiennej liczbowej od czasu) na wykresie
liniowym.
W
niniejszym artykule zostanie omówiony krok po kroku proces dopasowywania linii
trendu do widoku w Tableau, wybieranie odpowiedniego typu modelu do naszych danych,
badanie jakości dopasowania modelu i uzyskanie dostępu do residuów modelu.
JAK DOPASOWAĆ
LINIĘ TRENDU DO
WIDOKU?
1) Pracę należy rozpocząć od zbudowania wykresu
rozrzutu, ukazującego zależność pomiędzy dwoma miarami lub wykresu liniowego,
ukazującego zależność wybranej miary od czasu.
Wykres
rozrzutu budujemy np. poprzez wybór z zakładki Measures (z
wykorzystaniem klawisza ctrl) dwóch miar i wybór z zakładki Show Me
wykresu typu „scatter plots”. Liczba punktów na wykresie rozrzutu odpowiada
liczbie różnych wartości wymiaru naniesionego na ikonkę Detail,
dodatkowo możemy nanieść wymiary na ikonkę Color czy Shape,
uzyskując odpowiednio różne kolory czy kształty punktów, odpowiadających różnym
wartościom wybranego wymiaru.
Do
celów analizy wybrałam dane Airpollution, dotyczące śmiertelności (skorygowanej
wiekiem liczby zgonów na 100 000 mieszkańców) i stężenia tlenku azotanu w
powietrzu w 60 miastach amerykańskich. Wykres rozrzutu przedstawia zależność
liczby zgonów od stężenia tlenu azotanu. Na ikonkę Detail naniosłam
zmienną identyfikującą wiersze (RowID). Taki sam efekt mogłabym uzyskać
odhaczając w zakładce Analysis opcję Aggregate Measures (zmienne liczbowe
niezagregowane => liczba punktów na widoku odpowiada liczbie wierszy w
zbiorze). Zasięg osi na poniższym wykresie został dopasowany (stąd ikonka
szpilki przy osi rzędnych).
2) Następnie z zakładki Analysis wybieramy
opcję Trend Lines -> Show Trend Lines lub klikamy prawym przyciskiem myszy na nasz widok i wybieramy opcję Trend Lines -> Show
Trend Lines .
W
jednakowy sposób usuwamy z widoku linię trendu, gdy ta została uprzednio
dopasowana.
3) Ustalanie typu modelu i opcje związane z dopasowaniem linii trendu do naszym potrzeb.
Do kreatora związanego z dopasowaniem linii trendu możemy
dostać się poprzez wybór z zakładki Analysis opcji Trend Lines
-> Edit Trend Lines lub poprzez kliknięcie prawym przyciskiem myszy
na nasz widok i wybór opcji Trend Lines -> Edit Trend Lines .
W sekcji Model Type możemy
wybrać tzw. funkcję łączącą w naszym modelu regresji jednokrotnej. W Tableau
mamy do wyboru cztery typy modeli:
- liniowy,
Y = b0 + b1 * X + e
- logarytmiczny,
Y = b0 + b1 * ln(X) + e
- wykładniczy,
ln(Y) = b0 + b1 * X + e
Y = e ^ (b0 + b1 * X + e)
- wielomianowy
(wybranego stopnia, np. Degree: 2 - kwadratowy),
Y = b0 + b1 * X + b2 * X^2 + … + e
gdzie
Y to zmienna objaśniana, X – zmienna objaśniająca, e – błąd losowy, b0, b1 –
estymatory parametrów modelu. Linia trendu jest dopasowywana Metodą Najmniejszych Kwadratów.
Szczegółowy opis poszczególnych typów modeli można
znaleźć na oficjalnej stronie Tableau w dokumentacji Tableau Desktop:
http://onlinehelp.tableausoftware.com/v8.2/pro/online/windows/en-us/help.html#forecast_describe.html
W sekcji Options
możemy wybrać wymiary, które mają zostać uwzględnione w kalkulacji jako zmienne
czynnikowe (Include the following fields as factors). Co to dokładnie
oznacza? Łatwo to zrozumieć na podstawie poniżej zamieszczonego przykładu.
Opcja Allow a
trend line per color dotyczy sytuacji, gdy naniesiemy wybrany wymiar na
ikonkę Color. Domyślnie zostanie dopasowana oddzielna linia trendu dla
każdego koloru. Aby dopasować jedną linię trendu do całego widoku należy
odznaczyć opcję Allow a trend line per color .
W przypadku poniżej
zamieszczonego przykładu jednakowy efekt przyniesie wykluczenie z kalkulacji
zmiennej Region (odhaczenie zmiennej Region w Options -> Include
the following fields as factors).
Opcja Show
Confidence Bands dotyczy wyświetlania przedziałów ufności na naszym widoku.
Są to przedziały oszacowane na poziomie ufności 95%, najczęściej
wykorzystywanym w statystyce. Przedziały ufności nie są szacowane w przypadku
modelu wykładniczego.
Ostatnia opcja Force
y-intercept to zero pozwala wymusić, by linia trendu zaczynała się od zera.
W przypadku niektórych danych taki model może być gorzej dopasowany.
Na poniżej
zamieszczonym przykładzie, z modelem logarytmicznym wymuszenie, by linia trendu
zaczynała się od zera psuje dopasowanie modelu. Dlaczego? Bo funkcja
logarytmiczna nie przyjmuje jako argument wartości zero (w zerze dąży do
nieskończoności)!
4) Ostatnim krokiem jest sprawdzenie jakości
dopasowania modelu.
Szczegółowy
wydruk można uzyskać wybierając z zakładki Analysis opcję Trend Lines
-> Describe Trend Model lub poprzez kliknięcie prawym przyciskiem
myszy na nasz widok i wybór opcji Trend Lines -> Describe Trend
Model .
Opierając
się na wydruku dotyczącym linii trendu możemy wybrać model najlepiej dopasowany
do naszych danych, a także zbadać czy usunięcie obserwacji odstających wpływa
pozytywne na poprawienie jakości dopasowania modelu. Warto zwrócić uwagę szczególnie na:
- p-value
(jeśli p-value <= 0.05, to zmienna objaśniająca w modelu jest istotna, czyli
model jest dobrze dopasowany),
-
R-Squared, tzw. współczynnik determinacji (przyjmuje wartości z
przedziału [0, 1], im większa wartość tym model jest lepiej dopasowany).
Ze szczegółowym opisem poszczególnych wartości w wydruku
oraz sposobem ich interpretacji można zapoznać się w dokumentacji Tableau
Desktop, zamieszczonej na oficjalnej stronie Tableau:
W wydruku modelu znajdują się między innymi
estymatory współczynników modelu, ale jeśli interesuje nas jedynie równanie
linii trendu możemy najechać myszką na linię trendu na naszym widoku lub
skorzystać z opcji Describe Trend Line .
JAK UZYSKAĆ
DOSTĘP DO RESIDUÓW
MODELU?
Residua (reszty) modelu to odchylenia
wartości dopasowanych w modelu od wartości rzeczywistych w naszych danych.
Za pomocą residuów modelu możemy w
szczególności badać jakość dopasowania naszego modelu, a mianowicie gdy residua
stanowią nieregularną chmurę punktów rozrzuconych wokół zera, to model jest
dobrze dopasowany, natomiast gdy wykazują pewną zależność – model nie jest
dobrze dopasowany.
Jak uzyskać dostęp do residuów w
Tableau? Znajdując się na zakładce, na której dopasowaliśmy nasz model należy
wybrać z zakładki Worksheet opcje Export -> Data ,
następnie zapisać plik w formacie .mdb w wybranym katalogu.
Po
wybraniu katalogu wyskoczy nam okno, w którym mamy możliwość zaznaczenia opcji Connect
after export , w celu automatycznego połączenia ze zbiorem danych po wyeksportowaniu.
Jedną
z dostępnych miar w tak wyeksportowanym zbiorze są właśnie interesujące nas
residua.
Skonstruujemy diagnostyczny wykres
rozrzutu dla zmiennej objaśniającej i residuów w modelu logarytmicznym. Zaczniemy
od przeciągnięcia zmiennej TEMP(_Residuals(F3,F2)_)(290714814)(0) ze zbioru
Residua na zakładkę Rows i połączenia zbioru Residua z badanym zbiorem
Airpollution po zmiennej RowID. Następnie przeciągamy zmienną NOx ze zbioru
Airpollution na zakładkę Columns .
W
naszym przypadku wykres rozrzutu residuów sugeruje, że model logarytmiczny jest
dość dobrze dopasowany do danych.
KOMENTARZE