Matematyczne Prawo Benforda głosi, że częstotliwość
występowania pierwszej cyfry w rzeczywistych danych liczbowych nie jest
przypadkowa. Prawdopodobieństwo wystąpienia cyfry k to:
Częstotliwość występowania różnych cyfr na pierwszej pozycji rozkłada
się następująco:
Prawo Benforda znajduje
szerokie zastosowanie w ujawnianiu nieprawdziwych informacji w raportach, w tym
np. sprawdzania poprawności zeznań podatkowych. Dowiedz się jak zastosować
Prawo Benforda w Tableau!
Zbadamy sprzedaż ze zbioru
Superstore Subset. Pracę zaczynamy od wyciągnięcia z liczb pierwszej cyfry. Rzutujemy
miarę „Sales” do napisu, za pomocą funkcji STR i wyciągamy z niego
pierwszy znak od lewej, za pomocą funkcji LEFT.
Następnie chcemy wyliczyć
prawdopodobieństwo wystąpienia kolejnych cyfr. Zmienna „Pierwsza cyfra” jest
teraz napisem, zatem w kalkulacji zamykamy ją w funkcji INT (rzutujemy
do liczby całkowitej). Dzięki funkcji LOG możemy wyliczyć logarytm przy
podstawie 10.
Zliczamy liczbę wystąpień
każdej cyfry na wykresie słupkowym. Przeciągamy zmienną „Pierwsza cyfra” na
zakładkę Columns i zmienną „Number of Records” na zakładkę Rows oraz
stosujemy kalkulację tabelaryczną Percent of Total.
By wyświetlić etykiety
możemy skorzystać z opcji Show Mark Labels (ikonka Abc). Jeśli
chcemy, by etykiety wyświetlały się wewnątrz słupków, wybieramy opcje Label
-> Alignment -> Vertical -> Middle.
Przeciągamy kalkulację „Prawdopodobieństwo”
na ikonkę Detail i agregujemy względem miary Minimum.
Aby nałożyć na wykres
obszary referencyjne, związane z rozkładem zmiennej „Prawdopodobieństwo”,
wystarczy skorzystać z opcji Distribution, dostępnej w kreatorze
tworzenia linii i obszarów referencyjnych. Klikamy prawym przyciskiem myszy na
oś liczbową i wybieramy opcję Add Reference Line.
W kreatorze tworzenia
linii i obszarów referencyjnych wybieramy Distribution -> Computation
-> Value -> Percentages i wskazujemy jaki procent wartości
zmiennej „Prawdopodobieństwo” nas interesuje.
Na wykresie możemy
zaobserwować, że częstość występowania pierwszych cyfr w sprzedaży ze zbioru
Superstore Subset mieści się w przedziale [90%, 110%] wartości częstości,
wyznaczonych z rozkładu Benforda.
KOMENTARZE