Blog
30.8.2019

Wykres pudełkowy, nie taki trudny jak się wydaje!

Spis treści:
Tagi:
No items found.
Klient:
Autor:
Mateusz Różański

Wykres pudełkowy (ang. Box-and-whisker plot, tłumaczony dosłownie to wykres pudełka z wąsami) to jeden z tych wykresów, który podczas szkoleń lub prezentacji wzbudza w uczestnikach spore zakłopotanie. Prawdę mówiąc, jest rzadko stosowany przez naszych klientów. Wynika to z pewnością z braku wiedzy o tym, jaki zakres informacji niesie za sobą ten złożony przykład wizualizacji rozkładu.

W tym artykule postaram się przybliżyć konstrukcję i interpretację informacji płynącej z tego wykresu. Za tworzywo posłużą nam wyniki Orlen Warsaw Marathon (OWM). Wyniki zawodów sportowych to idealny materiał do analizy rozkładu populacji. Próbka jest wystarczająco duża i zróżnicowana. W naszym przykładzie porównamy wyniki między płciami oraz kategoriami wiekowymi. Zobaczymy, jak bardzo różnią się i czy wykres pudełkowy jest pomocny, aby to łatwo zaobserwować.

Zanim zaczniemy analizę wyników OWM przyjrzyjmy się budowie wykresu pudełkowego.

Wykres pudełkowy — budowa

Tutaj sprawa się komplikuje, bo wykres pudełkowy występuje w dwóch wersjach. Chyba najczęściej spotykana jest wersja, gdzie wąsy oznaczają pełny zakres populacji od minimum do maksimum. Pudełko reprezentuje pierwszy Q1 oraz trzeci Q3 kwartyl. OK, ale co to oznacza? Punkty między pierwszym i trzecim kwartylem reprezentują dokładnie 50% populacji a mediana Me środek populacji.

Wykres pudełkowy reprezentuje pierwszy Q1 oraz trzeci Q3 kwartyl

Druga wersja tego wykresu jest właśnie domyślnie dostępna w Tableau. Jest to tzw.wersja Tukey’a pokazuje wąsy jako 1.5 rozstępu kwartylnego IQR (Inter Quartile Range). Wtedy wartości minima i maksima, jeśli są różne, wyjdą poza wąsy i będą reprezentowały elementy odstające od reszty populacji (tzw. outliers).

wykres pudełkowy w wersja Tukey’a

Wykres pudełkowy — co nam daje?

  • Podaje wartość 5 miar: mediany, 1 kwartyla, 3 kwartyla, maksimum i minimum
  • Pozwala zaobserwować poziom rozproszenia / koncentracji populacji
  • Umożliwia ocenę czy populacja jest symetryczna, czy prawo lub lewoskośna
  • Dzięki niemu szybko dostrzeżemy elementy odstające tzw. outliers
  • Daje wyobrażenie o wielkości populacji

Jak zbudować wykres pudełkowy w Tableau?

To jeden z tych wykresów, który jest dostępny „spod palca” w menu Show Me.

Zaznaczmy odpowiednie pola z klawiszem CTRL i wybieramy zaznaczony typ wykresu.

tableau box and whisker

Istotne jest to, że klikając na pudełku lub wąsach prawym klawiszem możemy zmienić jego ustawienia, wybierając jedną z dwóch wersji tego wykresu oraz formatować jego styl.

Dwie wersje wykresu i formatowanie jego stylu

Pobierz wersję darmową – Tableau trial


Kiedy warto użyć wykresu pudełkowego?

Mamy tendencję do nadmiernego agregowania miar i analizowania ich na poziomie makrokategorii. Czasami zejście do danych ziarnistych daje nieoczekiwane obserwacje i wtedy ujawnia się cała siła analizy wizualnej. Wykorzystajmy nasz dashboard z wynikami maratonu.

Wizualizacja liczby uczestników przy pomocy wykresu pudełkowego

Pierwsza wizualizacja pokazuje liczbę uczestników w podziale na płeć i kategorię wiekową. OK dane zagregowane są bardzo czytelne. Druga w postaci Lollipop chart przedstawia medianę wyników. Obie wizualizacje są proste w interpretacji. Widać, że najliczniejszą grupą uczestników to mężczyźni w kategorii wiekowej 30 i 40. Oni też osiągają przeciętnie najlepsze wyniki. Co ciekawe, panowie z kategorii 30 są przeciętnie szybsi niż panowie z kategorii 18.

Liczba uczestników w podziale na płeć i kategorię wiekową
Lollipop chart przedstawia medianę wyników

Wykres pudełkowy pokaże nam te same informacje o wielkości poszczególnych grup (1). Pozwoli również porównać mediany na wskroś kategorii wiekowych (2), a dodatkowo ujawni inne ciekawe właściwości danych, oferując szerszy kontekst.

Porównywanie mediany na wskroś kategorii wiekowych na wykresie pudełkowym

Na wykresie pudełkowym zachowujemy możliwość odnalezienia wartości minimalnych i maksymalnych (3). Możemy też zaobserwować, że mężczyźni 30 są bardziej skoncentrowani wokół mediany. Dzięki temu są oni przez bardziej spójni w wynikach niż mężczyźni z kategorii 18, gdzie wielkość pudełka, a przez to rozpiętość wąsów, jest większa (4). Co ciekawe mężczyźni z kategorii 50 osiągają przeciętnie niewiele gorsze wyniki niż kategoria M18, ale za to koncentracja wyników wokół mediany jest jeszcze większa niż w przypadku M40.

Dzięki tej formie wizualizacji możemy łatwo zaobserwować elementy odstające w kategorii kobiet 30 (5). To oczywiście była czołówka wśród pań. Na uwagę zasługują dwa punkty w kategorii K50, które osiągnęły znacznie ponadprzeciętne wyniki (6).

Oczywiście to nie wszystkie wnioski i obserwacje, jakie możemy wyciągnąć, używając wykresu pudełkowego. Mam nadzieję, że od teraz będziecie wiedzieć, jak go czytać i chętniej wykorzystywać w swojej codziennej pracy.

Happy box plotting!

,
No items found.