Zasada sturges: wyjaśnienie, zastosowania i przykłady
Reguła Sturges jest kryterium używanym do określenia liczby klas lub przedziałów, które są niezbędne do graficznego przedstawienia zestawu danych statystycznych. Reguła ta została ogłoszona w 1926 r. Przez niemieckiego matematyka Herberta Sturgesa.
Sturges zaproponował prostą metodę opartą na liczbie próbek x, która pozwoliła na ustalenie liczby klas i amplitudy ich zasięgu. Reguła Sturgesa jest szeroko stosowana zwłaszcza w dziedzinie statystyki, w szczególności do tworzenia histogramów częstotliwości.
Wyjaśnienie
Reguła Sturgesa jest metodą empiryczną szeroko stosowaną w statystyce opisowej w celu określenia liczby klas, które muszą istnieć na histogramie częstotliwości, w celu sklasyfikowania zbioru danych reprezentujących próbkę lub populację.
Zasadniczo ta reguła określa szerokość kontenerów graficznych, histogramów częstotliwości.
Aby ustalić swoją zasadę Herbert Sturges rozważał idealny diagram częstotliwości, który składa się z K przedziałów, gdzie i-ty przedział zawiera pewną liczbę próbek (i = 0, ... k - 1), reprezentowanych jako:
Tę liczbę próbek określa liczba sposobów, w jakie można wyodrębnić podzbiór zbioru; to znaczy, według współczynnika dwumianowego, wyrażonego w następujący sposób:
Aby uprościć wyrażenie, zastosował właściwości logarytmów w obu częściach równania:
Sturges ustalił więc, że optymalna liczba przedziałów k jest wyrażona przez:
Może być również wyrażone jako:
W tym wyrażeniu:
- k to liczba klas.
- N to całkowita liczba obserwacji w próbce.
- Log to wspólny logarytm 10 podstawy.
Na przykład, aby utworzyć histogram częstotliwości, który wyraża losową próbkę wysokości 142 dzieci, liczba interwałów lub klas, które będzie miała rozkład:
k = 1 + 3, 322 * log 10 (N)
k = 1 + 3, 322 * log (142)
k = 1 + 3, 322 * 2, 1523
k = 8, 14 ≈ 8
Zatem dystrybucja będzie miała 8 przedziałów.
Liczba przedziałów powinna być zawsze reprezentowana przez liczby całkowite. W przypadkach, gdy wartość jest dziesiętna, należy wykonać przybliżenie do najbliższej liczby całkowitej.
Aplikacje
Reguła Sturgesa stosowana jest głównie w statystyce, ponieważ pozwala na wykonanie rozkładu częstotliwości poprzez obliczenie liczby klas (k), a także długości każdego z nich, znanego również jako amplituda.
Amplituda jest różnicą górnej i dolnej granicy klasy podzielonej przez liczbę klas i jest wyrażona:
Istnieje wiele reguł empirycznych, które umożliwiają dokonanie rozkładu częstotliwości. Jednak reguła Sturgesa jest powszechnie używana, ponieważ przybliża liczbę klas, która zazwyczaj waha się od 5 do 15.
W ten sposób rozważ wartość, która odpowiednio reprezentuje próbkę lub populację; to znaczy, przybliżenie nie reprezentuje skrajnych grup, ani nie działa z nadmierną liczbą klas, które nie pozwalają na podsumowanie próbki.
Przykład
Konieczne jest wykonanie histogramu częstotliwości zgodnie z podanymi danymi, które odpowiadają wiekom uzyskanym w badaniu mężczyzn, którzy wykonują ćwiczenia w lokalnej siłowni.
Aby określić interwały, musisz wiedzieć, jaki jest rozmiar próbki lub liczba obserwacji; w tym przypadku masz 30.
Następnie obowiązuje zasada Sturges:
k = 1 + 3, 322 * log 10 (N)
k = 1 + 3, 322 * dziennik (30)
k = 1 + 3, 322 * 1, 4771
k = 5, 90 ≈ 6 przedziałów.
Z liczby interwałów można obliczyć amplitudę, jaką będą miały; to znaczy szerokość każdego pręta reprezentowanego na histogramie częstotliwości:
Dolna granica jest uważana za najniższą wartość danych, a górna granica jest najwyższą wartością. Różnica między górną i dolną granicą jest nazywana zakresem lub ścieżką zmiennej (R).
Z tabeli wynika, że górna granica wynosi 46, a dolna granica 13; w ten sposób amplituda każdej klasy będzie:
Interwały będą się składać z górnej i dolnej granicy. Aby określić te przedziały, zacznij odliczać od dolnej granicy, dodając do niej amplitudę określoną przez regułę (6), w następujący sposób:
Następnie obliczana jest częstotliwość bezwzględna w celu określenia liczby mężczyzn odpowiadających każdemu przedziałowi; w tym przypadku jest to:
- Interwał 1: 13 - 18 = 9
- Interwał 2: 19 - 24 = 9
- Interwał 3: 25 - 30 = 5
- Interwał 4: 31 - 36 = 2
- Interwał 5: 37 - 42 = 2
- Interwał 6: 43 - 48 = 3
Dodając częstotliwość bezwzględną każdej klasy, musi być równa całkowitej liczbie próbki; w tym przypadku 30.
Następnie obliczana jest względna częstotliwość każdego przedziału, dzieląca bezwzględną częstotliwość tego przedziału przez całkowitą liczbę obserwacji:
- Interwał 1: fi = 9 ÷ 30 = 0, 30
- Interwał 2: fi = 9 ÷ 30 = 0, 30
- Interwał 3: fi = 5 ÷ 30 = 0, 1666
- Interwał 4: fi = 2 ÷ 30 = 0, 0666
- Interwał 5: fi = 2 ÷ 30 = 0, 0666
- Interwał 4: fi = 3 ÷ 30 = 0, 10
Następnie możesz stworzyć tabelę, która odzwierciedla dane, a także diagram ze względnej częstotliwości w stosunku do uzyskanych interwałów, jak widać na następujących obrazach:
W ten sposób reguła Sturges pozwala określić liczbę klas lub przedziałów, w których próbka może zostać podzielona, w celu podsumowania próbki danych poprzez przygotowanie tabel i wykresów.