Zasada sturges: wyjaśnienie, zastosowania i przykłady

Reguła Sturges jest kryterium używanym do określenia liczby klas lub przedziałów, które są niezbędne do graficznego przedstawienia zestawu danych statystycznych. Reguła ta została ogłoszona w 1926 r. Przez niemieckiego matematyka Herberta Sturgesa.

Sturges zaproponował prostą metodę opartą na liczbie próbek x, która pozwoliła na ustalenie liczby klas i amplitudy ich zasięgu. Reguła Sturgesa jest szeroko stosowana zwłaszcza w dziedzinie statystyki, w szczególności do tworzenia histogramów częstotliwości.

Wyjaśnienie

Reguła Sturgesa jest metodą empiryczną szeroko stosowaną w statystyce opisowej w celu określenia liczby klas, które muszą istnieć na histogramie częstotliwości, w celu sklasyfikowania zbioru danych reprezentujących próbkę lub populację.

Zasadniczo ta reguła określa szerokość kontenerów graficznych, histogramów częstotliwości.

Aby ustalić swoją zasadę Herbert Sturges rozważał idealny diagram częstotliwości, który składa się z K przedziałów, gdzie i-ty przedział zawiera pewną liczbę próbek (i = 0, ... k - 1), reprezentowanych jako:

Tę liczbę próbek określa liczba sposobów, w jakie można wyodrębnić podzbiór zbioru; to znaczy, według współczynnika dwumianowego, wyrażonego w następujący sposób:

Aby uprościć wyrażenie, zastosował właściwości logarytmów w obu częściach równania:

Sturges ustalił więc, że optymalna liczba przedziałów k jest wyrażona przez:

Może być również wyrażone jako:

W tym wyrażeniu:

- k to liczba klas.

- N to całkowita liczba obserwacji w próbce.

- Log to wspólny logarytm 10 podstawy.

Na przykład, aby utworzyć histogram częstotliwości, który wyraża losową próbkę wysokości 142 dzieci, liczba interwałów lub klas, które będzie miała rozkład:

k = 1 + 3, 322 * log 10 (N)

k = 1 + 3, 322 * log (142)

k = 1 + 3, 322 * 2, 1523

k = 8, 14 ≈ 8

Zatem dystrybucja będzie miała 8 przedziałów.

Liczba przedziałów powinna być zawsze reprezentowana przez liczby całkowite. W przypadkach, gdy wartość jest dziesiętna, należy wykonać przybliżenie do najbliższej liczby całkowitej.

Aplikacje

Reguła Sturgesa stosowana jest głównie w statystyce, ponieważ pozwala na wykonanie rozkładu częstotliwości poprzez obliczenie liczby klas (k), a także długości każdego z nich, znanego również jako amplituda.

Amplituda jest różnicą górnej i dolnej granicy klasy podzielonej przez liczbę klas i jest wyrażona:

Istnieje wiele reguł empirycznych, które umożliwiają dokonanie rozkładu częstotliwości. Jednak reguła Sturgesa jest powszechnie używana, ponieważ przybliża liczbę klas, która zazwyczaj waha się od 5 do 15.

W ten sposób rozważ wartość, która odpowiednio reprezentuje próbkę lub populację; to znaczy, przybliżenie nie reprezentuje skrajnych grup, ani nie działa z nadmierną liczbą klas, które nie pozwalają na podsumowanie próbki.

Przykład

Konieczne jest wykonanie histogramu częstotliwości zgodnie z podanymi danymi, które odpowiadają wiekom uzyskanym w badaniu mężczyzn, którzy wykonują ćwiczenia w lokalnej siłowni.

Aby określić interwały, musisz wiedzieć, jaki jest rozmiar próbki lub liczba obserwacji; w tym przypadku masz 30.

Następnie obowiązuje zasada Sturges:

k = 1 + 3, 322 * log 10 (N)

k = 1 + 3, 322 * dziennik (30)

k = 1 + 3, 322 * 1, 4771

k = 5, 90 ≈ 6 przedziałów.

Z liczby interwałów można obliczyć amplitudę, jaką będą miały; to znaczy szerokość każdego pręta reprezentowanego na histogramie częstotliwości:

Dolna granica jest uważana za najniższą wartość danych, a górna granica jest najwyższą wartością. Różnica między górną i dolną granicą jest nazywana zakresem lub ścieżką zmiennej (R).

Z tabeli wynika, że ​​górna granica wynosi 46, a dolna granica 13; w ten sposób amplituda każdej klasy będzie:

Interwały będą się składać z górnej i dolnej granicy. Aby określić te przedziały, zacznij odliczać od dolnej granicy, dodając do niej amplitudę określoną przez regułę (6), w następujący sposób:

Następnie obliczana jest częstotliwość bezwzględna w celu określenia liczby mężczyzn odpowiadających każdemu przedziałowi; w tym przypadku jest to:

- Interwał 1: 13 - 18 = 9

- Interwał 2: 19 - 24 = 9

- Interwał 3: 25 - 30 = 5

- Interwał 4: 31 - 36 = 2

- Interwał 5: 37 - 42 = 2

- Interwał 6: 43 - 48 = 3

Dodając częstotliwość bezwzględną każdej klasy, musi być równa całkowitej liczbie próbki; w tym przypadku 30.

Następnie obliczana jest względna częstotliwość każdego przedziału, dzieląca bezwzględną częstotliwość tego przedziału przez całkowitą liczbę obserwacji:

- Interwał 1: fi = 9 ÷ 30 = 0, 30

- Interwał 2: fi = 9 ÷ 30 = 0, 30

- Interwał 3: fi = 5 ÷ 30 = 0, 1666

- Interwał 4: fi = 2 ÷ 30 = 0, 0666

- Interwał 5: fi = 2 ÷ 30 = 0, 0666

- Interwał 4: fi = 3 ÷ 30 = 0, 10

Następnie możesz stworzyć tabelę, która odzwierciedla dane, a także diagram ze względnej częstotliwości w stosunku do uzyskanych interwałów, jak widać na następujących obrazach:

W ten sposób reguła Sturges pozwala określić liczbę klas lub przedziałów, w których próbka może zostać podzielona, ​​w celu podsumowania próbki danych poprzez przygotowanie tabel i wykresów.