Statystyka -skrypt na egzamin.doc

(252 KB) Pobierz
I

STATYSTYKA                                                                                                                                 Strona 1 z 12

I. ANALIZA STRUKTURY

1) Określenie populacji generalnej, jednostki statystycznej i próby.

Populacja (zbiorowość) statystyczna – zbiór dowolnych elementów (osób, przedmiotów, faktów) podobnych pod względem określonych cech (ale nie identycznych) i poddanych badaniom statystycznym. 

Populacja (zbiorowość) generalna – wszystkie elementy będące przedmiotem badania, co do których chcemy formułować wnioski ogólne.

Zbiorowość próbna (próba) – podzbiór populacji generalnej, obejmujący część jej elementów, wybranych w określony sposób. Liczba elementów próby to n.

Jednostka statystyczna – element składowy zbiorowości podlegający bezpośredniej obserwacji lub pomiarowi.

2) Jaki charakter może mieć badanie statystyczne? W jakim badaniu statystycznym występuje próba?

Badanie statystyczne – ogół prac mających na celu poznanie struktury określonej zbiorowości statystycznej.

Etapy badania statystycznego:

1/ przygotowanie badania czyli:

-          sprecyzowanie celu badania

-          określenie zbiorowości statystycznej i jednostki statystycznej

-          określenie charakteru badania (pełne czy częściowe)

-          określenie sposobu pozyskiwania danych i źródła z jakich będą pochodziły

-          przygotowanie materiałów do przeprowadzenia badania (formularze ankietowe, programy do opracowania danych)

-          sporządzenie planu finansowego badania

2/ gromadzenie materiału statystycznego (obserwacja statystyczna)

3/ opracowanie zebranego materiału w postaci tablic i wykresów (grupowanie i prezentacja zebranych informacji)

4/ analiza wyników obserwacji – otrzymujemy tu opis statystyczny (przy badaniu statystycznym pełnym) lub wnioski dotyczące populacji generalnej (przy badaniu statystycznym częściowym).

Obserwacja statystyczna – proces zbierania informacji statystycznych

Obserwacje statystyczne można uzyskać na podstawie badania statystycznego:

- całkowitego (wyczerpującego) – obserwacji podlegają wszystkie elementy zbiorowości generalnej

- częściowego – obserwacji podlega tylko część zbiorowości generalnej, tzw. próba.

Badania całkowite to spis statystyczny, inwentaryzacja, rejestracja bieżąca, sprawozdawczość statystyczna.  Badania częściowe to badania reprezentacyjne, monograficzne i ankietowe.

Aby uzyskane wyniki badania próby można było odnieść do zbiorowości generalnej z określoną dokładnością, próba musi być reprezentatywna, muszą być spełnione 2 warunki:

* musi być wybrana losowo – tzn. każda jednostka danej zbiorowości ma znane, różne od zera prawdopodobieństwo znalezienia się w próbie

* powinna być dostatecznie liczna.

3) Jakie rodzaje cech statystycznych podlegających badaniu wyróżniamy?

Cechy statystyczne – jednostki statystyczne wchodzące w skład zbiorowości statystycznej, charakteryzujące się  pewnymi właściwościami.

Aby określić populację generalną należy wszystkie jednostki określić pod względem: rzeczowym (co lub kogo badamy?), przestrzennym ( jaki obszar obejmuje badanie?), czasowym (kiedy badanie się odbywa lub jakiego czasu dotyczy?).

Wymienione atrybuty cech to tzw. cechy stałe (rzeczowe, przestrzenne, czasowe); są wspólne wszystkim jednostkom danej zbiorowości i nie podlegają badaniu, decydują tylko o zaliczeniu jednostki do określonej zbiorowości.

Natomiast właściwości, które różnią poszczególne jednostki statystyczne to cechy zmienne.

Cechy zmienne dzielimy na:

1/ cechy niemierzalne (jakościowe) – własności jednostek statystycznych nie dające się zmierzyć. Można jedynie stwierdzić, które z wariantów cechy występuje u danej jednostki; określane słownie np. płeć, cechy geograficzne, wykształcenie, zawód; te cechy opisane są w skali porządkowej.

2/ cechy mierzalne ( ilościowe) – właściwości które można zmierzyć i wyrazić za pomocą odpowiednich jednostek fizycznych np. kg, cm, sztuki. Do tych cech zalicza się też cechy quasi-ilościowe zwane porządkowymi (przedstawiają daną właściwość w sposób opisowy, porządkując w ten sposób zbiorowość np. ocena wiadomości studenta: bardzo dobra, dobra albo 5, 4, itp.).

Cechy mierzalne dzielimy na :

a) skokowe (dyskretne) – przyjmują skończony lub przeliczalny zbiór wartości na  danej skali liczbowej (najczęściej jest to zbiór liczb całkowitych dodatnich np. liczba osób w rodzinie, oceny studenta)

b) ciągłe – mogą przyjąć każdą wartość z określonego przedziału liczbowego <a,b>, przy czym liczba miejsc po przecinku jest uzależniona od dokładności dokonywanych pomiarów np. waga detalu.

Wyróżniamy też cechy quasi-ciągłe (skokowa, ciągła) – skala wartości jakie te cechy mogą przybierać jest bardzo duża np. płace w Polsce.

Cechy mierzalne (zmienne) oznaczamy X, Y, Z a wartości tych cech – xi, yi, zi.

4) W jaki sposób porządkujemy dane statystyczne? Jakie rodzaje szeregów  statystycznych  możemy utworzyć?

Dane statystyczne otrzymane w wyniku przeprowadzonej obserwacji statystyczne (lub pomiaru) porządkujemy i grupujemy w postaci tzw. szeregów statystycznych. Istotą grupowania jest usystematyzowanie jednostek badania wg interesującej nas cechy statystycznej (zmiennej). Grupowanie materiału stosujemy po przeprowadzeniu jego kontroli pod względem formalnym i merytorycznym. 

Metody grupowania mogą być związane z cechą mierzalną (ilościową) np. wiek, płaca, bądź cechą niemierzalną (jakościową) np. płeć, pochodzenie społeczne, rodzaj kredytu.

Rodzaje grupowania:

1/ typologiczne (na podstawie cech jakościowych) – np. wg cech terytorialnych, rzeczowych, czasowych; ma na celu wyodrębnienie gryp różnych jakościowo; grupowanie typologiczne grupuje zbiorowość niejednorodną na grupy jednorodne.

2/ wariancyjne (mechaniczne, opiera się na cesze ilościowej) – ma na celu uporządkowanie danej zbiorowości i poznanie jej struktury; polega na łączeniu w klasy jednostek statystycznych o odpowiednich wartościach cech statystycznych.

Dla cechy niemierzalnej kolejność zapisywania wariantów cechy jest dowolna, natomiast dla cechy mierzalnej – dane porządkujemy z reguły niemalejąco.

Liczebności odpowiadające poszczególnym wariantom cechy oznaczamy ni gdzie i = 1,2,...k. Ogólna liczebność badanej zbiorowości to suma poszczególnych zbiorowości.

Dane statystyczne grupujemy w postaci tzw. szeregów statystycznych.

Szereg statystyczny to ciąg wielkości statystycznych, uporządkowany i pogrupowany wg określonych kryteriów. Szeregi statystyczne dzielimy na:

1/ szczegółowe

2/ rozdzielcze:                            

- szeregi z  cechą mierzalną (ilościową): punktowe i przedziałowe

- szeregi z cechą niemierzalną (jakościową)

3/ czasowe

Szeregi mogą być konstruowane różnie. Idealnie zbudowanym szeregiem, który daje możliwość wykorzystania szerokiego wachlarza parametrów jest szereg o równych przedziałach klasowych, zamknięty górą i dołem. Buduje się również szeregi rozdzielcze:

-          o nierównych przedziałach klasowych

-          otwarte dołem lub górą

-          otwarte dołem i górą.

Szereg statystyczny otwarty dołem – od strony najmniejszej wartości

Szereg statystyczny otwarty górą – od strony największej wartości.

Jeżeli mamy szereg o nierównych przedziałach klasowych i otwarty górą lub dołem to znaczy że nie możemy stosować klasycznych miar statystycznych w analizie struktury zbiorowości.

Dla cechy mierzalnej porządkowanie danych uzależnione jest od liczebności zbiorowości i liczby różnych wariantów cechy. W zależności od tego mamy 3 sytuacje:

1/ Szereg szczegółowy (prosty) – uporządkowany ciąg wartości badanej cechy statystycznej; budujemy go gdy badana zbiorowość jest mała; ustawiamy wartości cechy wg kolejności rosnącej.

Szereg rozdzielczy stanowi zbiorowość statystyczną podzieloną na części (klasy) wg określonej cechy jakościowej lub ilościowej, z podaniem liczebności lub częstości każdej z wyodrębnionych klas. Szereg rozdzielczy określa strukturę badanej zbiorowości.

2/ W przypadku gdy badana zbiorowość jest liczna, ale liczba różnych wariantów cechy niewielka budujemy szereg rozdzielczy punktowy (jednojednostkowy); budujemy je dla cechy skokowe np. liczba dzieci w małżeństwie.

n = tzn. ogólna liczebność badanej zbiorowości to suma poszczególnych zbiorowości

W szeregach rozdzielczych do określenia struktury badanej zbiorowości obok liczebności bezwzględnej stosuje się tzw. wskaźnik struktury (częstość) oznaczany wi.

Wskaźnik struktury (wi) – częstość występowania danego wariantu cechy – jest to stosunek liczby jednostek o danej wartości cechy do liczebności próby: wi = i = 1,2,...k.

wi – wskaźnik struktury

ni -  poszczególne liczebności              n – liczebność całej zbiorowości

Obok prostego szeregu rozdzielczego wyróżniamy też szeregi rozdzielcze o liczebnościach (częstościach) skumulowanych. Szeregi rozdzielcze skumulowane uzyskuje się poprzez przyporządkowanie kolejnym wariantom cechy odpowiadających im liczebności (częstości) skumulowanych.

Skumulowany wskaźnik struktury oznaczamy wsk =   gdzie i = 1,2, ... k

nisk – liczba jednostek, których cechy odpowiadają wartościom nie większym niż xi

3/ W przypadku gdy próba jest liczna i cecha mierzalna ciągła lub mieszana, skokowa, ale przyjmująca wiele różnych wartości – budujemy szereg rozdzielczy z przedziałami klasowymi (wielojednostkowy) dzieląc otrzymane wyniki na klasy.

Liczba przedziałów klasowych jest ustalana w zależności od liczebności badanej zbiorowości. Podawane są różne metody ustalania tej liczby przedziałów.

Liczebności (ni) to liczebności poszczególnych przedziałów klasowych. W zapisie często podaje się wartość prawego krańca przedziału wyższego i lewego krańca przedziału niższego. Na początku ustalamy czy w danym szeregu  przedziały będą domknięte z prawej czy z lewej strony. Najwygodniej jest jeśli można ustalić przedziały klasowe o jednakowej rozpiętości.

5) W jaki sposób możemy ocenić czy dwie zbiorowości statystyczne są podobne czy nie, ze  względu na badaną cechę?

Do pomiaru podobieństwa zbiorowości stosuje się różne miary. Jedną z nich  jest wskaźnik podobieństwa struktur.               wp =      przy czym 0 < wp ≤ 1

Im wp jest bliższe jedności, tym struktury badanych zbiorowości są bardziej podobne.

wp ≤ 0,7                                          struktury nie są podobne

0,7 < wp ≤ 0,8                            niewielkie podobieństwa

0,8 < wp ≤ 0,9                            znaczące podobieństwa

0,9 < wp ≤ 0,95                            duże podobieństwa

0,95 < wp ≤ 1                            bardzo duże podobieństwa

wp = 1                                          struktury identyczne

6) Jakie miary położenia stosujemy do opisu struktury zbiorowości? Które z tych miar są  miarami klasycznymi, a które pozycyjnymi?

Analiza danych statystycznych dotyczących cechy mierzalnej ma na celu uzyskanie syntetycznego przedstawienia wyników badania przy pomocy odpowiednich charakterystyk liczbowych (parametrów statystycznych).

W analizie struktury zbiorowości stosowane są najczęściej następujące grupy parametrów:

1/ miary położenia – określają poziom wartości cechy

2/ miary zmienności (rozproszenia, dyspersji, zróżnicowania) – badają stopień zróżnicowania wartości cechy

3/ miary asymetrii (skośności) – badają kierunek zróżnicowania wartości cechy.

W każdym z podanych typów miar występują miary klasyczne (ich wartości obliczamy na podstawie wszystkich wyników z próby) i miary pozycyjne (ich wartości ustalane są na podstawie podziału uporządkowanego ciągu wartości cechy lub też wyboru wartości cechy występującej najczęściej).

Miary położenia dzielą się na przeciętne i kwantyle. Miary przeciętne charakteryzują średni lub typowy poziom wartości cechy. Są to więc takie parametry, wokół których skupiają się wszystkie pozostałe wartości analizowanej cechy.

Miary przeciętne dzielą się na 2 grupy: średnie klasyczne i pozycyjne. Wszystkie te parametry są wielkościami mianowanymi (mają miana takie same jak analizowana cecha).

                                                  Miary położenia







                            Klasyczne                                                        Pozycyjne









- średnia arytmetyczna                            - modalna                                          - kwantyle:

- średnia harmoniczna                            (dominanta,                                          * kwartyl pierwszy

- średnia geometryczna                            wartość najczęstsza)                            * kwartyl drugi (mediana)

- inne                                                                                                                * kwartyl trzeci

                                                                                                                              * decyle

7) Jakie własności ma średnia arytmetyczna? Czy dla każdego szeregu można ją wyznaczyć?

Średnia arytmetyczna – klasyczna miara położenia; jest to suma wartości cechy mierzalnej podzielona przez liczbę jednostek skończonej zbiorowości statystycznej.

Wyróżniamy:

* średnią arytmetyczną nieważoną (prostą) – obliczamy dla szeregów szczegółowych

* średnią arytmetyczną ważoną – obliczamy dla szeregów rozdzielczych punktowych i i szeregów rozdzielczych z przedziałami klasowymi.

Własności średniej arytmetycznej:

1/ wartość średniej arytmetycznej zawiera się między najmniejsza i największą wartością cechy. Tą własność stosujemy przy kontroli logicznej obliczonej średniej.              xmin ≤ xmax

2/ średnia arytmetyczna wyraża się w takich samych jednostkach jak wartości cechy

3/ jest miarą wrażliwą na skrajne wartości cechy, zatem dobrze charakteryzuje przeciętny poziom wartości cechy w zbiorowościach o niewielkim stopniu zróżnicowania ze względu na badaną cechę

4/ średnią arytmetyczną obliczamy w zasadzie dla szeregów o zamkniętych skrajnych przedziałach klasowych. W sytuacji gdy skrajne przedziały są otwarte, ale ich liczebności bardzo małe możemy w obliczeniach średniej je umownie domknąć.

Warunkiem obliczenia średniej arytmetycznej w szeregu rozdzielczym jest szereg zamknięty górą i dołem – o ile tak nie jest, to można dokonać zamknięcia szeregu, jeżeli w otwartym przedzia...

Zgłoś jeśli naruszono regulamin