Neviditelný pes

ROZHLEDNÍK: Statistika nuda je… (2)

17.1.2008

Ale to, co šlo dobře pro 5 nebo i 15 hodnot, už by nám tak snadno nefungovalo pro velká množství zjištěných dat. A my jsme si přece hned na začátku vysvětlili, že výsledky závisí nejen na kvalitě, ale i kvantitě výběrového souboru. Xerxová - statistika2 - tabule

Vrátíme se do naší virtuální třídy. Vzpomínáte? Tři studentky, tři různé přístupy k domácímu úkolu - zjistit výšku pětice žen. Ale to byly jen tři z třicetičlenného kolektivu. A získaných hodnot výšky ke zpracování máme najednou ne 15, ale 150… S tím, co jsme se naučili minule, by to šlo, ale trvalo by nám to dlouho. Jen ta představa, jak ta data rovnám podle velikosti, abych našla modus a medián… jak se pracně propočítávám k rozptylu… prostě to uděláme jinak.

Vytvoříme takzvaná sdružená data. Prostě si řeknu, že ty ženy podle výšky rozdělím do skupinek = intervalů, kterým říkáme třídy. Tříd by nemělo být moc (pak je s tím zbytečně moc práce), ani málo (pak už je výsledek hóódně zaokrouhlený). V praxi se říká - ne méně než 5 (raději 7), ne víc jak 20.

A tak se nám naše bádání o výšce ženy smrskne do docela přehledné tabulky. První sloupeček je pořadí třídy (počet tříd se značí k, pro nás k = 8), druhý jsou intervaly, do kterých jsem roztřídila získané hodnoty výšek. Třetí sloupeček xj je velmi důležitý - leží uprostřed třídy a je to významný prvek, který ve výpočtech nahradí všechna měření v intervalu. Počet žen, které "spadly" do té které třídy se značí nj. Třeba všechny basketbalistky jsou ve třídě sedmé. A že jich tam není 5, ale patnáct? Nezapomeňte, že najednou už zpracováváme data z celé třídy a i jiní znali někoho vysokého. Dole pod sloupečkem máme součet n = 150. 

Xerxová - statistika2 - tabulka 

Co to je fj? Je to relativní četnost. Říká, kolik procent žen patří do té které třídy. Vzoreček je na tabuli, ale není to nic jiného, než výpočet procent z celku (tedy součet f nám musí dát 100%). Jestliže v první třídě těch nejmenších (jejich výška kolísá kolem 150 cm) máme tři ženy, jejich počet (3) vydělím n (150) a výsledek vynásobím 100. Vyjdou mi 2%.

Relativní četnost se vynáší do často používaného grafu - histogramu. Najednou se nám 150 žen (koleček) pěkně uspořádá do přehledného obrázku. Do grafu jsem zakreslila i našich 15 "známých" postaviček z minula (pochopitelně, že normálně se do grafu ta kolečka nekreslí, to jen na poprvé pro lepší představu :o))

Aritmetický průměr se zjistí tak, že se roznásobí prostředek třídy xj počtem prvků ve třídě nj. Tyto násobky se sečtou (bude jich stejně jako tříd) a součet se vydělí počtem n. Pozor - dělí se to n a nikoli k (to je častá chyba). Modus a medián budeme jen odhadovat. Tam, kde je nejvyšší sloupeček v histogramu, tam někde bude modus. A my ho stanovíme jako střed (xj) té nejčetnější třídy. Modus nám vyjde 165 cm. Medián je přece hodnota uprostřed setříděného souboru, a tak budu sčítat fj, až se dopočítám nad 50 %. Ve čtvrté třídě je to 2+4+12+30, tj. jen 48 %. Takže medián leží až ve třídě páté - tam jsou data mezi 48 % a 70 %, pro jednoduchost ho určíme jako střed mediánové třídy - 170 cm.

Xerxová - statistika2 - výšky

Určitě nás nepřekvapí, že průměrná výška, modus i medián jsou zhruba uprostřed naměřených dat. Protože v populaci je málo procent těch "mrňavých" i těch "přerostlých". Kdybychom žen změřili opravdu velký počet a udělali roztřídění do mnoha tříd, histogram by se nápadně podobal tomu malému grafu na tabuli. Je to Gaussova křivka, která popisuje normální rozdělení hodnot.

Normální rozdělení je symetrické, průměr, modus i medián jsou stejně veliké a leží uprostřed naměřených hodnot. Ne nadarmo se tomuto rozdělení říká normální - opravdu je nejrozšířenější, dobře popisuje velké množství jevů v přírodních i společenských vědách. A protože je tak běžné, nějak automaticky ho očekáváme i tam, kde nefunguje. Třeba u té průměrné mzdy… On totiž ten průměr je uprostřed jen u symetrických rozdělení.

Nyní trošku morbidní příklad. U dat dosaženého věku jsme docela rádi, že nemá normální rozdělení, to by nám ta průměrná délka života vycházela kolem 55 let. Průměr, medián i modus jsou zde totiž posunuty k vyšším hodnotám.

Xerxová - statistika2 - věk

No a na závěr data zešikmená obráceně. Data (nejsou přesně dle skutečnosti - sice vychází z reálu, ale mám je upravené pro snadné výpočty) na posledním grafu vyjadřují průměrný hrubý příjem na hlavu v rodině. Začíná u existenčního minima - to je těsně nad 2000 Kč. Z dat vyplývá, že nejvíce - 24 % rodin - má příjem na osobu mezi 8 a 10 tisíci korunami. Do příjmu 30 tisíc na osobu je 97 % všech domácností. Jen 3 % mají příjem vyšší. Abych mohla vypočítat průměr, shrnula jsem ta 3 % nejbohatších rodin do skupiny mezi 30 a 32 tisíci. To je pochopitelně zjednodušené, jejich příjem je možná i několikanásobně vyšší. I když se jedná o malé procento rodin, toto zjednodušení nám průměr ještě trochu sníží.

Modus určíme jako prostředek nejčetnější třídy - tedy 9 000 Kč. To je tedy částka, kterou má nejvíce rodin k dispozici. Medián - tedy tu částku, kterou má k dispozici "prostřední" rodina umíme najít také - 50 % je v prvních čtyřech třídách (2+6+18+24), 50 % v následujících 11 třídách. Medián je tedy mez mezi čtvrtou a pátou třídou - tedy 10 000 Kč. A průměrnou hodnotu jsem vypočítala na 12.000 Kč…

Xerxová - statistika2 - příjem

Tak tedy vyšlo, že 65 % rodin má na člena menší příjem, než je průměrný příjem na osobu. Obdobně to platí i u průměrné mzdy. Na průměrnou mzdu dosáhne dokonce jen asi 25 % pracujících. Ale nás, co už víme, že ne všechna data jsou symetricky rozdělena (nejsou "normální"), to nepřekvapí. A už také víme, že u nesymetricky rozložených veličin je podstatně rozumnější udávat vedle průměru i medián - tedy toho "středního pracujícího", či modus - tedy toho "nejběžnějšího".

Pochopitelně, že bez úkolu by to nešlo. Podle vzorečku na tabuli spočítejte průměrnou výšku ženy z tabulky obsahující 150 hodnot. A pro ty opravdu statečné - zkuste se prokousat i vzorečkem na rozptyl a stanovit na závěr i směrodatnou odchylku. Výsledky budou zase večer v diskuzi.

Minulý díl najdete zde 

Xerxová


zpět na článek