25.4.2024 | Svátek má Marek


ROZHLEDNÍK: Statistika nuda je… (2)

17.1.2008

Ale to, co šlo dobře pro 5 nebo i 15 hodnot, už by nám tak snadno nefungovalo pro velká množství zjištěných dat. A my jsme si přece hned na začátku vysvětlili, že výsledky závisí nejen na kvalitě, ale i kvantitě výběrového souboru. Xerxová - statistika2 - tabule

Vrátíme se do naší virtuální třídy. Vzpomínáte? Tři studentky, tři různé přístupy k domácímu úkolu - zjistit výšku pětice žen. Ale to byly jen tři z třicetičlenného kolektivu. A získaných hodnot výšky ke zpracování máme najednou ne 15, ale 150… S tím, co jsme se naučili minule, by to šlo, ale trvalo by nám to dlouho. Jen ta představa, jak ta data rovnám podle velikosti, abych našla modus a medián… jak se pracně propočítávám k rozptylu… prostě to uděláme jinak.

Vytvoříme takzvaná sdružená data. Prostě si řeknu, že ty ženy podle výšky rozdělím do skupinek = intervalů, kterým říkáme třídy. Tříd by nemělo být moc (pak je s tím zbytečně moc práce), ani málo (pak už je výsledek hóódně zaokrouhlený). V praxi se říká - ne méně než 5 (raději 7), ne víc jak 20.

A tak se nám naše bádání o výšce ženy smrskne do docela přehledné tabulky. První sloupeček je pořadí třídy (počet tříd se značí k, pro nás k = 8), druhý jsou intervaly, do kterých jsem roztřídila získané hodnoty výšek. Třetí sloupeček xj je velmi důležitý - leží uprostřed třídy a je to významný prvek, který ve výpočtech nahradí všechna měření v intervalu. Počet žen, které "spadly" do té které třídy se značí nj. Třeba všechny basketbalistky jsou ve třídě sedmé. A že jich tam není 5, ale patnáct? Nezapomeňte, že najednou už zpracováváme data z celé třídy a i jiní znali někoho vysokého. Dole pod sloupečkem máme součet n = 150. 

Xerxová - statistika2 - tabulka 

Co to je fj? Je to relativní četnost. Říká, kolik procent žen patří do té které třídy. Vzoreček je na tabuli, ale není to nic jiného, než výpočet procent z celku (tedy součet f nám musí dát 100%). Jestliže v první třídě těch nejmenších (jejich výška kolísá kolem 150 cm) máme tři ženy, jejich počet (3) vydělím n (150) a výsledek vynásobím 100. Vyjdou mi 2%.

Relativní četnost se vynáší do často používaného grafu - histogramu. Najednou se nám 150 žen (koleček) pěkně uspořádá do přehledného obrázku. Do grafu jsem zakreslila i našich 15 "známých" postaviček z minula (pochopitelně, že normálně se do grafu ta kolečka nekreslí, to jen na poprvé pro lepší představu :o))

Aritmetický průměr se zjistí tak, že se roznásobí prostředek třídy xj počtem prvků ve třídě nj. Tyto násobky se sečtou (bude jich stejně jako tříd) a součet se vydělí počtem n. Pozor - dělí se to n a nikoli k (to je častá chyba). Modus a medián budeme jen odhadovat. Tam, kde je nejvyšší sloupeček v histogramu, tam někde bude modus. A my ho stanovíme jako střed (xj) té nejčetnější třídy. Modus nám vyjde 165 cm. Medián je přece hodnota uprostřed setříděného souboru, a tak budu sčítat fj, až se dopočítám nad 50 %. Ve čtvrté třídě je to 2+4+12+30, tj. jen 48 %. Takže medián leží až ve třídě páté - tam jsou data mezi 48 % a 70 %, pro jednoduchost ho určíme jako střed mediánové třídy - 170 cm.

Xerxová - statistika2 - výšky

Určitě nás nepřekvapí, že průměrná výška, modus i medián jsou zhruba uprostřed naměřených dat. Protože v populaci je málo procent těch "mrňavých" i těch "přerostlých". Kdybychom žen změřili opravdu velký počet a udělali roztřídění do mnoha tříd, histogram by se nápadně podobal tomu malému grafu na tabuli. Je to Gaussova křivka, která popisuje normální rozdělení hodnot.

Normální rozdělení je symetrické, průměr, modus i medián jsou stejně veliké a leží uprostřed naměřených hodnot. Ne nadarmo se tomuto rozdělení říká normální - opravdu je nejrozšířenější, dobře popisuje velké množství jevů v přírodních i společenských vědách. A protože je tak běžné, nějak automaticky ho očekáváme i tam, kde nefunguje. Třeba u té průměrné mzdy… On totiž ten průměr je uprostřed jen u symetrických rozdělení.

Nyní trošku morbidní příklad. U dat dosaženého věku jsme docela rádi, že nemá normální rozdělení, to by nám ta průměrná délka života vycházela kolem 55 let. Průměr, medián i modus jsou zde totiž posunuty k vyšším hodnotám.

Xerxová - statistika2 - věk

No a na závěr data zešikmená obráceně. Data (nejsou přesně dle skutečnosti - sice vychází z reálu, ale mám je upravené pro snadné výpočty) na posledním grafu vyjadřují průměrný hrubý příjem na hlavu v rodině. Začíná u existenčního minima - to je těsně nad 2000 Kč. Z dat vyplývá, že nejvíce - 24 % rodin - má příjem na osobu mezi 8 a 10 tisíci korunami. Do příjmu 30 tisíc na osobu je 97 % všech domácností. Jen 3 % mají příjem vyšší. Abych mohla vypočítat průměr, shrnula jsem ta 3 % nejbohatších rodin do skupiny mezi 30 a 32 tisíci. To je pochopitelně zjednodušené, jejich příjem je možná i několikanásobně vyšší. I když se jedná o malé procento rodin, toto zjednodušení nám průměr ještě trochu sníží.

Modus určíme jako prostředek nejčetnější třídy - tedy 9 000 Kč. To je tedy částka, kterou má nejvíce rodin k dispozici. Medián - tedy tu částku, kterou má k dispozici "prostřední" rodina umíme najít také - 50 % je v prvních čtyřech třídách (2+6+18+24), 50 % v následujících 11 třídách. Medián je tedy mez mezi čtvrtou a pátou třídou - tedy 10 000 Kč. A průměrnou hodnotu jsem vypočítala na 12.000 Kč…

Xerxová - statistika2 - příjem

Tak tedy vyšlo, že 65 % rodin má na člena menší příjem, než je průměrný příjem na osobu. Obdobně to platí i u průměrné mzdy. Na průměrnou mzdu dosáhne dokonce jen asi 25 % pracujících. Ale nás, co už víme, že ne všechna data jsou symetricky rozdělena (nejsou "normální"), to nepřekvapí. A už také víme, že u nesymetricky rozložených veličin je podstatně rozumnější udávat vedle průměru i medián - tedy toho "středního pracujícího", či modus - tedy toho "nejběžnějšího".

Pochopitelně, že bez úkolu by to nešlo. Podle vzorečku na tabuli spočítejte průměrnou výšku ženy z tabulky obsahující 150 hodnot. A pro ty opravdu statečné - zkuste se prokousat i vzorečkem na rozptyl a stanovit na závěr i směrodatnou odchylku. Výsledky budou zase večer v diskuzi.

Minulý díl najdete zde 

Xerxová



KONTAKT na Liku z redakce Zvířetníku je zde více... 
ARCHIV ZVÍŘETNÍKU od února 2010 do prosince 2013 najdete na stránkách Dagmar Ruščákové DeDeník
HLEDÁTE POMOC PRO NALEZENOU VEVERKU?
Vše potřebné zjistíte zde...
Víte, jak správně psát - a to nejen na Zvířetník? Podívejte se do Nápovědníku !