Středa 26. března 2025, svátek má Emanuel
  • Premium

    Získejte všechny články
    jen za 89 Kč/měsíc

  • schránka
  • Přihlásit Můj účet

První český ryze internetový deník. Založeno 23. dubna 1996

ROZHLEDNÍK: Statistika nuda je… (2)

Xerxová
diskuse (63)

Ale to, co šlo dobře pro 5 nebo i 15 hodnot, už by nám tak snadno nefungovalo pro velká množství zjištěných dat. A my jsme si přece hned na začátku vysvětlili, že výsledky závisí nejen na kvalitě, ale i kvantitě výběrového souboru. Xerxová - statistika2 - tabule

Vrátíme se do naší virtuální třídy. Vzpomínáte? Tři studentky, tři různé přístupy k domácímu úkolu - zjistit výšku pětice žen. Ale to byly jen tři z třicetičlenného kolektivu. A získaných hodnot výšky ke zpracování máme najednou ne 15, ale 150… S tím, co jsme se naučili minule, by to šlo, ale trvalo by nám to dlouho. Jen ta představa, jak ta data rovnám podle velikosti, abych našla modus a medián… jak se pracně propočítávám k rozptylu… prostě to uděláme jinak.

Vytvoříme takzvaná sdružená data. Prostě si řeknu, že ty ženy podle výšky rozdělím do skupinek = intervalů, kterým říkáme třídy. Tříd by nemělo být moc (pak je s tím zbytečně moc práce), ani málo (pak už je výsledek hóódně zaokrouhlený). V praxi se říká - ne méně než 5 (raději 7), ne víc jak 20.

A tak se nám naše bádání o výšce ženy smrskne do docela přehledné tabulky. První sloupeček je pořadí třídy (počet tříd se značí k, pro nás k = 8), druhý jsou intervaly, do kterých jsem roztřídila získané hodnoty výšek. Třetí sloupeček xj je velmi důležitý - leží uprostřed třídy a je to významný prvek, který ve výpočtech nahradí všechna měření v intervalu. Počet žen, které "spadly" do té které třídy se značí nj. Třeba všechny basketbalistky jsou ve třídě sedmé. A že jich tam není 5, ale patnáct? Nezapomeňte, že najednou už zpracováváme data z celé třídy a i jiní znali někoho vysokého. Dole pod sloupečkem máme součet n = 150. 

Xerxová - statistika2 - tabulka 

Co to je fj? Je to relativní četnost. Říká, kolik procent žen patří do té které třídy. Vzoreček je na tabuli, ale není to nic jiného, než výpočet procent z celku (tedy součet f nám musí dát 100%). Jestliže v první třídě těch nejmenších (jejich výška kolísá kolem 150 cm) máme tři ženy, jejich počet (3) vydělím n (150) a výsledek vynásobím 100. Vyjdou mi 2%.

Relativní četnost se vynáší do často používaného grafu - histogramu. Najednou se nám 150 žen (koleček) pěkně uspořádá do přehledného obrázku. Do grafu jsem zakreslila i našich 15 "známých" postaviček z minula (pochopitelně, že normálně se do grafu ta kolečka nekreslí, to jen na poprvé pro lepší představu :o))

Aritmetický průměr se zjistí tak, že se roznásobí prostředek třídy xj počtem prvků ve třídě nj. Tyto násobky se sečtou (bude jich stejně jako tříd) a součet se vydělí počtem n. Pozor - dělí se to n a nikoli k (to je častá chyba). Modus a medián budeme jen odhadovat. Tam, kde je nejvyšší sloupeček v histogramu, tam někde bude modus. A my ho stanovíme jako střed (xj) té nejčetnější třídy. Modus nám vyjde 165 cm. Medián je přece hodnota uprostřed setříděného souboru, a tak budu sčítat fj, až se dopočítám nad 50 %. Ve čtvrté třídě je to 2+4+12+30, tj. jen 48 %. Takže medián leží až ve třídě páté - tam jsou data mezi 48 % a 70 %, pro jednoduchost ho určíme jako střed mediánové třídy - 170 cm.

Xerxová - statistika2 - výšky

Určitě nás nepřekvapí, že průměrná výška, modus i medián jsou zhruba uprostřed naměřených dat. Protože v populaci je málo procent těch "mrňavých" i těch "přerostlých". Kdybychom žen změřili opravdu velký počet a udělali roztřídění do mnoha tříd, histogram by se nápadně podobal tomu malému grafu na tabuli. Je to Gaussova křivka, která popisuje normální rozdělení hodnot.

Normální rozdělení je symetrické, průměr, modus i medián jsou stejně veliké a leží uprostřed naměřených hodnot. Ne nadarmo se tomuto rozdělení říká normální - opravdu je nejrozšířenější, dobře popisuje velké množství jevů v přírodních i společenských vědách. A protože je tak běžné, nějak automaticky ho očekáváme i tam, kde nefunguje. Třeba u té průměrné mzdy… On totiž ten průměr je uprostřed jen u symetrických rozdělení.

Nyní trošku morbidní příklad. U dat dosaženého věku jsme docela rádi, že nemá normální rozdělení, to by nám ta průměrná délka života vycházela kolem 55 let. Průměr, medián i modus jsou zde totiž posunuty k vyšším hodnotám.

Xerxová - statistika2 - věk

No a na závěr data zešikmená obráceně. Data (nejsou přesně dle skutečnosti - sice vychází z reálu, ale mám je upravené pro snadné výpočty) na posledním grafu vyjadřují průměrný hrubý příjem na hlavu v rodině. Začíná u existenčního minima - to je těsně nad 2000 Kč. Z dat vyplývá, že nejvíce - 24 % rodin - má příjem na osobu mezi 8 a 10 tisíci korunami. Do příjmu 30 tisíc na osobu je 97 % všech domácností. Jen 3 % mají příjem vyšší. Abych mohla vypočítat průměr, shrnula jsem ta 3 % nejbohatších rodin do skupiny mezi 30 a 32 tisíci. To je pochopitelně zjednodušené, jejich příjem je možná i několikanásobně vyšší. I když se jedná o malé procento rodin, toto zjednodušení nám průměr ještě trochu sníží.

Modus určíme jako prostředek nejčetnější třídy - tedy 9 000 Kč. To je tedy částka, kterou má nejvíce rodin k dispozici. Medián - tedy tu částku, kterou má k dispozici "prostřední" rodina umíme najít také - 50 % je v prvních čtyřech třídách (2+6+18+24), 50 % v následujících 11 třídách. Medián je tedy mez mezi čtvrtou a pátou třídou - tedy 10 000 Kč. A průměrnou hodnotu jsem vypočítala na 12.000 Kč…

Xerxová - statistika2 - příjem

Tak tedy vyšlo, že 65 % rodin má na člena menší příjem, než je průměrný příjem na osobu. Obdobně to platí i u průměrné mzdy. Na průměrnou mzdu dosáhne dokonce jen asi 25 % pracujících. Ale nás, co už víme, že ne všechna data jsou symetricky rozdělena (nejsou "normální"), to nepřekvapí. A už také víme, že u nesymetricky rozložených veličin je podstatně rozumnější udávat vedle průměru i medián - tedy toho "středního pracujícího", či modus - tedy toho "nejběžnějšího".

Pochopitelně, že bez úkolu by to nešlo. Podle vzorečku na tabuli spočítejte průměrnou výšku ženy z tabulky obsahující 150 hodnot. A pro ty opravdu statečné - zkuste se prokousat i vzorečkem na rozptyl a stanovit na závěr i směrodatnou odchylku. Výsledky budou zase večer v diskuzi.

Minulý díl najdete zde 

Aston Ondřej Neff
26. 3. 2025

„Bratři v triku‟ byli tři pruhovaní panáčci.

Jan Bartoň
26. 3. 2025

Nejde jenom o program a cíle.

Petr Karásek
26. 3. 2025

Globalizace dosáhla vrcholu a dojde k „rozparcelovávání“ světa.

Petr Bařinka
26. 3. 2025

Zimní, nebo letní čas – který z nich je přirozený? A kde vlastně?

Starý vlk
26. 3. 2025

V pátek jsem musel utéct ze zahrádky dovnitř domu, do chládku.

Aston Ondřej Neff
24. 3. 2025

Kdyby Češi přešli na islám, z Babiše by se stal muftí.

Aston Ondřej Neff
25. 3. 2025

Slábne důvěra v pevnost závazků v rámci NATO.

Aston Ondřej Neff
26. 3. 2025

„Bratři v triku‟ byli tři pruhovaní panáčci.

Ai GROK
24. 3. 2025

Ptáme se AI GROK3, co se stane, když odmítneme emisní povolenky na benzín a plyn

Robert Troška
25. 3. 2025

Za posledních deset let vyrostla rychlostní omezení jak houby po dešti

Lidovky.cz
26. 3. 2025

Středeční večer může rozhodnout již o třetím semifinalistovi hokejové extraligy. Hradec Králové...

Josef Kopecký
26. 3. 2025

Prezident Petr Pavel se pokusil zmírnit svár mezi vládou a opozicí o bezpečnost a zajištění obrany,...

Josef Kopecký
26. 3. 2025

Prezident Petr Pavel při odchodu ze Sněmovny řekl, že bychom si měli ušetřit taková překvapení,...

Lidovky.cz, ČTK
26. 3. 2025

Prezident Spojených států Donald Trump oznámí ve středu ve 21:00 na tiskové konferenci cla na dovoz...

kh Kateřina Havlická
26. 3. 2025

Úterní oslavy řecké nezávislosti se nečekaně staly příčinou diplomatické roztržky. Řečtí kadeti...

Vyhledávání

TIRÁŽ NEVIDITELNÉHO PSA

Toto je DENÍK. Do sítě jde obvykle nejpozději do 8.00 hod. aktuálního dne. Pokud zaspím, opiji se, zešílím nebo se zastřelím, patřičně na to upozorním - neboť jen v takovém případě vyjde Pes jindy, eventuálně nikdy. Šéfredaktor Ondřej Neff (nickname Aston). Příspěvky laskavě posílejte na adresu redakce.

ondrejneff@gmail.com

Rubriku Zvířetník vede Lika.

zviretnik.lika@gmail.com

HYENA

Tradiční verze Neviditelného psa. Sestává ze sekce Stručně a z článků Ondřeje Neffa - Politický cirkus a Jak život jde. Vychází od pondělka do pátku.

https://www.hyena.cz