Neděle 12. dubna 2026, svátek má Julius
  • Premium

    Získejte všechny články
    jen za 99 Kč/měsíc

  • schránka
  • Přihlásit Můj účet

První český ryze internetový deník. Založeno 23. dubna 1996

ROZHLEDNÍK: Statistika nuda je… (2)

Xerxová
diskuse (63)

Ale to, co šlo dobře pro 5 nebo i 15 hodnot, už by nám tak snadno nefungovalo pro velká množství zjištěných dat. A my jsme si přece hned na začátku vysvětlili, že výsledky závisí nejen na kvalitě, ale i kvantitě výběrového souboru. Xerxová - statistika2 - tabule

Vrátíme se do naší virtuální třídy. Vzpomínáte? Tři studentky, tři různé přístupy k domácímu úkolu - zjistit výšku pětice žen. Ale to byly jen tři z třicetičlenného kolektivu. A získaných hodnot výšky ke zpracování máme najednou ne 15, ale 150… S tím, co jsme se naučili minule, by to šlo, ale trvalo by nám to dlouho. Jen ta představa, jak ta data rovnám podle velikosti, abych našla modus a medián… jak se pracně propočítávám k rozptylu… prostě to uděláme jinak.

Vytvoříme takzvaná sdružená data. Prostě si řeknu, že ty ženy podle výšky rozdělím do skupinek = intervalů, kterým říkáme třídy. Tříd by nemělo být moc (pak je s tím zbytečně moc práce), ani málo (pak už je výsledek hóódně zaokrouhlený). V praxi se říká - ne méně než 5 (raději 7), ne víc jak 20.

A tak se nám naše bádání o výšce ženy smrskne do docela přehledné tabulky. První sloupeček je pořadí třídy (počet tříd se značí k, pro nás k = 8), druhý jsou intervaly, do kterých jsem roztřídila získané hodnoty výšek. Třetí sloupeček xj je velmi důležitý - leží uprostřed třídy a je to významný prvek, který ve výpočtech nahradí všechna měření v intervalu. Počet žen, které "spadly" do té které třídy se značí nj. Třeba všechny basketbalistky jsou ve třídě sedmé. A že jich tam není 5, ale patnáct? Nezapomeňte, že najednou už zpracováváme data z celé třídy a i jiní znali někoho vysokého. Dole pod sloupečkem máme součet n = 150. 

Xerxová - statistika2 - tabulka 

Co to je fj? Je to relativní četnost. Říká, kolik procent žen patří do té které třídy. Vzoreček je na tabuli, ale není to nic jiného, než výpočet procent z celku (tedy součet f nám musí dát 100%). Jestliže v první třídě těch nejmenších (jejich výška kolísá kolem 150 cm) máme tři ženy, jejich počet (3) vydělím n (150) a výsledek vynásobím 100. Vyjdou mi 2%.

Relativní četnost se vynáší do často používaného grafu - histogramu. Najednou se nám 150 žen (koleček) pěkně uspořádá do přehledného obrázku. Do grafu jsem zakreslila i našich 15 "známých" postaviček z minula (pochopitelně, že normálně se do grafu ta kolečka nekreslí, to jen na poprvé pro lepší představu :o))

Aritmetický průměr se zjistí tak, že se roznásobí prostředek třídy xj počtem prvků ve třídě nj. Tyto násobky se sečtou (bude jich stejně jako tříd) a součet se vydělí počtem n. Pozor - dělí se to n a nikoli k (to je častá chyba). Modus a medián budeme jen odhadovat. Tam, kde je nejvyšší sloupeček v histogramu, tam někde bude modus. A my ho stanovíme jako střed (xj) té nejčetnější třídy. Modus nám vyjde 165 cm. Medián je přece hodnota uprostřed setříděného souboru, a tak budu sčítat fj, až se dopočítám nad 50 %. Ve čtvrté třídě je to 2+4+12+30, tj. jen 48 %. Takže medián leží až ve třídě páté - tam jsou data mezi 48 % a 70 %, pro jednoduchost ho určíme jako střed mediánové třídy - 170 cm.

Xerxová - statistika2 - výšky

Určitě nás nepřekvapí, že průměrná výška, modus i medián jsou zhruba uprostřed naměřených dat. Protože v populaci je málo procent těch "mrňavých" i těch "přerostlých". Kdybychom žen změřili opravdu velký počet a udělali roztřídění do mnoha tříd, histogram by se nápadně podobal tomu malému grafu na tabuli. Je to Gaussova křivka, která popisuje normální rozdělení hodnot.

Normální rozdělení je symetrické, průměr, modus i medián jsou stejně veliké a leží uprostřed naměřených hodnot. Ne nadarmo se tomuto rozdělení říká normální - opravdu je nejrozšířenější, dobře popisuje velké množství jevů v přírodních i společenských vědách. A protože je tak běžné, nějak automaticky ho očekáváme i tam, kde nefunguje. Třeba u té průměrné mzdy… On totiž ten průměr je uprostřed jen u symetrických rozdělení.

Nyní trošku morbidní příklad. U dat dosaženého věku jsme docela rádi, že nemá normální rozdělení, to by nám ta průměrná délka života vycházela kolem 55 let. Průměr, medián i modus jsou zde totiž posunuty k vyšším hodnotám.

Xerxová - statistika2 - věk

No a na závěr data zešikmená obráceně. Data (nejsou přesně dle skutečnosti - sice vychází z reálu, ale mám je upravené pro snadné výpočty) na posledním grafu vyjadřují průměrný hrubý příjem na hlavu v rodině. Začíná u existenčního minima - to je těsně nad 2000 Kč. Z dat vyplývá, že nejvíce - 24 % rodin - má příjem na osobu mezi 8 a 10 tisíci korunami. Do příjmu 30 tisíc na osobu je 97 % všech domácností. Jen 3 % mají příjem vyšší. Abych mohla vypočítat průměr, shrnula jsem ta 3 % nejbohatších rodin do skupiny mezi 30 a 32 tisíci. To je pochopitelně zjednodušené, jejich příjem je možná i několikanásobně vyšší. I když se jedná o malé procento rodin, toto zjednodušení nám průměr ještě trochu sníží.

Modus určíme jako prostředek nejčetnější třídy - tedy 9 000 Kč. To je tedy částka, kterou má nejvíce rodin k dispozici. Medián - tedy tu částku, kterou má k dispozici "prostřední" rodina umíme najít také - 50 % je v prvních čtyřech třídách (2+6+18+24), 50 % v následujících 11 třídách. Medián je tedy mez mezi čtvrtou a pátou třídou - tedy 10 000 Kč. A průměrnou hodnotu jsem vypočítala na 12.000 Kč…

Xerxová - statistika2 - příjem

Tak tedy vyšlo, že 65 % rodin má na člena menší příjem, než je průměrný příjem na osobu. Obdobně to platí i u průměrné mzdy. Na průměrnou mzdu dosáhne dokonce jen asi 25 % pracujících. Ale nás, co už víme, že ne všechna data jsou symetricky rozdělena (nejsou "normální"), to nepřekvapí. A už také víme, že u nesymetricky rozložených veličin je podstatně rozumnější udávat vedle průměru i medián - tedy toho "středního pracujícího", či modus - tedy toho "nejběžnějšího".

Pochopitelně, že bez úkolu by to nešlo. Podle vzorečku na tabuli spočítejte průměrnou výšku ženy z tabulky obsahující 150 hodnot. A pro ty opravdu statečné - zkuste se prokousat i vzorečkem na rozptyl a stanovit na závěr i směrodatnou odchylku. Výsledky budou zase večer v diskuzi.

Minulý díl najdete zde 

Aston Ondřej Neff
11. 4. 2026

Nepamatuju, aby kolem voleb mimo naše území byla taková masáž.

Lika, Jajka
11. 4. 2026

Milan Smutný
11. 4. 2026

Kancléř Merz a jeho CDU nemohou změnit sebevražednou Energiewende

Kateřina Lhotská
11. 4. 2026

Když jedná jako vůdce opozice, tak to bude nejspíš vůdce opozice.

Daniela Kovářová
11. 4. 2026

Od kovidových restrikcí a lokdaunů biju na poplach.

Lidovky.cz, ČTK
12. 4. 2026

Íránské revoluční gardy varovaly, že jakýkoli pokus vojenských plavidel proplout Hormuzským...

Lidovky.cz, ČTK
12. 4. 2026

Maďarští voliči od nedělních šesti hodin ráno rozhodují, zda v čele země zůstane premiér Viktor...

dahu Dan Hübsch
12. 4. 2026

Bylo dobře vidět, že měl hodně co říct. „Jste to rychle chtěl ukončit,“ obořil se kouč hokejové...

Lucie Macháčová
12. 4. 2026

Skvělý začátek, ale poté drobná nepozornost, která se neodpouští. Ne v titulovém zápase UFC,...

ČTK, Martin Korbáš
12. 4. 2026

Martin Nečas v NHL při prohře Colorada s Vegas 2:3 v prodloužení připravil jeden gól domácích a tři...

Vyhledávání

TIRÁŽ NEVIDITELNÉHO PSA

Toto je DENÍK. Do sítě jde obvykle nejpozději do 8.00 hod. aktuálního dne. Pokud zaspím, opiji se, zešílím nebo se zastřelím, patřičně na to upozorním - neboť jen v takovém případě vyjde Pes jindy, eventuálně nikdy. Šéfredaktor Ondřej Neff (nickname Aston). Příspěvky laskavě posílejte na adresu redakce.

ondrejneff@gmail.com

Rubriku Zvířetník vede Lika.

zviretnik.lika@gmail.com

HYENA

Tradiční verze Neviditelného psa. Sestává ze sekce Stručně a z článků Ondřeje Neffa - Politický cirkus a Jak život jde. Vychází od pondělka do pátku.

https://www.hyena.cz