Neděle 23. března 2025, svátek má Ivona
  • Premium

    Získejte všechny články
    jen za 89 Kč/měsíc

  • schránka
  • Přihlásit Můj účet

První český ryze internetový deník. Založeno 23. dubna 1996

ROZHLEDNÍK: Statistika nuda je… (1)

Xerxová
diskuse (123)

Musíme začít pomalu a postupně. Nejprve co to je základní soubor a výběrový soubor. Vysvětlíme si to na výšce české ženy starší 18 let. Základním souborem jsou VŠECHNY ženy splňující podmínku věku a národnosti. Bude jich moc a asi se od všech najednou údaje o jejich výšce nedají zjistit (než je zjistím, tak se mi část populace obmění :o)). Proto raději pracujeme se souborem výběrovým. Xerxová - statistika 1

Ten může mít různý rozsah (údaje od 100 žen, 258 žen, 1000 žen…) a hodně záleží i na provedení výběru (data by měla určitě být nezávislá - tj. navzájem se neovlivňující a měla by postihovat co nejvěrněji celou populaci). Na základě zpracování dat z výběrového souboru můžeme vyslovit závěry o celém souboru základním. Správnost našich závěrů bude ovlivňovat jednak rozsah, jednak kvalita výběru.

Co ze získaných dat můžeme zjistit? Především takzvané charakteristiky polohy dat (aritmetický průměr, modus, medián) a charakteristiky variability dat (rozpětí, rozptyl, směrodatná odchylka). Aritmetický průměr umí vypočítat asi všichni. Sečtou se naměřené hodnoty a tento součet se vydělí počtem měření. Ve výsledku jsou obsažena všechna data. Je to nejpoužívanější a nejznámější charakteristika, ale sama o sobě nestačí (viz rozruch kolem každého zveřejnění aktuální průměrné mzdy…). Pro pochopení celého problému potřebuji řadu dalších charakteristik.

Modus je takzvaná módní hodnota. Je to číslo, které se nejčastěji mezi naměřenými daty opakuje. Pokud mám malý rozsah výběru (málo naměřených čísel), tak se stanovit často nedá. Prostě se tam žádná hodnota neopakuje, nebo se nám tam víc hodnot opakuje třeba dvakrát. Medián je takzvané prostřední měření - pokud naměřená data srovnám podle velikosti, je to hodnota ležící uprostřed. Pokud je dat lichý počet, je to snadné - prostřední číslo je jedno. Pokud je hodnot sudý počet, pak je mediánem průměr z obou prostředních čísel.

Například: z šesti naměřených hodnot výšky v centimetrech 165, 169, 174, 169, 171, 174 máme určit modus a medián. Je pohodlnější srovnat si hodnoty od nejmenší po největší: 165, 169, 169, 172, 174, 174. Modus bychom nestanovili, opakují se nám dvě hodnoty (169, 174) dvakrát. Medián leží uprostřed. Protože mám sudý počet hodnot, uprostřed leží 169 a 172. Průměr těchto dvou čísel - 170,5 - je tedy medián.

Ještě jedna data - už srovnaná podle velikosti: 158, 161, 168, 168, 168, 172, 178. Modus je 168 (třikrát se opakuje), medián je také 168, neboť je to čtvrtá - tedy prostřední hodnota z řady sedmi naměřených a srovnaných dat. Xerxová - statistika 2

Charakteristiky variability vyjadřují, jak jsou data kolem střední hodnoty rozptýlena. Pokud je variabilita malá, znamená to, že všechna naměřená čísla leží blízko sebe. Pokud je nulová, jsou všechna naměřená čísla stejná. Rozpětí se často nepoužívá, ale zase se nejsnáze vypočítá. Je to rozdíl mezi největším a nejmenším naměřeným číslem. Nejběžnější charakteristikou variability je směrodatná odchylka, která se vypočítá odmocněním rozptylu.

A jsme u nehezkého vztahu pro rozptyl. Pro jeho výpočet musíme mít předem spočítaný aritmetický průměr. Pak vypočítáme rozdíly mezi naměřenými hodnotami a průměrem a všechna takto získaná čísla (je jich stejně jako naměřených dat) umocníme na druhou. Potom je sečteme a výsledek vydělíme počtem měření sníženým o jedničku. Pro malý počet hodnot to jde, pro větší počet je snazší využití kalkulačky či počítačového programu… I na běžných "školních" kalkulačkách se dá snadno zadáním dat a zmačknutím patřičných čudlíků získat aritmetický průměr a směrodatnou odchylku.

A teď troška praxe…

Studentky mají za domácí úkol zjistit výšku 5 žen a spočítat aritmetický průměr, medián, rozpětí, rozptyl a směrodatnou odchylku. Modus z pěti měření se většinou získat nedá.

První studentka přemýšlí: Pokud vezmu svoji výšku a výšku maminky a babičky, budou data navzájem závislá. Geny jsou mršky. Musím tedy data získat jinde. Vezmu psa a vyrazím do parku. Tam potkám spoustu paniček spřátelených psíků a můžu se klidně zeptat, kolik která měří. A pak si vyberu výšky od různě starých žen tak, aby byly asi 10 let od sebe. Tím postihnu i různý věk. Vezme psa, tužku a papír a vyrazí. Z tohoto "rozumného" přístupu získá hodnoty 163, 168, 171, 173, 175 cm.

Průměr vypočítám, když součet hodnot 850 vydělím počtem měření - pěti. Průměr vyjde 170 cm. Medián je hodnota 171 cm. Rozpětí je rozdíl mezi největším a nejmenším číslem, tedy 12 cm. Pro rozptyl nejprve spočítám odchylky naměřených dat od průměru (163-170), (168-170), (171-170), (173-170), (175-170). Odchylky umocním na druhou a sečtu: 49+4+1+9+25 = 88. Nakonec tento součet vydělím čtyřmi (to je o jedničku míň než počet dat) a rozptyl tak je 22 centimetrů čtverečních. Směrodatná odchylka se získá odmocněním rozptylu a vyjde 4,7 cm. Xerxová - statistika 3

Druhá studentka nemá čas: Jdu na basket a nemám na nějakou blbou matiku čas. Ta úča bude čučet - vyberu jí ze soupisek stejně vysoké hráčky a klidně jí je dodám i se jmény, kdyby snad měla kecy. A s tím průměrem jí pěkně zacvičíme. A bude i jasný modus a s rozptylem se nemusím počítat. Ať žijí maxiženy… A donese takto vypracovaný úkol: 181, 181, 181, 181, 181 cm.

Průměr, modus i medián jsou 181 cm, rozpětí, rozptyl i směrodatná odchylka jsou nulové. Přístup je pochopitelně špatný. Data byla uměle vybrána tak, aby hodnoty byly shodné. A pak zatímco venčení psů není koníček ovlivňující výšku postavy, tak u basketbalu už to tak jednoznačné nebude. Takže i náhodně oslovená děvčata na tréninku by nedodala zrovna vhodně získaná data.

Třetí studentka na to jde zase jinak. Asi bude zajímavé získat hodnoty co nejrůznější. Ty dvě staré dámy z přízemí jsou opravdu maličké. Zeptám se jich. Švagrová zase trošku přerostla a její nejlepší kámoška je ještě o dva cenťáky vyšší. No a já budu ten zlatý střed. Věk postihnu docela slušně - švagrovka s kámoškou jsou o dost starší než já a ty dvě babči už jsou dávno v důchodu. A dodá hodnoty 154, 152, 180, 182, 172 cm. Průměr je 168 cm, medián 172 cm, rozpětí 30 cm, rozptyl 202 cm na druhou a směrodatná odchylka 14,2 cm. Ani hon za extrémy není nejlepší nápad. V celé populaci je hodně těch "běžných" výšek a tady z pěti hodnot jsou čtyři poměrně silně odchýlené. Průměr sice vychází sympaticky, ale ta variabilita…

Pokud bychom data získaná celou třídou (třeba 30 studentů x 5 hodnot, tj. 150 změřených žen) vyhodnotili dohromady, získali bychom už docela slušný náhled na rozložení výšek žen v populaci. Ale o tom rozložení hodnot někdy příště. A možná, že se pak propracujeme i k té průměrné mzdě…

Pokud jste četli pozorně, nezaskočí vás ani domácí úkol. Vypočítejte všechny charakteristiky polohy a variability pro patnáct hodnot, které se v článku vyskytují (spojte data od tří citovaných studentek). Výsledky budou večer v diskuzi :o)

 

Chechtavej tygr
22. 3. 2025

Dáma vstoupila do hotelu a obrátila se na recepčního...

Aston Ondřej Neff
22. 3. 2025

Je třeba zavolat doktora Chocholouška na Ursulu von der Leyen.

Daniela Kovářová
22. 3. 2025

Téma zvyšování výdajů na zbrojení za legitimní příležitost k debatě.

Lubomír Stejskal
22. 3. 2025

V Radě bezpečnosti propuštěný vystoupil izraelský rukojmí Eli Šarabi.

Kateřina Lhotská
22. 3. 2025

Místo deregulace a decentralizace připravuje Evropská komise přesný opak.

Aston Ondřej Neff
21. 3. 2025

Bože, jak tohle znám z doby normalizace!

Aston Ondřej Neff
22. 3. 2025

Je třeba zavolat doktora Chocholouška na Ursulu von der Leyen.

Aston Ondřej Neff
20. 3. 2025

Senát ve středu schválil zvýšení příspěvku pro vojáky z povolání.

Chechtavej tygr
22. 3. 2025

Dáma vstoupila do hotelu a obrátila se na recepčního...

Daniela Kovářová
22. 3. 2025

Téma zvyšování výdajů na zbrojení za legitimní příležitost k debatě.

Lidovky.cz, ČTK
23. 3. 2025

Izraelský vzdušný úder na Násirovu nemocnici v Chán Júnisu na jihu Pásma Gazy v neděli večer zabil...

Lidovky.cz, ČTK
23. 3. 2025

V Rijádu v neděli jednaly delegace Ukrajiny a Spojených států o případném příměří ve válce s...

Petra Miková
23. 3. 2025

Donald Trump za dva měsíce v úřadu amerického prezidenta zahltil veřejný prostor řadou prohlášení a...

Lidovky.cz, ČTK
23. 3. 2025

Jižní část Svitavska v neděli odpoledne zasáhly lokální záplavy ze silné dešťové přeháňky. Hasiči...

Lidovky.cz, ČTK
23. 3. 2025

Předčasné parlamentní volby se v Kanadě budou konat 28. dubna, oznámil v neděli podle agentur...

Vyhledávání

TIRÁŽ NEVIDITELNÉHO PSA

Toto je DENÍK. Do sítě jde obvykle nejpozději do 8.00 hod. aktuálního dne. Pokud zaspím, opiji se, zešílím nebo se zastřelím, patřičně na to upozorním - neboť jen v takovém případě vyjde Pes jindy, eventuálně nikdy. Šéfredaktor Ondřej Neff (nickname Aston). Příspěvky laskavě posílejte na adresu redakce.

ondrejneff@gmail.com

Rubriku Zvířetník vede Lika.

zviretnik.lika@gmail.com

HYENA

Tradiční verze Neviditelného psa. Sestává ze sekce Stručně a z článků Ondřeje Neffa - Politický cirkus a Jak život jde. Vychází od pondělka do pátku.

https://www.hyena.cz