28.1.2020 | Svátek má Otýlie


ROZHLEDNÍK: Statistika nuda je… (1)

3.1.2008

Musíme začít pomalu a postupně. Nejprve co to je základní soubor a výběrový soubor. Vysvětlíme si to na výšce české ženy starší 18 let. Základním souborem jsou VŠECHNY ženy splňující podmínku věku a národnosti. Bude jich moc a asi se od všech najednou údaje o jejich výšce nedají zjistit (než je zjistím, tak se mi část populace obmění :o)). Proto raději pracujeme se souborem výběrovým. Xerxová - statistika 1

Ten může mít různý rozsah (údaje od 100 žen, 258 žen, 1000 žen…) a hodně záleží i na provedení výběru (data by měla určitě být nezávislá - tj. navzájem se neovlivňující a měla by postihovat co nejvěrněji celou populaci). Na základě zpracování dat z výběrového souboru můžeme vyslovit závěry o celém souboru základním. Správnost našich závěrů bude ovlivňovat jednak rozsah, jednak kvalita výběru.

Co ze získaných dat můžeme zjistit? Především takzvané charakteristiky polohy dat (aritmetický průměr, modus, medián) a charakteristiky variability dat (rozpětí, rozptyl, směrodatná odchylka). Aritmetický průměr umí vypočítat asi všichni. Sečtou se naměřené hodnoty a tento součet se vydělí počtem měření. Ve výsledku jsou obsažena všechna data. Je to nejpoužívanější a nejznámější charakteristika, ale sama o sobě nestačí (viz rozruch kolem každého zveřejnění aktuální průměrné mzdy…). Pro pochopení celého problému potřebuji řadu dalších charakteristik.

Modus je takzvaná módní hodnota. Je to číslo, které se nejčastěji mezi naměřenými daty opakuje. Pokud mám malý rozsah výběru (málo naměřených čísel), tak se stanovit často nedá. Prostě se tam žádná hodnota neopakuje, nebo se nám tam víc hodnot opakuje třeba dvakrát. Medián je takzvané prostřední měření - pokud naměřená data srovnám podle velikosti, je to hodnota ležící uprostřed. Pokud je dat lichý počet, je to snadné - prostřední číslo je jedno. Pokud je hodnot sudý počet, pak je mediánem průměr z obou prostředních čísel.

Například: z šesti naměřených hodnot výšky v centimetrech 165, 169, 174, 169, 171, 174 máme určit modus a medián. Je pohodlnější srovnat si hodnoty od nejmenší po největší: 165, 169, 169, 172, 174, 174. Modus bychom nestanovili, opakují se nám dvě hodnoty (169, 174) dvakrát. Medián leží uprostřed. Protože mám sudý počet hodnot, uprostřed leží 169 a 172. Průměr těchto dvou čísel - 170,5 - je tedy medián.

Ještě jedna data - už srovnaná podle velikosti: 158, 161, 168, 168, 168, 172, 178. Modus je 168 (třikrát se opakuje), medián je také 168, neboť je to čtvrtá - tedy prostřední hodnota z řady sedmi naměřených a srovnaných dat. Xerxová - statistika 2

Charakteristiky variability vyjadřují, jak jsou data kolem střední hodnoty rozptýlena. Pokud je variabilita malá, znamená to, že všechna naměřená čísla leží blízko sebe. Pokud je nulová, jsou všechna naměřená čísla stejná. Rozpětí se často nepoužívá, ale zase se nejsnáze vypočítá. Je to rozdíl mezi největším a nejmenším naměřeným číslem. Nejběžnější charakteristikou variability je směrodatná odchylka, která se vypočítá odmocněním rozptylu.

A jsme u nehezkého vztahu pro rozptyl. Pro jeho výpočet musíme mít předem spočítaný aritmetický průměr. Pak vypočítáme rozdíly mezi naměřenými hodnotami a průměrem a všechna takto získaná čísla (je jich stejně jako naměřených dat) umocníme na druhou. Potom je sečteme a výsledek vydělíme počtem měření sníženým o jedničku. Pro malý počet hodnot to jde, pro větší počet je snazší využití kalkulačky či počítačového programu… I na běžných "školních" kalkulačkách se dá snadno zadáním dat a zmačknutím patřičných čudlíků získat aritmetický průměr a směrodatnou odchylku.

A teď troška praxe…

Studentky mají za domácí úkol zjistit výšku 5 žen a spočítat aritmetický průměr, medián, rozpětí, rozptyl a směrodatnou odchylku. Modus z pěti měření se většinou získat nedá.

První studentka přemýšlí: Pokud vezmu svoji výšku a výšku maminky a babičky, budou data navzájem závislá. Geny jsou mršky. Musím tedy data získat jinde. Vezmu psa a vyrazím do parku. Tam potkám spoustu paniček spřátelených psíků a můžu se klidně zeptat, kolik která měří. A pak si vyberu výšky od různě starých žen tak, aby byly asi 10 let od sebe. Tím postihnu i různý věk. Vezme psa, tužku a papír a vyrazí. Z tohoto "rozumného" přístupu získá hodnoty 163, 168, 171, 173, 175 cm.

Průměr vypočítám, když součet hodnot 850 vydělím počtem měření - pěti. Průměr vyjde 170 cm. Medián je hodnota 171 cm. Rozpětí je rozdíl mezi největším a nejmenším číslem, tedy 12 cm. Pro rozptyl nejprve spočítám odchylky naměřených dat od průměru (163-170), (168-170), (171-170), (173-170), (175-170). Odchylky umocním na druhou a sečtu: 49+4+1+9+25 = 88. Nakonec tento součet vydělím čtyřmi (to je o jedničku míň než počet dat) a rozptyl tak je 22 centimetrů čtverečních. Směrodatná odchylka se získá odmocněním rozptylu a vyjde 4,7 cm. Xerxová - statistika 3

Druhá studentka nemá čas: Jdu na basket a nemám na nějakou blbou matiku čas. Ta úča bude čučet - vyberu jí ze soupisek stejně vysoké hráčky a klidně jí je dodám i se jmény, kdyby snad měla kecy. A s tím průměrem jí pěkně zacvičíme. A bude i jasný modus a s rozptylem se nemusím počítat. Ať žijí maxiženy… A donese takto vypracovaný úkol: 181, 181, 181, 181, 181 cm.

Průměr, modus i medián jsou 181 cm, rozpětí, rozptyl i směrodatná odchylka jsou nulové. Přístup je pochopitelně špatný. Data byla uměle vybrána tak, aby hodnoty byly shodné. A pak zatímco venčení psů není koníček ovlivňující výšku postavy, tak u basketbalu už to tak jednoznačné nebude. Takže i náhodně oslovená děvčata na tréninku by nedodala zrovna vhodně získaná data.

Třetí studentka na to jde zase jinak. Asi bude zajímavé získat hodnoty co nejrůznější. Ty dvě staré dámy z přízemí jsou opravdu maličké. Zeptám se jich. Švagrová zase trošku přerostla a její nejlepší kámoška je ještě o dva cenťáky vyšší. No a já budu ten zlatý střed. Věk postihnu docela slušně - švagrovka s kámoškou jsou o dost starší než já a ty dvě babči už jsou dávno v důchodu. A dodá hodnoty 154, 152, 180, 182, 172 cm. Průměr je 168 cm, medián 172 cm, rozpětí 30 cm, rozptyl 202 cm na druhou a směrodatná odchylka 14,2 cm. Ani hon za extrémy není nejlepší nápad. V celé populaci je hodně těch "běžných" výšek a tady z pěti hodnot jsou čtyři poměrně silně odchýlené. Průměr sice vychází sympaticky, ale ta variabilita…

Pokud bychom data získaná celou třídou (třeba 30 studentů x 5 hodnot, tj. 150 změřených žen) vyhodnotili dohromady, získali bychom už docela slušný náhled na rozložení výšek žen v populaci. Ale o tom rozložení hodnot někdy příště. A možná, že se pak propracujeme i k té průměrné mzdě…

Pokud jste četli pozorně, nezaskočí vás ani domácí úkol. Vypočítejte všechny charakteristiky polohy a variability pro patnáct hodnot, které se v článku vyskytují (spojte data od tří citovaných studentek). Výsledky budou večer v diskuzi :o)

 

Xerxová