27.4.2024 | Svátek má Jaroslav


VĚDA: Proč je důležitá statistika

4.8.2023

Odpovědi na proč a jak funguje vesmír. Psáno pro Tima, mého syna, ale určitě si to rádi přečtou i jiní.

Drahý Time,

když se bavíme o kvantové fyzice, termodynamice, říkáme, že je to statistická fyzika. A já si neuvědomil, že jsme si nikdy neřekli, co to vlastně statistika je, co to žere, kde to spí. Tak tímto pokračováním se to budu snažit napravit a zároveň upozorním na to, jak v současnosti fungují kazítka, které způsobí, že se výrobek pár dnů po skončení záruky neopravitelně porouchá.

Pravděpodobnost a její rozložení

Jednou ze základních charakteristik všeho co se v přírodě děje, je s jakou pravděpodobností se to stane. Když si hodíš mincí, je pravděpodobnost, že z půlky padne jedna strana a z půlky druhá, jak se říká, panna nebo orel. Ale to není úplně pravda, mince může zůstat stát na hraně. Takže by se mělo říkat, že když si hodíš mincí, je pravděpodobnost skoro 100%, že spadne na zem. To, že ji ve vzduchu sezobne racek, nebo spadne do kanálu, to jsou nepodstatné výjimky, jejichž pravděpodobnost bych vážně nechtěl počítat. Abys nějakou takovou pravděpodobnost dokázal stanovit, potřeboval bys k tomu sledovat dostatečně dlouho dostatečně velký počet lidí, kteří si hází mincí. Postupně bys zjistili, že v 99,9999% procentech pokusů mince spadla na zem a padla panna nebo orel. A právě rozložením pravděpodobnosti, tedy jak často se něco stane se zabývá statistika.

Mnohem zábavnější než si házet s mincí je třeba sledovat nějaký jiný přírodní děj, který může mít mnohem více hodnot, jako je například výška tvých spolužáků. Nebo lépe, výška všech čtrnáctiletých kluků v naší republice. To proto, že vás kluků u vás ve třídě je jenom pár a jste skoro všichni z jedné čtvrti, takže to není tak úplně vypovídající vzorek. Jak už jsem psal výše, čím více měření, tím lepší data dokážeme z tohoto měření získat, Výška lidí, jejich váha, jejich IQ a podobné věci se velmi jistě budou řídit takzvaným normálním rozdělením, nebo též Gaussovým (ten to vynalezl). Mrkni se na následující obrázek:

Normální rozložení (Wikipedie)

Velmi důležitou hodnotou je tzv. aritmetický průměr. Ten nejzákladnější dostaneš, když sečteš všechny naměřené výšky všech chlapců na naší zemi a vydělíš to počtem chlapců. V tom grafu prostředek znamená aritmetický průměr a nalevo od něj jsou chlapci nižší, napravo vyšší. Čím dále jdeme od průměru, tím vzácněji na danou výšku narazíme. Když to řeknu trochu populárně, u nás žije zhruba tolik kluků vysokých okolo jednoho metru, jako kluků vysokých dva metry. V grafu ale ve skutečnosti aritmetický průměr není, je tam vyznačena střední hodnota, což by se dalo vnímat jako nejpravděpodobnější hodnota výšky, jakou jsi naměřil. Jsou za tím složité výpočty, mně postačí, že budeš vědět, že je to skoro to samé co aritmetický průměr u velké řady různých jevů.

Pravidlo tří sigma

Kromě průměru je ve statistice velmi důležitý rozptyl, tedy jako moc jsou jednotlivé naměřené hodnoty od sebe rozházené. Počítá se jako odchylka od střední hodnoty a pravděpodobnost, že tato odchylka nastane. A její odmocnina je potom směrodatná odchylka. Nomen omen, je směrodatná, říká, jak moc strmá ta křivka bude, jak moc ten zvon bude špičatý. Ve vědě je velmi důležité pravidlo 3σ. Někdy se tomu taky říká pravidlo 65-95-99.7. Když se podíváš na graf, rychle přijdeš na to proč. V tomto rozložení pravidlo 3σ znamená, že se tam vejde 99.7% všech případů.

Ve fyzice nám všechno komplikují chyby měření. To je přesnost, s jakou dokážeš daný jev změřit. Okolo toho je celá velká věda, ale vezmeme to laicky. Určitě dostaneš přesnější výsledky měření výšky chlapců, když budeš mít metr rozdělený na centimetry a milimetry, než když budeš mít na zdi naznačeny rysky po půl metru. Nebo když je postavíš na stojan a seshora na jejich hlavu přitiskneš na stojanu posuvnou mírku, jak to dělá Tvoje paní doktorka, než když to změříš krejčovským metrem od paty až po temeno hlavy. Právě tak fyzikové vynalézají stále přesnější měřící metody, aby měli co nejmenší chybu měření. (Jenom připomenu, v současnosti dokážeme nejpřesněji měřit čas, proto se celá řada měření převádí na měření času.)

A tak když fyzikové něco naměří, vynesou pravděpodobnosti do grafu a zjistí, že se vejdou právě do 3σ, berou ten jev za velmi pravděpodobný, skoro jistý. Často se ve fyzice setkáš s tím, že se odkazují na to kolik σ jim při měření vyšlo, jestli 2 nebo naopak třeba 7. Jak jsem již výše psal, v kvantové fyzice a termodynamice je fyzika všechno.

Proč je důležité rozumět statistice

Když jsem popsal, jak statistika funguje, můžeme se podívat, proč je důležité jí rozumět. Například, když si dám dvojnásobný oběd a ty zůstaneš bez něj hlady, tak statisticky vzato jsme se oba dva dobře najedli. Vnímáš ten rozdíl? Spousta lidí ve veřejném prostoru často šermuje všemi možnými statistikami, Churchillovi se připisoval výrok:
„Nevěřím statistice, kterou si dám nezfalšuji.“

Ukazuje se, že statistiky není potřeba falšovat, že bohatě stačí použít tu správnou interpretaci. Třeba průměrná mzda, podle ní jako celek bohatneme, ale když se podíváš na celkové rozložení, zjistíš, že to na příjmové straně nafukují milionáři a že mnohem vypovídající je medián, tedy jakou mzdu bere nejvíce lidí a ta se zase až tak moc nezvyšuje.

Potom je tu otázka korelace a koincidence. Korelace znamená, že spolu dva jevy souvisí, koincidence naproti tomu že mezi nimi není jiná souvislost, než zdánlivá nebo náhodná. Statistika na to má celý matematický aparát, jak tento rozdíl posoudit, takový příklad za všechny:

„Každý kdo jedl chleba, umřel. Tedy nejez chleba, jestli nechceš umřít.“

A druhý, mnohem rafinovanější, ale opačný:

„Dlouhodobě se u nás stane 5% nehod, který zaviní řidiči pod vlivem alkoholu. Je tedy mnohem pravděpodobnější, že se Ti stane jako střízlivému nehoda, správně by policisté při kontrole měli položit otázku: Pil jste něco? A pokud ne, dáte si panáka?“

To jsou dva křiklavé příklady, kdy se koincidence vydává za korelaci a naopak.

A jak fungují kazítka

Hodně lidí se domnívá, že všechny moderní výrobky složité elektroniky v sobě mají nějaký čítač, který počítá, jak dlouho je zařízení v provozu a po uplynutí záruční doby výrobek prostě porouchají tak, aby nešel opravit. Takovým součástkám se také někdy říká kurvítka.

Ale celé je to úplně jinak. Ve skutečnosti je takovým kazítkem každá součástka výrobku, nebo skoro každá. Celé je to o spolehlivosti a tím jsme zase zpátky u statistiky. Každý výrobek má nějaký ten „zvon“ rozložení, jak moc je pravděpodobné, že se v určitou dobu porouchá. Obecně platí, že čím déle to má fungovat, tím je to dražší, protože se musí použít lepší materiály, lepší výrobní postupy, třeba i zálohování a podobné věci. A to výrobci nechtějí, chtějí vyrábět co nejlevněji a právě statistika jim k tomu dává možnost. Na velkých sériích výrobků si mohou odladit, aby s pravděpodobností na 3σ vydržely fungovat po celou dobu záruky a ještě o pár dnů déle, ale ne zbytečně více. Každý výrobce je rád, když si sníží náklady a tak si zvýší zisky. Když se využije toto pravidlo na všechny důležité komponenty, tak je jasné, že se zařízení pár měsíců po skončení záruky rozsype tak, že je lepší koupit nové.

Proto je velmi důležité, jaké renomé má dlouhodobě daný výrobce. Pamatuji si mrazák mé babičky, který byl starší než já a fungoval i auta, které je po záruce lepší shodit ze skály a elektroniku, která je drahá i zadarmo.