19.3.2024 | Svátek má Josef


POLEMIKA: Jak v CRU manipulovali s daty z České republiky

29.1.2010

Po několikatýdenní „masáži“ zaručenými zprávami o tom, jak na CRU manipulovali s daty (např. „V listopadu 2009 hacker (…) ukradl a zveřejnil pracovní e-maily klimatologů z CRU a odhalily se některé dost nevědecké postupyzde nebo „Obsahuje kupříkladu odkazy na manipulaci s daty, která nechtějí dobrovolně vypovídat o značném nárůstu teplot“ zde) mi dovolte, abych od dojmů, založených na úryvcích z e-mailů nebo na komentářích k programům, konečně přešel k něčemu podstatně konkrétnějšímu - k datům.

Jen bych se chtěl omluvit, pokud by některé věci připadaly věci znalým jako primitivní. Je to ale nutné, jsou totiž lidé, kteří mají zjevně problémy s chápáním i těch nejjednodušších věcí.

Začátkem ledna 2010 přišel na ČHMÚ z CRU dopis s žádostí o povolení ke zveřejnění dat, která mají v CRU archivována z České republiky. Protože jsme nechtěli dávat svolení se zveřejněním něčeho, co jsme ani neviděli, vyžádali jsme si z CRU data, která z našich stanic mají. Data přišla téměř obratem, takže bylo možné porovnat je s tím, co máme z příslušných stanic v databázi ČHMÚ. Dostali jsme data ze stanic Cheb, Praha-Ruzyně, Brno-Tuřany a Ostrava-Mošnov. Ve všech případech jde o profesionální stanice ČHMÚ a s výjimkou Chebu o stanice, umístěné v prostoru letišť.

Pochopitelně jsme hledali především odpovědi na pár základních otázek:

a) Jsou data z CRU identická s daty v databázi ČHMÚ? Pokud ne, v čem se liší? Co je asi příčinou existence rozdílů?
b) Mají odchylky náhodný nebo systematický charakter?
c) Jak případné odchylky ovlivňují vypočítané trendy (rychlost oteplování)? Došlo tam k nějaké manipulaci s daty s cílem zvýšit tento trend?
d) Je výběr uvedených čtyř stanic dostatečně reprezentativní pro území ČR jako celku nebo již samotný výběr stanic (převážně letiště) vede ke zkreslení hodnot teplotního trendu proti realitě ČR?

Nejprve je ale nutné zmínit jednu věc. Řada CRU ze stanice Ruzyně neobsahuje jen data z této stanice, ale je protažena zpět až k roku 1771. Je zřejmé, že jde o technickou řadu, která vznikla kombinací dat z Ruzyně (od roku 1951) a Klementina (do roku 1950). Proto bylo nutné zkontrolovat i to, zda byla tato technická řada sestavena správně. Tomu se říká adjustace a to slovo znamená „nastavení“. V tomto případě nastavení úrovně dat z Klementina tak, aby odpovídala úrovni dat z Ruzyně. Mezi teplotami z Klementina a Ruzyně je totiž poměrně těsná vazba (jde o blízké stanice), ale vzhledem k různé poloze a zejména různým nadmořským výškám je mezi nimi jistý systematický rozdíl. Ten může, navíc, být různý v různých obdobích roku.

Adjustace dat z Klementina na úroveň Ruzyně byla provedena tak, že za období, ze kterého byla k dispozici data z obou stanic (v případě řady CRU bylo zřejmě použito období 1970-1990) byly pro jednotlivé měsíce spočítány průměrné teplotní diference mezi oběma stanicemi. Statistické testy těsnosti vazby (pomocí korelačních koeficientů), rozptylu diferencí (pomocí jejich směrodatné odchylky) a přesnosti odhadu průměrné diference (pomocí směrodatné chyby odhadu průměrné diference) ukázaly, že vazba mezi měsíčními průměrnými teplotami obou stanic je poměrně těsná a systematický rozdíl mezi nimi lze pro naprostou většinu případů odhadnout s přesností lepší než 0,1°C. Následně byly hodnoty systematického rozdílu (Ruzyně minus Klementinum) pro příslušné měsíce přičteny k hodnotám klementinské řady a tím byla získána řada, adjustovaná na podmínky Ruzyně. Jednoduchá věc, žádná velká věda …

Takže v řadě CRU Ruzyně jsou do roku 1950 adjustovaná data z Klementina, od roku 1951 pak data, přímo měřená na Ruzyni. A bylo ověřeno, že adjustace klementinských dat na podmínky Ruzyně byla v CRU provedena korektně.

A teď už zpátky k úvodním čtyřem otázkám.

Ad a) Data CRU a ČHMÚ z jednotlivých stanic nejsou zcela identická a v časových řadách jejich diferencí lze celkem jasně vidět dvě období. První do roku 1994, druhé od roku 1995. V tom prvním je většina (89-93%) měsíčních průměrů CRU identická s daty ČHMÚ, většina odchylek je na úrovni desetin stupně, existují tam ale odchylky (dvě na každé stanici) v absolutní hodnotě i nad 1°C. Příčina těchto odchylek není známá, ale tato data pravděpodobně získala CRU přímo od ČHMÚ (ostatně klementinská řada byla publikována v tištěné formě) a chyby mohly vzniknout např. při opisu dat z tištěných podkladů. Ve druhém období je odchylek podstatně více (jen 22-38% párů dat je identických), odchylky jsou ale jen v desetinách stupně, odchylky v absolutní hodnotě nad 1°C se zde nevyskytují. Tyto odchylky vznikly zřejmě tím, že CRU si data od roku 1995 doplňovala pomocí operativních dat, která jdou ze všech těchto stanic do mezinárodní výměny. Operativní data ale neprocházejí tak podrobnou logickou a mezistaniční kontrolou jako data klimatologická. Není také jasné, zda se vždy podaří CRU shromáždit všechna potřebná operativní data za všechny dny a pozorovací termíny nebo zda jim občas nějaká jednotlivá data nechybějí.

Ad b) V prvním období mají odchylky náhodný charakter a ani ty velké, nad 1°C, nemění nijak výrazně většinu statistických charakteristik. Je třeba si uvědomit například to, že odchylka v jednom měsíci o 1,2°C se na roční průměrné teplotě projeví odchylkou 0,1°C. Ani tyto velké ojedinělé náhodné odchylky tedy prakticky nemění takové systematické vlastnosti dané řady jako třeba trendy. Ve druhém období, od roku 1995, na většině stanic mírně převažují odchylky v záporném směru (tj. data CRU jsou o něco chladnější než data ČHMÚ) a u některých stanic to mírně systematicky ovlivňuje statistické vlastnosti řady, jak bude vidět dále.

Ad c) Pro všechny stanice a data CRU i ČHMÚ byly vypočítány lineární teplotní trendy za roky 1970-2000. Toto období bylo vybráno proto, že během něj docházelo k výraznému oteplování v globálním i hemisférickém měřítku a šlo o to, zda je toto oteplování nějakým artefaktem, způsobeným manipulací s daty na straně CRU, nebo zda jde o reálný jev. Grafy pro jednotlivé stanice jsou uvedeny níže:

Obr_3_3a

Obr_3_3b

Obr_3_3c

Obr_4_3

Z grafů je vidět, že ani relativně velké ojedinělé odchylky mezi daty CRU a ČHMÚ nemají prakticky žádný velký vliv na hodnoty ročních průměrných teplot do začátku 90 let. Od 90.let dále ale existuje systematický vliv menších ale častějších odchylek na roční průměrné teploty (hodnoty CRU jsou většinou nižší než hodnoty ČHMÚ), což následně poněkud ovlivňuje i vypočítaný trend. Data CRU však ve všech případech vykazují mírně nižší trend oteplování než data ČHMÚ. K manipulaci s daty s cílem zvýšit teplotní trend oproti datům ČHMÚ tedy v CRU zjevně nedošlo.

Ad d) K tomuto účelu byly vypočítány teplotní trendy, rovněž za období 1970-2000, ze všech profesionálních stanic ČHMÚ, které měly v dané době úplnou řadu měření a tyto trendy byly porovnány s teplotními trendy na diskutovaných 4 stanicích, a to jak podle dat CRU, tak i podle dat ČHMÚ. Výsledky (vzestupně setříděné podle velikosti trendu) jsou v následující tabulce.

datova rada

Z ní je jasně vidět, že trendy na vybraných stanicích nijak nevybočují z rozsahu trendů na profesionálních stanicích ČHMÚ. Včetně stanic, které jsou umístěny daleko od jakýchkoli sídel (bližší informace o profesionálních stanicích ČHMÚ jsou zde). A že trendy z dat CRU jsou ve všech případech menší než trendy z dat ČHMÚ pro danou stanici.

Nevím jak komu, mně z toho vychází ten závěr, že CRU rozhodně s daty z České republiky nemanipulovala s cílem zvýšit teplotní trend. Postupy, použité k doplňování dat od 90. let 20. století, naopak vedly k tomu, že data CRU vykazují dokonce nižší trend oteplování, než data ČHMÚ. A že výběr stanic neovlivňuje vypočítané trendy oproti skutečnosti v ČR.

Jsem si vědom toho, že toto tvrzení se týká pouze stanic v ČR, jiné jsme nekontrolovali. Na druhou stranu – nevidím jediný důvod, proč by v CRU měli s daty z České republiky zacházet nějak jinak než s daty z ostatních zemí.

Podrobnější výsledky porovnání teplotních řad CRU a ČHMÚ budou publikovány. Ale už teď můžete najít další informace o tomto porovnání na blogu dr.Tolasze.

A úplně na závěr, pro ty, kdo by si chtěli výpočty zkontrolovat nebo si provést své vlastní – data (z CRU i ČHMÚ) jsou k dispozici ke stažení zde. Byl bych velice rád, aby si tato data stáhli a analyzovali zejména ti, kdo vyvozovali sáhodlouhé závěry z útržků e-mailů nebo z komentářů k programům. A aby se konečně pokusili najít přímo v datech ty „podvody“, „zkreslování“ nebo „falšování“, o kterých vynášeli tak kategorické soudy, aniž by z těch dat viděli jedno jediné konkrétní číslo.