2024/03/28 18:03

Homogenizacja

Przyszła kolej na pokazanie, jak działa ta znienawidzona przed „sceptyków” homogenizacja danych.

W środowiskach denialistycznych na dane homogenizowane mówi się, że są one „dobrze przysmażone”, co ma być pewnie dowcipną sugestią, jakoby sam proces homogenizacji miał na celu podwyższenie obserwowanych trendów temperatury. W tym miejscu chciałbym więc pokazać przykład homogenizacji.

Żeby nie obraziła się na nas żadna instytucja, skorzystamy tu z ogólnodostępnych danych DWD. Wybrałem tu cztery stacje: Oschatz, Doberlug-Kirchhain, Lindenberg i Cottbus. Dlaczego te stacje? Głównie dlatego, że nie powinny być one dotknięte potencjalnymi efektami związanymi z urbanizacją, leżą na mniej więcej tym samym obszarze, a ilość danych jest wystarczająca. Chodziło tu głównie o to, by dane oryginalne były homogeniczne.

Średnie roczne temperatury na wybranych stacjach wyglądają następująco:

stn1Jak widać, mimo, że wartości się nieco różnią, ogólnie przebieg zmian jest niemal identyczny na wszystkich stacjach – wspominałem o tym zresztą wielokrotnie, że pobliskie stacje korelują ze sobą niemal w 100%. W powyższej serii brakuje trochę danych. Dla stacji Doberlug-Kirchhain brakuje danych dla 1991, 1992 i 2011, dla stacji Oschatz brakuje danych dla 2014. Teraz pokażę przebieg anomalii rocznych, przy czym z uwagi na braki, okres bazowy będzie mocno egzotyczny, tj. 1978-1991 + 1993-2010 + 2012-2013.

stn2Teraz oczywiście wykresy są jeszcze bardziej ze sobą zgodne, te serie z pewnością są homogeniczne. Powstaje pytanie, po co homogenizować homogeniczne dane? Oczywiście po nic, a więc je popsujemy.

Przypadek 1

Załóżmy, że w 2001 w pobliżu stacji meteorologicznej Oschatz wybudowano market „Marienkäfer”, co w konsekwencji spowodowało podwyższenie średnich miesięcznych temperatur mierzonych na stacji. Dodatkowo podwyższenie to było silniejsze w porze zimowej, niż letniej, tak jak przedstawiono to poniżej:

biasPo takim zabiegu przebieg anomalii wygląda następująco:

stn3Idealnie już zdecydowanie nie jest. Ponieważ zmiana nastąpiła w okresie, który jednocześnie jest okresem bazowym, rzutuje to na całą serie anomalii. Widać również wzrost przeciętnych różnic temperatur rocznych pomiędzy Oschatz a Lindenbergiem.

Powstaje pytanie, czy da się to automatycznie poprawić – czy istnieje metoda, która wykryje zerwanie homogeniczności serii i ją poprawi? Okazuje się, że tak – akurat w tym konkretnym przypadku użyłem oprogramowania HOMER. W istocie jest to skrypt do pakietu R. A jak zadziałał?

stn5

Wygląda na to, że bardzo dobrze – błędne dane zostały tu oznaczone wykresem szarym, a dane oryginalne i homogenizowane na zielono. Warto zwrócić uwagę, że udało się automatycznie wykryć w którym roku seria została zerwana i poprawić ją tak, że w zasadzie nie różni się ona od oryginału.

A jak jest z miesiącami? Okazuje się, że HOMER nie poprawiał tu popsutych danych z okresu po 2001, tylko poprawił dane wcześniejsze. Ma to o tyle sens, że w przypadku o którym mówimy zerwanie homogeniczności trwa nadal – dopisywanie nowych danych do serii nie powoduje już jednak powstawania błędu. Gdyby poprawiano dane po 2001, należałoby korygować każdą nową dodawaną wartość. Zamiast więc obniżyć średnie miesięczne od 2001, HOMER podwyższył wszystkie średnie przed 2001. Z grubsza poprawnie wygląda również rozkład błędów w poszczególnych miesiącach, ale już wartości tych błędów nieco się różnią.

stn6W tym przypadku można jednak powiedzieć, że HOMER poradził sobie jednak idealnie i doprowadził „popsutą” serię do porządku.

Przypadek 2

W 1984 roku do bazy DWD wkradł się @chochlik i skasował dane. Bo tak. Znikły wszystkie dane z Oschatz z okresu od 1984 do 2002. Nie można wyciągnąć żadnej serii anomalii, seria jest w zasadzie nie do użytku.

W tym przypadku HOMER poradził sobie nieco gorzej, poniżej błędy rocznej temperatury:

stn7Prawdopodobną przyczyną jest tu fakt, że usunięta za dużo danych. Zostawiono zaledwie 17 lat, co może się okazać zbyt małą ilością, by zbudować na tym jakąś konkretną statystykę. Średni błąd względny dla okresu 1984-2002 wyniósł +0.11°C.

Przypadek 3

Neoczerwoni lewaccy alarmiści spod znaku Greenpeace z zieloną magmą na plecach włamali się do biur DWD i czytając w między czasie dzieła Lenina, zmodyfikowali dane z Oschatz tak, że do danych od 2001 dodali trend liniowy o wartości +0.8°C/10 lat. Dzięki Bogu, dzielni denialiści z zakonu pod wezwaniem A. Wattsa wykryli ten fakt:

stn8Wezwali fachowca umiejącego liczyć, a ten odpalił HOMER-a:

stn9Można sobie w tym momencie wyobrazić, że fachowiec najpewniej zostałby nazwany idiotą, bo zamiast obniżyć wartości po 2001, ten podwyższył wartości przed 2001. Cała seria stała się cieplejsza, a to jest proszę pana niedopuszczalne!

Może w tym momencie znajdzie się jednak ktoś sprytniejszy od przeciętnego denialisty (co akurat nie jest trudne) i zwróci uwagę, że jeśli mówimy o Globalnym Ociepleniu, to mówimy bardziej o zmianach, a więc o trendach, niż wartościach. Łatwo wszystkie trzy serie przeliczyć na anomalie i sprawdzić, czy HOMER więcej napsuł, czy naprawił.

stn10

Jak widzimy, w tym przypadku znów HOMER poradził sobie bardzo fajnie, przywracając dokładny trend oryginalny. Proszę zwrócić uwagę, że na powyższym wykresie są narysowane trzy linie trendu, nie dwie. Wynik homogenizowany ma jednak dokładny trend oryginalny, przez co może się wydawać, że linie są dwie.

Wracamy więc do początkowego zarzutu, jakoby celem homogenizacji miało być „usmażenie” danych. Procesy homogenizacji w przypadku danych globalnych są automatyczne i dokładnie opisane. Często zwyczajnie porównują one trendy na sąsiadujących stacjach i korygują te, które odstają od innych. Proszę sobie wyobrazić sytuację podobną, jak w przykładzie pierwszym, ale odwrotną, tj. zmiana sposobu prowadzenia obserwacji, czy też jej miejsca prowadzi do obniżenia temperatur – pierwszy przykład z brzegu: Elbląg.  W takim przypadku przeprowadzenie tego samego procesu homogenizacji spowoduje podwyższenie temperatur, ale oczywiście jak najbardziej zasadne. Jednak w ocenie niemalże każdego „sceptyka” takie działanie jest niedopuszczalne, co było widać na przykładzie homogenizacji danych na stacji w Darwin (Australia). Surowe dane z Darwin wyglądały tak:

Widać tu oczywiste zerwanie homogeniczności danych i to co najmniej dwukrotne. Najbardziej rzuca się w oczy to z okolic 1940, związane z przenosinami stacji i zmianami sposobu obserwacji. Oczywiści proces homogenizacji odwrócił widoczne tu trendy, co zostało skrzętnie odnotowane przez denialistów:

Było to podstawą do postawienia zarzutów o fałszerstwo, mimo że dane z położonej o około 500km od Darwin stacji w Wyndham nie pokazywały żadnego ochłodzenia, chociaż powinny, jeśli ochłodzenie w Darwin miałoby tylko naturalne przyczyny.

Przypadek tej stacji już dawno stał się przedmiotem dochodzenia prowadzonego przez różne osoby, nawet przez mieszkańców samego Darwin. W toku tego dochodzenia przyczyny fałszywego ochłodzenia zostały jednoznacznie wyjaśnione, co jednak nie przeszkadza denialistom wysuwać wciąż te same oskarżenia. Wiemy jednak, że zastosowano tu po prostu te same metody, które pokazałem wyżej.

Można sobie łatwo wyobrazić, że jeśli podobny proces homogenizacyjny zostanie zastosowany dla Elbląga, ktoś postawi dokładnie ten sam zarzut, a dla jakiegoś idioty stanie się to dowodem na fałszerstwo. Stanie się to najpewniej dopiero za kilka lat. Póki co dane z Elbląga od momentu zerwania serii nie pojawiają się w bazie GHCN(adj):

635121600002001TAVG  -20  M  -70  M  150  M  800  M 1230  M 1410  M 1980  M 1850  M 1230  M 1100  M  330  K -260  M
635121600002002TAVG   20  M  370  M  440  M  830  M 1710  M 1640  M 1990  M 2150  M 1360  M  690  M  350  M -530  M
635121600002003TAVG -270  M -340  M  220  M  700  M 1400  M 1670  M 1920  M 1760  M 1430  M  580  M  570  M  220  M
635121600002004TAVG -510  M   20  M  330  M  850  M 1130  M 1470  M 1640  M 1890  M 1360  M  970  M  350  M  200  M
635121600002005TAVG  140  M -210  M   10  M  830  M 1240  M 1490  M 1940  M 1680  M 1610  M  980  M  360  M  -30  M
635121600002006TAVG -730  M -200  M  -90  M  740  M 1330  M 1630  M 2160  M 1750  M 1680  M 1100  M  640  M  510  M
635121600002007TAVG  350  M -130  M  700  M  810  M 1440  M 1790  M 1750  M-9999    1350  M  830  M  190  M  160  M
635121600002008TAVG  150  M  360  M  360  M  840  M 1270  M 1670  M 1800  M 1770  M 1250  M  910  M  470  M  100  M
635121600002009TAVG -190  M  -70  M  240  M 1060  M 1250  M 1480  M 1850  M 1830  M 1470  M  660  M  580  M -110  M
635121600002010TAVG -740  M -200  M  300  M  780  M 1130  M 1600  M 2130  M 1940  M 1300  M  630  M  450  M -620  M
635121600002011TAVG  -90  M -450  M  260  M  990  M 1320  M 1740  M 1820  M 1800  M 1460  M  930  M  420  M  290  M
635121600002012TAVG  -80  C -570  C  390  C  840  C 1380  C 1530  C 1890  C 1800  C 1420  C  850  C  530  C -240  C
635121600002013TAVG -360  C  -40  C -190  C-9999   -9999   -9999   -9999   -9999   -9999   -9999   -9999   -9999

W chwili obecnej seria z Elbląga po przenosinach jest zbyt krótka, by przeprowadzić poprawny proces homogenizacyjny. Podobnie zresztą urwana jest seria wrocławska,

Odpowiedź więc brzmi: nie. Homogenizacja nie służy „smażeniu danych”, należy jednak podchodzić do jej wyników ostrożnie. Dobrze użyta, może poprawić jednorodność serii, tak jak to zrobił HOMER, mimo że nie podałem mu żadnych metadanych, które mogłyby pomóc w określeniu miejsc zerwania jednorodności danych

Jeśli chodzi o GISTEMP, można użyć danych „surowych”, nie ma to w sumie większego znaczenia.

Skromna literatura:

Dokumentacja HOMER-a: http://www.homogenisation.org/HOME_R.pdf

Mestre, O. et al. (2013). HOMER : HOMogenisation softwarE in R- methods and applications. Idöjárás, 117, 47–67

              ___  _____    
            . /,-Y       ~-.  
            l.Y             ^.   
            /\               _\_  
           i            ___/     \ 
           |          /     \   o ! 
           l         ]     o !__./   
             _  _    \.___./     ~\  
             X \/ \            ___./  
            ( \ ___.   _..--~~/   ~`-.  DOH!
             ` Z,--   /               \  
               \__.  (   /       ______) 
                 \   l  /-----~~  /   
                  Y   \          / 
                  |     x______.^ 
                  |           \    
                  j            Y  


               HOMER  2.6
Print Friendly, PDF & Email
0 0 votes
Article Rating
Subscribe
Powiadom o
8 komentarzy
Inline Feedbacks
View all comments
ArcticHaze

To „przeniesienie” stacji Darwin około roku 1940 było nieco bardziej dramatyczne. Stacje przeniesiono w 1941 na nowe lotnisko przy okazji usuwając niechcący efekt „wyspy ciepła” i dodając standardową obudowę, której poprzednia stacja nie miała. Zresztą całe szczęście, bo poprzedni budynek stacji (urząd pocztowy) zniszczono podczas bombardowania japońskiego 19 lutego 1942 (bezpośrednie trafienie, które zabiło pocztmistrza i całą jego rodzinę). Potem w ramach wojny Darwin znacznie rozbudowywano, wypalano busz pod nowe obozy wojskowe itp. To wszystko łącznie sprawia, że dane z okolic wojny są tam wyjątkowo mało homogeniczne. Stosowanie akurat tej stacji jako wzorzec globalnego oziębienia świadczy tylko i wyłącznie o… Czytaj więcej »

ArcticHaze

A tak, zapomniałem o tym elemencie tej tragikomedii. A to nie był właśnie ten nieszczęsny poczmistrz we własnej osobie?

ru

A jak sprawa z homogenicznością danych ma się u nas?
Chodzi mi o przenosiny stacji z centrów miast na lotniska, np. Kraków.

Mark

Co do Elbląga to jak generuję te mapy z posterunków Monitora widzę na tych dwóch elbląskich stacjach zwykle różnice rzędu 1-1,5 stopnia, np. dzisiajcomment image?oh=dacf148f769a2ecb77a9a79adb0e76c5&oe=554923E4

zaciekawiony

A ja wrzucam taką ciekawostkę – artykuł z Wiedzy i Życia z 2001 roku, a tam mit na micie: polskie winnice i zielona Grenlandia, karczmy na Bałtyku i cykle słoneczne. Jeśli takie rzeczy pisała prasa popularnonaukowa, to chyba nic dziwnego że takie poglądy są u nas dobrze rozpowszechnione:
http://archiwum.wiz.pl/2001/01103100.asp

8
0
Would love your thoughts, please comment.x