Dane ze stacji klimatologicznych

Jak już wielokrotnie wspominałem, dane ze stacji klimatologicznych są niehomogeniczne ze względu na zmiany sposobu liczenia średniej dobowej temperatury powietrza. Tutaj chciałem pokrótce przedstawić, jak to w rzeczywistości wygląda i co można z tym zrobić.

Na stacjach synoptycznych w historii powojennej zmiana metody liczenia średniej dobowej temperatury powietrza nastąpiła raz [1]: do pierwszego stycznia 1966 roku średnią dobową temperaturę powietrza mierzono wg metody (T06 + T12 + 2 * T20)/4, zaś od tej daty wg metody (T00 + T03 + T06 + … + T21)/8. Podane godziny są w czasie UTC (GMT). Zmiana ta wpłynęła na wyliczane średnie temperatury poszczególnych miesięcy, przy czym w skali roku różnice te ulegały z grubsza wyzerowaniu. Stąd w zasadzie zmiana ta nie wpływa znacznie na otrzymywane wyniki, chociaż i tutaj należałoby wszystkie stacje poddać procesowi homogenizacji.

Znacznie gorzej sprawa wygląda na stacjach klimatologicznych, gdzie zmiana sposobu liczenia średniej dobowej temperatury powietrza dokonywała się dwukrotnie:

  • 1 stycznia 1971 zmieniono sposób liczenia średniej dobowej temperatury powietrza z (T06+T12+2*T20) na (T00+T06+T12+T18)/4
  • 1 stycznia 1996 wprowadzono metodę (T06+T18+TX+TN)/4

W szczególności ta druga zmiana spowodowała widoczne rozbieżności w liczonych średnich dobowych temperaturach powietrza, nie tylko w skali poszczególnych miesięcy, ale i w skali roku [1]. W ten sposób na stacjach klimatologicznych mamy dwa zerwania serii, oba wymagające poddania danych homogenizacji.

Na szczęście można całkowicie wyeliminować jedną z tych niehomogeniczności, nie stosując w ogóle metod homogenizacyjnych, bowiem da się przeliczyć średnie dobowe temperatury powietrza wg metody stosowanej od 1996 roku wstecznie do 1971. Niestety wcześniej zamiast terminu obserwacyjnego o 18UTC stosowano termin o 20UTC, co wyklucza zastosowanie tej metody przed 1 stycznia 1971.

W celu zastosowania w/w poprawki, wybrałem około 150 stacji z dłuższymi seriami czasowymi, możliwymi do kontynuowania (posiadających dane dla lat 1981-2010 + stacje posiadające dane dla lat 1991-2016 oraz z samego 2016). Wszystkie średnie temperatury dobowe z lat 1971-1995 przeliczono wg obecnie stosowanej metody (T06+T18+TX+TN)/4, zachowując przy tym dane oryginalne. Dodatkowo uzupełniono braki danych za pomocą skryptu R (CLIMATOL). Nie zdecydowałem się na automatyczną homogenizację danych za pomocą tego skryptu z uwagi na zbyt wysoki stosunek szumu do sygnału, jaki występuje w danych dobowych. Zwyczajnie skrypt może w tym przypadku wykrywać zerwania serii, których w rzeczywistości nie ma i pomijać te, które istotnie występują. CLIMATOL ma za to tę zaletę, że potrafi automatycznie uzupełnić brakujące dane dobowe na podstawie danych ze stacji okolicznych (regresja II rodzaju). W celu uzupełnienia tych danych, dla każdej stacji z brakującymi danymi wygenerowałem automatycznie pliki wejściowe dla CLIMATOL, wybierając do tego co najwyżej 15 najbliższych dostępnych stacji w promieniu do 120 km od stacji badanej. Uzupełnione w ten sposób dane oflagowano flagą 17, zaś przeliczone średnie dobowe oflagowano flagą 19 (zachowując przy tym, jak już wspomniałem, dane pierwotne). Wyniki działania skryptów CLIMATOL można obejrzeć pod poniższym adresem:

http://meteomodel.pl/klimat/poltemp/imgw/qc2/R/climatol/

Raporty z procesu przeliczania średniej temperatury dobowej znaleźć zaś można tutaj:

http://meteomodel.pl/klimat/poltemp/imgw/qc2/cmean/log/

No i ostatecznie same poprawione w ten sposób dane znajdują się tu:

http://meteomodel.pl/klimat/poltemp/imgw/qc2/cmean/

Do przyszłej homogenizacji danych dobowych zdecydowałem się na zastosowanie SPLIDHOM [2], ale o tym na końcu tego wpisu.

Różnice pomiędzy wyznaczonymi 11-letnimi anomaliami temperatury powietrza w danych oryginalnych i przeliczonych można zobaczyć na przykładzie Olecka:

Jak widać, akurat w przypadku Olecka różnice nie są jakość szczególnie znaczące. Dane “surowe” zaniżają ostatnie anomalie o około 0.08K, przy czym na niektórych stacjach różnice te potrafią sięgnąć około 0.2K, co stanowi już widoczny ułamek współczesnego ocieplenia. Oznacza to, że przeliczenie średnich temperatur dobowych wg współcześnie stosowanej do tego metody jest konieczne, aby uzyskać prawdziwy obraz zmian temperatury w latach 1971-2016. Warto również zwrócić uwagę, że nadal są to dane surowe, niehomogenizowane (pomijając fakt uzupełnienia danych).

Oczywiście w tak przygotowanej serii nadal jest wiele problemów. Zmiana sposobu liczenia średniej dobowej nie jest jedynym potencjalnym źródłem niehomogeniczności. Tutaj dochodzą jeszcze takie przyczyny jak relokacja stacji pomiarowej, zmiana jej otoczenia, zmiana instrumentów i metod pomiarowych. Niestety, jeśli nie dysponujemy tzw. metadanymi, trudno jest niekiedy określić, czy i kiedy pojawiła się jakaś niejednorodność w danych. Duże niehomogeniczności widać jednak na pierwszy rzut oka, porównując na przykład dane z okolicznych stacji. Anomalie temperatury mają to do siebie, że w dłuższych okresach są na pobliskich stacjach bardzo do siebie zbliżone. Dzieje się tak dlatego, że stacje położone na tym samym obszarze, na z grubsza zbliżonej wysokości, ulegają wpływom tych samych czynników kształtujących przebieg zmian temperatury. Większe odstępstwa jednej ze stacji stanowią podstawę do podejrzenia, że coś na tej stacji było nie tak. Dla przykładu poniżej mamy 11-letnie średnie ruchome anomalie temperatury powietrza na paru stacjach:

Źródłem pochodzenia danych jest Instytut Meteorologii i Gospodarki Wodnej – Państwowy Instytut Badawczy. Dane IMGW-PIB zostały przetworzone.

Jak widzimy, przebieg temperatury na wszystkich stacjach jest zbliżony, za wyjątkiem stacji 250200230 (Borusowa), co wskazuje na to, że dane te są niejednorodne. W tym wypadku należałoby te dane poddać homogenizacji, najlepiej za pomocą sprawdzonego narzędzia. Homogenizacja taka nie została jeszcze przeprowadzona, pokusiłem się jednak o sprawdzenie, jakby to mogło wyglądać. Tutaj wybrałem podany wyżej przykład Borusowej, a jako narzędzie wspomniany wcześniej SPLIDHOM. Następnie ustaliłem, że zerwanie serii ma miejsce od 1996 do 2001 roku i testowo wygenerowałem pliki wejściowe dla SPLIDHOM.

Wynik obliczeń był zadowalający, seria została poprawiona, co można zobaczyć na poniższym wykresie (proszę pamiętać, że anomalie zostały wyznaczone w oparciu o inny okres referencyjny, niż w przypadku poprzedniego wykresu, a sam wykres oparty jest o dane dobowe, a nie roczne):

Niebieska linia reprezentuje tu dane surowe, zaś ciemno-czerwona dane homogenizowane. Wynik tej homogenizacji wraz z danymi wejściowymi obejrzeć można tutaj:

http://meteomodel.pl/klimat/poltemp/imgw/hom1/250200230/

Szczególnie zaś polecam przyjrzeć się wykresom zawartym w katalogu fig, dzięki którym można uzyskać dobry obraz tego, jakie poprawki zostały zastosowane w toku przeprowadzonej tu homogenizacji.

Reasumując: uzupełniono i przeliczono dane ze stacji klimatologicznych, likwidując w ten sposób jedno zerwanie jednorodności danych powstałe z uwagi na zmiany w sposobie liczenia średniej dobowej temperatury powietrza. Dane te muszą jednak zostać poddane homogenizacji z uwagi na fakt, że w dalszym ciągu istnieje zerwanie serii 1 stycznia 1971 roku. Dodatkowo niektóre ze stacji (patrz Borusowa) są niehomogeniczne z dodatkowych przyczyn. Pozostaje jeszcze problem związany ze stacjami synoptycznymi. W istocie są one jedynym źródłem, na podstawie którego można by homogenizować stacje klimatologiczne w przypadku zerwania jednorodności serii związanego ze zmianą sposobu liczenia średniej dobowej temperatury powietrza. Niestety 1 stycznia 1966 również na nich zmieniono sposób liczenia owej średniej, co nieco komplikuje całą sytuację.

Wspomniałem już, że średnie dobowe temperatury powietrza charakteryzują się bardzo dużym stosunkiem szumu do sygnału. To powoduje, że rzeczywiste homogeniczności są bardzo trudne do wykrycia. Dotyczy to przede wszystkim stacji górskich i podgórskich, gdzie skomplikowana rzeźba terenu może doprowadzić do sytuacji, w których jedna stacja leży nad, a położona zaledwie kilka kilometrów dalej inna stacja pod inwersją. Wtedy różnice w średniej dobowej temperaturze powietrza pomiędzy tymi stacjami, mimo małej odległości pomiędzy nimi, może sięgać 10 i więcej stopni, mimo że przed pojawieniem się sytuacji inwersyjnej były zbliżone. To bardzo utrudnia, wręcz uniemożliwia wykrywanie pojedynczych błędów w sposób automatyczny, programowy. Zwyczajnie próba taka prowadzi do generowania zbyt dużej liczby fałszywych alarmów (false-positives). Problemy te są również opisane w instrukcji do programu CLIMATOL, gdzie zaznaczono że automatyczna homogenizacja danych dobowych powinna być przeprowadzana ze szczególną ostrożnością.

Po co to wszystko? Oczywiście jest to konieczne w przypadku asymilacji danych ze stacji klimatologicznych do serii POLTEMP. Oznacza to, że w kolejnej wersji seria ta będzie odznaczała się znacznie większą liczbą danych wejściowych niż wcześniej, co z pewnością wpłynie na otrzymane wyniki. Niestety metoda wyliczania średniej dobowej temperatury powietrza na stacjach klimatologicznych powoduje, że w niektórych miesiącach średnia ta różni się znacznie od tej uzyskanej metodą synoptyczną – nawet w sensie wyciągniętej później anomalii. Najwyraźniej widać to w ostatnich miesiącach we wrześniu 2016 (co zresztą doprowadzi do znacznego obniżenia anomalii tego miesiąca w kolejnych wersjach POLTEMP). Z drugiej strony wiele stacji klimatologicznych stanowi bardzo dobre źródło danych ze względu na swoje położenie z dala od większych aglomeracji miejskich, co oznacza że trendy na nich obserwowane nie mogą być identyfikowane z miejską wyspą ciepła. Inne z kolei są położone w samym centrum miast (Warszawa-Bielany, Warszawa-Filtry), co z kolei może dać obraz różnic w trendach pomiędzy stacjami “wiejskimi” i miejskimi.

Wszystkie powyższe informacje prowadzą również do pewnego spostrzeżenia. Na początku stycznia Instytut Meteorologii i Gospodarki Wodnej – Państwowy Instytut Badawczy udostępnił pod adresem https://dane.imgw.pl olbrzymi zbiór danych. Jest to wręcz unikalny zbiór na skalę europejską – podobnym może pochwalić się chyba jedynie niemiecki DWD. Należy jednak pamiętać, że są to dane surowe, nieprzetworzone i jak to bywa w przypadku każdych surowych danych, pracując z nimi należy dokładnie wiedzieć, co się liczy, jak te dane powstały i jakie mogą być z nimi potencjalne problemy. W przeciwnym wypadku można dojść do fałszywych wniosków, a winą za ten stan rzeczy nie można obarczyć IMGW, a jedynie niewiedzę osoby, która z owymi danymi pracuje. Pracując z takimi surowymi danymi (w szczególności jeśli dotyczą temperatury) należy bowiem z góry założyć, że są one niehomogeniczne, gdyż nie istnieje na świecie służba meteo, która w ciągu całego swojego okresu pomiarowego nie wprowadzała zmian w sposobie dokonywania pomiarów. Wystarczy tylko przyjrzeć się problemom z czasem dokonywania obserwacji (TOB, Time of Observation Bias) w Standach Zjednoczonych i jakie kontrowersje spowodowały one w niektórych kręgach. Do tej pory różnice pomiędzy starymi a nowymi wykresami anomalii temperatury z USA są przez denialistów podawane jako dowód na spisek klimatologów, a tymczasem są one jedynie przykładem homogenizacji dokonanej z uwagi na zmiany w sposobie dokonywania pomiaru. Niemal identyczny problem pojawia się w przypadku stacji klimatologicznych u nas – proszę zwrócić uwagę, że również w moim przypadku zmiana sposobu liczenia średnich dobowych temperatur prowadzi do podwyższenia anomalii o 0.1 – 0.2K. A tymczasem tutaj nawet nie stosowałem homogenizacji, użyłem samych surowych danych.

P.S.

Wyniki porównawcze dla stacji można odnaleźć pod tym adresem:

http://meteomodel.pl/klimat/poltemp/imgw/qc2/R/plots/

 

[1] Urban G. 2010: Ocena wybranych metod obliczania średniej dobowej, miesięcznej i rocznej wartości temperatury powietrza (na  przykładzie Sudetów Zachodnich i  ich przedpola). Opera Corcontica 47/2010 Suppl. 1: 23–34

[2] Mestre, O. et al. 2011: SPLIDHOM: A Method for Homogenization of Daily Temperature Observations. Journal of Applied Meteorology and Climatology, 50(11), 2343–2358. doi:10.1175/2011JAMC2641.1.

  1. Fajnie wyjaśniłeś cały problem, ale nasuwa mi się kolejne pytanie. Tutaj opisałeś homogenizację serii pomiarowej pojedynczej stacji – jak wygląda kwestia homogenizacji, w momencie, kiedy liczymy średnią dla danego terytorium?

    Bo rozumiem, że liczenie średniej można wykonać tak: dane surowe -> dane homogeniczne (dla poszczególnych serii) -> pole temperatury z krigingu -> średnia

    Da się jednak wykonać jakąś homogenizację serii względem innych serii? Dla przykładu, jeśli zmieniło się otoczenie stacji (np. poprzez zabudowę), temperatury zapewne odpłynęły. Jest na to jakaś rada?

    Wiem, że kiedyś pokazywałeś jak jakaś stacja (Wrocław?) bardzo odstawała i trzeba było to w jakiś sposób homogenizować. Jakie jest do tego podejście, żeby z jednej strony nie robić burdelu, a z drugiej nie robić wirtualnej rzeczywistości?

    • Jeśli dane dla pojedynczej stacji odpływają, widać to po pewnym czasie w porównaniu ze stacjami okolicznymi. Tak jest w przypadku Wrocławia, dla którego materiał porównawczy stanowią dane np. z Legnicy, Leszna i Opola, a także dzięki uprzejmości prof. Migały z UWr z stacji klimatologicznej UWr przy ulicy Kosiby we Wrocławiu. Tutaj można wyznaczyć przybliżony czas zerwania serii w oparciu o dane miesięczne, lub roczne i jest to dość precyzyjne. W przypadku Wrocławia były to okolice roku 2011.

      Tutaj: http://meteomodel.pl/BLOG/?p=9225 pokazałem, jak z danymi miesięcznymi radzi sobie HOMER. Wychodzi całkiem nieźle.

      Jeśli chodzi o średnie obszarowe, jest trudniej, szczególnie jeśli jakaś zmiana dokonuje się jednocześnie na wszystkich stacjach. Tu niestety jesteśmy w kropce i jedynym pomysłem, jaki mi przychodzi do głowy, jest porównanie danych ze stacji przygranicznych z tymi należącymi do państw ościennych, o ile takimi dysponujemy.

  2. Piotr, dzięki za ten wpis. To naprawdę piękne wytłumaczenie tego jak trudna jest praca z surowymi danymi i ile się trzeba na główkować aby taka seria była użyteczna (tzn. nie zawierała istotnych zniekształceń spowodowanych zmianami czasu, miejsca, otoczenia i metody pomiaru, metody przedstawiania pomiaru itp.).

    A zarazem jest to piękna ilustracja tego, ze na pierwszych pracowniach fizycznych uczą znacznie uproszczoną wiedzę. Używanie surowych pomiarów bez żadnych procedur QA (quality assurance) to prosta droga do kompromitacji. A w dodatku mrzonki o tym, że QA będzie całkowicie automatyczne można sobie wsadzić do starego oscyloskopu z tej pierwszej pracowni. Napisanie uniwersalnego programu QA byłoby równoznaczne ze stworzeniem sztucznej inteligencji, będącej w stanie zastąpić naukowca. Trochę nam do tego (może na szczęście) brakuje. Na przykład problem inwersji, wspomniany przez Piotra. Dobre zautomatyzowanie jego wykrywania to zasadniczo rozwiązanie problemu przewidywania ich występowania (i to bez użycia modelu cyrkulacji!). A co z turbulencją wielkoskalową, która tez może wprowadzać różnice między stacjami w rejonie ze skomplikowaną orografią? Trzeba rozwiązać równanie Naviera-Stokesa aby udoskonalić procedury QA? Oczywiście, ze nie. Trzeba stosować metody sieci neuronowych itp. A umysł ludzki będzie jeszcze długo najlepszą siecią neuronową. Dobrze wytrenowany (np. na patrzeniu w dane przez parę lat) zauważy problem od razu.

    I dla każdego kto pracował z realnymi danymi jest to tak oczywiste, ze aż trudno to uzasadnić. Coś jak pytanie skąd wiemy, że woda jest mokra 😆

    • Ja już zaczynam się w tym trochę gubić. Obecnie mam kilka katalogów z danymi. Jeden to RAW, drugi to QC1, trzeci to QC2, a linkowany cmean to czwarty, do którego muszę dołączyć połączone dane ze stacji synoptycznych, które do 1966 są traktowane jako klimatologiczne (i Częstochowa, która w latach bodaj 1994-1998 również jest traktowana jako klimat.

      Ale obstawiam, że gdzieś za dwa-trzy tygodnie doprowadzę to do takiego porządku, że będzie można policzyć POLTEMP w końcu.

Leave a Comment


NOTE - You can use these HTML tags and attributes:
<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

%d bloggers like this: