Признание учёных и плач программиста

Университет Восточной Англии признался, что непосредственные данные замеров, на основе которых строились графики глобального потепления, действительно были уничтожены. Признался не совсем добровольно, а когда, после скандала с имейлами, уже не осталось никакой [другой] возможности сопротивляться запросам по раскрытию этих данных. <!--more-->
Данные уничтожили, по словам представителей университета, в восьмидесятые годы. По словам представителей университета, из-за переезда в новое здание. По словам представителей университета потому, что их было трудно хранить. Факт тот, что сейчас остались только "скорректированные" и "гомогенизированные" данные. То есть проверить правильность графиков потепления теперь нет никакой возможности.

* * *

В украденной безе были не только имейлы, но и другие документы. Например, файл с тремя годами комментариев к программам обработки данных. Те, кто никогда не имел дела с программированием, мало что поймут, но для программистов чтение крайне увлекательное. Не хуже Кошмара на улице Вязов - волосы встают дыбом, когда видишь, с какими искорёженными исходными данными беднягам приходилось сталкиваться. Неудивительно, что климатологи так бились против раскрытия этих данных. Короче, рекомендую всем, кто когда-нибудь писал код.

Хотя и непрограммисты могут найти в этом файле кое-что интересное.

getting seriously fed up with the state of the Australian data. so many new stations have been
introduced, so many false references.. so many changes that aren't documented.

конкретно достало состояние австралийских данных. постоянно появляются какие-то новые станции, постоянно неверные ссылки... постоянные недокументированные изменения

...

I am very sorry to report that the rest of the databases seem to be in nearly as poor a state as Australia was. There are hundreds if not thousands of pairs of dummy stations, one with no WMO and one  with, usually overlapping and with the same station name and very similar coordinates. I know it could be old and new stations, but why such large overlaps if that's the case? 

к сожалению должен сказать, что и остальные базы данных похоже выглядят не сильно лучше, чем австралийская. Сотни, а то и тысячи пар фальшивых станций, одна с ВМО, другая без. В основном накладывающиеся друг на друга, с одинаковыми названиями и похожими координатами. Я знаю, что это могут быть старые и новые станции, но почему в таком случае столько пересечений?

...


So.. we don't have the coefficients files (just .eps plots of something). But what are all those monthly files? DON'T KNOW, UNDOCUMENTED. Wherever I look, there are data files, no info about what they are other than their names.

Так... у нас нет файлов коэффициентов (только .eps графики или что-то типа того). Но что во всех этих файлах по месяцам? НЕ ЗНАЮ, НЕДОКУМЕНТИРОВАНО. Куда ни гляну - никаких файлов данных, никакой информации что там, кроме их названий.

...


... As far as I can see, this renders the station counts totally meaningless. It also means we cannot say exactly how the gridded data is arrived at from a statistical perspective ...

... Насколько я вижу, это делает учёт по станциям абсолютно бессмысленным. Кроме того это значит, что мы не можем точно сказать, со статистической точки зрения, откуда получены наши координатные данные ...

...

knowing how long it takes to debug this suite - the experiment endeth here. The option (like all the anomdtb options) is totally undocumented so we'll never know what we lost.

зная, сколько занимает дебаггинг этого пакета - эксперимент на этом заканчивается. Опция (как и все anomdtb опции) абсолютно недокументирована, так что мы никогда не узнаем, что именно мы потеряли.

(из письма)


We have been looking at the monthly precipitation totals over southern Africa (Angola, to be
precise), and have found some rather large differences between precipitation as specified in
the TS 2.1 data set, and the new TS 3.0 version. Specifically, April 1967 for the cell 12.75
south, 16.25 east, the monthly total in the TS 2.1 data set is 251mm, whereas in TS 3.0 it is
476mm. The anomaly does not only appear in this cell, but also in a number of neighbouring
cells. This is quite a large difference, and the new TS 3.0 value doesn't entirely tie in
with what we might have expected from the station-based precip data we have for this area.

Мы тут проверяли на данные по осадкам по месяцам в южной Африке (в Анголе, если быть точным) и обнаружили довольно сильную разницу между осадками согласно набору данных TS 2.1 и новой версии TS 3.0. В частности, данные за апрель 1967 по координатам 12.75 юг, 16.25 восток - 251 мм согласно TS 2.1, тогда как в TS 3.0 - 476. Довольно серьёзная разница и новые данные не слишком хорошо согласуются с тем, что мы ожидали бы получить от замеров осадков станциями в данном регионе.
...

I disagree with publishing datasets that are simple arithmetic derivations of other datasets published at the same time, when the real data could be published instead.. but no.

Мне не нравится публикация наборов данных, полученных арифметическими операциями над другими наборами данных, опубликованными в то же самое время - при том, что вместо этого могли бы быть опубликованы реальные данные... но нет.


Вообще поищите по строке "2.10" - там много интересного.

Но в целом это не столько о манипуляциях (хотя и о них тоже), а об ужасающем состоянии данных, из которых вообще нельзя делать никаких выводов - кроме выводов о тех, кто эти данные "систематизировал." Так что интересно будет, как я уже писал, в основном программистам.

Но есть в пакете и технические файлы, представляющие, так сказать, широкий общественный интерес. Вот, например, что написано в шапке одной из процедур:


Reads Harry's regional timeseries and outputs the 1600-1992 portion
; with missing values set appropriately.  Uses mxd, and just the
; "all band" timeseries
;****** APPLIES A VERY ARTIFICIAL CORRECTION FOR DECLINE*********

Читает регионально-временные серии Гарри и выводит отрезок 1600-1992 с соответственно выставленными потерянными данными. Использует mxd и "широкополосные" временные серии 
ПРОИЗВОДИТ ОЧЕНЬ ИСКУССТВЕННУЮ КОРРЕКЦИЮ СНИЖЕНИЯ


А вот другая программа - ещё интереснее:


IMPORTANT NOTE: The data after 1960 should not be used. The tree-ring density records tend to show a decline after 1960 relative to the summer temperature in many high-latitude locations. In this data set this "decline" has been artificially removed in an ad-hoc way, and this means that data after 1960 no longer represent tree-ring density variations, but have been modified to look more like the observed temperatures.

ВАЖНО: Данные после 1960 нельзя использовать. Записи плотности древесных колец указывают на снижение после 1960 относящееся к летним температурам во многих местах высокой широты. В этом наборе данных это "снижение" было искусственно убрано ad-hoc, и это значит, что данные после 1960 теперь не отражают вариации плотности древесных колец, но модифицированы, чтобы выглядеть более похоже на реально замеренные температуры.


Или здесь:


Specify period over which to compute the regressions (stop in 1960 to avoid the decline

Специфицируйте период, на котором рассчитывать регрессию (не заходите за 1960 чтобы избежать снижения)

Или вот:

we know the file starts at yr 440, but we want nothing till 1400

мы знаем, что файл начинается в 440 году, но мы не хотим ничего раньше 1400

- это потому, что в 800–1300 годах был период, называемый Средневековый оптимум (sic), когда по мнению очень многих учёных (и результатам многих реконструкций) температура была выше, чем сегодня - что, кстати, допускают во внутренней переписке и авторы украденных имейлов.

Ну и, наконец:

We have identified and
; artificially removed (i.e. corrected) the decline in this calibrated
; data set. 
...
; No need to verify the correct and uncorrected versions, since these
; should be identical prior to 1920 or 1930 or whenever the decline
; was corrected onwards from.

Мы идентифицировали и искусственно убрали (т.е. скорректировали) снижение в этом откалиброванном наборе данных.
...
Нет необходимости проверять корректные и нескорректированные версии, поскольку они должны быть идентичными до 1920 или 1930 или какого-то там года, с которого снижение было скорректированно.

Там на самом деле много чего есть интересного, всё не пересказать. Почитайте сами, если есть желание.




Comments