Постпроцессинг численных прогнозов приземных метеорологических параметров на основе нейросетевых методов
Оглавление
ВВЕДЕНИЕ
ГЛАВА 1. Используемые методы и данные
1.1. Обзор технологии искусственных нейронных сетей
1.2. Используемые наборы данных
1.3. Предпосылки и перспективы применения нейронных сетей в геофизике
1.4. Технические подробности реализации предлагаемого постпроцессинга
Выводы из главы 1
ГЛАВА 2. Систематическая коррекция и комплексификация прогнозов
2.1. Систематическая коррекция
2.2. Комплексный (мультимодельный) прогноз
Выводы из главы 2
ГЛАВА 3. Нейросетевая коррекция
3.3 Учет локальных параметров с помощью Embedding слоёв
3.4 Оценка важности различных предикторов
Выводы из главы 3
ГЛАВА 4. Интерполяция поправок по горизонтальным координатам
4.1. Корреляционные функции и оптимальная интерполяция
4.2. Квазилинейная неоднородная оптимальная интерполяция инкрементов
Выводы из главы 4
ГЛАВА 5. Сравнительные оценки качества прогнозов
5.1. Сравнительные оценки качества прогнозов температуры воздуха и точки росы
5.2. Сравнительные оценки качества прогнозов скорости ветра
5.3. Сравнительные оценки качества прогнозов давления
5.4. Сравнительные оценки качества прогнозов экстремальных температур воздуха
Выводы из главы 5
Заключение
Список сокращений и условных обозначений
Список литературы
Приложение А. Оценки прогнозов от начального срока 12:00 ВСВ
Приложение Б. Примеры продукции, использующей предлагаемый постпроцессинг
Приложение В. Письма руководителей и специалистов региональных управлений Росгидромета
Первая часть главы 1 содержит обзор технологий градиентного машинного обучения методом обратного распространения ошибки и искусственных нейронных сетей. Рассмотрены некоторые часто используемые типы слоёв нейронных сетей и процесс оптимизации параметров нейронных сетей.
При оптимизации модели F Xinput, j , методом машинного обучения с учителем все
параметры модели F оптимизируются напрямую на архиве из j 1,…,M реализаций входных
аргументов Xinput, j и целевых значений X fact, j : 1M
M j1
где e – заранее выбранный критерий качества (функция потерь, штрафная функция).
При градиентном машинном обучении для минимизации функционала L используется метод градиентного спуска. Нейронные сети эффективно обучать методом
градиентного спуска, поскольку для вычисления градиента L требуется примерно столько же
арифметических операций, сколько тратится на прямое вычисление F Xinput, j , .
Помимо параметров метод машинного обучения имеет также гиперпараметры –
параметры метода МО, которые невозможно оптимизировать методом обратного
распространения ошибки, поскольку эти параметры напрямую не участвуют в вычислении
прогноза FXinput,j,. Примеры гиперпараметров: размерности латентных (скрытых)
пространств и параметры алгоритма градиентного спуска.
Во второй части главы 1 кратко описаны используемые наборы данных: данные
наблюдений на синоптических станциях и прогностические данные по различным отечественным и зарубежным ЧМПП.
В третьей части главы 1 обсуждаются предпосылки использования именно нейронных сетей в задачах прогноза погоды и перспективы их применений. Приведен обзор результатов других авторов, применявших нейронные сети в моделировании атмосферных процессов.
В четвертой части главы 1 описаны технические и технологические подробности реализации постпроцессинга и структура разработанных программ и скриптов. При использовании модулей V220F суперкомпьютера T-Platforms V6000, оснащенных GPU- ускорителями Nvidia V100 PCI-E, ускорение по сравнению с вычислениями на процессорах общего назначения составило от 1.6 раза (для модели МО из главы 3) до 115 раз (для интерполяции из главы 4). Практическое применение интерполяции из главы 4 в оперативном режиме возможно только на GPU.
Глава 2 посвящена квазилинейной систематической коррекции (КСК) и квазилинейной комплексификации прогнозов (ККП) приземных метеорологических параметров.
L e Xfact,j,F Xinput,j, min,
XСt,X0t,
, (1)
Систематическая коррекция [Wilks, 2006] (первая часть главы 2) подправляет текущий прогноз, оценивая смещение ЧМПП по известным погрешностям прогнозов рассматриваемой ЧМПП в точке рассматриваемой синоптической станции. Комплексификация (вторая часть главы 2) использует аналогичный архив прогнозов, но уже по нескольким моделям ЧМПП и оценивает не только смещения, но и стандартные отклонения погрешностей рассматриваемых ЧМПП.
Обозначим X0 t, – прогноз параметра X от начального срока t с заблаговременностью
. Как правило, рассматривают систематическую коррекцию, являющуюся линейным оператором от известных погрешностей прогнозов рассматриваемой ЧМПП, то есть откорректированный прогноз XC t, вычисляется по формуле:
T
wt,t,Xtt, t
T
wt,t, t
где – округление заблаговременности вверх до целого количества суток;
Xt,XfacttX0t, – погрешность прогноза X0t,; Xfact – фактически измеренное на рассматриваемой синоптической станции значение параметра X; T –
длительность периода оценки, которая по результатам экспериментов была выбрана равна 35
дням; w – весовая функция, которую оптимизируем с целью минимизации функционала L дляпрогноза XCt,.
Предположим, что оптимальная весовая функция w положительна. Предлагаемая в диссертации КСК использует нейронную сеть для вычисления функции lnw. При таком подходе обеспечиваются:
применимость формулы (1) в случае отсутствия части прогностических данных или данных наблюдений;
частичная интерпретируемость коррекции;
если нейронная сеть принимает на вход известные погрешности прогнозов X , то
коррекция (1) становится квазилинейной.
При оптимизации комплексификации прогнозов нескольких ЧМПП ранее, как правило, предполагали, что
погрешности прогнозов распределены согласно заранее заданному статистическому закону;
2
комплексификация является линейным оператором от прогнозов рассматриваемых ЧМПП.
Если же расширить круг поисков оптимального алгоритма и существенно ослабить или отказаться от этих двух предположений, то качество полученных комплексифицированных прогнозов может возрасти. В главе 2 полностью откажемся от первого предположения, а второе предположение заменим на предположение о представимости оператора комплексификации в некоторой заранее заданной квазилинейной форме: при вычислении весов w используются известные погрешности комплексифицируемых ЧМПП.
На рисунке 1 сравнивается средняя абсолютная ошибка прогнозов модели COSMO-Ru в конфигурации COSMO-Ru6-ENA от начального срока 00:00 ВСВ, поправленных систематической коррекцией с различными весовыми функциями:
1. с постоянной весовой функцией w 1 (синие линии);
2. экспоненциальнойкоррекции(ЭК,зеленыелинии)wexpt,гдеconst;
3. линейной оптимизированной систематической коррекцией (ОСК, фиолетовые линии) wexpt 1Tt,Ttt, , где , – константы, которые были
оптимизированы;
4. квазилинейной систематической коррекцией (КСК, черные линии).
Из рисунка 1 и параграфов 2.1.5 и 2.2.4 диссертации следует, что использование нейронной сети для вычисления коэффициентов систематической коррекции улучшает качество прогнозов КСК по сравнению с ЭК на величину, соответствующую уменьшению заблаговременности на 1 сутки.
КСК и ККП были применены для коррекции прогнозов приземных метеорологических параметров в точках синоптических станций: температуры воздуха, точки росы, давления, приведенного к уровню моря, скорости и направления ветра, порывов ветра с заблаговременностью до 144 ч. КСК была настроена для коррекции прогнозов модели COSMO- Ru в конфигурациях COSMO-Ru13-ENA, COSMO-Ru6-ENA, COSMO-RuBy и COSMO-Ru1-Msk. ККП использует одновременно прогнозы 7 различных численных моделей прогноза погоды (ЧМПП) COSMO-Ru6-ENA, ECMWF, ICON-De, JMA, GFS, PLAV, UKMO.
Рисунок 1 – Средняя абсолютная ошибка прогноза температуры воздуха на высоте 2м (ось ординат) в зависимости от заблаговременности прогноза (ось абсцисс) различным образом
поправленных прогнозов COSMO-Ru6ENA отдельно для каждого месяца c августа 2019 г. по июль 2020 г.: с постоянной весовой функцией w 1 и с весовыми функциями ЭК, ОСК, КСК.
Глава 3 посвящена дополнительной коррекции по методу нейронный сетей (КНС). Рассмотрены три варианта применения такой коррекции:
к прогнозам по модели COSMO-Ru;
к прогнозам модели COSMO-Ru, подвергнутым процедуре квазилинейной
систематической коррекции (первая часть главы 2);
к прогнозам ККП (вторая часть главы 2).
В первой части главы 3 определен список используемых предикторов, в том числе значения прогностических полей, включая предыдущие прогнозы на тот же срок (большей заблаговременности, чем корректируемый прогноз), а задача оптимизации формулируется математически.
Во второй части главы 3 проведена оптимизация параметров и гиперпараметров нейронных сетей, подобраны оптимальные архитектуры и количество нейронов нейронных сетей.
В третьей части главы 3 рассмотрена возможность использования индивидуальных параметров для каждой синоптической станции в количестве E штук. Результаты сравнения результатов коррекции при E от 0 (индивидуальные параметры не используются) до 4 приведены в таблице 1. Видно, что использование индивидуальных параметров имеет смысл только в
случае, когда коррекции подвергаются оригинальные прогнозы COSMORu6-ENA, а при предварительном применении КСК использование индивидуальных параметров не эффективно.
Таблица 1 – Величина, на которую уменьшилась среднеквадратическая погрешность RMS на валидационном архиве прогнозов COSMORu6-ENA за 2020 г. при КНС прогнозов для различных метеорологических параметров при использовании различного количества E индивидуальных параметров для каждой синоптической станции
COSMO-Ru COSMO-Ru+КСК E0123401234
T , OС Td , OС
P0 , гПа
U , м/с
0.290 0.315 0.379 0.410 0.291 0.329
0.291 0.374
0.345 0.349 0.364 0.128 0.139 0.438 0.443 0.457 0.120 0.124 0.334 0.325 0.354 0.012 0.015
0.388 0.386 0.390 0.038 0.038
0.142 0.144 0.147 0.122 0.125 0.127 0.012 0.012 0.013
0.039 0.038 0.038
Таким образом, при предварительном использовании КСК
архив наблюдений за последние T 35 дней, используемый для применения КСК или ККП. Для оптимизации же предложенного в главе 3 коррекции КНС нет необходимости иметь многолетний архив наблюдений на всех синоптических станциях, для которых прогноз будет составляться в оперативном режиме.
В отличие от остальных глав, предложенная в главе 3 коррекция КНС является «черным ящиком», а поэтому в четвертой части 3 главы рассмотрен вопрос оценки важности (importance) различных используемых предикторов при вычислении поправок. Под важностью подразумевается наша оценка: насколько ухудшится качество прогноза при отбрасывании данного предиктора. Поскольку нейронная сеть является нелинейной функцией, вопрос оценки важности тех или иных используемых предикторов, используя лишь параметры уже обученной нейронной сети (без дополнительного обучения), является нетривиальным.
Классические решения этой задачи, например, метод class activation map [Zhou, Khosla et al., 2016], были разработаны для обработки изображений и предполагают, что значения всех предикторов (яркости различных пикселей изображения) распределены согласно одному и тому же вероятностному закону. Это предположение неверно для различных метеорологических полей (например, вероятностные распределения значений скорости ветра и температуры воздуха принципиально различны). Для оценки важности различных предикторов, метод permutation importance, примененный ранее в [Rasp, Lerch, 2018] для задачи оценки важности при коррекции ансамблевых прогнозов приземных метеорологических параметров.
или ККП достаточно иметь
Глава 4 посвящена предлагаемой квазилинейной неоднородной оптимальной интерполяции (КНОИ, кратко описана в [Bykov, 2021]) и её применениям для интерполяции поправок к прогнозам приземных метеорологических параметров по горизонтальным координатам.
В первой части главы 4 рассмотрено классическое решение задачи интерполяции метеорологических полей – метод оптимальной интерполяции [Гандин, 1963], реализованный диссертантом в рамках работы [Быков, Василенко и др., 2017].
Оптимальная интерполяция использует оценку корреляционной функции (КФ) K x, y
интерполируемого поля поправок X x. Для применимости оптимальной интерполяции нужно
обеспечить строгую положительную определенность K x, y. Проверить положительную
определенность КФ однородного поля можно согласно теореме Бохнера – Хинчина [Bochner, 1934], [Хинчин, 1938]. Для приземных метеорологических полей предположения об однородности поля являются весьма грубым, особенно в областях больших градиентов (вблизи атмосферных фронтов [Быков, Гордин, 2012], морского побережья, в горах, в мегаполисе [Varentsov, Samsonov, Demuzere, 2020]).
Следствие из теоремы Мерсера [Mercer, 1909] гарантирует для положительно-
определенного симметричного оператора на связанно компакте в n существование
выравнивающего отображения (другие названия: feature mapping, деформация) в некоторое
гильбертово пространство (известное как гильбертово пространство, воспроизводящее ядро, n
reproducing kernel Hilbert space [Aronszajn, 1950]). КФ скалярного поля X x, x
удовлетворяет теореме Мерсера, и выравнивающее отображение g x переводит поле X x в однородное и изотропное:
Kx,yK gxgy .
Выравнивающее отображение (деформация) аппроксимировалось с помощью кубических сплайнов [Sampson, 1992], [Anderes, Stein, 2008] и с помощью методов машинного обучения [Zammit-Mangion, Tin et al., 2019], [Xue, Wu, Sun, 2019]. Во всех этих работах авторы строили выравнивающее отображение, максимизируя логарифм правдоподобия рассматриваемой ковариационной модели. При такой оптимизации рассматривают лишь пары значений рассматриваемого поля в двух различных точках и предполагают, что значения интерполируемого случайного поля распределены согласно вероятностному распределению из заранее выбранного семейства. Однако этот выбор используемого семейства может повлиять на качество интерполяции.
Используемые на практике реализации метода оптимальной интерполяции метеорологических полей часто используют существенные предположения, влияющие на качество интерполяции:
а) однородность и изотропность интерполируемого поля по горизонтальным координатам; б) распределение значений интерполируемого поля согласно определенному вероятностному
распределению, например гауссовскому; в) линейность оператора интерполяции.
Диссертанту неизвестно о работах с использованием выравнивающего отображения в оперативных системах усвоения метеорологических данных. По-видимому, в настоящее время только в ансамблевых системах усвоения данных неоднородность метеорологических полей по горизонтальным координатам оценивается с учётом синоптической ситуации. Обзор различных методов усвоения данных в геофизике сделан в [Carrassi, Bocquet et al., 2018].
Во второй части главы 4 описана предлагаемая КНОИ, в которой эти три предположения заменены на более слабые. Предположение а) заменено на предположение о том, что неоднородности интерполируемого поля могут быть описаны некоторыми заранее заданными (быть может, меняющимися во времени) предикторами неоднородности. Предположение б) не используется. Предположение в) заменено на предположение о представимости оптимального оператора интерполяции в некоторой конечно-параметрической квазилинейной форме. Такое обобщение должно существенно улучшить качество интерполяции метеорологических полей, не являющихся однородными, однако причины неоднородности которых известны. А также полей, значения которых распределены согласно негауссовскому вероятностному закону.
В диссертации предлагается методика оценки условного выравнивающего отображения. Эта методика общая для различных реализаций интерполируемого поля, но учитывающая предикторы неоднородности – поля, описывающие причины неоднородностей полей метеорологических параметров. Причинами неоднородности и анизотропности метеорологических полей являются: неоднородность граничных условий (подстилающей поверхности Земли, космического излучения); внутренняя неоднородность, связанная с областями больших градиентов метеорологических параметров – атмосферными фронтами [Быков, Гордин, 2012]. В данной работе использовались предикторы неоднородности: поля первого приближения рассматриваемых метеорологических параметров; расположение Солнца на небе; высота поверхности Земли над уровнем моря.
При построении условного выравнивающего отображения сложно обеспечить его инъективность. Одно из возможных решений: рассматривать выравнивающее отображение
g : x x, f x , то есть являющееся графиком некоторой функции f x [Bornn, Shaddick,
нейронной сети, принимающей на вход предикторы неоднородности поля поправок X x.
Zidek, 2012]. В параграфе 4.1.4 предложено приближать эту функцию f x посредством
Чтобы отказаться от предположения о распределении значений интерполируемого поля согласно определенному статистическому закону, предлагается осуществлять минимизацию погрешности интерполяции в точку «пропущенной» станции напрямую, используя метод обратного распространения ошибки [Галушкин, 1974].
Предположение линейности оператора интерполяции можно ослабить, использовав известные значения метеорологического поля в точках синоптических станций при вычислении выравнивающего отображения. Это приводит к рассмотрению квазилинейного оператора интерполяции.
Рисунок 2 – Сравнение средней абсолютной погрешности прогнозов температуры воздуха на высоте 2 м (ось ординат) в зависимости от заблаговременности (ось абсцисс) по модели COSMO-Ru в конфигурации COSMO-Ru6-ENA за июль 2020 г. по Азиатской части
России, и проинтерполированных в точку «пропущенной» станции согласно КНОИ (красные линии) и согласно ОИ (зеленые линии).
Параметры предлагаемой КНОИ оптимизированы (параграф 4.2.3) для интерполяции поправок к приземным прогностическим полям модели COSMO-Ru (температуры воздуха и точки росы на высоте 2 м, скорости ветра и скорости порывов ветра на высоте 10 м, давления, приведенного к уровню моря), вычисленным КСК (глава 2). А также для интерполяции квазилинейного комплексного прогноза (ККП) с первым приближением по модели COSMO-Ru в конфигурации COSMO-Ru6-ENA.
На рисунке 2 показаны результаты сравнения средней абсолютной погрешности прогнозов температуры воздуха на высоте 2 м по модели COSMO-Ru в конфигурации COSMO- Ru6-ENA за июль 2020 г. по Азиатской части России, и откорректированным прогнозам,
полученных интерполяцией поправок в точку «пропущенной» синоптической станции согласно КНОИ и по методу однородной и изотропной оптимальной интерполяцией (ОИ).
Сравнительная проверка (параграф 4.2.4) предлагаемой КНОИ и ОИ, показала, что предположение однородности и изотропности адекватно для поля давления, приведенного к уровню моря, а для остальных рассмотренных приземных метеорологических полей – только на равнинных территориях в зимний период.
Глава 5 посвящена сравнительным оценкам прогнозов от начального срока 00:00 ВСВ, рассчитанных по предлагаемым постпроцессингом в оперативном режиме за период с 1 октября 2020 г. по 31 марта 2021 г. Проведено сравнение качества полученных прогнозов приземных метеорологических параметров (температуры воздуха и точки росы на высоте 2 м, скорости ветра и скорости порывов ветра на высоте 10 м, давления, приведенного к уровню моря) с исходными прогнозами ЧМПП с заблаговременностью до 144 ч.
Проведенные численные эксперименты показали, что качество комплексного прогноза (рассчитанного ККП+КНС) за холодный период года в среднем эквивалентно качеству поправленных КСК+КНС прогнозов модели COSMO-Ru в конфигурации COSMO-Ru6ENA с заблаговременностью, меньшей на 1-1.5 суток, которое близко или чуть лучше, чем качество прогнозов лучшей из доступных ЧМПП.
Комплексный прогноз минимальной ночной и максимальной дневной температур сравнивался с соответствующими прогнозами по методу РЭП и с прогнозами синоптиков УГМС на трое суток. Качество комплексного прогноза близко к качеству прогнозов УГМС с заблаговременностью, меньшей на 1-2 суток и близко по качеству к прогнозу РЭП с заблаговременностью, меньшей на 1 сутки.
Сравнение средней абсолютной ошибки прогнозов минимальной ночной и максимальной дневной температур воздуха на высоте 2 м комплексного прогноза с прогнозами, размещаемых на сайтах meteoinfo.ru, gismeteo.ru, yandex.ru, foreca.com, rp5.ru, meteovesti.ru, weather.com показано на рисунке 3 (предоставлен Н.А. Светловой). Видно, что качество прогнозов по территории России на сайте комплексного прогноза занимает первое место при заблаговременности прогноза до 3 суток, а при заблаговременности 4-5 суток делит первое и второе место с сайтом weather.com.
аб
–
а) по 33 городам в Европейской части России; б) по 20 городам в Азиатской части России.
Рисунок 3
Результаты сравнения средней абсолютной ошибки комплексного прогноза минимальной ночной и максимальной
дневной температур воздуха с прогнозами, представленных на интернет-сайтах
за период с 1 октября 2020 г. по 31 марта 2021 г.:
В заключении обсуждаются полученные результаты, способы использования продукции, рассчитываемой по предлагаемым постпроцессингом, возможные применения разработанного постпроцессинга для выпуска других видов продукции, а также возможные пути развития и усовершенствования предложенного постпроцессинга.
В приложении А приведены оценки, аналогичные оценкам из главы 5, но для начального срока 12:00 ВСВ.
В приложении Б приведены примеры продукции, использующей прогнозы, рассчитанные по предлагаемыми в диссертации постпроцессингом.
В приложении В приведены отзывы синоптиков региональных УГМС и ЦГМС о продукции, рассчитываемой предлагаемым постпроцессингом и предоставляемой на сайте методического кабинета ФГБУ «Гидрометцентр России».
Несмотря на все успехи применения численного моделирования атмосферы для задачи прогноза погоды, пользователи метеопрогноза могут быть неудовлетворены прогнозом численной модели прогноза погоды (далее ЧМПП) по двум основным причинам: а) если в прогнозе не представлена (или представлена в неудовлетворительной форме) интересующая пользователя информация о погоде; б) если ошибки предоставленных прогнозов велики.
Актуальность темы исследования
Уменьшить эти недостатки можно, применяя методы статистической интерпретации (постпроцессинга) ЧМПП. Задачи по интерпретации ЧМПП условно можно разделить на две группы согласно устраняемым недостаткам ЧМПП: а) задачи, целью которых является прогноз метеорологических параметров, отсутствующих в прогнозе ЧМПП; б) задачи коррекции, целью которых является улучшение качества прогноза ЧМПП.
Задачи первой группы могут решаться в двух концепциях [244]: либо в так называемой концепции точного прогноза (perfect prognosis), когда параметры постпроцессинга настраиваются по данным наблюдений или по данным из полей анализа, а при оперативном использовании вместо этих данных на вход ему подаются прогностические данные; либо в концепции model output statistic (MOS), когда параметры метода постпроцессинга сразу настраиваются по данным прогноза ЧМПП.
Цель задачи коррекции – вычислить поправки, улучшающие качество прогностической продукции, выдаваемой ЧМПП. Задача коррекции может решаться только в концепции MOS с использованием статистических методов, в том числе методами машинного обучения (МО). Для её решения необходимо иметь соответствующий архив данных.
Задача коррекции была и остается актуальной, поскольку в любой ЧМПП используется множество физических и вычислительных допущений, без которых было бы невозможно рассчитать прогноз к требуемому времени. Тем не менее, эти допущения могут существенно повлиять на качество прогноза для конечного пользователя. Для постановки математической задачи интерпретации (постпроцессинга) прогноза ЧМПП необходим архив данных наблюдений, также разумный и строго сформулированный заданный критерий качества.
Концепция точного прогноза имеет существенный недостаток: прогноз ЧМПП может иметь статистическую структуру, отличающуюся от статистической структуры используемых при настройке параметров данных наблюдений или анализа. Поэтому предварительное применение коррекции может улучшить прогноз, разработанный в концепции точного прогноза. Любой метод статистической интерпретации ЧМПП и принимает на вход некоторый набор предикторов, в том числе параметры, прогнозируемые ЧМПП (direct model output) и
применяет к ним некоторую линейную или нелинейную функцию (модель МО).
Применение линейных моделей МО не гарантирует достижения наилучшего возможного решения задачи интерпретации, но они сравнительно просты, общеприняты и наиболее разработаны. Существенно улучшить качество прогнозов линейных моделей возможно лишь, конструируя новые предикторы (так называемая задача feature engineering), что требует ручной работы специалиста. Конструирование новых предикторов часто улучшает качество прогноза и
при применении нелинейных моделей МО [227].
Линейные модели МО в метеорологии применяются традиционно [16], [67], [46], а также
разрабатываются традиционно различные нелинейные предикторы (индексы) поэтому вопрос о преимуществе новых нелинейных моделей МО над линейными остается актуальным.
Объект и предмет исследования
Объект исследования – погрешности прогностических полей ЧМПП.
Предмет исследования – моделирование поправок к полям ЧМПП нейронными сетями.
Цель исследования
Основной целью диссертационной работы является разработка основанного на применении нейросетевых методов нового автоматизированного комплекса постпроцессинга выходной продукции одной или нескольких численных прогностических моделей с учетом последних наблюдений (за период длительностью T) приземных метеорологических величии на синоптических станциях. Необходимо, чтобы разработанный комплекс:
o былприменимвслучаяхчастичногоотсутствияпрогностическойинформацииивслучаях отсутствия (отбраковки алгоритмом контроля качества) части данных наблюдений за период T;
o обеспечивал получение прогностических данных в местах расположения синоптических станций и в узлах модельной сетки;
o уточнял результаты численных прогнозов погоды;
o мог работать в оперативном режиме на доступных вычислительных системах. Задачи исследования
Были сформулированы и решены с применением нейросетевых методов следующие задачи:
систематическая коррекция (комплексификация) прогнозов приземных метеорологических параметров в местах расположения синоптических станций; поправка вычисляется как результат применения к известным погрешностям (за период длительностью T) прогнозов модели (моделей) нелинейного оператора, коэффициенты которого вычисляются нейронной сетью;
определение поправок к прогнозам ЧМПП, учитывающий сдвинутые по начальному сроку и заблаговременности прогнозы;
реализована квазилинейная неоднородная оптимальная интерполяция (КНОИ) по горизонтальным координатам для вычисления поправок к прогностическим полям приземных метеорологических параметров в точках модельной сетки; КНОИ использует нейронные сети для учёта неоднородностей полей поправок;
оптимизация параметров нейронных сетей, использованных в предложенном постпроцессинге приземных прогностических полей одной и нескольких ЧМПП;
сравнение различных конфигураций предлагаемого постпроцессинга;
Предложенный постпроцессинг протестирован в непрерывном режиме счета и на большом статистически независимом архиве. Получены сравнительные оценки качества прогнозов, составляемых путем применения предлагаемого постпроцессинга и других известных методов.
Причины выбора именно квазилинейных методов пояснены в первой главе, параграф 1.3.4.
Методология и методы исследования
Для решения сформулированных в диссертационной работе задач использованы теоретические результаты и методы линейной алгебры, математического анализа, функционального анализа, интерполяции, оптимизации, математической статистики и теории вероятностей, теории случайных полей, статистической обработки больших данных, нейронных сетей и машинного обучения, а также методы структурного и объектно-ориентированного программирования и различные методики оценки качества метеорологических прогнозов. Использованы архивы прогнозов различных ЧМПП в точках синоптических станций и архивов наблюдений на синоптических станциях (используемые архивы описаны во второй части главы 2).
Сформулируем основную задачу машинного обучения (МО) – подробнее задача и её
решение методом нейронных сетей рассмотрены в главе 1. Применение МО возможно при
наличии достаточно большого архива данных из M реализаций вектора (тензора) предикторов
Xinput,j,j1,…,M размерности N0 каждый, которые будут известны в момент составления
прогноза и соответствующие им результаты наблюдений X fact, j . Допустим, что заданы:
а) параметрическое семейство моделей МО X pred F Xinput , , где Xinput – аргументы n
(предикторы); – параметры, которые будем оптимизировать; X pred – предсказание модели;
б) функция потерь eX fact , X pred – функция, выпуклая вверх по второй переменной;
тогда имеет смысл задача минимизации штрафного функционала L , вычисляемого как
среднее значение функции потерь e по архиву: 1M
L eX
fact,j
,FX , min, (1.1) input,j
M j1
Оптимизационная задача (1.1) называется задачей машинного обучения с учителем или
обучением модели F Xinput , . Выделим четыре основных подхода к построению моделей МО:
1. Линейный подход: модель – линейная [244];
2. Решающие деревья: модель – кусочно-постоянная [206], [114];
3. Нейронные сети: модель – нейронная сеть [215], [51], [85], [108];
4. Генетическое программирование: модель – композиция некоторых заранее заданных
«элементарных» функций [173], [174].
В линейном подходе функция F Xinput , линейна по обеим переменным: T
FXinput, Xinput. Рассмотрим в качестве функции потерь квадрат евклидова расстояния между предсказанными и фактическими значениями e X fact X pred L , тогда задача (1.1) является классической задачей линейной регрессии, которая может быть решена методом
наименьших квадратов.
1. модель МО параметрам ;
непрерывна
по обеим
переменным
и кусочно-гладка по
F Xinput ,
Некоторые модели МО допускают наличие пропусков некоторых компонент Xinput в некоторых реализациях. Например, применим метод наименьших квадратов: для его применения
достаточно оценить положительно определенную ковариационную матрицу, а при отсутствии
части Xinput решать систему линейных алгебраических уравнений (СЛАУ) на коэффициенты
линейной регрессии с соответствующим минором ковариационной матрицы. Отметим, что оценка ковариационной матрицы по неполным данным может приводить к вырожденной или плохо обусловленной ковариационной матрице [45].
При постпроцессинге применяются решающие деревья [90], [91], делаются (причем, не всегда удачные [139], [194]) попытки применения ансамблей решающих деревьев. В последнее время все более применение находят применение и нейронные сети [180], [209], [28], [235].
Чтобы обучать модели с большим количеством параметров (большой размерностью вектора параметров n ) на больших архивах данных необходимо применять эффективные
методы обучения, например методы градиентного спуска [68], [37], [63]. Если выполнены условия:
2. градиент F Xinput , равномерно ограничен во всей рассматриваемой области в пространстве параметров;
3. функция потерь eX fact , X pred непрерывна и кусочно-гладка по второму аргументу,
то для оптимизации функционала L можно использовать различные варианты метода градиентного спуска (градиентный метод МО). При нелинейном градиентном МО наиболее
эффективными оказываются модели МО F Xinput , :
а) основанные на ансамблях деревьев решений [114], которые кусочно-постоянны по первому аргументу;
б) использующие нейронные сети [85], [108], которые кусочно-гладки по обоим аргументам. Опишем некоторые преимущества и недостатки различных способов построения моделей МО и тем самым обоснуем наш выбор нейронных сетей. Более подробно выбор нейронных сетей
обоснован в 3 части первой главы. Решающие деревья широко применяются при прогнозировании явлений погоды. Например, в [90] при прогнозе метеорологических условий для авиации для каждого аэропорта строится своё решающее дерево.
В последние годы методика решающих деревьев была существенно усовершенствована и стали рассматриваться ансамбли решающих деревьев, например, случайный лес и градиентный бустинг над решающими деревьями (gradient boosting decision trees) [114], [184]. При градиентном бустинге обучение деревьев происходит поэтапно, а именно каждое следующее дерево обучается на погрешностях ансамбля деревьев, построенного на предыдущем шаге алгоритма. Существенным недостатком метода решающих деревьев для его применения в метеорологии является отсутствие достаточно проработанных подходов к обработке временных рядов и полей.
И нейронные сети, и градиентный бустинг над решающими деревьями, как правило,
обучаются методом градиентного спуска, и функционал качества L в процессе обучения
убывает достаточно быстро.
При генетическом программировании модель МО строится как композиция некоторых
заранее заданных «элементарных» функций. Преимущества генетического программирования: быстрое применение найденной модели; отсутствие переобучения; отсутствие ограничений на оптимизируемый функционал и рассматриваемые элементарные функции. Последнее означает, что возможна оптимизация разрывных (кусочно-постоянных) функционалов качества и моделей. Недостатки: обучение происходит генетическим алгоритмом [173], который является алгоритмом перебора с применением различных эвристик, что делает процесс обучения чрезвычайно затратным с вычислительной точки зрения (хотя он очень хорошо распараллеливается).
Поскольку существующие ЧМПП основаны на решении дифференциальных уравнений в частных производных в предположении гладкости метеорологических полей, то применение разрывной модели решающих деревьев зачастую возможно лишь при постпроцессинге. Из нелинейных подходов наибольшей популярностью в метеорологии пользуются нейронные сети [180], [235], которые обеспечивают непрерывность (гладкость) модели МО и хорошо подходят для обработки больших объемов информации. Кроме того, нейронные сети позволяют легко обучать квазилинейные методы, применимые в том числе и при отсутствии информации о некоторых из предикторов (параграф 1.3.4).
Учитывая вышесказанное (более подробное обоснование приведено в третьей части главы 1), по мнению диссертанта, наиболее перспективным из подходов к построению моделей машинного обучения в метеорологии является подход нейронных сетей. Научная новизна
В диссертационной работе получены следующие новые научные результаты:
Использование нейронных сетей для вычисления коэффициентов систематической коррекции по сравнению систематической коррекцией с экспоненциально убывающими весами уменьшает среднюю погрешность прогнозов приземной температуры воздуха на
величину, эквивалентную уменьшению заблаговременности на 1 сутки (глава 2);
Разработан автоматизированный метод коррекции с помощью нейронных сетей (КНС, глава 3) для расчета нелинейных поправок к прогностическим полям. КНС учитывает индивидуальные параметры для каждой синоптической станции и сдвинутые по начальному сроку и заблаговременности прогнозы. Определены оптимальные гиперпараметры метода КНС для различных корректируемых метеорологических
параметров, прогнозируемым по различным методам;
Предложен метод двумерной квазилинейной неоднородной анизотропной оптимальной
интерполяции (КНОИ, глава 4). КНОИ применяет к известным значениям интерполируемого поля квазилинейный оператор, коэффициенты которого вычисляются методом оптимальной интерполяции [36] после вычисляемого нейронной сетью вложения рассматриваемой двумерной области на поверхности Земли в пространство бо̀льшей размерности. КНОИ по сравнению с обычной однородной оптимальной интерполяцией позволило объяснить (в 1.5 и более раз) большую часть дисперсии найденных ранее поправок в точках синоптических станций.
Положения, выносимые на защиту
1. Новая алгоритм систематической коррекции прогнозов приземных метеорологических параметров для вычисления поправок путем применения оператора с коэффициентами, вычисляемыми нейронной сетью, к известным погрешностям численной модели.
2. Новый алгоритм комплексификации прогнозов нескольких численных моделей, основанный на методе нейронных сетей.
3. Новый алгоритм квазилинейной неоднородной оптимальной интерполяции (КНОИ) инкрементов приземных метеорологических параметров. Алгоритм КНОИ реализует метод оптимальной интерполяции с корреляционной функцией, зависящей от расстояния не в геометрическом пространстве, а в линейном пространстве большей размерности. Вложение в пространство большей размерности вычисляется нейронной сетью и учитывает предикторы неоднородности (в том числе поля первого приближения). Этот учет предикторов неоднородности позволяет объяснить бо̀льшую часть дисперсии интерполируемого поля.
Практическая значимость работы
Предлагаемый автоматизированный комплекс постпроцессинга применяется в повседневной практике и результаты публикуются на интернет-сайтах (примеры продукции, использующей прогнозы, рассчитанные по предлагаемым постпроцессингом, представлены в приложении Б):
o методического кабинета ФГБУ «Гидрометцентр России» (далее Гидрометцентр России) http://method.meteorf.ru/ansambl/ansambl.html для населенных пунктов России и Беларуси. Прогнозы с заблаговременностью до 96 ч доступны в виде карт по каждому из регионов РФ, а для некоторых населенных пунктов – в виде метеограмм с заблаговременностью до 144 ч;
o проектавсемирнойметеорологическойорганизации(ВМО)попрогнозированиюсуровых погодных условий в Центральной Азии http://swfdp-ca.meteoinfo.ru/prognozy/mmforecasts для населенных пунктов Центральной Азии в виде метеограмм;
o Численных прогнозов погоды для метеорологического обеспечения http://u2019.meteoinfo.ru/services на метеограммах прогнозов по модели COSMO-Ru в конфигурациях COSMO-Ru6ENA и COSMO-RuBy демонстрируются графики поправленных прогнозов температуры и точки росы на высоте 2 м;
o «О погоде для специалистов» Гидрометцентра России https://special.meteoinfo.ru/ для населенных пунктов России в разделах «метеограммы» (дублируются метеограммы с сайта методического кабинета и с сайта численных прогнозов погоды для метеорологического обеспечения) и «прогнозы по пунктам».
Качество этих прогнозов оперативно оценивается, и их результаты оперативно публикуются на сайте методического кабинета Гидрометцентра России. Полученные оценки качества полученных прогнозов максимальной дневной и минимальной ночной температур превосходят соответствующие оценки качества прогнозов синоптиков УГМС.
Имеются отзывы, положительно отмечающие полезность и качество представляемых на сайте методического кабинета Гидрометцентра России прогнозов от синоптиков Приволжского УГМС, Саратовского ЦГМС, Читинского ГМЦ, Ульяновского ЦГМС, Дальневосточного УГМС, Мурманского УГМС, Владимирского ЦГМС (приложение В).
Личный вклад автора
Все представленные в диссертации результаты получены лично автором. Автор лично предложил и реализовал в программном виде предлагаемые методы и провел их отладку, обучение, валидацию, тестирование и организовал работу в автоматизированном режиме.
Апробация работы
Основные положения и результаты диссертации докладывались и обсуждались на международных и российских научно-технических конференциях и семинарах:
1. «М.А.Петросянц и отечественная метеорология» в 2009 и 2019 годах.
2. Научная сессия Совета РАН по нелинейной динамике в 2009, 2011, 2014, 2016, 2019 годах.
3. XXVIII International Conference on Mathematical Geophysics “Modelling Earth Dynamics:
Complexity, Uncertainty and Validation” в 2010 году.
4. European Geophysical Union General Assembly в 2011 году.
5. XX Всероссийская конференция «Теоретические основы и конструирование численных
алгоритмов решения задач математической физики» в 2014 году.
6. XVI Всероссийская открытая конференция «Современные проблемы дистанционного
зондирования земли из космоса» в 2016 году.
7. The China-Russia Conference on Numerical Algebra with Applications (CRCNAA) в 2017
году.
8. Вторая научно-практическая конференция «Современные информационные технологии в
гидрометеорологии и смежных с ней областях» в 2017 году.
9. V Международная научная конференция «Региональные проблемы дистанционного
зондирования Земли» в 2018 году.
10. Вторая Всероссийская научная конференция с международным участием «Применение
средств дистанционного зондирования Земли в сельском хозяйстве» в 2018 году.
11. Семинар в главной геофизической обсерватории им. А.И.Воейкова в 2018 году.
12.Межвузовская научно-техническая конференция студентов, аспирантов и молодых
специалистов им. Е.В. Арменского в 2019 и 2021 годах.
13. COSMO General Meeting в 2020 году.
14. International Conference on Computer Simulation in Physics and beyond в 2020 году.
15. ICON/COSMO/CLM/ART User Seminar (ICCARUS) в 2020 и 2021 годах.
16. Семинар лаборатории вычислительного интеллекта Сколковского института науки и
технологий в 2021 году.
Публикации
Основные результаты по теме диссертации изложены в 16 научных работах, 6 из которых изданы в периодических научных журналах, рекомендованных ВАК и индексируемых в базе данных Scopus; 1 — в материалах конференций; 5 — в сборниках тезисов конференций.
Разработки по теме исследования
Методы машинного обучения в общем (и, в частности, нейронные сети) рассматривались многими авторами для задач постпроцессинга полей приземных метеорологических параметров. Статистическая структура метеорологических полей изучалась при помощи разложений метеорологических полей на естественные ортогональные составляющие (ЕОС) [16], [65], [55], [59], [57]. Так как коэффициенты разложения на первые ЕОС более устойчивы к шумам, чем исходные метеорологические поля, то получающиеся на их основе статистические прогнозы
метеорологических величин в некоторых случаях оказываются точнее [244], [67], [46].
Хотя использование ЕОС не позволяет выйти из класса линейных моделей МО, устойчивость метода разложения на ЕОС позволяет искать параметры, индивидуальные для отдельных групп случаев, например, для отдельных регионов, временных периодов или
синоптических ситуаций.
Опишем сначала преимущества использования именно нейронных сетей с теоретической
точки зрения, а затем перейдём к описанию конкретных результатов.
Нейронные сети являются гладкой (кусочно-гладкой) моделью МО. Любую непрерывную
функцию на n-мерном кубе можно приблизить нейронной сетью в метрике C [128], [254], параграф 1.1.3. Нейронные сети с вычислительной точки зрения хорошо подходят для обработки большого объёма данных и не предполагают, что значения исследуемых параметров распределены согласно какому-то вероятностному распределению.
Нейронные сети типа автокодировщик (autoencoder) [113], [208] являются нелинейным обобщением идеи ЕОС. Последовательное рассмотрение нескольких автокодировщиков приводит к так называемым глубоким нейронным сетям [156], [109].
Большой обзор применения МО в задачах прогноза погоды сделан в книге [180], а в задачах постпроцессинга ЧМПП – в недавнем обзоре [235]. Приведем некоторые результаты по коррекции прогнозов ЧМПП.
В [209] предлагается для коррекции среднего и разброса ансамблевых прогнозов использовать нейронные сети с индивидуальными параметрами для каждой синоптической станции (так называемые Embeddings). Использовались данные с 537 синоптических станций на территории Германии. Показано, что добавление Embedding улучшает качество ансамблевых прогнозов приземной температуре воздуха c заблаговременностью 48 ч в метрике continuous ranked probability score (CRPS) на 10%: с 0.9 OC до 0.82 OC.
В [150] предложено использовать свёрточные нейронные сети (convolution neural network, CNN) специальной конфигурации U-net [214] для коррекции среднего и разброса ансамблевых прогнозов с заблаговременностью 48 ч. Прогнозы сравнивались с полями анализа. При количестве членов ансамбля от 1 до 9 применение коррекции эквивалентно уменьшению количества членов ансамбля на 1-2, например, качество откорректированного прогноза с 8 членами близко к качеству исходных прогнозов с 10 членами ансамбля. При 10 членах ансамбля эффект, выраженный в процентном уменьшении среднеквадратической ошибки RMS, при коррекции поля T850 (RMS уменьшилась на 7.9% при использовании CNN против 4.8% при использовании линейного метода) существенно больше эффекта при коррекции поля H500 (RMS уменьшилась на 2.6% при использовании CNN против 2.1% при использовании линейного метода).
В [225] для коррекции ансамблевых прогнозов температуры и количества осадков на территории Западной Европы применяется метод, основанный на ансамблях решающих деревьев (так называемых случайных лесах), использующий в том числе, данные об орографии. Использовались данные с 2000 синоптических станций. Продемонстрировано улучшение качества ансамблевых прогнозов приземной температуры воздуха в метрике CRPS с 1.3-1.5OC у исходных прогнозов до 0.7-1.2 OC у откорректированных (в зависимости от заблаговременности прогноза, которая не превосходит 90 ч).
В [191] предложено использовать нейронные сети для поиска корреляционных связей прогнозов на срок от 2 недель до 2 месяцев. Из более ранних работ [86], [80], [189] (не использующих нелинейное машинное обучение) известно, что при прогнозировании на такие сроки оказывают влияние нелокальные статистические связи, задача выявления которых не тривиальна, особенно при использовании нелинейных статистических моделей.
Во всех приведенных работах данные наблюдений используются только при обучении модели МО. Использование данных наблюдений так же и при применении модели МО может заметно уменьшить погрешности откорректированного прогноза, но тогда возникает проблема применимости коррекции вне мест расположения синоптических станций.
Перейдем к обзору результатов прогнозирования методами машинного обучения параметров и явлений, которые рассматриваемая численная модель не прогнозирует.
В статье [139] проведено сравнение различных подходов к задаче постпроцессинга ансамблевых прогнозов осадков на территории США. Прогнозы сравнивались с данными композита радарных наблюдений. Показано, что качество прогнозов с заблаговременностью 30 ч, полученных линейной логистической регрессией, в среднем немного лучше прогнозов, полученных методом случайного леса.
В работе [192] в задаче прогноза скорости порывов ветра на 50 аэродромах и озерах в Швейцарии сравнивались результаты постпроцессингов, основанных на генетическом программировании и на традиционном методе логистической регрессии. Показано, что среднее качество прогнозов, полученных этими методами весьма близко (процент попаданий 80-81% против 55% у исходных прогнозов модели COSMO (Consortium for Small-scale Modeling) [122] в конфигурации COSMO-EE-2 при близком количестве ложных тревог), но метод, основанный на генетическом программировании, имеет меньший разброс качества для различных прогностических пунктов. В [192] продемонстрировано, что предупреждения, выдаваемые синоптиками, имеют существенно меньший процент попаданий.
В статье [194] производилось сравнение постпроцессингов, основанных на случайном лесе, и некоторых линейных методов по территории США для прогноза различных редких явлений. Например, при прогнозе града размером более 25мм качество прогнозов, полученных с помощью леса решающих деревьев и лучшим из рассмотренных линейных методов, совпадает. При прогнозе турбулентности на высоте полета самолетов метод, основанный на решающих деревьях, имеет преимущество.
В работе [251] предложена методика прогноза вероятности конвективных явлений с заблаговременностью до 48 ч, основанный на свёрточных нейронных сетях (CNN) с 1,65×106 параметров. Для прогноза вероятности конвективных явлений CNN принимает на вход 144 поля метеорологических параметров на 1O сетке в окрестности размера 7Oх7O вокруг данной точки. Для обучения использованы архивы наблюдений на 20000 автоматических и 2420 синоптических станций на территории Китая. Продемонстрировано, что прогнозы, вычисленные CNN, превосходят по качеству прогнозы, полученные другими методами (решающие деревья, линейные методы). Также на архиве за 2015-2017 года прогнозы CNN сравнивались с независимыми прогнозами синоптиков. Прогнозы, сделанные синоптиками, имели большее количество ложных тревог при прогнозировании грозы при аналогичной предупрежденности, а при прогнозировании сильного дождя, града и конвективных явлений имели примерно в 2 раза меньшую предупрежденность чем прогнозы CNN при аналогичной доле ложных тревог.
Суммируем результаты обзора применений машинного обучения в постпроцессинге численных прогнозов. Оценки качества прогнозов, полученных методом решающих деревьев, не всегда демонстрируют превосходство над линейными методами. Наиболее перспективным подходом к постпроцессингу среди нелинейных методов является подход нейронных сетей [235]. При прогнозировании методами машинного обучения параметров и явлений, которые рассматриваемая ЧМПП не прогнозирует, не во всех задачах наилучший результат дают новые, нелинейные методы. Наиболее интересные результаты демонстрируют реализации методов, при обучении которых использованы большие архивы фактической и соответствующей прогностической информации.
Благодарности
Автор благодарит научного руководителя доктора физико-математических наук В.А.Гордина за полезные обсуждения, ссылки на литературу и критику текста диссертации, которые помогли сделать текст лучше.
Автор выражает благодарность сотрудникам ФГБУ «Гидрометцентр России»: А.Н.Багрову за помощь в работе с архивами наблюдений на синоптических станциях и прогнозов иностранных и отечественных ЧМПП, а так же за возможность использовать программные коды разработанной им системы оценок качества прогнозов приземных метеорологических параметров; Г.С.Ривину, без поддержки и наставничества которого работа могла не состояться; Д.В.Блинову за техническую помощь в работе с архивами прогнозов модели COSMO-Ru и за визуализацию данных; А.Ю.Бундель, А.В. Муравьёву, И.А.Розинкиной, А.В.Романову, Л.Л.Тарасовой и М.Д.Цырульникову за полезные обсуждения и ссылки на литературу; Ю.А.Степанову за помощь в настройке и обеспечении совместимости используемых прикладных программ; И.И.Жабиной, И.И.Кулаковой и А.Ю.Недачиной за организацию и техническую поддержку используемых баз данных «Прогноз» Гидрометцентра России; Н.А.Светлову, Е.Н.Шакотько и И.А.Уманскую за поддержку сайта комплексного прогноза и проведенные сравнения прогнозов, размещенных на некоторых интернет-сайтах.
Автор благодарит директора ФГБУ «ГВЦ Росгидромета» С.В.Лубова за помощь с установкой используемых Python пакетов на суперкомпьютерные системы Cray XC40-LC и T- Platforms V6000 и предоставление доступа к этим вычислительным комплексам.
Публикации автора в научных журналах
Помогаем с подготовкой сопроводительных документов
Хочешь уникальную работу?
Больше 3 000 экспертов уже готовы начать работу над твоим проектом!