Прогнозирование химических сдвигов ЯМР 13С производных фуллерена С60 с использованием искусственных нейронных сетей
Введение
1 Литературный обзор
1.1 Искусственные нейронные сети
1.2 Искусственные нейронные сети в структурных ЯМР-исследованиях
2 Экспериментальная часть
3 Результаты и обсуждение
3.1 Обучающая выборка
3.2 Определение дескрипторов. Связь частичного атомного заряда и химического сдвига ЯМР 13С
3.3 Архитектура искусственной нейронной сети. Нормализация данных. Обучение и регуляризация
3.3.1 Определение количества скрытых слоев. Нормализация
3.3.2 Выбор активационной функции скрытых нейронов
3.3.3 Регуляризация
3.4 Оценка прогностической способности разработанных моделей
Выводы
Список сокращений и условных обозначений
Список литературы
Приложение А. Структуры молекул, входящие в выборку
Приложение Б. Значения RMSE для соединений 1-5
Приложение В. Диаграммы MAE для гибридных функционалов
Приложение Г. Диаграммы RMSE для гибридных функционалов
Приложение Д. Линейные регрессионные модели зависимости частичного атомного заряда и ХС ЯМР 13С
2.1 Обучающая выборка. Квантовохимическая оценка
величины химических сдвигов ЯМР 13С атомов фуллеренового
каркаса
Успешное решение задач с использованием методов
машинного обучения в первую очередь обусловлено наличием
информативной выборки исходных данных. В качестве объектов
исследования выбрано 47 моноаддуктов фуллерена С60
с экспериментально отнесенными сигналами ЯМР 13С, которые были
взяты из экспериментальных данных, полученных методом
INADEQUATE. Обучающая выборка была составлена на основе
37 случайно отобранных соединений из сформированной
выборочной совокупности. Оставшиеся 10 соединений были
использованы в качестве независимого тестового набора
дляпроверкипрогностическойспособностиобученных
нейросетевых моделей. Примеры молекул, вошедших в набор для
тестирования, представлен на рисунке 1.
Поскольку каркас фуллерена содержит 60 атомов углерода,
получено 2220 обучающих примеров и 600 независимых тест-
примеров с известными экспериментальными значениями
ХС ЯМР 13С каждого атома углерода, входящего в фуллереновый
остов.
Следует отметить, что в литературных источниках
отсутствовали отнесения сигналов ЯМР 13С фуллеренового ядра
по ряду причин. Поэтому, была поставлена задача выбора
адекватного теоретического метода оценки величины ХС ЯМР 13С
атомовуглеродногокаркасафуллеренаС60. Наиболее
распространенными методами расчета ХС являются методы теории
функционала плотности (DFT, Density Functional Theory). Одним
из классических функционалов, применяемых для оценки величин
констант экранирования ЯМР (химических сдвигов), является
трехпараметрический B3LYP.
Рисунок 1 – Структуры молекул монопроизводных фуллерена С60,
вошедшие в тестовую выборку
Однако, в мировой литературе отсутствует оценка влияния
метода расчета на точность воспроизведения экспериментальных
значений ХС ЯМР 13С аддуктов С60.
Для проведения квантовохимических расчетов ХС ЯМР 13С
ряда производных С60 использованы сочетания шести гибридных
функционалов (B3LYP, B3PW91, B97‐2, mPW1PW91, PBE1PBE,
X3LYP) и семи различных базисных наборов (3‐21G, 6‐31G,
6‐31G(d), 6‐31G(d,p), 6‐31G(d,2p), LanL2DZ, SDDAll), включая два
ECP-базиса (LanL2DZ, SDDAll; ECP – effective core potentials,
эффективные потенциалы ядер). В качестве модельных соединений
были использованы эталонный фуллерен С60, три его моноаддукта
и один бис-аддукт, для которых известны однозначные отнесения
сигналов ЯМР 13С, полученные методом INADEQUATE. Структуры
модельных соединений представлены на рисунке 2.
В результате квантовохимических вычислений установлено,
что расширение базиса 6-31(G) поляризационными и диффузными
функциями (например, базисы 6‐31G(d,p) и 6‐31G(d,2p)) не приводит
к увеличению точности расчета независимо от рассматриваемого
DFT-функционала.Показано,чтонаиболееподходящим
квантовохимическим методом оценки ХС ЯМР 13С фуллеренового
каркаса является сочетание гибридного функционала X3LYP
базисного набора 6-31(G). Среднеквадратичная и средняя
абсолютная ошибки составляют 1,197 м.д. и 0,856 м.д.
соответственно.
Рисунок 2 – Структуры молекул фуллерена С60 и его производных,
использованные в квантовохимических расчетах
Таким образом, исходная выборка была расширена за счет
отнесения сигналов ЯМР 13С с использованием расчетных значений
ХС, полученных методом теории функционала плотности.
2.2 Атомные дескрипторы
Одним из ключевых этапов в разработке любой ИНС
являетсяопределениедескрипторов(признаков/факторов),
определяющих форму входных данных (численное представление) и
выходное значение нейросетевой модели. В случае производных
фуллерена С60 входными параметрами ИНС являются атомные
дескрипторы – физико-химические, геометрические и логические
(бинарные) параметры, набор которых характеристичен для каждого
рассматриваемого атома углерода в молекуле. Сочетание
дескрипторовопосредованноопределяетзначениеХС.
Следовательно, корректно определенные атомные признаки
в определенной степени могут обеспечить высокую точность
прогнозов ИНС. Классический подход для вычисления дескрипторов
для каждого атома рассматриваемой молекулы HOSE1 (Hierarchically
Ordered Spherical description of Environment; иерархически
упорядоченное сферическое описание окружения заключается в
разделении молекулы N топологическими сферами. Каждая из сфер
содержит атомы, отделенные от рассматриваемого атома n
ковалентными связями. В свою очередь, каждый атом внутри i-й
сферы имеет несколько уникальных характеристик (физические
параметры, геометрия и т.д.), которые представляют собой описание
i-й сферы и, соответственно, рассматриваемого атома в целом.
Пример такого топологического разделения молекулы приведен
на рисунке 3.
Рисунок 3 – Графическое представление сфер HOSE (красные,
зеленые и оранжевые точки принадлежат к 1-й, 2-й и 3-й сферам
соответственно; стрелка указывает на рассматриваемый атом)
Однако, этот подход не учитывает пространственное
расположение и, как следствие, взаимное влияние соседних атомов
в молекуле. Позднее HOSE был дополнен пространственным
Bremser, W. Hose – a novel substructure code / W. Bremser // Analytica
Chimica Acta – 1978. – V. 103 – № 4 – PP. 355–365.
представлением Ялали-Херави2: каждая сфера представляет собой
геометрическое расстояние от рассматриваемого атома до его
соседей. Количество таких сфер варьируется в зависимости от типа
рассчитываемого дескриптора.
Согласно схеме Ялали-Херави, количество сфер окружения
рассматриваемого атома углерода, для которых рассчитаны физико-
химические, геометрические и бинарные дескрипторы соседей,
принято равным пяти с шагом в 1 Å. Такое количество сфер
обусловлено физическим межатомным расстоянием, на котором
возможнонаблюдениеЯМР-эффектаNOESY(ядерная
спектроскопия с эффектом Оверхаузера, Nuclear Overhauser effect
spectroscopy), а, следовательно, проявляется влияние атомов-соседей
на расстоянии 6 Å. Каждый атом, заключенный между двумя
соседними сферами, принадлежит к конкретной области.
Таким образом, получено наиболее полное описание
пространственного окружения каждого рассматриваемого атома
углерода. Кроме того, описанный выше ряд дескрипторов расширен
включением частичных атомных зарядов, как факторов, влияющих
на ХС ЯМР 13С.
Рассмотрены три класса частичных атомных зарядов3:
1) Класс II. Частичные атомные заряды Хиршфилда (HPA,
Hirshfield Population Analysis) и Малликена (MPA, Mulliken
Population Analysis). Численное определение зарядов данного класса
основывается на электронной плотности, получаемой в ходе
квантовохимических вычислений.
2) Класс III. Частичные атомные заряды Ху-Лу-Янга (HLY,
Hu-Lu-Yang). Основаны на физически наблюдаемых величинах,
подобно электростатическому потенциалу, который рассчитывается
квантово-механическими приближениями.
3) Класс IV. Частичные атомные заряды модели CM5
(Charge Model 5), определяемые через параметризацию заряд-
Jalali-Heravi, M. Simulation of 13C nuclear magnetic resonance spectra of lignin
compounds using principal component analysis and artificial neural networks /
M. Jalali-Heravi, S. Masoum, P. Shahbazikhah // Journal of Magnetic
Resonance – 2004. – V. 171 – № 1 – PP. 176–185.
Cramer, C. J. Essentials of Computational Chemistry: Theories and Models /
C. J. Cramer – John Wiley & Sons, 2013. – 564 p.
зависимых свойств, таких как дипольный момент. Такие свойства
могут быть численно получены из экспериментальных данных или
квантовохимических вычислений.
Частичные заряды класса I не рассматривались в ходе
настоящей работы в силу того, что они не могут быть рассчитаны
квантовохимическимиметодамиинаблюдаютсятолько
изэкспериментальныхизмерений(дипольныймомент,
электроотрицательность).
Частичные атомные заряды HPA, CM5, MPA и HLY для
девяти различных классов органических соединений (алканы, изо-
алканы,терминальныеалкены,терминальныеалкины,
ароматические углеводороды, кетоны, эфиры, гетероциклические
соединения, производные фуллерена С60) с экспериментально
известнымизначениямиХСЯМР13
Сполучены
из квантовохимических расчетов в рамках теории функционала
плотности (DFT). Для количественной оценки влияния класса
частичного атомного заряда на значение ХС применялся
регрессионный анализ. Построены одно- и многомерные
регрессионные линейные модели зависимости значений ХС
от сочетания различных типов атомных зарядов, включаемых
в модель. Первоначально были рассмотрены одномерные регрессии,
однако они не показали приемлемой корреляции «частичный
атомный заряд-ХС ЯМР 13С». Максимальное среднее значение
коэффициента корреляции по девяти классам соединений выборки
наблюдалось в случае частичных зарядов CM5 (R2=0,6826). Атомные
заряды HLY показали наихудший результат (R2=0,4332); в силу этого
были исключены из ряда перспективных дескрипторов. С целью
улучшения корреляции линейных моделей между частичными
зарядами и значением ХС ЯМР 13С построены многомерные
линейные регрессии на основе различных комбинаций HPA, MPA
и CM5. Согласно полученным данным, наибольший средний
коэффициент корреляции получен в случае комбинации всех трех
рассматриваемых классов частичных зарядов (R2=0,8917).
Коэффициенты корреляции многомерных линейных моделей
представлены в таблице 1.
Таким образом, впервые было показано, что сочетание
частичных атомных зарядов второго и четвертого классов (HPA,
MPA, CM5) является оптимальным для определения значений ХС
ЯМР 13С и могут быть использованы в качестве входных данных для
нейросетевых моделей.
Кроме того, на основе литературных данных дополнен ряд
дескрипторов геометрическими и бинарными признаками. Каждый
атом в молекуле кодируется следующим набором дескрипторов:
заряд ядра; гибридизация; количество присоединенных атомов
водорода; принадлежность к ароматической и/или жесткой системе;
наличие ненасыщенной связи у атома-соседа; среднее значение
ковалентных углов; частичные заряды (CM5, HPA, MPA); степень
хиральности по методу Моро4; является ли атом хиральным по
определению IUPAC; наименьший ковалентный угол; является ли
атом атомом углерода или водорода; наличие ненасыщенной связи;
является ли атом гетероатомом; размер кольца в случае, если
рассматриваемый атом принадлежит такой системе; количество
колец которым принадлежит рассматриваемый атом; входит ли
рассматриваемый атом в фуллереновый остов.
Таблица 1 – Коэффициенты корреляции многомерных линейных
регрессионных моделей частичных зарядов HPA, MPA и CM5
Коэффициенты корреляции
(R2)
РядNа)MCб) MCHв) CHг) MHд)
Алканы540,9026 0,9991 0,9991 0,9501
изо-алканы1490,6328 0,8838 0,6109 0,8001
Терминальные алкены140,9889 0,9942 0,9815 0,9798
Терминальные алкины160,9754 0,9880 0,9877 0,9782
Ароматические УВ440,5970 0,6009 0,5780 0,5962
Кетоны и эфиры340,9425 0,9794 0,9177 0,9763
Гетероциклические соединения210,5389 0,8724 0,6963 0,8022
Производные фуллерена C601810,7597 0,8156 0,8123 0,5310
Среднее значение R20,7922 0,8917 0,8223 0,8267
а) Общее количество атомов углерода в ряду; б) MPA + CM5; в) MPA + CM5 + HPA; г) CM5 + HPA; д)
MPA + HPA.
Moreau, G. Atomic Chirality, a Quantitative Measure of the Chirality of the
Environment of an Atom / G. Moreau // Journal of Chemical Information and
Computer Sciences – 1997. – V. 37 – № 5 – PP. 929–938.
Каждый рассматриваемый атом углерода имеет следующие
дескрипторы:зарядядра;гибридизация;количество
присоединенных атомов водорода; степень хиральности по методу
Моро; среднее значение ковалентных углов; наименьший
ковалентный угол; частичные атомные заряды (CM5, HPA, MPA).
Таким образом, предложен набор 104 дескрипторов для
атомов углерода фуллеренового ядра, основанный на методе HOSE
и современных подходах численного представления входных данных
для моделирования спектров ЯМР 13С с помощью методов
машинного обучения. Полученный ряд дескрипторов использован
в качестве численного представления признаков атомов углерода
фуллеренового каркаса.
2.3 Архитектура и обучение искусственной нейронной
сети. Оценка прогностической способности
Большая часть архитектур ИНС известных в литературе,
которые применялись для прогнозирования ХС ЯМР 13С,
представляют собой многослойный персептрон с двумя скрытыми
слоями,содержащиминелинейныефункцииактивации.
Логистическая функция и гиперболический тангенс являются
наиболеераспространенныминелинейнымиактивациями,
применяемыми в скрытых слоях.
Предложена вещественнозначная модель (ВЗМ, англ. «real-
valuedmodel»),представляющаясобойИНСпрямого
распространения с двумя скрытыми слоями. Выходной слой имеет
один нейрон с гиперболическим тангенсом в качестве функции
активации. Выбор выходной функции активации обусловлен
нормализацией выходных данных разрабатываемой ИНС. Поскольку
значения ХС ЯМР 13С в основной массе распределены в диапазоне
от минус 20 до 220 м.д., то выходные значения вещественнозначной
ИНС могут быть представлены с помощью минимакс нормализации
на отрезок [-1; 1], что соответствует области значений
гиперболического тангенса.
В качестве нелинейной активации в скрытых слоях ВЗМ
применялся параметрический линейный выпрямитель5 (Parametric
Rectifier Linear Unit, PReLU), имеющий следующую форму:
x, x 0
f ( x) ,(1)
x, , 0
где x – входной сигнал нейрона;
α – настраиваемый параметр.
Преимущества использования линейных выпрямителей
широко освещены в литературе6,7. Характерными особенностями
выпрямителей, как функций активации, является улучшенная
сходимость в случае весов, близких к нулю, отсутствие проблемы
исчезающих градиентов в процессе обучения нейронной сети,
а также лучшая по сравнению с другими функциями активации,
обобщающая способность ввиду отсутствия риска переобучения.
Предложенная модель вещественнозначной нейронной сети
представлена на рисунке 4.
Одним из основополагающих факторов, определяющих
скорость обучения, качество обобщения и точность прогнозов
является определение оптимального размера скрытых слоев.
Известно, чем меньшее количество нейронов и весов используется в
ИНС, тем хуже ее обобщающая способность, и, вместе с тем, ниже
вычислительная сложность в процессе обучения.
He, K. Delving Deep into Rectifiers: Surpassing Human-Level Performance on
ImageNet Classification / K. He, X. Zhang, S. Ren, J. Sun – 2015.
Maas, A. L. Rectifier Nonlinearities Improve Neural Network Acoustic Models,
2013.
Graham, B. Spatially-sparse convolutional neural networks [Электронный
ресурс]. URL: http://arxiv.org/abs/1409.6070 (дата обращения: 08.06.2017).
Рисунок 4 –Архитектура ИНС
СогласноразмерностиВапника-Червоненкиса8(VC
dimension), верхняя граница размера обучающей выборки должна
быть примерно в два раза больше количества весов в нейронной сети.
Как было показано выше, мы располагаем 2820 отнесенными
ХС ЯМР 13С фуллеренового ядра, которые известны в мировой
литературе. Следовательно, необходимо определить наименьшее
количество скрытых нейронов, релевантное настоящей задаче.
Кроме того, Придди9 отмечает, что снижение количества весов
и нейронов ведет к уменьшению количества обучающих примеров,
необходимых для адекватного обобщения. В дополнение Придди
пришел к выводу, что отношение количества скрытых нейронов в
каждом скрытом слое к размерности входного вектора должно быть
наименьшим. Основываясь на вышесказанном, применен
эмпирический подход для определения оптимального размера двух
скрытых слоев разрабатываемой ВЗМ. Построены 400 моделей ИНС,
итеративно увеличивая размер каждого скрытого слоя
на 10 нейронов с 10 до 200 нейронов. Мы полагаем, что единичное
увеличение размера скрытого слоя не приводит к значительным
изменениям в прогностической способности ИНС.
Построение и обучение ИНС реализовано на языке
программирования Python со специализированными пакетами
Vapnik, V. N. The Nature of Statistical Learning Theory / V. N. Vapnik – New
York, NY, USA: Springer-Verlag New York, Inc., 1995.
Priddy, K. L. Artificial neural networks: an introduction / K. L. Priddy,
P. E. Keller – Bellingham, Washington: SPIE Press, 2005.
научных расчетов, обработки и визуализации данных (Pandas,
numpy, bokeh, Pybel), а также пакетами построения нейронных
сетей – Keras и Tensorflow. Все ВЗМ были обучены, используя метод
обратного распространения ошибки с оптимизационным алгоритмом
градиентного спуска Adamax10 и скоростью обучения 8 103 .
Максимальное количество эпох обучения составило 1000. С целью
корректировки обобщающей способности ИНС нами использованы
два подхода: критерий «раннего останова» (early stopping) и
Гауссовый исключающий слой11 (Gaussian Dropout Layer, GDL). GDL
представляет собой логический скрытый слой, который с некоторой
вероятностью p исключает случайно выбранные нейроны
следующего за ним скрытого слоя из процесса обучения на каждой
итерации каждой эпохи. Ранний останов, в свою очередь,
представляет собой технику регуляризации, которая позволяет
отслеживать стагнацию изменения значения функции потерь на
каждой эпохе. При возникновении осцилляции ошибки прогноза с
заданной амплитудой (м.д.), в течение нескольких эпох,
происходит остановка обучающего процесса. Были приняты
следующие критерии и значения параметров регуляризации:
а) Количество эпох осцилляции – 20. Амплитуда принята
равной 4 10 4 м.д.
б) Вероятность исключения каждого нейрона во втором
скрытом слое ВЗМ p 0,2 .
Вкачествефункциипотерьиспользовалась
среднеквадратичная ошибка, RMSE, м.д., вычисляемая по формуле:
N
(ХСiгипотеза ХСiэксп ) 2
RMSE
i 1N
,(2)
где ХСiгипотеза – i-е спрогнозированное значение ХС ЯМР 13С, м.д.;
Kingma, D. P. Adam: A Method for Stochastic Optimization San-Diego, 2015.
Srivastava, N. Dropout: A Simple Way to Prevent Neural Networks from
Overfitting / N. Srivastava, G. Hinton, A. Krizhevsky, I. Sutskever,
R. Salakhutdinov // Journal of Machine Learning Research – 2014. – V. 15 –
PP. 1929–1958.
ХСiэксп – i-е экспериментальное значение ХС ЯМР 13С, м.д.;
N – количество прогнозов.
В качестве контрольной метрики, наряду с RMSE,
вычислялась средняя абсолютная ошибка, MAE, м.д., определяемая
по формуле:
N
ХСгипотеза
i ХСiэксп
MAE i 1
.(3)
N
Построены тепловые карты валидационных ошибок (MAE
и RMSE) на последней эпохе для всех 400 обученных моделей
с целью установить распределение ошибок валидации в зависимости
от количества нейронов в каждом скрытом слое ВЗМ. Распределения
MAE и RMSE показаны на рисунках 5 и 6. Оси x (горизонтальная)
и y (вертикальная) представляют собой размер первого и второго
скрытого слоев соответственно. Величина ошибки представлена
цветовым обозначением: увеличение ошибки от светлого к темному.
Рисунок 5 – Тепловая карта распределения валидационных ошибок
(средняя абсолютная ошибка)
Рисунок 6 – Тепловая карта распределения валидационных ошибок
(среднеквадратичная ошибка)
Нами выбраны 10 ВЗМ с наилучшей прогностической
способностью. Отбор моделей был основан на значениях
среднеквадратичной ошибки прогнозов. По сравнению со средней
абсолютной ошибкой значение RMSE увеличивается с ростом
дисперсии, определяющей частоту распределения ошибок. Значения
ошибок обучения, валидации и прогнозирования (включая
относительную ошибку, ε, %) отобранных моделей представлены
для последней эпохи процесса обучения в таблице 2.
Таблица 2 – ВЗМ с наименьшей среднеквадратичной ошибкой
Тестовый набор
Обучающий набор
Архитектураа)
(ошибки
(ошибки обучения и валидации)
прогнозирования)
обучение
обучение
/валидац
/валидац
RMSEб),
MAEв),
RMSE,
Эпоха
MAE,
ε, %
м.д.
м.д.
м.д.
м.д.
ия
ия
110/120750,0265/0,02930,0163/0,01462,601,831,37
200/40490,0267/0,02940,0155/0,01422,611,761,32
Тестовый набор
Архитектураа)Обучающий набор
(ошибки
(ошибки обучения и валидации)
прогнозирования)
обучение
обучение
/валидац
/валидац
RMSEб),
MAEв),
RMSE,
Эпоха
MAE,
ε, %
м.д.
м.д.
м.д.
м.д.
ия
ия
200/7061 0,0269/0,0280 0,0162/0,01422,631,791,35
190/150 53 0,0268/0,0295 0,0156/0,01472,671,791,38
80/18051 0,0298/0,0307 0,0178/0,01572,671,801,35
100/8042 0,0305/0,0340 0,0178/0,03402,671,841,34
170/7049 0,0284/0,0309 0,0162/0,01532,681,751,31
150/200 76 0,0259/0,0301 0,0151/0,01412,731,741,32
170/130 35 0,0313/0,0289 0,0179/0,01512,731,861,39
130/190 44 0,0294/0,0322 0,0168/0,01522,751,871,41
а) Размер первого и второго скрытого слоев.
б) Среднеквадратичная ошибка.
в) Средняя абсолютная ошибка.
Как видно из рисунка 6, наибольшие значение ошибок
валидации RMSE наблюдаются если размер первого скрытого слоя
относительно мал (от 10 до 30 нейронов), а также, когда второй
скрытый слой содержит от 50 до 160 нейронов. Кроме того, большие
значения RMSE наблюдаются в случаях ВЗМ со 100 и более
нейронами во втором скрытом слое.
Дальнейшее увеличение количества нейронов в скрытых
слоях не приводит к увеличению точности. Отмечено, что модели с
одинаковым количеством скрытых нейронов в каждом слое приводят
к увеличению прогностической способности. Модели ИНС, в
которых размер первого скрытого слоя больше, чем второго, также
показывают адекватный результат, как это можно видеть из
таблицы 2. На основе вычислительных экспериментов можно
сделать заключение, что дальнейшее увеличение размера скрытых
слоев ИНС приводит к ухудшению точности прогнозов и риску
переобучения.
Следует отметить, что обучающий набор содержит гомо-,
метанофуллерены и циклоаддукты. Ввиду этого, сайт присоединения
фрагмента ограничивается следующими номерами пар атомов
фуллеренового каркаса: 1 и 9 или 3 и 4 (в соответствии с нумерацией
IUPAC каркаса фуллерена С60). Проанализирован вклад каждого
углеродного атома в общую ошибку спрогнозированных ХС ЯМР 13С
для двух моделей с наименьшим значением RMSE. Вклад k-го атома,
ck , %, рассчитывается по следующей формуле:
ХСгипотеза
j ХСэксп
j
ck 100%,
j
(4)
ХС
i
гипотеза
i ХСiэксп
где ХС
j
гипотеза
j ХСэксп
j– сумма всех абсолютных ошибок k-го
атома углерода по всем j-м тестовым примерам в рамках отдельно
взятой ВЗМ, м.д.;
ХСiгипотеза ХСiэксп – сумма абсолютных ошибок всех
i
прогнозов в рамках взятой ВЗМ, м.д.
Углеродные атомы с номерами 1, 3, 4, 7, 9, 11, 14, 19
и 25 (показаны точками на диаграмме Шлегеля; рисунок 7) вносят
значительный вклад в абсолютную ошибку в случае модели со 110 и
120 нейронами в скрытых слоях (далее обозначим архитектуру
обсуждаемых моделей через количество нейронов в скрытых слоях).
Похожая закономерность выявлена для модели 200/40: пять атомов
углерода (номера 1, 3, 7, 9 и 11; рисунок 8) вносят наибольший вклад
в ошибку.
Однако, по сравнению с моделью 110/120, модель 200/40
имеет заметное снижение величины ошибки прогнозов (MAE) для
атомов, которые удалены более чем на три ковалентных связи
от присоединенного фрагмента. На основании данного наблюдения,
сделано заключение, что наибольший вклад в ошибку вносят атомы
углерода, соседствующие с присоединенным фрагментом или
имеющие с ним ковалентную связь. По-видимому, данная
закономерность возникает в силу того, что обучающая выборка
изначально содержит недостаточно примеров атомов углерода,
имеющих sp3-гибридизацию или удаленных менее чем на три
ковалентных связи от фрагмента. С другой стороны, сигналы атомов,
являющихсясоседямиилисвязанныминепосредственно
с фрагментом, могут быть отнесены с помощью методов
2D ЯМР (например, HMBC) и, соответственно, отделены от других
сложных скоплений сигналов атомов фуллеренового ядра.
Рисунок 7 – Вклад в ошибку (модель 110/120)
Рисунок 8 – Вклад в ошибку (модель 200/40)
Следует отметить, что модель 200/40 показала наилучший
результат, поскольку она имеет сравнимое с моделью 110/120
значение RMSE и значительно меньший вклад в ошибку
спрогнозированных значений ХС для атомов, удаленных
от присоединенного фрагмента. Таким образом, показано,
что разработанные ВЗМ с архитектурами 110/120 и 200/40 являются
наиболее адекватными в качестве компьютерной системы
для отнесения ХС ЯМР 13С атомов каркаса фуллерена С60.
Выводы
1) Впервые проведен анализ зависимостей значений ХС
ЯМР 13С от частичных атомных зарядов Малликена, Хиршфилда,
CM5 и предложены многомерные линейные регрессионные модели,
отражающие статистическую значимость комбинации частичных
атомных зарядов в качестве одного из физико-химических факторов,
определяющего значения ХС ЯМР 13С атомов фуллеренового ядра.
Показано, что наибольшее влияние на значения ХС ЯМР 13С и,
следовательно, геометрию молекул оказывает сочетание частичных
атомных зарядов класса II (MPA, HPA) и IV (CM5).
2) Впервые предложен и обоснован набор из 104 атомных
дескрипторов, основанный на расширенной методике иерархически
упорядоченного сферического описания окружения (HOSE),
включающий в себя геометрические и физико-химические
характеристики углеродных атомов. Показана эффективность
применения предложенного набора в качестве факторов,
определяющих значения ХС ЯМР 13С атомов каркаса
монозамещенных производных фуллерена С60.
3) Установлено, что использование параметрического
линейного выпрямителя в качестве функции активации нейронов в
скрытых слоях в сочетании с Гауссовым исключающим слоем
(Gaussian Dropout Layer) позволяет эффективно обучать
вещественнозначные (real-valued) ИНС для прогнозирования ХС
ЯМР 13С монопроизводных фуллерена С60 в условиях ограниченного
размера обучающей выборки.
4) Впервые предложена методика прогнозирования
спектральных характеристик (ХС ЯМР 13С) атомов каркаса
монопроизводных фуллерена С60 с использованием современных
методов машинного обучения (искусственных нейронных сетей),
включающей две ИНС прямого распространения на основе
многослойного персептрона с двумя скрытыми слоями. С помощью
предложенной методики спрогнозированы ХС ЯМР 13С для
10 монопроизводных фуллерена С60 с удовлетворительной
точностьювоспроизведенияэкспериментальныхзначений
(MAE=1,76 м.д., ε=1,32 %).
В настоящее время для установления структуры и свойств новых производных фуллерена С60 в жидкой фазе широко используются современные одно- и двумерные методики ЯМР, основанные, прежде всего, на наблюдении ядер 13С. Одномерные спектры ЯМР 13С позволяют установить тип присоединения кфуллереновому каркасу, а также региоселективность и тип симметрии молекулы. Кроме того, применяется прецизионная методика ЯМР INADEQUATE для однозначного отнесения сигналов в углеродных спектрах ЯМР на обогащенных изотопом13С образцах фуллеренаС60. Вместе с тем, получение изотопно-обогащенных образцов требует достаточно большого количества времени. Кроме того, интерпретация спектров ЯМР часто осложняется неселективностью присоединения фрагмента к фуллереновому каркасу, из-за чего в литературе имеется ограниченное число работ в этом направлении.
В силу этого, на сегодняшний день широкое распространение получили теоретические методы расчета химических сдвигов (ХС) ЯМР 13С: квантовохимические и методы машинного обучения. Однако, анализ результатов квантовохимического вычислительного эксперимента для оценки ХСЯМР13С с высокой точностью ведет к существенному увеличению временных затрат ввиду большого размера молекулярных систем.
Проведенный анализ литературных данных показал, что применение искусственных нейронных сетей для прогнозирования ХС ЯМР органических, элементо- и металлорганических соединений является перспективным направлением. Существующие нейросетевые модели реализованы дляконкретных классов органических соединений. Кроме того, обучающие выборки содержат десятки тысяч экспериментальных ХС ЯМР 13С, что в случае производных фуллерена С60 неприменимо ввиду ограниченного набора однозначно отнесенных сигналов ЯМР 13С, известных в мировой литературе. По- видимому, именно этот факт является причиной того, что вплоть до начала настоящих работ в мировой литературе отсутствовали данные об использовании искусственных нейронных сетей для идентификации производных фуллерена С60. В связи сэтим разработка новых методов анализа результатов физико- химических исследований углеродных кластерных соединений, основанных на машинном обучении, представляется актуальным и важным для структурной химии соединений фуллерена С60.
Цель и задачи работы
Целью настоящей работы является разработка нового метода прогнозирования спектральных характеристик (ХС ЯМР 13С) и установление структуры фуллереновых производных с использованием искусственных нейронных сетей на примере моноаддуктов С60. Для реализации поставленной цели необходимо решить следующие задачи:
1) Формирование обучающей выборки, содержащей экспериментальные и теоретические ХС ЯМР 13С фуллереновых производных С60.
2) Выбор физико-химических и геометрических признаков для формирования представительного ряда дескрипторов атомов, определяющих значения ХС ЯМР 13С, которые будут использованы в качестве входных данных разрабатываемой искусственной нейронной сети (ИНС).
3) Выбор архитектуры, метода обучения, активационных функций ИНС и ее разработка.
4) Проверка прогностической способности разработанной модели путем прогнозирования спектральных характеристик (ХС ЯМР 13С) моноаддуктов фуллерена С60.
Научная новизна
Впервые разработана методика прогнозирования ХСЯМР13С каркасных атомов монопроизводных фуллерена С60 с использованием методов машинного обучения – искусственных нейронных сетей. Кроме того, впервые спрогнозированы ХС ЯМР 13С с помощью разработанной ИНС для 10 моноаддуктов С60. Показана зависимость значения
зарядов: Малликена, Хиршфилда и CM5 (Charge Model 5). На основе регрессионного анализа показано, что сочетание частичных зарядов Малликена, Хиршфилда и CM5 является одним из определяющих факторов, вляющих на значение ХС ЯМР 13С.
Впервые предложен набор из104дескрипторов для углеродных атомов фуллеренового каркаса, включающий в себя геометрические ифизико- химические признаки, адекватно описывающие значения ХС ЯМР 13С.
Найден адекватный метод теоретической оценки ХС ЯМР 13С для атомов каркаса моноаддуктов фуллерена С60 сиспользованием теории функционала плотности (X3LYP/6-31G(d)).
Показана эффективность применения параметрического линейного выпрямителя(parametric rectified linear unit) в качестве функции активации скрытых слоев искусственной нейронной сети всочетании с Гауссовым исключающим слоем (Gaussian dropout layer), что позволяет избежать проблем переобучения и исчезающего градиента в условиях ограниченной обучающей выборки в прогнозировании ХС ЯМР 13С производных фуллерена С60.
Практическая значимость
Разработанная искусственная нейронная сеть позволяет прогнозировать значения химических сдвигов ЯМР13С, необходимые для установления структуры и физико-химических свойств вновь синтезированных аддуктов фуллерена С60. Применение методов машинного обучения кструктурным исследованиям расширяют возможности проектирования и синтеза новых фуллереновых структур, перспективных в качестве элементов солнечных батарей и молекулярной электроники. Вместе с тем, область применения разработанного метода прогнозирования ХСЯМР13С с помощью искусственных нейронных сетей неограничивается монопроизводными фуллерена С60 и может быть расширена на другие классы сложных органических соединений, например,
ХС ЯМР 13С от частичных атомных региоизомерные бис-, трис-, тетракис-аддукты фуллерена С60, стероиды, экдистероиды, терпеноиды.
Личный вклад автора
Личный вклад автора заключается в постановке задачи, составлении плана работ и подборе методик исследований. Автором выполнены вычислительные эксперименты, разработана архитектура искусственных нейронных сетей, написаны исходные коды программ, проведен анализ полученных данных, сформулированы выводы и подготовлены публикации по теме диссертационной работы.
Связь с научными программами
Работа выполнена при поддержке гранта РФФИ 15-03-02487 А «Разработка метода прогнозирования химических сдвигов ЯМР13С с использованием искусственных нейронных сетей и установление структуры новых производных фуллерена С60».
Публикации
По материалам работы опубликовано 4 тезиса докладов на международных конференциях и 3 статьи в международных изданиях, индексируемых в базе данных публикаций Web of Science и рекомендованных ВАК Российской Федерации.
Структура и объем работы
Диссертационная работа включает в себя введение, литературный обзор, экспериментальную часть, результаты и обсуждение, выводы, список литературы с 97-ю наименованиями и пять обязательных приложений. Объем диссертации составляет 109 страниц, включая 33 рисунка и 13 таблиц.
Публикации автора в научных журналах
Помогаем с подготовкой сопроводительных документов
Хочешь уникальную работу?
Больше 3 000 экспертов уже готовы начать работу над твоим проектом!