Бесплатно
В избранное
Работа доступна по лицензии Creative Commons:«Attribution» 4.0

Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

Глава 1. Постановка задачи управления группой динамических
объектов . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.1 Избегание коллизий в задаче управления динамическими объектами 10
1.2 Обзор существующих подходов управления динамическими
объектами . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.2.1 Планировщики маршрутов . . . . . . . . . . . . . . . . . . . 13
1.2.2 Методы потенциальных полей . . . . . . . . . . . . . . . . . 18
1.2.3 Реактивные подходы . . . . . . . . . . . . . . . . . . . . . . 19
1.2.4 Управление с прогнозирующими моделями . . . . . . . . . 20
1.2.5 Методы управления динамическими объектами на основе
обучения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.3 Выводы по первой главе . . . . . . . . . . . . . . . . . . . . . . . . . 23

Глава 2. Нейронные сети и машинное обучение в управлении . . . . .
2.1 Обзор работ с применением машинного обучения в задаче
управления динамическими объектами . . . . . . . . . . . . . . .
2.2 Выводы по второй главе . . . . . . . . . . . . . . . . . . . . . . . .

Глава 3. Избегание коллизий . . . . . . . . . . . . . . . . . . . . . . . .
3.1 Постановка задачи . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2 Избегание коллизий с ситуативным изменением правых частей
дифференциальных уравнений . . . . . . . . . . . . . . . . . . . .
3.2.1 Сетевой оператор . . . . . . . . . . . . . . . . . . . . . . .
3.2.2 Модифицированный сетевой оператор . . . . . . . . . . .
3.2.3 Поиск адаптивных функций управления динамическими
объектами на основе модифицированного метода сетевого
оператора . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.4 Вычислительный эксперимент . . . . . . . . . . . . . . . .
3.3 Синтез системы управления группой динамических объектов с
универсальным блоком разрешения коллизий . . . . . . . . . . . .
Стр

3.3.1 Cинтез непрерывной динамической системы
стабилизации на основе искусственных нейронных сетей
3.3.2 Постановка задачи стабилизации . . . . . . . . . . . . . . . 48
3.3.3 Этап 1. Синтез обучающего множества . . . . . . . . . . . . 48
3.3.4 Этап 2. Аппроксимация замкнутой функции управления . . 49
3.3.5 Вычислительный эксперимент . . . . . . . . . . . . . . . . . 50
3.4 Cинтез универсальной системы разрешения коллизий (УСРК) . . . 58
3.4.1 Вычислительный эксперимент . . . . . . . . . . . . . . . . . 63
3.5 Синтез универсальной вероятностной системы разрешения
коллизий (УВСРК) . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.5.1 Вычислительный эксперимент . . . . . . . . . . . . . . . .
3.6 Выводы по третьей главе . . . . . . . . . . . . . . . . . . . . . . .

Общие выводы и заключение . . . . . . . . . . . . . . . . . . . . . . . . .

Список литературы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Приложение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
П.1. Базовые операции . . . . . . . . . . . . . . . . . . . . . . . .
П.2. Листинги программного кода . . . . . . . . . . . . . . . . . .

Во введении обосновывается актуальность исследований, проводимых в дис­
сертации, формулируется цель и задачи, определяется предмет исследования,
излагается научная новизна и практическая значимость диссертации.
В первой главе формулируется постановка задачи управления группами
ДО, перечисляются существующие подходы решения задачи, приводятся резуль­
таты, выносимые на защиту.
В данном исследовании задача управления группой динамических объ­
ектов имеет следующую постановку. Задана математическая модель объектов
управления гомогенной группы ДО

ṡi = f si , ui ,(1)
TT
где si = [si,1 . . . si,n ] – вектор состояния объекта; si ∈ Rn , ui = [ui,1 . . . ui,m ]
– вектор управления; ui ∈ U ⊆ Rm , U – ограниченное замкнутое множество,
i = 1, N , N – количество ДО в группе.
Заданы множество начальных состояний
no
S0,i = s0,i0,i
1 , . . . ,ski,(2)

множество терминальных состояний
no
Sf,i = sf,i
1, . . . ,sf,i
r i
,(3)

где ki и ri – количество начальных и терминальных состояний объекта i соответ­
T
ственно. Подвектор yi = [yi,1 . . . yi,p ] вектора si определяет местоположение
объекта i.
Заданы динамические фазовые ограничения в виде неравенства

X
p
R2 −(yc,i − yc,j ) ≤ 0,(4)
c=1

где R – радиус сферы, задающей габариты ДО,
i, j = {1, . . . ,N }, i ̸= j.
Задан функционал качества

Zt̂f

J=f0 s1 (t) , . . . ,sN (t) , u1 (t) , . . . ,uN (t) dt → min ,(5)
u ∈U
i
где t̂f,i = max{tf,i : i = {1, . . . ,N }} – ограниченное время процесса управле­
ния, которое может быть задано или определяться по достижению терминальных
состояний.
Требуется найти адаптивную функцию управления

h si , если R2 − P (y − y )2 < 0, m oi,c j,c ui = c=1(6)  g si , sj иначе, переводящую объекты управления в терминальные состояния (3) и удовлетворя­ ющую функционалу качества (5) для всех возможных начальных условий (2) с соблюдением динамических фазовых ограничений (8). Здесь Ro – радиус сферы, задающей окрестность объекта, внутри которой он способен обнаруживать дру­ гие объекты, h si : Rn → Rm , g si , sj : Rn × Rn → Rm , h si , g si , sj ∈ U ⊆ Rm . Подставив (6) в (1), получим модель объекта с функцией управления, за­ висящей от состояния  f si , h si , если R2 − P (y − y )2 < 0, m ioi,c j,c ṡ = c=1(7) ii j f s ,g s ,sиначе. Вторая глава посвящена обзору работ с применением нейронных сетей (НС) и технологии глубокого обучения в задачах управления ДО. А также опре­ делены основные направления применения современных средств машинного обучения в области управления. В работах Й. Жу и П. Юэ обучение с подкреплением используется для создания систем навигации. Нейросетевая система управления была обучена находить маршруты на основе подаваемых на её вход изображений среды. В экспериментальной части работы продемонстрировано, как обученный робот перемещается к указанному на изображении месту. В отличие от многих преды­ дущих методов навигации, вышеуказанный метод не требует 3D­моделирования окружающей среды. Д. Жанг и Д. Син представили в своих работах подходы к созданию систем навигации, в основе которых лежат DQN (глубокие Q­сети), обучающиеся на изображениях среды. DQN отображает поступающие на вход изображения сре­ ды в дискретные действия робота. Т. Лилликрап с соавторами представили DQN, способную отображать изображения среды в действия робота, выраженные непрерывными величинами. Авторами предложено использовать глубокие детерминированные градиенты политики (DDPG), где глубокие НС выступают в процессе обучения в качестве “актеров” и “критиков”. В случае взаимодействия роботов с физической средой достаточно пробле­ матично получить адекватное подкрепление. Даже если подкрепление удается извлечь из физической среды, то проблемы запаздывания подкрепляющего сигнала и наличия шумов останутся нерешенными. По этой причине многие авторы используют симуляционные платформы для обучения DQN на RGB­ изображениях, после чего DQN переносят на физические роботы. Нерешенной проблемой обучения с подкреплением является неэффектив­ ность обучающих данных. Нейросетевая модель зачастую требует нескольких затратных с точки зрения вычислений эпизодов для закрепления оптимальной политики. Обучение с подкреплением является перспективной технологией, позво­ ляющей решать сложные оптимизационные задачи, однако успехи данной пара­ дигмы пока можно связать преимущественно с задачами, где поиск оптимальных политик осуществляется в дискретных пространствах. Применение данной тех­ нологии в задачах, где поиск осуществляется в непрерывных пространствах, затруднительно из­за большого количества подлежащих аппроксимации состо­ яний и вознаграждений. В задачах с непрерывным пространством поиска и большим временным горизонтом нейросетевые модели, обучающиеся в парадиг­ ме обучения с подкреплением, на сегодняшний день незначительно превосходят эволюционные алгоритмы. Имеющиеся на сегодняшний день численные методы для решения задачи синтеза управления используют для поиска замкнутых функций эволюционные алгоритмы, являющиеся разновидносями случайного поиска. В данном исследо­ вании осуществлена попытка создания поэтапного подхода к решению данной задачи при помощи современных средств машинного обучения, в котором поиск замкнутой функции управления выполняется в метрическом пространстве. В третьей главе представлен модифицированный метод сетевого опе­ ратора, который используется в диссертации для поиска адаптивных функций управления, способных доставлять ДО в назначенные терминальные состояния с соблюдением динамических фазовых ограничений. Соблюдение объектами фазовых ограничений достигается за счет включения вектора состояния бли­ жайшей помехи в функции управления объектами. На базе данного метода представлен алгоритм поиска функций управления ДО, состоящий из 5 шагов: 1. Для каждого ДО инициализируется базисный регистр сетевого опера­ тора X0 и вектор параметров Q0 ; 2. Генерируется начальное множество P из H малых вариаций, задается число поколений G, максимальное число потомков c; 3. На каждой итерации g = 1, G выполняются следующие действия: а) Cкрещиваются два случайно выбранных индивида I1 , I2 ∈ P ; б) Проводится оценка значений функционала (5) полученных по­ томков Cj , j = 1, k, k ∈ {1, . . . ,c}; в) d ∈ {1, . . . ,k} потомков замещают d худших индивидов в попу­ ляции P ; 4. Вариации оптимального индивида I o применяются на базисное реше­ ние X o , Qo ; 5. Выполняется параметрическая оптимизация конечной структуры мате­ матического выражения. На выходе получают оптимальные X o , Qo для каждого ДО. Если выполняется условие X m Ro2 −(yi,c − yj,c ) ≤ 0, i, j = {1, . . . ,N }, i ̸= j, (8) c=1 где Ro – радиус локалной окрестности ДО, то на вход регистров сетевого опе­ ратора подается вектор ∆si = si (t) − si,f ,(9) определяющий отклонение текущего состояния робота si (t) от терминального состояния si,f в момент времени t ∈ [0, tf ] , N – количество ДО в группе. В противном случае, на вход регистров подается дополнительный вектор ∆ŝi = si (t) − sγ (t) , задающий отклонение состояния рассматриваемого робота от состояния бли­ жайшего объекта­помехи, где sγi (t) – решение системы (1), определяющее состояние ближайшего объекта­помехи для i­го ДО в момент времени t. В качестве экспериментальной модели в работе рассматривается гусенич­ ный мобильный робот, динамика которого имеет следующий вид:   ẋi = (ui,1 + ui,2 ) cos (θi ),    2 (ui,1 + ui,2 ) sin (θi ) ẏi =,(10)  2   θ̇i = (ui,1 − ui,2 ),  где xi , yi – координаты центра масс i­го робота; θi – угол между осью симметрии робота и осью абсцисс инерциальной системы координат 0xy. На Рис. 1 представлено начальное состояние группы мобильных роботов, где роботы изображены закрашенными окружностями. Терминаль­ ные состояния назначаются роботам до начала функционирования группы. 100Желаемые терминальные состоя­ ния роботов отмечены на Рис. 2 черными квадратами. Как вид­ 60но из Рис. 1, начальная формация y 40группы имеет форму буквы “A”. Задача роботов – переместиться в формацию, имеющую форму буквы “D”. Конечные состояния назначают­ −20 01020 304050 6070 ся роботам до начала функционирова­ xния группы и не меняются. Как видно Рис. 1. Начальное состояние группыиз Рис. 2, роботы успешно располо­ роботовжились в форме буквы “D”. Параллельно поиску оптималь­ ных функций, доставляющих объекты в терминальные состояния, осуществля­ ется поиск оптимальных функциональных связей между состояниями объектов и состояниями препятствий, входящих в окрестность объектов. Данные свя­ зи позволяют ДО оптимально реагировать на вхождение в их окрестность объектов­помех: объекты избегают столкновений друг с другом и одновременно продвигаются в направлении назначенных им терминальных состояний. Най­ денные модифицированным методом сетевого оператора функции управления для желтого и оранжевого робота имеют следующий вид: u13,1 = arctg (x13 − xf,13 ) + (y13 − yf,13 ) + (θ13 − θf,13 ) − 18,91 (x13 − x14 ) + 18,55 (y13 − y14 ) |x13 − x14 | + 1,23 (θ13 − θ14 ) arctg (1) , u13,2 = (x13 − xf,13 ) + (y13 − yf,13 ) + (θ13 − θf,13 ) − 18,91 (x13 − x14 ) hi + 18,55 (y13 − y14 ) |x13 − x14 | + tg 1,23 (θ13 − θ14 ) arctg (1) , u14,1 = (x14 − xf,14 ) + (y14 − yf,14 ) − 6,15 (θ14 − θf,14 ) + 3,13 (x14 − xf,13 ) + 0,25 (y14 − y13 ) |x14 − xf,14 | − 0,19 (θ14 − θf,13 ) arctg (1) + 2, u14,2 = (x14 − xf,14 ) + (y14 − yf,14 ) − 6,15 (θ14 − θf,14 ) + 3,13 (x14 − xf,13 ) + 0,25 (y14 − y13 ) |x14 − xf,14 | − 0,19 (θ14 − θf,13 ) arctg (1) . Здесь ui,k – управление k­ой гусеницей i­го робота, xi , yi , θi – текущие коор­ динаты i­го робота, xf,i , yf,i , θf,i – конечные координаты i­го робота, qi,v – v­ый параметр i­го регистра сетевого оператора. Встраиваемые невязки состояния ро­ ботов и их параметры выделены зеленым цветом. При отсутствии в локальной области робота препятствий, значения выделенных невязок равны нулю. Вдиссертациипредстав­100 лен новый метод синтеза системы управления с универальным блоком избегания коллизий на основе обу­60 чения НС. Предлагается отдельноy 40 синтезировать непрерывную дина­20 мическую систему стабилизации и систему разрешения коллизий. Непрерывная динамическая си­−20 01020304050 6070 стема стабилизации реализована вx замкнутой функции управления и от­Рис. 2. Конечное состояние группы вечает за доставку ДО в их терми­роботов нальные состояния. Она управляет объектом, если в его локальной окрестности отсутствуют препятствия. В против­ ном случае управление объектом делегируется системе разрешения коллизий. Синтез непрерывной динамической системы стабилизации проводится по­ средством аппроксимации НС замкнутой функции управления на множестве синтезированных данных. На первом этапе решается задача оптимального управления на конечном множестве начальных условий. Формируется конечное множество начальных условий D = s10 , . . . ,sk0 , si0 ∈ S0 , i = 1, k.(11) Для начального условия si0 ∈ D инициализируется нейросетевой аппроксима­ тор с начальным набором весовых коэффициентов Ψi0 ∈ Rn×m×l ; Генерируется популяция весовых коэффициентов T P = [Ψ1 , . . . , Ψp ] , Ψj = [W1 . . . Wn ] , Wv ∈ Rm×l , где m, l – число входов и выходов слоя v = 1, n НС соответственно, Ψj , j = 1, p – j­ый индивид популяции, p – размерность популяции. В качестве крите­ рия оптимальности управления используется функционал интегрального типа с аддитивной сверткой двух компонент – отклонения текущего состояния от терминального (терминальная невязка) и времени достижения объектом терми­ нального состояния. J = ||∆s (tf )||2 + tf = sf − s (tf )2 + tf ,(12) ( t, если t < t+ , tf = t+ иначе, где t ∈ [0, tf ] , t+ – максимальное допустимое время движения робота. Генети­ ческим алгоритмом находятся веса для рассматриваемого si0 : Ψio = ψ1o , . . . ,ψno , соответствующие минимальному значению функционала (12). Получаем для i­го объекта (1) решение задачи оптимального управления из si0 : ui = h ∆si | Ψo Далее проводится моделирование объекта управления (1) из si0 с оптимальными весами Ψo и запоминаются отображения «состояние – управление» ∆si (t) → ui (t) , i = 1, k, t ∈ [0, tf ] . Вышеперечисленные шаги выполняются для всех si0 , i = 1, k из множества (11). В завершении первого этапа формируется обучающее множество пар «отклоне­ ние – управление»: X k T=j ∆s , uj , j = 1, q, q =|Ti |, i=1 где | · | – мощность рассматриваемого множества. На втором этапе проводится аппроксимация функции управления на раз­ меченном множестве обучающих данных путем минимизации квадратичной функции ошибки 12 L ∆sj | Θ =uj − ûj2 → min , j = 1, q,(13) 2Θ где ûj – вектор выходов НС, uj – эталонное управление. В результате минимизации функционала (13) методом обратного распро­ странения ошибки получаем замкнутую функцию управления u = h (∆s | Θo ) ,(14) которая способна доставлять объект (1) из произвольного начального состояния в произвольное терминальное состояние. Здесь Θo – обученные весовые коэф­ фициенты НС, ∆s – терминальная невязка. В адаптивной системе управления группой ДО (7) синтезированная система стабилизации (14) реализована в функ­ ции h (·). Для тестирования синтезированной системы стабилизации были выбраны начальные условия, не принадлежащие обучающему множеству. На Рис. 3 изоб­ ражены траектории движения робота (10) из начальных состояний s0k , k = 1, 8 в терминальное состояние sf при воздействии на робот возмущений.Из Рис. 3 можно видеть, что синтезированная система стабилизации способна достав­ лять робот в терминальное состояние из начальных условий, не принадлежащих обучающему множеству, даже в условиях воздействия на робот внешних воз­ мущений. Взадачеуправле­ ния группой ДО возникает проблемасоблюдения динамическихфазовых ограничений.Нарушение фазовых координат может происходить в любой точке пространства состояний, что существенно усложняет по­ иск решения поставленной задачи. В данной работе рас­ сматривается проблема раз­Рис. 3. Траектории движения мобильного решения коллизий для двухробота объектов, т. к. одновременное столкновение более 2­х объектов можно пред­ ставить как совокупность сталкивающихся пар ДО. Предполагается, что ДО оснащены минимальными средствами наблюдения за рабочей сценой и систе­ мами определения координат и не задействуют средства коммуникации. Универсальная система разрешения коллизий (УСРК) реализована в за­ мкнутой функции управления, которая позволяет объектам реагировать на сбли­ жение с помехами таким образом, чтобы объекты уклонялись от столкновений и одновременно продвигались в направлении терминальных состояний. Данная система является универсальной, так как она способна разрешать коллизии при произвольном расположении двух ДО. В качестве аппроксиматора функции управления, реализующей систе­ му избегания коллизий, рассматриваются две архитектуры: а) многослойный персептрон, отображающий входной вектор состояния в выходной вектор управ­ ления и б) НС, отображающая входной вектор состояния в смешанное веро­ ятностное распределение, где управляющее воздействие выступает в качестве случайной величины (УВСРК). На вход УСРК и УВСРК подается вектор T ξi (t) = ∆ŝi (t − 1)∆ŝi (t)∆si (t) , включающий невязку между текущим и терминальным состоянием ∆si (t) объ­ екта и две невязки между состоянием рассматриваемого объекта и объекта­ помехи ∆ŝi (t), ∆ŝi (t − 1), i = 1, N , где N – количество объектов в группе. Для синтеза УСРК и УВСРК генерируется множество начальных и конеч­ ных условий, которые приводят пару ДО к столкновению или сближению без нарушения фазовых ограничений: b = si (t0 ) , si (tf ) , sj (t0 ) , sj (tf ) ,(15) где t0 , tf – начальный и конечный момент времени соответственно, i, j = {1, 2}, i ̸= j. В качестве системы управления, доставляющей ДО в терминаль­ ные состояния, используется синтезированная система стабилизации. На основе множеств (15) формируется множество сценариев Y = {bq : q = {1, L}} .(16) Инициализируется НС с весовыми коэффициентами Ω0 ∈ Ra×l×w , где a – число слоев аппроксиматора; l, w – число входов и выходов слоя w = 1, a со­ ответственно. На множестве сценариев (16) осуществляем поиск оптимальных функциональных связей u ξiq , обеспечивающих минимум функционала каче­ ства  XZt̂f L  J ξiq = t̂f + ∆sq (t) 2 + ∆sq (t) 2 + ϑ ξq (t) dt → min . iji Ω q=10 Здесь( 1, если Ro2 − ∆ŝiq (t) ≥ 0, ϑξiq(t) =2 0 иначе , где t̂f = max {tf,i : i = {1, 2}} – максимальное ограниченное время процесса управления, которое может быть задано или определяться при достижении тер­ минальных состояний. По истечении эпох оптимизационного алгоритма получаем оптимальные весовые коэффициенты Ωo НС, реализующей замкнутую функцию управления g (·) в адаптивной системе управления (7). Управление объектом, функционирующим в рамках группы, осуществ­ ляется системой стабилизации, если выполняется условие (8). В противном случае, управление объектом передается системе разрешения коллизий. После завершения маневра, если в локальной области объекта не обнаружено других объектов­помех, управление объектом передается системе стабилизации. Система управления группой роботов на основе двух вышеперечислен­ ных систем является децентрализованной. НС с оптимизированными весовыми коэффициентами записываются в память роботов, за счет чего обеспечивается их автономность. Такой подход позволяет сократить до минимума вычисления, проводимые роботами в реальном масштабе времени. На Рис. 4 изображены тра­ ектории роботов (10). Как можно видеть из Рис. 4, роботы успешно произвели Рис. 4. Траектории роботов, использующих УСРК маневры благодаря синтезированной УСРК, что позволило им избежать столк­ новений и одновременно продвинуться в направлении терминальных состояний. Если в локальной окрестности динамического объекта находится несколь­ ко препятствий, то система разрешения коллизий может не успеть провести небходимый маневр, так как системой учитывается только ближайшее пре­ пятствие. Данную проблему можно решить, если обучать пары объектов с различными радиусами локальной окрестности. Создание системы, способной одновременно реагировать на несколько препятствий также может послужить потенциальным решением данной проблемы. В диссертации рассматривается интеллектуальная УСРК, способная учитывать все возможные маршруты объезда препятствий. Предлагается ис­ пользовать специальную функцию управления, отображающую входной вектор состояния в вероятностное распределение управляющих воздействий. Для реализации такого отображения в диссертации предлагается использо­ вать НС, порождающую смешанную плотность вероятностных распределений. Особенность этой НС состоит в том, что она позволяет моделировать любую функцию вероятностного распределения. Функция плотности вероятностностей формируется посредством линей­ ной комбинации ядерных функций: X k p (u | ξ) =αg (ξ) ϕg (u | ξ) , j = 1, m,(17) g=1 где k – количество ядерных функций, m – количество управлений, u – j­ое управление объекта (1), выступающее в качестве случайной величины, ξ – век­ тор невязок, включающий терминальную невязку и невязки состояния робота и помехи в моменты времени t − 1 и t. Параметры αg (ξ) представляют коэффи­ циенты смешивания и являются априорными вероятностями для управления u из g­ой функции распределения. Ядерная функция ϕg (u | ξ) представляет g­ую условную плотность вероятностей управления u. НС, реализующая фунцию (17), способна генерировать оптимальную плот­ ность вероятностей для любого подаваемого на вход состояния ξ. Для этого необходимо задать такие параметры смешанной модели, как априорные коэффи­ циенты смешивания αg (ξ), математические ожидания µ (ξ) и среднеквадратич­ ные отклонения σg ξi в виде функций от состояния ξ. Эти зависимости можно получить на выходе многослойного персептрона, принимающего на вход состо­ яние ξ. В качестве экспериментальной модели использовался гусеничный мобиль­ ный робот (10). На Рис. 5 изображены траектории роботов, уклонившихся от столкновений, и их функции управления. Положения роботов, соответствующие активации УВСРК, отмечены на Рис. 5 треугольниками. Рис. 5. Траектории роботов, использующих УВСРК Предложенный в диссертации подход к управлению группой ДО можно сравнить с подходом, разработанным А. Дивеевым и соавторами, где пробле­ ма перемещения группы роботов рассматривается в постановке задачи синтеза управления. В экспериментальной части работы вышеупомянутого автора син­ тезированная эволюционным методом функция управления рассчитана на груп­ пу из 3­х роботов. В случае изменения количества роботов в группе необходимо решать новую задачу синтеза. Представленный в диссертации подход на осно­ ве адаптивной функции управления позволяет извлекать и добавлять объекты в группу без проведения дополнительных вычислений. Другим отличием является то, что в работе А. Дивеева синтезируется единственный блок управления, ответственной за доставку ДО в терминальные состояния и за соблюдение ими фазовых ограничений. В рамках рассматрива­ емой в диссертации нейросетевой системы управления осуществляется поиск двух замкнутых функций, каждая из которых ответственна за решение своей задачи. Штрафы за нарушение фазовых ограничений и штрафы за недостиже­ ние объектами терминальных состояний включены в разные функционалы, что позволяет упростить поиск и повысить качество выполнения объектами упомя­ нутых задач. В заключении диссертационной работы даны общие выводы, представ­ лен анализ решения поставленных в диссертации задач и оценка достижения цели диссертации. В приложении приведены листинги программ численного синтеза систе­ мы группового управления на языке Python и таблицы простейших операций, использумых в модифицированном методе сетевого оператора. Результаты работы и основные выводы. Для достижения поставленных целей в диссертационной работе решены следующие основные задачи: 1. Проведен обзор подходов к управлению группами динамических объ­ ектов с соблюдением фазовых ограничений; 2. Разработаны алгоритмы для структурно­параметрического синтеза уни­ версального блока управления, предназначенного для разрешения кол­ лизий между двумя динамическими объектами; 3. Разработан подход к обучению нейронной сети, реализующей непре­ рывную динамическую систему стабилизации; 4. Разработан программный комплекс для решения задач структурного и параметрического синтеза и моделирования функционирования групп динамических объектов; 5. Реализована децентрализованная система управления группой динами­ ческих объектов на основе системы стабилизации и универсального блока разрешения коллизий; 6. Проведен вычислительный эксперимент на группе мобильных роботов; 7. Разработан метод принятия решений в условиях угрозы столкнове­ ния двух динамических объектов, при котором выборка управляющего воздействия проводится в соответствии с синтезированной функцией плостности вероятности.

Диссертационная работа посвящена разработке методов и алгоритмов
управления группами динамических объектов (ДО) в условиях отсутствия ин­
формации о среде и коммункаций между ДО. В частности, рассматривается
задача перемещения гомогенной группы ДО из произвольных начальных состо­
яний в произвольные терминальные состояния с соблюдением динамических
фазовых ограничений.
Если проводить разделение существующих подходов управления груп­
пами ДО с соблюдением фазовых ограничений относительно момента поиска
оптимального управления, то можно выделить два класса. В подходах, принад­
лежащих первому классу, поиск управлений выполняется в реальном масштабе
времени. К нему можно отнести почти все имеющиеся на сегодняшний день под­
ходы. Прогностическое управление основано на решении последовательности
задач оптимального управления. Данная методология рассматривается в рабо­
тах В. Сахарова, П. Агачи, К. Карлоса, Д. Мэйна и др. Локальные планировщики
маршрутов, рассматриваемые в работах И. Ермолова, А. Ющенко, С. Зенкевича,
Й. Боренштейна, Р. Симонса и других авторов, нацелены на построение опти­
мальных маршрутов, которые корректируются в реальном масштабе времени для
соблюдения фазовых ограничений. Подходы с назначением приоритетов рас­
сматриваются в работах Х. Берга, К. Кларка и М. Беневица. Выбор приоритетов
оказывает существенное влияние на критерий оптимизации, однако во многих
работах они назначаются эвристическим путем.
К первому классу также можно отнести методы полей потенциалов, первый
из которых был предложен А. Платоновым. В зарубежной литературе популярны
работы О. Хатиба и Р. Брукса. Применение этих методов на практике может при­
водить к попаданию ДО в локалные минимумы и к колебательному движению
ДО, близко расположенных к препятствиям.
Во втором классе подходов поиск оптимальных управлений выполняется
заранее. К нему можно отнести планирование маршрутов в совместном конфигу­
рационном пространстве, рассматриваемое в работах Х. Берга и В. Лумельского.
В задачах с большими группами данный подход неприменим из­за проклятия раз­
мерности.
В подходах, основанных на численном решении задачи оптимального
управления с фазовыми ограничениями, вводятся дополнительные переменные,
нахождение значений которых является вычислительно затратной процедурой.
Более практичный способ решения задачи соблюдения фазовых ограничений со­
стоит во включении этих ограничений в виде штрафных функций в функционал
качества. Однако здесь возникает проблема определения весовых коэффици­
ентов, которые могут существенно исказить значение функционала. А. Дивеев
разработал подход для численного решения задачи синтеза управления, в котором
многокритериальный функционал минимизируется эволюционным алгоритмом.
Данный подход неприменим в больших группах из­за проклятия размерности.
Более того, в случае изменения количества объектов в группе необходимо решать
новую задачу синтеза.
Не существует универсального подхода к созданию легко масштабируемых
систем управления группами ДО, который допускал бы использование произ­
вольной математической модели объектов управления, и при котором поиск
управлений не выполнялся бы в реальном масштабе времени. Проблема является
важной и нерешённой, что определяет ее актуальность.
Объектом исследования является система управления группой динамиче­
ских объектов.
Предметом исследования являются алгоритмы для синтеза управления в
задаче перемещения ДО из произвольных начальных состояний в произвольные
терминальные состояния с соблюдением динамических фазовых ограничений в
условиях отсутствия полной информации о среде и обмена информацией меж­
ду ДО.
Целью исследования является разработка алгоритмов для синтеза мас­
штабируемой децентрализованной системы управления гомогенной группой ДО,
позволяющей минимизировать вычисления, выполняемые ДО в реальном мас­
штабе времени.
Задачи исследования:
1. Провести обзор подходов к управлению группами динамических объек­
тов с соблюдением фазовых ограничений;
2. Разработать алгоритмы для структурно­параметрического синтеза блока
управления, предназначенного для разрешения коллизий между двумя
динамическими объектами;
3. Разработать подход к обучению нейронной сети, реализующей непре­
рывную динамическую систему стабилизации;
4. Разработать программный комплекс для решения задач структурно­
параметрического синтеза и моделирования функционирования групп
динамических объектов;
5. Реализовать децентрализованную систему управления группой динами­
ческих объектов на основе системы стабилизации и универсального
блока разрешения коллизий;
6. Провести вычислительный эксперимент на группе мобильных роботов;
7. Разработать метод принятия решений в условиях угрозы столкновения
динамических объектов, позволяющий проводить выборку управления
из функции условной плотности вероятностей.
Основные положения, выносимые на защиту:
1. Децентрализованная масштабируемая система управления, основанная
на двух обученных блоках управления. Данная система способна до­
ставлять динамические объекты из произволных начальных состояний
в произвольные терминальные состояния и разрешает между объектами
коллизии;
2. Алгоритм синтеза универсального блока разрешения коллизий, позволя­
ющий динамическим объектам избегать столкновения при их произволь­
ном взаимном расположении;
3. Алгоритм поиска функции управления динамическим объектом, при
котором состояние помехи встраивается в качестве дополнительных ар­
гументов в искомую функцию управления объектом;
4. Интеллектуальная система принятия решений, позволяющая динамиче­
скому объекту оценивать оптимальность всех возможных траекторий
объезда препятствия в реальном масштабе времени.
Научная новизна:
1. Предложен подход к синтезу децентрализованной масштабируемой си­
стемы управления группой динамических объектов, позволяющей ми­
нимизировать вычисления, выполняемые динамическими объектами в
реальном масштабе времени;
2. Разработан алгоритм синтеза непрерывной динамической системы ста­
билизации, способной доставлять динамические объекты в терминаль­
ные состояния при воздействии возмущений;
3. Разработан алгоритм синтеза универсального блока разрешения кол­
лизий. Данный блок позволяет динамическим объектам избегать
столкновения при произвольном взаимном расположении и направ­
лении движения;
4. Разработан метод принятия решений, в соответствии с которым ди­
намический объект проводит выборку управления из синтезированной
функции условной плотности вероятностей. Такая функция позволяет
объекту оценивать оптимальность всех возможных траекторий объезда
препятствия в реальном масштабе времени;
5. Предложен подход к избеганию столкновений, основанный на встра­
ивании компонент состояния помехи в искомую функцию управления
динамическим объектом в реальном масштабе времени.
Практическая значимость определяется тем, что предложенные алго­
ритмы могут применяться при создании систем управления группами ДО с
произвольной математической моделью.
Разработанные соискателем подходы и алгоритмы реализованы в модулях
Python и внедрены при создании и тестировании систем управления группами
мобильных роботов в Федеральном исследовательском центре «Информатика и
управление» Российской Академии Наук (ФИЦ ИУ РАН).
Методы исследования. В работе применялся двухэтапный процесс, осно­
ванный на решении оптимизационных задач и оценки полученных результатов
при помощи компьютерного моделирования. Численное решение задачи генера­
ции обучающих данных и синтеза замкнутых функций управления получено на
гибридном высокопроизводительном вычислительном комплексе ФИЦ ИУ РАН
http://www.frccsc.ru/ckp. Графическое отображение результатов моде­
лирования реализовано на персональном компьютере.
Достоверность и обоснованность научных результатов обеспечивается
за счет решения прикладных задач с использованием компьютерного моделиро­
вания.
Апробация работы. Основные результаты работы докладывались на сле­
дующих научных мероприятиях:
1. 13th International Symposium Intelligent Systems – 2018 (INTELS’18),
23.10.2018, Санкт­Петербург, Россия;
2. 2018 IX International Conference on Optimization and Applications
(OPTIMA 2018), 02.10.2018, Петровац, Черногория;
3. The 14th IEEE Conference on Industrial Electronics and Applications
(ICIEA 2019), 20.06.2019, Сиань, КНР;
4. Научном семинаре департамента механики и мехатроники Институ­
та космических технологий Инженерной академии РУДН, 04.05.2020,
Москва;
5. Научном семинаре «Проблемы управления автономными робототехни­
ческими комплексами (ИПУ РАН, Москва)», 18.03.2021, Москва;
6. Научном семинаре кафедры ИУ­1 «Системы автоматического управле­
ния» МГТУ им. Н. Э. Баумана, 27.05.2021, Москва.
Соответствие паспорту специальности. Диссертация соответствует пунк­
там 4, 7, 9 паспорта специальности 05.13.01 – Системный анализ, управление и
обработка информации (в технических системах).
Публикации. Основные результаты по теме диссертации изложены в 7 пе­
чатных изданиях, 4 из которых изданы в журналах, рекомендованных ВАК, 4 в
периодических научных журналах, индексируемых Web of Science и Scopus. За­
регистрированы 2 программы для ЭВМ.
Объем и структура работы. Диссертация состоит из введения, 3 глав, за­
ключения и 2 приложений. Полный объём диссертации составляет 210 страниц,
включая 34 рисунка и 7 таблиц. Список литературы содержит 146 наименований.

Заказать новую

Лучшие эксперты сервиса ждут твоего задания

от 5 000 ₽

Не подошла эта работа?
Закажи новую работу, сделанную по твоим требованиям

    Нажимая на кнопку, я соглашаюсь на обработку персональных данных и с правилами пользования Платформой

    Помогаем с подготовкой сопроводительных документов

    Совместно разработаем индивидуальный план и выберем тему работы Подробнее
    Помощь в подготовке к кандидатскому экзамену и допуске к нему Подробнее
    Поможем в написании научных статей для публикации в журналах ВАК Подробнее
    Структурируем работу и напишем автореферат Подробнее

    Хочешь уникальную работу?

    Больше 3 000 экспертов уже готовы начать работу над твоим проектом!

    Анна К. ТГПУ им.ЛН.Толстого 2010, ФИСиГН, выпускник
    4.6 (30 отзывов)
    Я научный сотрудник федерального музея. Подрабатываю написанием студенческих работ уже 7 лет. 3 года назад начала писать диссертации. Работала на фирмы, а так же помог... Читать все
    Я научный сотрудник федерального музея. Подрабатываю написанием студенческих работ уже 7 лет. 3 года назад начала писать диссертации. Работала на фирмы, а так же помогала студентам, вышедшим на меня по рекомендации.
    #Кандидатские #Магистерские
    37 Выполненных работ
    Екатерина П. студент
    5 (18 отзывов)
    Работы пишу исключительно сама на основании действующих нормативных правовых актов, монографий, канд. и докт. диссертаций, авторефератов, научных статей. Дополнительно... Читать все
    Работы пишу исключительно сама на основании действующих нормативных правовых актов, монографий, канд. и докт. диссертаций, авторефератов, научных статей. Дополнительно занимаюсь английским языком, уровень владения - Upper-Intermediate.
    #Кандидатские #Магистерские
    39 Выполненных работ
    Александра С.
    5 (91 отзыв)
    Красный диплом референта-аналитика информационных ресурсов, 8 лет преподавания. Опыт написания работ вплоть до докторских диссертаций. Отдельно специализируюсь на повы... Читать все
    Красный диплом референта-аналитика информационных ресурсов, 8 лет преподавания. Опыт написания работ вплоть до докторских диссертаций. Отдельно специализируюсь на повышении уникальности текста и оформлении библиографических ссылок по ГОСТу.
    #Кандидатские #Магистерские
    132 Выполненных работы
    Елена Л. РЭУ им. Г. В. Плеханова 2009, Управления и коммерции, пре...
    4.8 (211 отзывов)
    Работа пишется на основе учебников и научных статей, диссертаций, данных официальной статистики. Все источники актуальные за последние 3-5 лет.Активно и уместно исполь... Читать все
    Работа пишется на основе учебников и научных статей, диссертаций, данных официальной статистики. Все источники актуальные за последние 3-5 лет.Активно и уместно использую в работе графический материал (графики рисунки, диаграммы) и таблицы.
    #Кандидатские #Магистерские
    362 Выполненных работы
    Сергей Н.
    4.8 (40 отзывов)
    Практический стаж работы в финансово - банковской сфере составил более 30 лет. За последние 13 лет, мной написано 7 диссертаций и более 450 дипломных работ и научных с... Читать все
    Практический стаж работы в финансово - банковской сфере составил более 30 лет. За последние 13 лет, мной написано 7 диссертаций и более 450 дипломных работ и научных статей в области экономики.
    #Кандидатские #Магистерские
    56 Выполненных работ
    Дарья Б. МГУ 2017, Журналистики, выпускник
    4.9 (35 отзывов)
    Привет! Меня зовут Даша, я окончила журфак МГУ с красным дипломом, защитила магистерскую диссертацию на филфаке. Работала журналистом, PR-менеджером в международных ко... Читать все
    Привет! Меня зовут Даша, я окончила журфак МГУ с красным дипломом, защитила магистерскую диссертацию на филфаке. Работала журналистом, PR-менеджером в международных компаниях, сейчас работаю редактором. Готова помогать вам с учёбой!
    #Кандидатские #Магистерские
    50 Выполненных работ
    Александр О. Спб государственный университет 1972, мат - мех, преподав...
    4.9 (66 отзывов)
    Читаю лекции и веду занятия со студентами по матанализу, линейной алгебре и теории вероятностей. Защитил кандидатскую диссертацию по качественной теории дифференциальн... Читать все
    Читаю лекции и веду занятия со студентами по матанализу, линейной алгебре и теории вероятностей. Защитил кандидатскую диссертацию по качественной теории дифференциальных уравнений. Умею быстро и четко выполнять сложные вычислительные работ
    #Кандидатские #Магистерские
    117 Выполненных работ
    Кормчий В.
    4.3 (248 отзывов)
    Специализация: диссертации; дипломные и курсовые работы; научные статьи.
    Специализация: диссертации; дипломные и курсовые работы; научные статьи.
    #Кандидатские #Магистерские
    335 Выполненных работ
    Ксения М. Курганский Государственный Университет 2009, Юридический...
    4.8 (105 отзывов)
    Работаю только по книгам, учебникам, статьям и диссертациям. Никогда не использую технические способы поднятия оригинальности. Только авторские работы. Стараюсь учитыв... Читать все
    Работаю только по книгам, учебникам, статьям и диссертациям. Никогда не использую технические способы поднятия оригинальности. Только авторские работы. Стараюсь учитывать все требования и пожелания.
    #Кандидатские #Магистерские
    213 Выполненных работ

    Последние выполненные заказы

    Другие учебные работы по предмету