Разработка методов и алгоритмов для синтеза управления группой динамических объектов
Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
Глава 1. Постановка задачи управления группой динамических
объектов . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.1 Избегание коллизий в задаче управления динамическими объектами 10
1.2 Обзор существующих подходов управления динамическими
объектами . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.2.1 Планировщики маршрутов . . . . . . . . . . . . . . . . . . . 13
1.2.2 Методы потенциальных полей . . . . . . . . . . . . . . . . . 18
1.2.3 Реактивные подходы . . . . . . . . . . . . . . . . . . . . . . 19
1.2.4 Управление с прогнозирующими моделями . . . . . . . . . 20
1.2.5 Методы управления динамическими объектами на основе
обучения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.3 Выводы по первой главе . . . . . . . . . . . . . . . . . . . . . . . . . 23
Глава 2. Нейронные сети и машинное обучение в управлении . . . . .
2.1 Обзор работ с применением машинного обучения в задаче
управления динамическими объектами . . . . . . . . . . . . . . .
2.2 Выводы по второй главе . . . . . . . . . . . . . . . . . . . . . . . .
Глава 3. Избегание коллизий . . . . . . . . . . . . . . . . . . . . . . . .
3.1 Постановка задачи . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2 Избегание коллизий с ситуативным изменением правых частей
дифференциальных уравнений . . . . . . . . . . . . . . . . . . . .
3.2.1 Сетевой оператор . . . . . . . . . . . . . . . . . . . . . . .
3.2.2 Модифицированный сетевой оператор . . . . . . . . . . .
3.2.3 Поиск адаптивных функций управления динамическими
объектами на основе модифицированного метода сетевого
оператора . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.4 Вычислительный эксперимент . . . . . . . . . . . . . . . .
3.3 Синтез системы управления группой динамических объектов с
универсальным блоком разрешения коллизий . . . . . . . . . . . .
Стр
3.3.1 Cинтез непрерывной динамической системы
стабилизации на основе искусственных нейронных сетей
3.3.2 Постановка задачи стабилизации . . . . . . . . . . . . . . . 48
3.3.3 Этап 1. Синтез обучающего множества . . . . . . . . . . . . 48
3.3.4 Этап 2. Аппроксимация замкнутой функции управления . . 49
3.3.5 Вычислительный эксперимент . . . . . . . . . . . . . . . . . 50
3.4 Cинтез универсальной системы разрешения коллизий (УСРК) . . . 58
3.4.1 Вычислительный эксперимент . . . . . . . . . . . . . . . . . 63
3.5 Синтез универсальной вероятностной системы разрешения
коллизий (УВСРК) . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.5.1 Вычислительный эксперимент . . . . . . . . . . . . . . . .
3.6 Выводы по третьей главе . . . . . . . . . . . . . . . . . . . . . . .
Общие выводы и заключение . . . . . . . . . . . . . . . . . . . . . . . . .
Список литературы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Приложение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
П.1. Базовые операции . . . . . . . . . . . . . . . . . . . . . . . .
П.2. Листинги программного кода . . . . . . . . . . . . . . . . . .
Во введении обосновывается актуальность исследований, проводимых в дис
сертации, формулируется цель и задачи, определяется предмет исследования,
излагается научная новизна и практическая значимость диссертации.
В первой главе формулируется постановка задачи управления группами
ДО, перечисляются существующие подходы решения задачи, приводятся резуль
таты, выносимые на защиту.
В данном исследовании задача управления группой динамических объ
ектов имеет следующую постановку. Задана математическая модель объектов
управления гомогенной группы ДО
ṡi = f si , ui ,(1)
TT
где si = [si,1 . . . si,n ] – вектор состояния объекта; si ∈ Rn , ui = [ui,1 . . . ui,m ]
– вектор управления; ui ∈ U ⊆ Rm , U – ограниченное замкнутое множество,
i = 1, N , N – количество ДО в группе.
Заданы множество начальных состояний
no
S0,i = s0,i0,i
1 , . . . ,ski,(2)
множество терминальных состояний
no
Sf,i = sf,i
1, . . . ,sf,i
r i
,(3)
где ki и ri – количество начальных и терминальных состояний объекта i соответ
T
ственно. Подвектор yi = [yi,1 . . . yi,p ] вектора si определяет местоположение
объекта i.
Заданы динамические фазовые ограничения в виде неравенства
X
p
R2 −(yc,i − yc,j ) ≤ 0,(4)
c=1
где R – радиус сферы, задающей габариты ДО,
i, j = {1, . . . ,N }, i ̸= j.
Задан функционал качества
Zt̂f
J=f0 s1 (t) , . . . ,sN (t) , u1 (t) , . . . ,uN (t) dt → min ,(5)
u ∈U
i
где t̂f,i = max{tf,i : i = {1, . . . ,N }} – ограниченное время процесса управле
ния, которое может быть задано или определяться по достижению терминальных
состояний.
Требуется найти адаптивную функцию управления
h si , если R2 − P (y − y )2 < 0,
m
oi,c j,c
ui = c=1(6)
g si , sj иначе,
переводящую объекты управления в терминальные состояния (3) и удовлетворя
ющую функционалу качества (5) для всех возможных начальных условий (2) с
соблюдением динамических фазовых ограничений (8). Здесь Ro – радиус сферы,
задающей окрестность
объекта, внутри которой
он способен обнаруживать
дру
гие объекты, h si : Rn → Rm , g si , sj : Rn × Rn → Rm , h si , g si , sj ∈
U ⊆ Rm .
Подставив (6) в (1), получим модель объекта с функцией управления, за
висящей от состояния
f si , h si , если R2 − P (y − y )2 < 0,
m
ioi,c j,c
ṡ = c=1(7)
ii j
f s ,g s ,sиначе.
Вторая глава посвящена обзору работ с применением нейронных сетей
(НС) и технологии глубокого обучения в задачах управления ДО. А также опре
делены основные направления применения современных средств машинного
обучения в области управления.
В работах Й. Жу и П. Юэ обучение с подкреплением используется для
создания систем навигации. Нейросетевая система управления была обучена
находить маршруты на основе подаваемых на её вход изображений среды. В
экспериментальной части работы продемонстрировано, как обученный робот
перемещается к указанному на изображении месту. В отличие от многих преды
дущих методов навигации, вышеуказанный метод не требует 3Dмоделирования
окружающей среды.
Д. Жанг и Д. Син представили в своих работах подходы к созданию систем
навигации, в основе которых лежат DQN (глубокие Qсети), обучающиеся на
изображениях среды. DQN отображает поступающие на вход изображения сре
ды в дискретные действия робота.
Т. Лилликрап с соавторами представили DQN, способную отображать
изображения среды в действия робота, выраженные непрерывными величинами.
Авторами предложено использовать глубокие детерминированные градиенты
политики (DDPG), где глубокие НС выступают в процессе обучения в качестве
“актеров” и “критиков”.
В случае взаимодействия роботов с физической средой достаточно пробле
матично получить адекватное подкрепление. Даже если подкрепление удается
извлечь из физической среды, то проблемы запаздывания подкрепляющего
сигнала и наличия шумов останутся нерешенными. По этой причине многие
авторы используют симуляционные платформы для обучения DQN на RGB
изображениях, после чего DQN переносят на физические роботы.
Нерешенной проблемой обучения с подкреплением является неэффектив
ность обучающих данных. Нейросетевая модель зачастую требует нескольких
затратных с точки зрения вычислений эпизодов для закрепления оптимальной
политики.
Обучение с подкреплением является перспективной технологией, позво
ляющей решать сложные оптимизационные задачи, однако успехи данной пара
дигмы пока можно связать преимущественно с задачами, где поиск оптимальных
политик осуществляется в дискретных пространствах. Применение данной тех
нологии в задачах, где поиск осуществляется в непрерывных пространствах,
затруднительно изза большого количества подлежащих аппроксимации состо
яний и вознаграждений. В задачах с непрерывным пространством поиска и
большим временным горизонтом нейросетевые модели, обучающиеся в парадиг
ме обучения с подкреплением, на сегодняшний день незначительно превосходят
эволюционные алгоритмы.
Имеющиеся на сегодняшний день численные методы для решения задачи
синтеза управления используют для поиска замкнутых функций эволюционные
алгоритмы, являющиеся разновидносями случайного поиска. В данном исследо
вании осуществлена попытка создания поэтапного подхода к решению данной
задачи при помощи современных средств машинного обучения, в котором поиск
замкнутой функции управления выполняется в метрическом пространстве.
В третьей главе представлен модифицированный метод сетевого опе
ратора, который используется в диссертации для поиска адаптивных функций
управления, способных доставлять ДО в назначенные терминальные состояния
с соблюдением динамических фазовых ограничений. Соблюдение объектами
фазовых ограничений достигается за счет включения вектора состояния бли
жайшей помехи в функции управления объектами. На базе данного метода
представлен алгоритм поиска функций управления ДО, состоящий из 5 шагов:
1. Для каждого ДО инициализируется базисный регистр сетевого опера
тора X0 и вектор параметров Q0 ;
2. Генерируется начальное множество P из H малых вариаций, задается
число поколений G, максимальное число потомков c;
3. На каждой итерации g = 1, G выполняются следующие действия:
а) Cкрещиваются два случайно выбранных индивида I1 , I2 ∈ P ;
б) Проводится оценка значений функционала (5) полученных по
томков Cj , j = 1, k, k ∈ {1, . . . ,c};
в) d ∈ {1, . . . ,k} потомков замещают d худших индивидов в попу
ляции P ;
4. Вариации оптимального индивида I o применяются на базисное реше
ние X o , Qo ;
5. Выполняется параметрическая оптимизация конечной структуры мате
матического выражения.
На выходе получают оптимальные X o , Qo для каждого ДО. Если выполняется
условие
X m
Ro2 −(yi,c − yj,c ) ≤ 0, i, j = {1, . . . ,N }, i ̸= j, (8)
c=1
где Ro – радиус локалной окрестности ДО, то на вход регистров сетевого опе
ратора подается вектор
∆si = si (t) − si,f ,(9)
определяющий отклонение текущего состояния робота si (t) от терминального
состояния si,f в момент времени t ∈ [0, tf ] , N – количество ДО в группе. В
противном случае, на вход регистров подается дополнительный вектор
∆ŝi = si (t) − sγ (t) ,
задающий отклонение состояния рассматриваемого робота от состояния бли
жайшего объектапомехи, где sγi (t) – решение системы (1), определяющее
состояние ближайшего объектапомехи для iго ДО в момент времени t.
В качестве экспериментальной модели в работе рассматривается гусенич
ный мобильный робот, динамика которого имеет следующий вид:
ẋi = (ui,1 + ui,2 ) cos (θi ),
2
(ui,1 + ui,2 ) sin (θi )
ẏi =,(10)
2
θ̇i = (ui,1 − ui,2 ),
где xi , yi – координаты центра масс iго робота; θi – угол между осью симметрии
робота и осью абсцисс инерциальной системы координат 0xy.
На Рис. 1 представлено начальное состояние группы мобильных
роботов, где роботы изображены закрашенными окружностями. Терминаль
ные состояния назначаются роботам до начала функционирования группы.
100Желаемые терминальные состоя
ния роботов отмечены на Рис. 2
черными квадратами. Как вид
60но из Рис. 1, начальная формация
y 40группы имеет форму буквы “A”.
Задача роботов – переместиться в
формацию, имеющую форму буквы
“D”. Конечные состояния назначают
−20
01020 304050 6070
ся роботам до начала функционирова
xния группы и не меняются. Как видно
Рис. 1. Начальное состояние группыиз Рис. 2, роботы успешно располо
роботовжились в форме буквы “D”.
Параллельно поиску оптималь
ных функций, доставляющих объекты в терминальные состояния, осуществля
ется поиск оптимальных функциональных связей между состояниями объектов
и состояниями препятствий, входящих в окрестность объектов. Данные свя
зи позволяют ДО оптимально реагировать на вхождение в их окрестность
объектовпомех: объекты избегают столкновений друг с другом и одновременно
продвигаются в направлении назначенных им терминальных состояний. Най
денные модифицированным методом сетевого оператора функции управления
для желтого и оранжевого робота имеют следующий вид:
u13,1 = arctg (x13 − xf,13 ) + (y13 − yf,13 ) + (θ13 − θf,13 ) − 18,91 (x13 − x14 )
+ 18,55 (y13 − y14 ) |x13 − x14 | + 1,23 (θ13 − θ14 ) arctg (1) ,
u13,2 = (x13 − xf,13 ) + (y13 − yf,13 ) + (θ13 − θf,13 ) − 18,91 (x13 − x14 )
hi
+ 18,55 (y13 − y14 ) |x13 − x14 | + tg 1,23 (θ13 − θ14 ) arctg (1) ,
u14,1 = (x14 − xf,14 ) + (y14 − yf,14 ) − 6,15 (θ14 − θf,14 ) + 3,13 (x14 − xf,13 )
+ 0,25 (y14 − y13 ) |x14 − xf,14 | − 0,19 (θ14 − θf,13 ) arctg (1) + 2,
u14,2 = (x14 − xf,14 ) + (y14 − yf,14 ) − 6,15 (θ14 − θf,14 ) + 3,13 (x14 − xf,13 )
+ 0,25 (y14 − y13 ) |x14 − xf,14 | − 0,19 (θ14 − θf,13 ) arctg (1) .
Здесь ui,k – управление kой гусеницей iго робота, xi , yi , θi – текущие коор
динаты iго робота, xf,i , yf,i , θf,i – конечные координаты iго робота, qi,v – vый
параметр iго регистра сетевого оператора. Встраиваемые невязки состояния ро
ботов и их параметры выделены зеленым цветом. При отсутствии в локальной
области робота препятствий, значения выделенных невязок равны нулю.
Вдиссертациипредстав100
лен новый метод синтеза системы
управления с универальным блоком
избегания коллизий на основе обу60
чения НС. Предлагается отдельноy 40
синтезировать непрерывную дина20
мическую систему стабилизации и
систему разрешения коллизий.
Непрерывная динамическая си−20
01020304050 6070
стема стабилизации реализована вx
замкнутой функции управления и отРис. 2. Конечное состояние группы
вечает за доставку ДО в их термироботов
нальные состояния. Она управляет
объектом, если в его локальной окрестности отсутствуют препятствия. В против
ном случае управление объектом делегируется системе разрешения коллизий.
Синтез непрерывной динамической системы стабилизации проводится по
средством аппроксимации НС замкнутой функции управления на множестве
синтезированных данных.
На первом этапе решается задача оптимального управления на конечном
множестве начальных условий. Формируется конечное множество начальных
условий
D = s10 , . . . ,sk0 , si0 ∈ S0 , i = 1, k.(11)
Для начального условия si0 ∈ D инициализируется нейросетевой аппроксима
тор с начальным набором весовых коэффициентов Ψi0 ∈ Rn×m×l ; Генерируется
популяция весовых коэффициентов
T
P = [Ψ1 , . . . , Ψp ] , Ψj = [W1 . . . Wn ] , Wv ∈ Rm×l ,
где m, l – число входов и выходов слоя v = 1, n НС соответственно, Ψj , j =
1, p – jый индивид популяции, p – размерность популяции. В качестве крите
рия оптимальности управления используется функционал интегрального типа
с аддитивной сверткой двух компонент – отклонения текущего состояния от
терминального (терминальная невязка) и времени достижения объектом терми
нального состояния.
J = ||∆s (tf )||2 + tf = sf − s (tf )2
+ tf ,(12)
(
t, если t < t+ ,
tf =
t+ иначе,
где t ∈ [0, tf ] , t+ – максимальное допустимое время движения робота. Генети
ческим алгоритмом находятся веса для рассматриваемого si0 :
Ψio = ψ1o , . . . ,ψno ,
соответствующие минимальному значению функционала (12).
Получаем для iго объекта (1) решение задачи оптимального управления
из si0 :
ui = h ∆si | Ψo
Далее проводится моделирование объекта управления (1) из si0 с оптимальными
весами Ψo и запоминаются отображения «состояние – управление»
∆si (t) → ui (t) , i = 1, k, t ∈ [0, tf ] .
Вышеперечисленные шаги выполняются для всех si0 , i = 1, k из множества (11).
В завершении первого этапа формируется обучающее множество пар «отклоне
ние – управление»:
X
k
T=j
∆s , uj
, j = 1, q, q =|Ti |,
i=1
где | · | – мощность рассматриваемого множества.
На втором этапе проводится аппроксимация функции управления на раз
меченном множестве обучающих данных путем минимизации квадратичной
функции ошибки
12
L ∆sj | Θ =uj − ûj2
→ min , j = 1, q,(13)
2Θ
где ûj – вектор выходов НС, uj – эталонное управление.
В результате минимизации функционала (13) методом обратного распро
странения ошибки получаем замкнутую функцию управления
u = h (∆s | Θo ) ,(14)
которая способна доставлять объект (1) из произвольного начального состояния
в произвольное терминальное состояние. Здесь Θo – обученные весовые коэф
фициенты НС, ∆s – терминальная невязка. В адаптивной системе управления
группой ДО (7) синтезированная система стабилизации (14) реализована в функ
ции h (·).
Для тестирования синтезированной системы стабилизации были выбраны
начальные условия, не принадлежащие обучающему множеству. На Рис. 3 изоб
ражены траектории движения робота (10) из начальных состояний s0k , k = 1, 8
в терминальное состояние sf при воздействии на робот возмущений.Из Рис. 3
можно видеть, что синтезированная система стабилизации способна достав
лять робот в терминальное состояние из начальных условий, не принадлежащих
обучающему множеству, даже в условиях воздействия на робот внешних воз
мущений.
Взадачеуправле
ния группой ДО возникает
проблемасоблюдения
динамическихфазовых
ограничений.Нарушение
фазовых координат может
происходить в любой точке
пространства состояний, что
существенно усложняет по
иск решения поставленной
задачи.
В данной работе рас
сматривается проблема разРис. 3. Траектории движения мобильного
решения коллизий для двухробота
объектов, т. к. одновременное столкновение более 2х объектов можно пред
ставить как совокупность сталкивающихся пар ДО. Предполагается, что ДО
оснащены минимальными средствами наблюдения за рабочей сценой и систе
мами определения координат и не задействуют средства коммуникации.
Универсальная система разрешения коллизий (УСРК) реализована в за
мкнутой функции управления, которая позволяет объектам реагировать на сбли
жение с помехами таким образом, чтобы объекты уклонялись от столкновений
и одновременно продвигались в направлении терминальных состояний. Данная
система является универсальной, так как она способна разрешать коллизии при
произвольном расположении двух ДО.
В качестве аппроксиматора функции управления, реализующей систе
му избегания коллизий, рассматриваются две архитектуры: а) многослойный
персептрон, отображающий входной вектор состояния в выходной вектор управ
ления и б) НС, отображающая входной вектор состояния в смешанное веро
ятностное распределение, где управляющее воздействие выступает в качестве
случайной величины (УВСРК).
На вход УСРК и УВСРК подается вектор
T
ξi (t) = ∆ŝi (t − 1)∆ŝi (t)∆si (t) ,
включающий невязку между текущим и терминальным состоянием ∆si (t) объ
екта и две невязки между состоянием рассматриваемого объекта и объекта
помехи ∆ŝi (t), ∆ŝi (t − 1), i = 1, N , где N – количество объектов в группе.
Для синтеза УСРК и УВСРК генерируется множество начальных и конеч
ных условий, которые приводят пару ДО к столкновению или сближению без
нарушения фазовых ограничений:
b = si (t0 ) , si (tf ) , sj (t0 ) , sj (tf ) ,(15)
где t0 , tf – начальный и конечный момент времени соответственно, i, j =
{1, 2}, i ̸= j. В качестве системы управления, доставляющей ДО в терминаль
ные состояния, используется синтезированная система стабилизации.
На основе множеств (15) формируется множество сценариев
Y = {bq : q = {1, L}} .(16)
Инициализируется НС с весовыми коэффициентами Ω0 ∈ Ra×l×w , где a –
число слоев аппроксиматора; l, w – число входов и выходов слоя w = 1, a со
ответственно. На множестве сценариев
(16) осуществляем поиск оптимальных
функциональных связей u ξiq , обеспечивающих минимум функционала каче
ства
XZt̂f
L
J ξiq = t̂f + ∆sq (t) 2 + ∆sq (t) 2 + ϑ ξq (t) dt → min .
iji
Ω
q=10
Здесь(
1, если Ro2 − ∆ŝiq (t)
≥ 0,
ϑξiq(t) =2
0 иначе ,
где t̂f = max {tf,i : i = {1, 2}} – максимальное ограниченное время процесса
управления, которое может быть задано или определяться при достижении тер
минальных состояний.
По истечении эпох оптимизационного алгоритма получаем оптимальные
весовые коэффициенты Ωo НС, реализующей замкнутую функцию управления
g (·) в адаптивной системе управления (7).
Управление объектом, функционирующим в рамках группы, осуществ
ляется системой стабилизации, если выполняется условие (8). В противном
случае, управление объектом передается системе разрешения коллизий. После
завершения маневра, если в локальной области объекта не обнаружено других
объектовпомех, управление объектом передается системе стабилизации.
Система управления группой роботов на основе двух вышеперечислен
ных систем является децентрализованной. НС с оптимизированными весовыми
коэффициентами записываются в память роботов, за счет чего обеспечивается
их автономность. Такой подход позволяет сократить до минимума вычисления,
проводимые роботами в реальном масштабе времени. На Рис. 4 изображены тра
ектории роботов (10). Как можно видеть из Рис. 4, роботы успешно произвели
Рис. 4. Траектории роботов, использующих УСРК
маневры благодаря синтезированной УСРК, что позволило им избежать столк
новений и одновременно продвинуться в направлении терминальных состояний.
Если в локальной окрестности динамического объекта находится несколь
ко препятствий, то система разрешения коллизий может не успеть провести
небходимый маневр, так как системой учитывается только ближайшее пре
пятствие. Данную проблему можно решить, если обучать пары объектов с
различными радиусами локальной окрестности. Создание системы, способной
одновременно реагировать на несколько препятствий также может послужить
потенциальным решением данной проблемы.
В диссертации рассматривается интеллектуальная УСРК, способная
учитывать все возможные маршруты объезда препятствий. Предлагается ис
пользовать специальную функцию управления, отображающую входной вектор
состояния в вероятностное распределение управляющих воздействий.
Для реализации такого отображения в диссертации предлагается использо
вать НС, порождающую смешанную плотность вероятностных распределений.
Особенность этой НС состоит в том, что она позволяет моделировать любую
функцию вероятностного распределения.
Функция плотности вероятностностей формируется посредством линей
ной комбинации ядерных функций:
X
k
p (u | ξ) =αg (ξ) ϕg (u | ξ) , j = 1, m,(17)
g=1
где k – количество ядерных функций, m – количество управлений, u – jое
управление объекта (1), выступающее в качестве случайной величины, ξ – век
тор невязок, включающий терминальную невязку и невязки состояния робота и
помехи в моменты времени t − 1 и t. Параметры αg (ξ) представляют коэффи
циенты смешивания и являются априорными вероятностями для управления u
из gой функции распределения. Ядерная функция ϕg (u | ξ) представляет gую
условную плотность вероятностей управления u.
НС, реализующая фунцию (17), способна генерировать оптимальную плот
ность вероятностей для любого подаваемого на вход состояния ξ. Для этого
необходимо задать такие параметры смешанной модели, как априорные коэффи
циенты смешивания αg (ξ), математические ожидания µ (ξ) и среднеквадратич
ные отклонения σg ξi в виде функций от состояния ξ. Эти зависимости можно
получить на выходе многослойного персептрона, принимающего на вход состо
яние ξ.
В качестве экспериментальной модели использовался гусеничный мобиль
ный робот (10). На Рис. 5 изображены траектории роботов, уклонившихся от
столкновений, и их функции управления. Положения роботов, соответствующие
активации УВСРК, отмечены на Рис. 5 треугольниками.
Рис. 5. Траектории роботов, использующих УВСРК
Предложенный в диссертации подход к управлению группой ДО можно
сравнить с подходом, разработанным А. Дивеевым и соавторами, где пробле
ма перемещения группы роботов рассматривается в постановке задачи синтеза
управления. В экспериментальной части работы вышеупомянутого автора син
тезированная эволюционным методом функция управления рассчитана на груп
пу из 3х роботов. В случае изменения количества роботов в группе необходимо
решать новую задачу синтеза. Представленный в диссертации подход на осно
ве адаптивной функции управления позволяет извлекать и добавлять объекты в
группу без проведения дополнительных вычислений.
Другим отличием является то, что в работе А. Дивеева синтезируется
единственный блок управления, ответственной за доставку ДО в терминальные
состояния и за соблюдение ими фазовых ограничений. В рамках рассматрива
емой в диссертации нейросетевой системы управления осуществляется поиск
двух замкнутых функций, каждая из которых ответственна за решение своей
задачи. Штрафы за нарушение фазовых ограничений и штрафы за недостиже
ние объектами терминальных состояний включены в разные функционалы, что
позволяет упростить поиск и повысить качество выполнения объектами упомя
нутых задач.
В заключении диссертационной работы даны общие выводы, представ
лен анализ решения поставленных в диссертации задач и оценка достижения
цели диссертации.
В приложении приведены листинги программ численного синтеза систе
мы группового управления на языке Python и таблицы простейших операций,
использумых в модифицированном методе сетевого оператора.
Результаты работы и основные выводы. Для достижения поставленных
целей в диссертационной работе решены следующие основные задачи:
1. Проведен обзор подходов к управлению группами динамических объ
ектов с соблюдением фазовых ограничений;
2. Разработаны алгоритмы для структурнопараметрического синтеза уни
версального блока управления, предназначенного для разрешения кол
лизий между двумя динамическими объектами;
3. Разработан подход к обучению нейронной сети, реализующей непре
рывную динамическую систему стабилизации;
4. Разработан программный комплекс для решения задач структурного и
параметрического синтеза и моделирования функционирования групп
динамических объектов;
5. Реализована децентрализованная система управления группой динами
ческих объектов на основе системы стабилизации и универсального
блока разрешения коллизий;
6. Проведен вычислительный эксперимент на группе мобильных роботов;
7. Разработан метод принятия решений в условиях угрозы столкнове
ния двух динамических объектов, при котором выборка управляющего
воздействия проводится в соответствии с синтезированной функцией
плостности вероятности.
Диссертационная работа посвящена разработке методов и алгоритмов
управления группами динамических объектов (ДО) в условиях отсутствия ин
формации о среде и коммункаций между ДО. В частности, рассматривается
задача перемещения гомогенной группы ДО из произвольных начальных состо
яний в произвольные терминальные состояния с соблюдением динамических
фазовых ограничений.
Если проводить разделение существующих подходов управления груп
пами ДО с соблюдением фазовых ограничений относительно момента поиска
оптимального управления, то можно выделить два класса. В подходах, принад
лежащих первому классу, поиск управлений выполняется в реальном масштабе
времени. К нему можно отнести почти все имеющиеся на сегодняшний день под
ходы. Прогностическое управление основано на решении последовательности
задач оптимального управления. Данная методология рассматривается в рабо
тах В. Сахарова, П. Агачи, К. Карлоса, Д. Мэйна и др. Локальные планировщики
маршрутов, рассматриваемые в работах И. Ермолова, А. Ющенко, С. Зенкевича,
Й. Боренштейна, Р. Симонса и других авторов, нацелены на построение опти
мальных маршрутов, которые корректируются в реальном масштабе времени для
соблюдения фазовых ограничений. Подходы с назначением приоритетов рас
сматриваются в работах Х. Берга, К. Кларка и М. Беневица. Выбор приоритетов
оказывает существенное влияние на критерий оптимизации, однако во многих
работах они назначаются эвристическим путем.
К первому классу также можно отнести методы полей потенциалов, первый
из которых был предложен А. Платоновым. В зарубежной литературе популярны
работы О. Хатиба и Р. Брукса. Применение этих методов на практике может при
водить к попаданию ДО в локалные минимумы и к колебательному движению
ДО, близко расположенных к препятствиям.
Во втором классе подходов поиск оптимальных управлений выполняется
заранее. К нему можно отнести планирование маршрутов в совместном конфигу
рационном пространстве, рассматриваемое в работах Х. Берга и В. Лумельского.
В задачах с большими группами данный подход неприменим изза проклятия раз
мерности.
В подходах, основанных на численном решении задачи оптимального
управления с фазовыми ограничениями, вводятся дополнительные переменные,
нахождение значений которых является вычислительно затратной процедурой.
Более практичный способ решения задачи соблюдения фазовых ограничений со
стоит во включении этих ограничений в виде штрафных функций в функционал
качества. Однако здесь возникает проблема определения весовых коэффици
ентов, которые могут существенно исказить значение функционала. А. Дивеев
разработал подход для численного решения задачи синтеза управления, в котором
многокритериальный функционал минимизируется эволюционным алгоритмом.
Данный подход неприменим в больших группах изза проклятия размерности.
Более того, в случае изменения количества объектов в группе необходимо решать
новую задачу синтеза.
Не существует универсального подхода к созданию легко масштабируемых
систем управления группами ДО, который допускал бы использование произ
вольной математической модели объектов управления, и при котором поиск
управлений не выполнялся бы в реальном масштабе времени. Проблема является
важной и нерешённой, что определяет ее актуальность.
Объектом исследования является система управления группой динамиче
ских объектов.
Предметом исследования являются алгоритмы для синтеза управления в
задаче перемещения ДО из произвольных начальных состояний в произвольные
терминальные состояния с соблюдением динамических фазовых ограничений в
условиях отсутствия полной информации о среде и обмена информацией меж
ду ДО.
Целью исследования является разработка алгоритмов для синтеза мас
штабируемой децентрализованной системы управления гомогенной группой ДО,
позволяющей минимизировать вычисления, выполняемые ДО в реальном мас
штабе времени.
Задачи исследования:
1. Провести обзор подходов к управлению группами динамических объек
тов с соблюдением фазовых ограничений;
2. Разработать алгоритмы для структурнопараметрического синтеза блока
управления, предназначенного для разрешения коллизий между двумя
динамическими объектами;
3. Разработать подход к обучению нейронной сети, реализующей непре
рывную динамическую систему стабилизации;
4. Разработать программный комплекс для решения задач структурно
параметрического синтеза и моделирования функционирования групп
динамических объектов;
5. Реализовать децентрализованную систему управления группой динами
ческих объектов на основе системы стабилизации и универсального
блока разрешения коллизий;
6. Провести вычислительный эксперимент на группе мобильных роботов;
7. Разработать метод принятия решений в условиях угрозы столкновения
динамических объектов, позволяющий проводить выборку управления
из функции условной плотности вероятностей.
Основные положения, выносимые на защиту:
1. Децентрализованная масштабируемая система управления, основанная
на двух обученных блоках управления. Данная система способна до
ставлять динамические объекты из произволных начальных состояний
в произвольные терминальные состояния и разрешает между объектами
коллизии;
2. Алгоритм синтеза универсального блока разрешения коллизий, позволя
ющий динамическим объектам избегать столкновения при их произволь
ном взаимном расположении;
3. Алгоритм поиска функции управления динамическим объектом, при
котором состояние помехи встраивается в качестве дополнительных ар
гументов в искомую функцию управления объектом;
4. Интеллектуальная система принятия решений, позволяющая динамиче
скому объекту оценивать оптимальность всех возможных траекторий
объезда препятствия в реальном масштабе времени.
Научная новизна:
1. Предложен подход к синтезу децентрализованной масштабируемой си
стемы управления группой динамических объектов, позволяющей ми
нимизировать вычисления, выполняемые динамическими объектами в
реальном масштабе времени;
2. Разработан алгоритм синтеза непрерывной динамической системы ста
билизации, способной доставлять динамические объекты в терминаль
ные состояния при воздействии возмущений;
3. Разработан алгоритм синтеза универсального блока разрешения кол
лизий. Данный блок позволяет динамическим объектам избегать
столкновения при произвольном взаимном расположении и направ
лении движения;
4. Разработан метод принятия решений, в соответствии с которым ди
намический объект проводит выборку управления из синтезированной
функции условной плотности вероятностей. Такая функция позволяет
объекту оценивать оптимальность всех возможных траекторий объезда
препятствия в реальном масштабе времени;
5. Предложен подход к избеганию столкновений, основанный на встра
ивании компонент состояния помехи в искомую функцию управления
динамическим объектом в реальном масштабе времени.
Практическая значимость определяется тем, что предложенные алго
ритмы могут применяться при создании систем управления группами ДО с
произвольной математической моделью.
Разработанные соискателем подходы и алгоритмы реализованы в модулях
Python и внедрены при создании и тестировании систем управления группами
мобильных роботов в Федеральном исследовательском центре «Информатика и
управление» Российской Академии Наук (ФИЦ ИУ РАН).
Методы исследования. В работе применялся двухэтапный процесс, осно
ванный на решении оптимизационных задач и оценки полученных результатов
при помощи компьютерного моделирования. Численное решение задачи генера
ции обучающих данных и синтеза замкнутых функций управления получено на
гибридном высокопроизводительном вычислительном комплексе ФИЦ ИУ РАН
http://www.frccsc.ru/ckp. Графическое отображение результатов моде
лирования реализовано на персональном компьютере.
Достоверность и обоснованность научных результатов обеспечивается
за счет решения прикладных задач с использованием компьютерного моделиро
вания.
Апробация работы. Основные результаты работы докладывались на сле
дующих научных мероприятиях:
1. 13th International Symposium Intelligent Systems – 2018 (INTELS’18),
23.10.2018, СанктПетербург, Россия;
2. 2018 IX International Conference on Optimization and Applications
(OPTIMA 2018), 02.10.2018, Петровац, Черногория;
3. The 14th IEEE Conference on Industrial Electronics and Applications
(ICIEA 2019), 20.06.2019, Сиань, КНР;
4. Научном семинаре департамента механики и мехатроники Институ
та космических технологий Инженерной академии РУДН, 04.05.2020,
Москва;
5. Научном семинаре «Проблемы управления автономными робототехни
ческими комплексами (ИПУ РАН, Москва)», 18.03.2021, Москва;
6. Научном семинаре кафедры ИУ1 «Системы автоматического управле
ния» МГТУ им. Н. Э. Баумана, 27.05.2021, Москва.
Соответствие паспорту специальности. Диссертация соответствует пунк
там 4, 7, 9 паспорта специальности 05.13.01 – Системный анализ, управление и
обработка информации (в технических системах).
Публикации. Основные результаты по теме диссертации изложены в 7 пе
чатных изданиях, 4 из которых изданы в журналах, рекомендованных ВАК, 4 в
периодических научных журналах, индексируемых Web of Science и Scopus. За
регистрированы 2 программы для ЭВМ.
Объем и структура работы. Диссертация состоит из введения, 3 глав, за
ключения и 2 приложений. Полный объём диссертации составляет 210 страниц,
включая 34 рисунка и 7 таблиц. Список литературы содержит 146 наименований.
Помогаем с подготовкой сопроводительных документов
Хочешь уникальную работу?
Больше 3 000 экспертов уже готовы начать работу над твоим проектом!