Улучшенный мультиагентный детерминированный метод градиента политики с глубоким обучением для класса задач прикладного мультиагентного моделирования

Вальков Степан Дмитриевич
Бесплатно
В избранное
Работа доступна по лицензии Creative Commons:«Attribution» 4.0

В данной работе рассматривается вопрос применения машинного обучения к мультиагентным системам. Предлагается усовершенствование одного из современных методов машинного обучения мультиагентных систем. На примере моделирования игры в футбол продемонстрирована эффективность предложенного усовершенствования.

Быстрое развитие высоких технологий, наблюдаемое в последние десятилетия, неизбежно поднимает вопрос о возможности моделирования человеческого сознания искусственным интеллектом, способным не только действовать по заранее заложенной в него программе, но и обучаться решению некоторых задач в ходе своей работы. Ответом на этот вопрос стало формирование машинного обучения, как раздела науки, исследующего различные подходы к накоплению таким интеллектом опыта и обучения его принятию решений исходя из этого опыта.
Одна из концепций машинного обучения, особенно бурно развивающаяся в настоящее время – обучение с подкреплением (ОП). ОП рассматривает обучаемую систему – агента в его взаимодействии со средой. В процессе обучения агент «выясняет», какие его действия (или последовательности действий) приводят к наиболее благоприятной реакции среды, тем самым достигая оптимального в некотором смысле поведения.
ОП имеет приложения в самых различных сферах человеческой деятельности, среди которых:
Робототехника [7]
Общение и лингвистика [14, 19]
Настольные и компьютерные игры [2, 20]
На настоящий момент, ОП применяется как для сред с одним обучаемым агентом, так и для областей, где необходимо учитывать взаимодействие между многими агентами. Среди них – уже упомянутые игры (для случая нескольких игроков), управление группами роботов и исследование социальных взаимодействий.
Востребованность и перспективность ОП стали решающими факторами в выборе данной области знаний, как поля для данного исследования.
Среди методов ОП выделяют несколько классов, один из которых – методы градиента политики. Они основываются на одноименной теореме, которая позволяет представить процесс обучения в виде задачи максимизации функционала, зависящего от набора параметров, определяющих поведение агента. Оптимизация происходит с помощью градиентного подъема по параметрам [16]. Долгое время оставалась нерешенной задача применения таких алгоритмов в мультиагентной среде. К настоящему моменту она решена. Например, в работе [9] представлена адаптация метода градиента политики на мультиагентный случай. В ходе работы этого алгоритма происходит параллельное получение двух структур для каждого агента: политики, согласно которой агент принимает решения и критика, который оценивает качество принятых решений. Алгоритм демонстрирует хорошие результаты, однако требует большого количества времени на обучение. Данная работа концентрируется на вопросе ускорения процесса обучения.

По результатам проделанной работы можно сделать вывод, что цель, поставленная перед работой, была достигнута. В ходе исследования была обнаружена возможность сократить влияние размерности задачи машинного обучения на время, требуемое на обучение, без ущерба для качества обучения.
Были предложены два различных подхода к реализации этой возможности, а также исследованы сильные и слабые стороны этих подходов.
Выигрыш от использования предложенных подходов к обучению варьируется с размерностью задачи. При одновременном обучении 14 агентов один из подходов продемонстрировал незначительную потерю эффективности (5 % от времени обучения исходной версией алгоритма), другой привел к незначительному (3 %) выигрышу. Обучение 22 агентов новыми подходами привело к экономии 33% и 72% времени. Обучение 30 агентов одним из подходов привело к увеличению среднего прироста вознаграждения в секунду в 1.3 раза (с 0.12 до 0.16), однако за время, отведенное на эксперименты, не удалось установить, сохранится ли эта тенденция на протяжении всего процесса обучения. Исследование этого вопроса предлагается вынести в дальнейшую работу.

H. Daume. A Course in Machine Learning. Сiml.info, 2017.
J. Foerster, G. Farquhar, T. Afouras, N. Nardelli, and S. Whiteson. Counterfactual multi-agent policy gradients, 2017.
Gupta J.K., Egorov M., Kochenderfer M. (2017) Cooperative Multi-agent Control Using Deep Reinforcement Learning. In: Sukthankar G., Rodriguez-Aguilar J. (eds) Autonomous Agents and Multiagent Systems. // AAMAS 2017. Lecture Notes in Computer Science, vol 10642. Springer, Cham.
N. Heess, G. Wayne, D. Silver, T. Lillicrap, Y. Tassa, T. Erez. Learning Continuous Control Policies by Stochastic Value Gradients, 2015.
T. Kohonen. Learning Vector Quantization, Neural Networks, 1 (suppl 1), 1988
M Kurek. Deep Reinforcement Learning in Keepaway Soccer, Master’s thesis at Poznań University of Technology, 2015.
S. Levine, C. Finn, T. Darrell, and P. Abbeel. End-to-end training of deep visuomotor policies, 2016.
M. L. Littman. Markov games as a framework for multi-agent reinforcement learning. // Proceedings of the eleventh international conference on machine learning, volume 157, pages 157–163, 1994
R. Lowe, Yi Wu, Aviv Tamar, Jean Harb, Pieter Abbeel and Igor Mordatch, 2018. Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments.
L. Matignon, G. J. Laurent, and N. Le Fort-Piat. Independent reinforcement learners in cooperative markov games: a survey regarding coordination problems. // The Knowledge Engineering Review, 27(01):1–31, 2012
W.S. McCulloch, W.H. Pitts. A Logical Calculus of the Ideas Immanent in Nervous Activity // Bulletin of Mathematical Biophysics, Vol. 5, 1943, p. 115-133
V. Mnih, K. Kavukcuoglu, D. Silver, A. A. Rusu, J. Veness, M. G. Bellemare, A. Graves, M. Riedmiller, A. K. Fidjeland, G. Ostrovski, et al. Human-level control through deep reinforcement learning. // Nature, 518(7540):529–533, 2015.
I. Mordatch and P. Abbeel. Emergence of grounded compositional language in multi-agent populations, 2017.
F. Rosenblatt, The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain, Cornell Aeronautical Laboratory, Psychological Review, v65, No. 6, pp. 386–408, 1958.
Optimization for Machine Learning/ Под ред. S. Sra, S. Nowozin, and S. J. Wright. The MIT Press, 2012. 494 с.
S. Sukhbaatar, R. Fergus, et al. Learning multiagent communication with backpropagation. // Advances in Neural Information Processing Systems, pages 2244–2252, 2016.
R. S. Sutton, A. G. Barto. Reinforcement Learning: An Introduction, second edition. The MIT Press, 2018. 548 c.
A. Tampuu, T. Matiisen, D. Kodelja, I. Kuzovkin, K. Korjus, J. Aru, J. Aru, and R. Vicente. Multiagent cooperation and competition with deep reinforcement learning. PloS one, 12(4):e0172395, 2017.
M. Tan. Multi-agent reinforcement learning: Independent vs. cooperative agents. // Proceedings of the tenth international conference on machine learning, pages 330–337, 1993.
G. Tesauro. Extending q-learning to general adaptive multi-agent systems. // Advances in neural information processing systems, pages 871–878, 2004.
AlphaGo.
The MNIST DATABASE of handwritten digits.

Заказать новую

Лучшие эксперты сервиса ждут твоего задания

от 5 000 ₽

Не подошла эта работа?
Закажи новую работу, сделанную по твоим требованиям

    Нажимая на кнопку, я соглашаюсь на обработку персональных данных и с правилами пользования Платформой

    Хочешь уникальную работу?

    Больше 3 000 экспертов уже готовы начать работу над твоим проектом!

    Мария Б. преподаватель, кандидат наук
    5 (22 отзыва)
    Окончила специалитет по направлению "Прикладная информатика в экономике", магистратуру по направлению "Торговое дело". Защитила кандидатскую диссертацию по специальнос... Читать все
    Окончила специалитет по направлению "Прикладная информатика в экономике", магистратуру по направлению "Торговое дело". Защитила кандидатскую диссертацию по специальности "Экономика и управление народным хозяйством". Автор научных статей.
    #Кандидатские #Магистерские
    37 Выполненных работ
    Кирилл Ч. ИНЖЭКОН 2010, экономика и управление на предприятии транс...
    4.9 (343 отзыва)
    Работы пишу, начиная с 2000 года. Огромный опыт и знания в области экономики. Закончил школу с золотой медалью. Два высших образования (техническое и экономическое). С... Читать все
    Работы пишу, начиная с 2000 года. Огромный опыт и знания в области экономики. Закончил школу с золотой медалью. Два высших образования (техническое и экономическое). Сейчас пишу диссертацию на соискание степени кандидата экономических наук.
    #Кандидатские #Магистерские
    692 Выполненных работы
    Анна Н. Государственный университет управления 2021, Экономика и ...
    0 (13 отзывов)
    Закончила ГУУ с отличием "Бухгалтерский учет, анализ и аудит". Выполнить разные работы: от рефератов до диссертаций. Также пишу доклады, делаю презентации, повышаю уни... Читать все
    Закончила ГУУ с отличием "Бухгалтерский учет, анализ и аудит". Выполнить разные работы: от рефератов до диссертаций. Также пишу доклады, делаю презентации, повышаю уникальности с нуля. Все работы оформляю в соответствии с ГОСТ.
    #Кандидатские #Магистерские
    0 Выполненных работ
    Антон П. преподаватель, доцент
    4.8 (1033 отзыва)
    Занимаюсь написанием студенческих работ (дипломные работы, маг. диссертации). Участник международных конференций (экономика/менеджмент/юриспруденция). Постоянно публик... Читать все
    Занимаюсь написанием студенческих работ (дипломные работы, маг. диссертации). Участник международных конференций (экономика/менеджмент/юриспруденция). Постоянно публикуюсь, имею высокий индекс цитирования. Спикер.
    #Кандидатские #Магистерские
    1386 Выполненных работ
    Анна В. Инжэкон, студент, кандидат наук
    5 (21 отзыв)
    Выполняю работы по экономическим дисциплинам. Маркетинг, менеджмент, управление персоналом. управление проектами. Есть опыт написания магистерских и кандидатских диссе... Читать все
    Выполняю работы по экономическим дисциплинам. Маркетинг, менеджмент, управление персоналом. управление проектами. Есть опыт написания магистерских и кандидатских диссертаций. Работала в маркетинге. Практикующий бизнес-консультант.
    #Кандидатские #Магистерские
    31 Выполненная работа
    Лидия К.
    4.5 (330 отзывов)
    Образование высшее (2009 год) педагог-психолог (УрГПУ). В 2013 году получено образование магистр психологии. Опыт преподавательской деятельности в области психологии ... Читать все
    Образование высшее (2009 год) педагог-психолог (УрГПУ). В 2013 году получено образование магистр психологии. Опыт преподавательской деятельности в области психологии и педагогики. Написание диссертаций, ВКР, курсовых и иных видов работ.
    #Кандидатские #Магистерские
    592 Выполненных работы
    Олег Н. Томский политехнический университет 2000, Инженерно-эконо...
    4.7 (96 отзывов)
    Здравствуйте! Опыт написания работ более 12 лет. За это время были успешно защищены более 2 500 написанных мною магистерских диссертаций, дипломов, курсовых работ. Явл... Читать все
    Здравствуйте! Опыт написания работ более 12 лет. За это время были успешно защищены более 2 500 написанных мною магистерских диссертаций, дипломов, курсовых работ. Являюсь действующим преподавателем одного из ВУЗов.
    #Кандидатские #Магистерские
    177 Выполненных работ
    Логик Ф. кандидат наук, доцент
    4.9 (826 отзывов)
    Я - кандидат философских наук, доцент кафедры философии СГЮА. Занимаюсь написанием различного рода работ (научные статьи, курсовые, дипломные работы, магистерские дисс... Читать все
    Я - кандидат философских наук, доцент кафедры философии СГЮА. Занимаюсь написанием различного рода работ (научные статьи, курсовые, дипломные работы, магистерские диссертации, рефераты, контрольные) уже много лет. Качество работ гарантирую.
    #Кандидатские #Магистерские
    1486 Выполненных работ
    Сергей Е. МГУ 2012, физический, выпускник, кандидат наук
    4.9 (5 отзывов)
    Имеется большой опыт написания творческих работ на различных порталах от эссе до кандидатских диссертаций, решения задач и выполнения лабораторных работ по любым напра... Читать все
    Имеется большой опыт написания творческих работ на различных порталах от эссе до кандидатских диссертаций, решения задач и выполнения лабораторных работ по любым направлениям физики, математики, химии и других естественных наук.
    #Кандидатские #Магистерские
    5 Выполненных работ

    Другие учебные работы по предмету

    Кооперативные игры на гиперграфах
    📅 2019год
    🏢 Санкт-Петербургский государственный университет