Улучшенный мультиагентный детерминированный метод градиента политики с глубоким обучением для класса задач прикладного мультиагентного моделирования

Вальков Степан Дмитриевич
Бесплатно
В избранное
Работа доступна по лицензии Creative Commons:«Attribution» 4.0

В данной работе рассматривается вопрос применения машинного обучения к мультиагентным системам. Предлагается усовершенствование одного из современных методов машинного обучения мультиагентных систем. На примере моделирования игры в футбол продемонстрирована эффективность предложенного усовершенствования.

Быстрое развитие высоких технологий, наблюдаемое в последние десятилетия, неизбежно поднимает вопрос о возможности моделирования человеческого сознания искусственным интеллектом, способным не только действовать по заранее заложенной в него программе, но и обучаться решению некоторых задач в ходе своей работы. Ответом на этот вопрос стало формирование машинного обучения, как раздела науки, исследующего различные подходы к накоплению таким интеллектом опыта и обучения его принятию решений исходя из этого опыта.
Одна из концепций машинного обучения, особенно бурно развивающаяся в настоящее время – обучение с подкреплением (ОП). ОП рассматривает обучаемую систему – агента в его взаимодействии со средой. В процессе обучения агент «выясняет», какие его действия (или последовательности действий) приводят к наиболее благоприятной реакции среды, тем самым достигая оптимального в некотором смысле поведения.
ОП имеет приложения в самых различных сферах человеческой деятельности, среди которых:
Робототехника [7]
Общение и лингвистика [14, 19]
Настольные и компьютерные игры [2, 20]
На настоящий момент, ОП применяется как для сред с одним обучаемым агентом, так и для областей, где необходимо учитывать взаимодействие между многими агентами. Среди них – уже упомянутые игры (для случая нескольких игроков), управление группами роботов и исследование социальных взаимодействий.
Востребованность и перспективность ОП стали решающими факторами в выборе данной области знаний, как поля для данного исследования.
Среди методов ОП выделяют несколько классов, один из которых – методы градиента политики. Они основываются на одноименной теореме, которая позволяет представить процесс обучения в виде задачи максимизации функционала, зависящего от набора параметров, определяющих поведение агента. Оптимизация происходит с помощью градиентного подъема по параметрам [16]. Долгое время оставалась нерешенной задача применения таких алгоритмов в мультиагентной среде. К настоящему моменту она решена. Например, в работе [9] представлена адаптация метода градиента политики на мультиагентный случай. В ходе работы этого алгоритма происходит параллельное получение двух структур для каждого агента: политики, согласно которой агент принимает решения и критика, который оценивает качество принятых решений. Алгоритм демонстрирует хорошие результаты, однако требует большого количества времени на обучение. Данная работа концентрируется на вопросе ускорения процесса обучения.

По результатам проделанной работы можно сделать вывод, что цель, поставленная перед работой, была достигнута. В ходе исследования была обнаружена возможность сократить влияние размерности задачи машинного обучения на время, требуемое на обучение, без ущерба для качества обучения.
Были предложены два различных подхода к реализации этой возможности, а также исследованы сильные и слабые стороны этих подходов.
Выигрыш от использования предложенных подходов к обучению варьируется с размерностью задачи. При одновременном обучении 14 агентов один из подходов продемонстрировал незначительную потерю эффективности (5 % от времени обучения исходной версией алгоритма), другой привел к незначительному (3 %) выигрышу. Обучение 22 агентов новыми подходами привело к экономии 33% и 72% времени. Обучение 30 агентов одним из подходов привело к увеличению среднего прироста вознаграждения в секунду в 1.3 раза (с 0.12 до 0.16), однако за время, отведенное на эксперименты, не удалось установить, сохранится ли эта тенденция на протяжении всего процесса обучения. Исследование этого вопроса предлагается вынести в дальнейшую работу.

H. Daume. A Course in Machine Learning. Сiml.info, 2017.
J. Foerster, G. Farquhar, T. Afouras, N. Nardelli, and S. Whiteson. Counterfactual multi-agent policy gradients, 2017.
Gupta J.K., Egorov M., Kochenderfer M. (2017) Cooperative Multi-agent Control Using Deep Reinforcement Learning. In: Sukthankar G., Rodriguez-Aguilar J. (eds) Autonomous Agents and Multiagent Systems. // AAMAS 2017. Lecture Notes in Computer Science, vol 10642. Springer, Cham.
N. Heess, G. Wayne, D. Silver, T. Lillicrap, Y. Tassa, T. Erez. Learning Continuous Control Policies by Stochastic Value Gradients, 2015.
T. Kohonen. Learning Vector Quantization, Neural Networks, 1 (suppl 1), 1988
M Kurek. Deep Reinforcement Learning in Keepaway Soccer, Master’s thesis at Poznań University of Technology, 2015.
S. Levine, C. Finn, T. Darrell, and P. Abbeel. End-to-end training of deep visuomotor policies, 2016.
M. L. Littman. Markov games as a framework for multi-agent reinforcement learning. // Proceedings of the eleventh international conference on machine learning, volume 157, pages 157–163, 1994
R. Lowe, Yi Wu, Aviv Tamar, Jean Harb, Pieter Abbeel and Igor Mordatch, 2018. Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments.
L. Matignon, G. J. Laurent, and N. Le Fort-Piat. Independent reinforcement learners in cooperative markov games: a survey regarding coordination problems. // The Knowledge Engineering Review, 27(01):1–31, 2012
W.S. McCulloch, W.H. Pitts. A Logical Calculus of the Ideas Immanent in Nervous Activity // Bulletin of Mathematical Biophysics, Vol. 5, 1943, p. 115-133
V. Mnih, K. Kavukcuoglu, D. Silver, A. A. Rusu, J. Veness, M. G. Bellemare, A. Graves, M. Riedmiller, A. K. Fidjeland, G. Ostrovski, et al. Human-level control through deep reinforcement learning. // Nature, 518(7540):529–533, 2015.
I. Mordatch and P. Abbeel. Emergence of grounded compositional language in multi-agent populations, 2017.
F. Rosenblatt, The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain, Cornell Aeronautical Laboratory, Psychological Review, v65, No. 6, pp. 386–408, 1958.
Optimization for Machine Learning/ Под ред. S. Sra, S. Nowozin, and S. J. Wright. The MIT Press, 2012. 494 с.
S. Sukhbaatar, R. Fergus, et al. Learning multiagent communication with backpropagation. // Advances in Neural Information Processing Systems, pages 2244–2252, 2016.
R. S. Sutton, A. G. Barto. Reinforcement Learning: An Introduction, second edition. The MIT Press, 2018. 548 c.
A. Tampuu, T. Matiisen, D. Kodelja, I. Kuzovkin, K. Korjus, J. Aru, J. Aru, and R. Vicente. Multiagent cooperation and competition with deep reinforcement learning. PloS one, 12(4):e0172395, 2017.
M. Tan. Multi-agent reinforcement learning: Independent vs. cooperative agents. // Proceedings of the tenth international conference on machine learning, pages 330–337, 1993.
G. Tesauro. Extending q-learning to general adaptive multi-agent systems. // Advances in neural information processing systems, pages 871–878, 2004.
AlphaGo.
The MNIST DATABASE of handwritten digits.

Заказать новую

Лучшие эксперты сервиса ждут твоего задания

от 5 000 ₽

Не подошла эта работа?
Закажи новую работу, сделанную по твоим требованиям

    Нажимая на кнопку, я соглашаюсь на обработку персональных данных и с правилами пользования Платформой

    Хочешь уникальную работу?

    Больше 3 000 экспертов уже готовы начать работу над твоим проектом!

    Анна Александровна Б. Воронежский государственный университет инженерных технол...
    4.8 (30 отзывов)
    Окончила магистратуру Воронежского государственного университета в 2009 г. В 2014 г. защитила кандидатскую диссертацию. С 2010 г. преподаю в Воронежском государственно... Читать все
    Окончила магистратуру Воронежского государственного университета в 2009 г. В 2014 г. защитила кандидатскую диссертацию. С 2010 г. преподаю в Воронежском государственном университете инженерных технологий.
    #Кандидатские #Магистерские
    66 Выполненных работ
    Виктор В. Смоленская государственная медицинская академия 1997, Леч...
    4.7 (46 отзывов)
    Имеют опыт грамотного написания диссертационных работ по медицине, а также отдельных ее частей (литературный обзор, цели и задачи исследования, материалы и методы, выв... Читать все
    Имеют опыт грамотного написания диссертационных работ по медицине, а также отдельных ее частей (литературный обзор, цели и задачи исследования, материалы и методы, выводы).Пишу статьи в РИНЦ, ВАК.Оформление патентов от идеи до регистрации.
    #Кандидатские #Магистерские
    100 Выполненных работ
    Анна С. СФ ПГУ им. М.В. Ломоносова 2004, филологический, преподав...
    4.8 (9 отзывов)
    Преподаю англ язык более 10 лет, есть опыт работы в университете, школе и студии англ языка. Защитила кандидатскую диссертацию в 2009 году. Имею большой опыт написания... Читать все
    Преподаю англ язык более 10 лет, есть опыт работы в университете, школе и студии англ языка. Защитила кандидатскую диссертацию в 2009 году. Имею большой опыт написания и проверки (в качестве преподавателя) контрольных и курсовых работ.
    #Кандидатские #Магистерские
    16 Выполненных работ
    Логик Ф. кандидат наук, доцент
    4.9 (826 отзывов)
    Я - кандидат философских наук, доцент кафедры философии СГЮА. Занимаюсь написанием различного рода работ (научные статьи, курсовые, дипломные работы, магистерские дисс... Читать все
    Я - кандидат философских наук, доцент кафедры философии СГЮА. Занимаюсь написанием различного рода работ (научные статьи, курсовые, дипломные работы, магистерские диссертации, рефераты, контрольные) уже много лет. Качество работ гарантирую.
    #Кандидатские #Магистерские
    1486 Выполненных работ
    Юлия К. ЮУрГУ (НИУ), г. Челябинск 2017, Институт естественных и т...
    5 (49 отзывов)
    Образование: ЮУрГУ (НИУ), Лингвистический центр, 2016 г. - диплом переводчика с английского языка (дополнительное образование); ЮУрГУ (НИУ), г. Челябинск, 2017 г. - ин... Читать все
    Образование: ЮУрГУ (НИУ), Лингвистический центр, 2016 г. - диплом переводчика с английского языка (дополнительное образование); ЮУрГУ (НИУ), г. Челябинск, 2017 г. - институт естественных и точных наук, защита диплома бакалавра по направлению элементоорганической химии; СПХФУ (СПХФА), 2020 г. - кафедра химической технологии, регулирование обращения лекарственных средств на фармацевтическом рынке, защита магистерской диссертации. При выполнении заказов на связи, отвечаю на все вопросы. Индивидуальный подход к каждому. Напишите - и мы договоримся!
    #Кандидатские #Магистерские
    55 Выполненных работ
    Петр П. кандидат наук
    4.2 (25 отзывов)
    Выполняю различные работы на заказ с 2014 года. В основном, курсовые проекты, дипломные и выпускные квалификационные работы бакалавриата, специалитета. Имею опыт напис... Читать все
    Выполняю различные работы на заказ с 2014 года. В основном, курсовые проекты, дипломные и выпускные квалификационные работы бакалавриата, специалитета. Имею опыт написания магистерских диссертаций. Направление - связь, телекоммуникации, информационная безопасность, информационные технологии, экономика. Пишу научные статьи уровня ВАК и РИНЦ. Работаю техническим директором интернет-провайдера, имею опыт работы ведущим сотрудником отдела информационной безопасности филиала одного из крупнейших банков. Образование - высшее профессиональное (в 2006 году окончил военную Академию связи в г. Санкт-Петербурге), послевузовское профессиональное (в 2018 году окончил аспирантуру Уральского федерального университета). Защитил диссертацию на соискание степени "кандидат технических наук" в 2020 году. В качестве хобби преподаю. Дисциплины - сети ЭВМ и телекоммуникации, информационная безопасность объектов критической информационной инфраструктуры.
    #Кандидатские #Магистерские
    33 Выполненных работы
    Анастасия Л. аспирант
    5 (8 отзывов)
    Работаю в сфере метрологического обеспечения. Защищаю кандидатскую диссертацию. Основной профиль: Метрология, стандартизация и сертификация. Оптико-электронное прибост... Читать все
    Работаю в сфере метрологического обеспечения. Защищаю кандидатскую диссертацию. Основной профиль: Метрология, стандартизация и сертификация. Оптико-электронное прибостроение, управление качеством
    #Кандидатские #Магистерские
    10 Выполненных работ
    Екатерина П. студент
    5 (18 отзывов)
    Работы пишу исключительно сама на основании действующих нормативных правовых актов, монографий, канд. и докт. диссертаций, авторефератов, научных статей. Дополнительно... Читать все
    Работы пишу исключительно сама на основании действующих нормативных правовых актов, монографий, канд. и докт. диссертаций, авторефератов, научных статей. Дополнительно занимаюсь английским языком, уровень владения - Upper-Intermediate.
    #Кандидатские #Магистерские
    39 Выполненных работ
    Шагали Е. УрГЭУ 2007, Экономика, преподаватель
    4.4 (59 отзывов)
    Серьезно отношусь к тренировке собственного интеллекта, поэтому постоянно учусь сама и с удовольствием пишу для других. За 15 лет работы выполнила более 600 дипломов и... Читать все
    Серьезно отношусь к тренировке собственного интеллекта, поэтому постоянно учусь сама и с удовольствием пишу для других. За 15 лет работы выполнила более 600 дипломов и диссертаций, Есть любимые темы - они дешевле обойдутся, ибо в радость)
    #Кандидатские #Магистерские
    76 Выполненных работ

    Другие учебные работы по предмету

    Кооперативные игры на гиперграфах
    📅 2019год
    🏢 Санкт-Петербургский государственный университет