Улучшенный мультиагентный детерминированный метод градиента политики с глубоким обучением для класса задач прикладного мультиагентного моделирования

Вальков Степан Дмитриевич
Бесплатно
В избранное
Работа доступна по лицензии Creative Commons:«Attribution» 4.0

В данной работе рассматривается вопрос применения машинного обучения к мультиагентным системам. Предлагается усовершенствование одного из современных методов машинного обучения мультиагентных систем. На примере моделирования игры в футбол продемонстрирована эффективность предложенного усовершенствования.

Быстрое развитие высоких технологий, наблюдаемое в последние десятилетия, неизбежно поднимает вопрос о возможности моделирования человеческого сознания искусственным интеллектом, способным не только действовать по заранее заложенной в него программе, но и обучаться решению некоторых задач в ходе своей работы. Ответом на этот вопрос стало формирование машинного обучения, как раздела науки, исследующего различные подходы к накоплению таким интеллектом опыта и обучения его принятию решений исходя из этого опыта.
Одна из концепций машинного обучения, особенно бурно развивающаяся в настоящее время – обучение с подкреплением (ОП). ОП рассматривает обучаемую систему – агента в его взаимодействии со средой. В процессе обучения агент «выясняет», какие его действия (или последовательности действий) приводят к наиболее благоприятной реакции среды, тем самым достигая оптимального в некотором смысле поведения.
ОП имеет приложения в самых различных сферах человеческой деятельности, среди которых:
Робототехника [7]
Общение и лингвистика [14, 19]
Настольные и компьютерные игры [2, 20]
На настоящий момент, ОП применяется как для сред с одним обучаемым агентом, так и для областей, где необходимо учитывать взаимодействие между многими агентами. Среди них – уже упомянутые игры (для случая нескольких игроков), управление группами роботов и исследование социальных взаимодействий.
Востребованность и перспективность ОП стали решающими факторами в выборе данной области знаний, как поля для данного исследования.
Среди методов ОП выделяют несколько классов, один из которых – методы градиента политики. Они основываются на одноименной теореме, которая позволяет представить процесс обучения в виде задачи максимизации функционала, зависящего от набора параметров, определяющих поведение агента. Оптимизация происходит с помощью градиентного подъема по параметрам [16]. Долгое время оставалась нерешенной задача применения таких алгоритмов в мультиагентной среде. К настоящему моменту она решена. Например, в работе [9] представлена адаптация метода градиента политики на мультиагентный случай. В ходе работы этого алгоритма происходит параллельное получение двух структур для каждого агента: политики, согласно которой агент принимает решения и критика, который оценивает качество принятых решений. Алгоритм демонстрирует хорошие результаты, однако требует большого количества времени на обучение. Данная работа концентрируется на вопросе ускорения процесса обучения.

По результатам проделанной работы можно сделать вывод, что цель, поставленная перед работой, была достигнута. В ходе исследования была обнаружена возможность сократить влияние размерности задачи машинного обучения на время, требуемое на обучение, без ущерба для качества обучения.
Были предложены два различных подхода к реализации этой возможности, а также исследованы сильные и слабые стороны этих подходов.
Выигрыш от использования предложенных подходов к обучению варьируется с размерностью задачи. При одновременном обучении 14 агентов один из подходов продемонстрировал незначительную потерю эффективности (5 % от времени обучения исходной версией алгоритма), другой привел к незначительному (3 %) выигрышу. Обучение 22 агентов новыми подходами привело к экономии 33% и 72% времени. Обучение 30 агентов одним из подходов привело к увеличению среднего прироста вознаграждения в секунду в 1.3 раза (с 0.12 до 0.16), однако за время, отведенное на эксперименты, не удалось установить, сохранится ли эта тенденция на протяжении всего процесса обучения. Исследование этого вопроса предлагается вынести в дальнейшую работу.

H. Daume. A Course in Machine Learning. Сiml.info, 2017.
J. Foerster, G. Farquhar, T. Afouras, N. Nardelli, and S. Whiteson. Counterfactual multi-agent policy gradients, 2017.
Gupta J.K., Egorov M., Kochenderfer M. (2017) Cooperative Multi-agent Control Using Deep Reinforcement Learning. In: Sukthankar G., Rodriguez-Aguilar J. (eds) Autonomous Agents and Multiagent Systems. // AAMAS 2017. Lecture Notes in Computer Science, vol 10642. Springer, Cham.
N. Heess, G. Wayne, D. Silver, T. Lillicrap, Y. Tassa, T. Erez. Learning Continuous Control Policies by Stochastic Value Gradients, 2015.
T. Kohonen. Learning Vector Quantization, Neural Networks, 1 (suppl 1), 1988
M Kurek. Deep Reinforcement Learning in Keepaway Soccer, Master’s thesis at Poznań University of Technology, 2015.
S. Levine, C. Finn, T. Darrell, and P. Abbeel. End-to-end training of deep visuomotor policies, 2016.
M. L. Littman. Markov games as a framework for multi-agent reinforcement learning. // Proceedings of the eleventh international conference on machine learning, volume 157, pages 157–163, 1994
R. Lowe, Yi Wu, Aviv Tamar, Jean Harb, Pieter Abbeel and Igor Mordatch, 2018. Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments.
L. Matignon, G. J. Laurent, and N. Le Fort-Piat. Independent reinforcement learners in cooperative markov games: a survey regarding coordination problems. // The Knowledge Engineering Review, 27(01):1–31, 2012
W.S. McCulloch, W.H. Pitts. A Logical Calculus of the Ideas Immanent in Nervous Activity // Bulletin of Mathematical Biophysics, Vol. 5, 1943, p. 115-133
V. Mnih, K. Kavukcuoglu, D. Silver, A. A. Rusu, J. Veness, M. G. Bellemare, A. Graves, M. Riedmiller, A. K. Fidjeland, G. Ostrovski, et al. Human-level control through deep reinforcement learning. // Nature, 518(7540):529–533, 2015.
I. Mordatch and P. Abbeel. Emergence of grounded compositional language in multi-agent populations, 2017.
F. Rosenblatt, The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain, Cornell Aeronautical Laboratory, Psychological Review, v65, No. 6, pp. 386–408, 1958.
Optimization for Machine Learning/ Под ред. S. Sra, S. Nowozin, and S. J. Wright. The MIT Press, 2012. 494 с.
S. Sukhbaatar, R. Fergus, et al. Learning multiagent communication with backpropagation. // Advances in Neural Information Processing Systems, pages 2244–2252, 2016.
R. S. Sutton, A. G. Barto. Reinforcement Learning: An Introduction, second edition. The MIT Press, 2018. 548 c.
A. Tampuu, T. Matiisen, D. Kodelja, I. Kuzovkin, K. Korjus, J. Aru, J. Aru, and R. Vicente. Multiagent cooperation and competition with deep reinforcement learning. PloS one, 12(4):e0172395, 2017.
M. Tan. Multi-agent reinforcement learning: Independent vs. cooperative agents. // Proceedings of the tenth international conference on machine learning, pages 330–337, 1993.
G. Tesauro. Extending q-learning to general adaptive multi-agent systems. // Advances in neural information processing systems, pages 871–878, 2004.
AlphaGo.
The MNIST DATABASE of handwritten digits.

Заказать новую

Лучшие эксперты сервиса ждут твоего задания

от 5 000 ₽

Не подошла эта работа?
Закажи новую работу, сделанную по твоим требованиям

    Нажимая на кнопку, я соглашаюсь на обработку персональных данных и с правилами пользования Платформой

    Хочешь уникальную работу?

    Больше 3 000 экспертов уже готовы начать работу над твоим проектом!

    user1250010 Омский государственный университет, 2010, преподаватель,...
    4 (15 отзывов)
    Пишу качественные выпускные квалификационные работы и магистерские диссертации. Опыт написания работ - более восьми лет. Всегда на связи.
    Пишу качественные выпускные квалификационные работы и магистерские диссертации. Опыт написания работ - более восьми лет. Всегда на связи.
    #Кандидатские #Магистерские
    21 Выполненная работа
    Елена Л. РЭУ им. Г. В. Плеханова 2009, Управления и коммерции, пре...
    4.8 (211 отзывов)
    Работа пишется на основе учебников и научных статей, диссертаций, данных официальной статистики. Все источники актуальные за последние 3-5 лет.Активно и уместно исполь... Читать все
    Работа пишется на основе учебников и научных статей, диссертаций, данных официальной статистики. Все источники актуальные за последние 3-5 лет.Активно и уместно использую в работе графический материал (графики рисунки, диаграммы) и таблицы.
    #Кандидатские #Магистерские
    362 Выполненных работы
    Егор В. кандидат наук, доцент
    5 (428 отзывов)
    Здравствуйте. Занимаюсь выполнением работ более 14 лет. Очень большой опыт. Более 400 успешно защищенных дипломов и диссертаций. Берусь только со 100% уверенностью. Ск... Читать все
    Здравствуйте. Занимаюсь выполнением работ более 14 лет. Очень большой опыт. Более 400 успешно защищенных дипломов и диссертаций. Берусь только со 100% уверенностью. Скорее всего Ваш заказ будет выполнен раньше срока.
    #Кандидатские #Магистерские
    694 Выполненных работы
    Евгения Р.
    5 (188 отзывов)
    Мой опыт в написании работ - 9 лет. Я специализируюсь на написании курсовых работ, ВКР и магистерских диссертаций, также пишу научные статьи, провожу исследования и со... Читать все
    Мой опыт в написании работ - 9 лет. Я специализируюсь на написании курсовых работ, ВКР и магистерских диссертаций, также пишу научные статьи, провожу исследования и создаю красивые презентации. Сопровождаю работы до сдачи, на связи 24/7 ?
    #Кандидатские #Магистерские
    359 Выполненных работ
    Юлия К. ЮУрГУ (НИУ), г. Челябинск 2017, Институт естественных и т...
    5 (49 отзывов)
    Образование: ЮУрГУ (НИУ), Лингвистический центр, 2016 г. - диплом переводчика с английского языка (дополнительное образование); ЮУрГУ (НИУ), г. Челябинск, 2017 г. - ин... Читать все
    Образование: ЮУрГУ (НИУ), Лингвистический центр, 2016 г. - диплом переводчика с английского языка (дополнительное образование); ЮУрГУ (НИУ), г. Челябинск, 2017 г. - институт естественных и точных наук, защита диплома бакалавра по направлению элементоорганической химии; СПХФУ (СПХФА), 2020 г. - кафедра химической технологии, регулирование обращения лекарственных средств на фармацевтическом рынке, защита магистерской диссертации. При выполнении заказов на связи, отвечаю на все вопросы. Индивидуальный подход к каждому. Напишите - и мы договоримся!
    #Кандидатские #Магистерские
    55 Выполненных работ
    Дарья Б. МГУ 2017, Журналистики, выпускник
    4.9 (35 отзывов)
    Привет! Меня зовут Даша, я окончила журфак МГУ с красным дипломом, защитила магистерскую диссертацию на филфаке. Работала журналистом, PR-менеджером в международных ко... Читать все
    Привет! Меня зовут Даша, я окончила журфак МГУ с красным дипломом, защитила магистерскую диссертацию на филфаке. Работала журналистом, PR-менеджером в международных компаниях, сейчас работаю редактором. Готова помогать вам с учёбой!
    #Кандидатские #Магистерские
    50 Выполненных работ
    Оксана М. Восточноукраинский национальный университет, студент 4 - ...
    4.9 (37 отзывов)
    Возможно выполнение работ по правоведению и политологии. Имею высшее образование менеджера ВЭД и правоведа, защитила кандидатскую и докторскую диссертации по политоло... Читать все
    Возможно выполнение работ по правоведению и политологии. Имею высшее образование менеджера ВЭД и правоведа, защитила кандидатскую и докторскую диссертации по политологии.
    #Кандидатские #Магистерские
    68 Выполненных работ
    Катерина М. кандидат наук, доцент
    4.9 (522 отзыва)
    Кандидат технических наук. Специализируюсь на выполнении работ по метрологии и стандартизации
    Кандидат технических наук. Специализируюсь на выполнении работ по метрологии и стандартизации
    #Кандидатские #Магистерские
    836 Выполненных работ
    Татьяна П. МГУ им. Ломоносова 1930, выпускник
    5 (9 отзывов)
    Журналист. Младший научный сотрудник в институте РАН. Репетитор по английскому языку (стаж 6 лет). Также знаю французский. Сейчас занимаюсь написанием диссертации по и... Читать все
    Журналист. Младший научный сотрудник в институте РАН. Репетитор по английскому языку (стаж 6 лет). Также знаю французский. Сейчас занимаюсь написанием диссертации по истории. Увлекаюсь литературой и темой космоса.
    #Кандидатские #Магистерские
    11 Выполненных работ

    Другие учебные работы по предмету

    Кооперативные игры на гиперграфах
    📅 2019год
    🏢 Санкт-Петербургский государственный университет