Улучшенный мультиагентный детерминированный метод градиента политики с глубоким обучением для класса задач прикладного мультиагентного моделирования

Вальков Степан Дмитриевич
Бесплатно
В избранное
Работа доступна по лицензии Creative Commons:«Attribution» 4.0

В данной работе рассматривается вопрос применения машинного обучения к мультиагентным системам. Предлагается усовершенствование одного из современных методов машинного обучения мультиагентных систем. На примере моделирования игры в футбол продемонстрирована эффективность предложенного усовершенствования.

Быстрое развитие высоких технологий, наблюдаемое в последние десятилетия, неизбежно поднимает вопрос о возможности моделирования человеческого сознания искусственным интеллектом, способным не только действовать по заранее заложенной в него программе, но и обучаться решению некоторых задач в ходе своей работы. Ответом на этот вопрос стало формирование машинного обучения, как раздела науки, исследующего различные подходы к накоплению таким интеллектом опыта и обучения его принятию решений исходя из этого опыта.
Одна из концепций машинного обучения, особенно бурно развивающаяся в настоящее время – обучение с подкреплением (ОП). ОП рассматривает обучаемую систему – агента в его взаимодействии со средой. В процессе обучения агент «выясняет», какие его действия (или последовательности действий) приводят к наиболее благоприятной реакции среды, тем самым достигая оптимального в некотором смысле поведения.
ОП имеет приложения в самых различных сферах человеческой деятельности, среди которых:
Робототехника [7]
Общение и лингвистика [14, 19]
Настольные и компьютерные игры [2, 20]
На настоящий момент, ОП применяется как для сред с одним обучаемым агентом, так и для областей, где необходимо учитывать взаимодействие между многими агентами. Среди них – уже упомянутые игры (для случая нескольких игроков), управление группами роботов и исследование социальных взаимодействий.
Востребованность и перспективность ОП стали решающими факторами в выборе данной области знаний, как поля для данного исследования.
Среди методов ОП выделяют несколько классов, один из которых – методы градиента политики. Они основываются на одноименной теореме, которая позволяет представить процесс обучения в виде задачи максимизации функционала, зависящего от набора параметров, определяющих поведение агента. Оптимизация происходит с помощью градиентного подъема по параметрам [16]. Долгое время оставалась нерешенной задача применения таких алгоритмов в мультиагентной среде. К настоящему моменту она решена. Например, в работе [9] представлена адаптация метода градиента политики на мультиагентный случай. В ходе работы этого алгоритма происходит параллельное получение двух структур для каждого агента: политики, согласно которой агент принимает решения и критика, который оценивает качество принятых решений. Алгоритм демонстрирует хорошие результаты, однако требует большого количества времени на обучение. Данная работа концентрируется на вопросе ускорения процесса обучения.

По результатам проделанной работы можно сделать вывод, что цель, поставленная перед работой, была достигнута. В ходе исследования была обнаружена возможность сократить влияние размерности задачи машинного обучения на время, требуемое на обучение, без ущерба для качества обучения.
Были предложены два различных подхода к реализации этой возможности, а также исследованы сильные и слабые стороны этих подходов.
Выигрыш от использования предложенных подходов к обучению варьируется с размерностью задачи. При одновременном обучении 14 агентов один из подходов продемонстрировал незначительную потерю эффективности (5 % от времени обучения исходной версией алгоритма), другой привел к незначительному (3 %) выигрышу. Обучение 22 агентов новыми подходами привело к экономии 33% и 72% времени. Обучение 30 агентов одним из подходов привело к увеличению среднего прироста вознаграждения в секунду в 1.3 раза (с 0.12 до 0.16), однако за время, отведенное на эксперименты, не удалось установить, сохранится ли эта тенденция на протяжении всего процесса обучения. Исследование этого вопроса предлагается вынести в дальнейшую работу.

H. Daume. A Course in Machine Learning. Сiml.info, 2017.
J. Foerster, G. Farquhar, T. Afouras, N. Nardelli, and S. Whiteson. Counterfactual multi-agent policy gradients, 2017.
Gupta J.K., Egorov M., Kochenderfer M. (2017) Cooperative Multi-agent Control Using Deep Reinforcement Learning. In: Sukthankar G., Rodriguez-Aguilar J. (eds) Autonomous Agents and Multiagent Systems. // AAMAS 2017. Lecture Notes in Computer Science, vol 10642. Springer, Cham.
N. Heess, G. Wayne, D. Silver, T. Lillicrap, Y. Tassa, T. Erez. Learning Continuous Control Policies by Stochastic Value Gradients, 2015.
T. Kohonen. Learning Vector Quantization, Neural Networks, 1 (suppl 1), 1988
M Kurek. Deep Reinforcement Learning in Keepaway Soccer, Master’s thesis at Poznań University of Technology, 2015.
S. Levine, C. Finn, T. Darrell, and P. Abbeel. End-to-end training of deep visuomotor policies, 2016.
M. L. Littman. Markov games as a framework for multi-agent reinforcement learning. // Proceedings of the eleventh international conference on machine learning, volume 157, pages 157–163, 1994
R. Lowe, Yi Wu, Aviv Tamar, Jean Harb, Pieter Abbeel and Igor Mordatch, 2018. Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments.
L. Matignon, G. J. Laurent, and N. Le Fort-Piat. Independent reinforcement learners in cooperative markov games: a survey regarding coordination problems. // The Knowledge Engineering Review, 27(01):1–31, 2012
W.S. McCulloch, W.H. Pitts. A Logical Calculus of the Ideas Immanent in Nervous Activity // Bulletin of Mathematical Biophysics, Vol. 5, 1943, p. 115-133
V. Mnih, K. Kavukcuoglu, D. Silver, A. A. Rusu, J. Veness, M. G. Bellemare, A. Graves, M. Riedmiller, A. K. Fidjeland, G. Ostrovski, et al. Human-level control through deep reinforcement learning. // Nature, 518(7540):529–533, 2015.
I. Mordatch and P. Abbeel. Emergence of grounded compositional language in multi-agent populations, 2017.
F. Rosenblatt, The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain, Cornell Aeronautical Laboratory, Psychological Review, v65, No. 6, pp. 386–408, 1958.
Optimization for Machine Learning/ Под ред. S. Sra, S. Nowozin, and S. J. Wright. The MIT Press, 2012. 494 с.
S. Sukhbaatar, R. Fergus, et al. Learning multiagent communication with backpropagation. // Advances in Neural Information Processing Systems, pages 2244–2252, 2016.
R. S. Sutton, A. G. Barto. Reinforcement Learning: An Introduction, second edition. The MIT Press, 2018. 548 c.
A. Tampuu, T. Matiisen, D. Kodelja, I. Kuzovkin, K. Korjus, J. Aru, J. Aru, and R. Vicente. Multiagent cooperation and competition with deep reinforcement learning. PloS one, 12(4):e0172395, 2017.
M. Tan. Multi-agent reinforcement learning: Independent vs. cooperative agents. // Proceedings of the tenth international conference on machine learning, pages 330–337, 1993.
G. Tesauro. Extending q-learning to general adaptive multi-agent systems. // Advances in neural information processing systems, pages 871–878, 2004.
AlphaGo.
The MNIST DATABASE of handwritten digits.

Заказать новую

Лучшие эксперты сервиса ждут твоего задания

от 5 000 ₽

Не подошла эта работа?
Закажи новую работу, сделанную по твоим требованиям

    Нажимая на кнопку, я соглашаюсь на обработку персональных данных и с правилами пользования Платформой

    Хочешь уникальную работу?

    Больше 3 000 экспертов уже готовы начать работу над твоим проектом!

    user1250010 Омский государственный университет, 2010, преподаватель,...
    4 (15 отзывов)
    Пишу качественные выпускные квалификационные работы и магистерские диссертации. Опыт написания работ - более восьми лет. Всегда на связи.
    Пишу качественные выпускные квалификационные работы и магистерские диссертации. Опыт написания работ - более восьми лет. Всегда на связи.
    #Кандидатские #Магистерские
    21 Выполненная работа
    Татьяна П. МГУ им. Ломоносова 1930, выпускник
    5 (9 отзывов)
    Журналист. Младший научный сотрудник в институте РАН. Репетитор по английскому языку (стаж 6 лет). Также знаю французский. Сейчас занимаюсь написанием диссертации по и... Читать все
    Журналист. Младший научный сотрудник в институте РАН. Репетитор по английскому языку (стаж 6 лет). Также знаю французский. Сейчас занимаюсь написанием диссертации по истории. Увлекаюсь литературой и темой космоса.
    #Кандидатские #Магистерские
    11 Выполненных работ
    Олег Н. Томский политехнический университет 2000, Инженерно-эконо...
    4.7 (96 отзывов)
    Здравствуйте! Опыт написания работ более 12 лет. За это время были успешно защищены более 2 500 написанных мною магистерских диссертаций, дипломов, курсовых работ. Явл... Читать все
    Здравствуйте! Опыт написания работ более 12 лет. За это время были успешно защищены более 2 500 написанных мною магистерских диссертаций, дипломов, курсовых работ. Являюсь действующим преподавателем одного из ВУЗов.
    #Кандидатские #Магистерские
    177 Выполненных работ
    Петр П. кандидат наук
    4.2 (25 отзывов)
    Выполняю различные работы на заказ с 2014 года. В основном, курсовые проекты, дипломные и выпускные квалификационные работы бакалавриата, специалитета. Имею опыт напис... Читать все
    Выполняю различные работы на заказ с 2014 года. В основном, курсовые проекты, дипломные и выпускные квалификационные работы бакалавриата, специалитета. Имею опыт написания магистерских диссертаций. Направление - связь, телекоммуникации, информационная безопасность, информационные технологии, экономика. Пишу научные статьи уровня ВАК и РИНЦ. Работаю техническим директором интернет-провайдера, имею опыт работы ведущим сотрудником отдела информационной безопасности филиала одного из крупнейших банков. Образование - высшее профессиональное (в 2006 году окончил военную Академию связи в г. Санкт-Петербурге), послевузовское профессиональное (в 2018 году окончил аспирантуру Уральского федерального университета). Защитил диссертацию на соискание степени "кандидат технических наук" в 2020 году. В качестве хобби преподаю. Дисциплины - сети ЭВМ и телекоммуникации, информационная безопасность объектов критической информационной инфраструктуры.
    #Кандидатские #Магистерские
    33 Выполненных работы
    Ксения М. Курганский Государственный Университет 2009, Юридический...
    4.8 (105 отзывов)
    Работаю только по книгам, учебникам, статьям и диссертациям. Никогда не использую технические способы поднятия оригинальности. Только авторские работы. Стараюсь учитыв... Читать все
    Работаю только по книгам, учебникам, статьям и диссертациям. Никогда не использую технические способы поднятия оригинальности. Только авторские работы. Стараюсь учитывать все требования и пожелания.
    #Кандидатские #Магистерские
    213 Выполненных работ
    Глеб С. преподаватель, кандидат наук, доцент
    5 (158 отзывов)
    Стаж педагогической деятельности в вузах Москвы 15 лет, автор свыше 140 публикаций (РИНЦ, ВАК). Большой опыт в подготовке дипломных проектов и диссертаций по научной с... Читать все
    Стаж педагогической деятельности в вузах Москвы 15 лет, автор свыше 140 публикаций (РИНЦ, ВАК). Большой опыт в подготовке дипломных проектов и диссертаций по научной специальности 12.00.14 административное право, административный процесс.
    #Кандидатские #Магистерские
    216 Выполненных работ
    Дарья Б. МГУ 2017, Журналистики, выпускник
    4.9 (35 отзывов)
    Привет! Меня зовут Даша, я окончила журфак МГУ с красным дипломом, защитила магистерскую диссертацию на филфаке. Работала журналистом, PR-менеджером в международных ко... Читать все
    Привет! Меня зовут Даша, я окончила журфак МГУ с красным дипломом, защитила магистерскую диссертацию на филфаке. Работала журналистом, PR-менеджером в международных компаниях, сейчас работаю редактором. Готова помогать вам с учёбой!
    #Кандидатские #Магистерские
    50 Выполненных работ
    Дарья П. кандидат наук, доцент
    4.9 (20 отзывов)
    Профессиональный журналист, филолог со стажем более 10 лет. Имею профильную диссертацию по специализации "Радиовещание". Подробно и серьезно разрабатываю темы научных... Читать все
    Профессиональный журналист, филолог со стажем более 10 лет. Имею профильную диссертацию по специализации "Радиовещание". Подробно и серьезно разрабатываю темы научных исследований, связанных с журналистикой, филологией и литературой
    #Кандидатские #Магистерские
    33 Выполненных работы
    Андрей С. Тверской государственный университет 2011, математический...
    4.7 (82 отзыва)
    Учился на мат.факе ТвГУ. Любовь к математике там привили на столько, что я, похоже, никогда не перестану этим заниматься! Сейчас работаю в IT и пытаюсь найти время на... Читать все
    Учился на мат.факе ТвГУ. Любовь к математике там привили на столько, что я, похоже, никогда не перестану этим заниматься! Сейчас работаю в IT и пытаюсь найти время на продолжение диссертационной работы... Всегда готов помочь! ;)
    #Кандидатские #Магистерские
    164 Выполненных работы

    Другие учебные работы по предмету

    Кооперативные игры на гиперграфах
    📅 2019год
    🏢 Санкт-Петербургский государственный университет