Top.Mail.Ru

Улучшенный мультиагентный детерминированный метод градиента политики с глубоким обучением для класса задач прикладного мультиагентного моделирования

Вальков Степан Дмитриевич
Бесплатно
В избранное
Работа доступна по лицензии Creative Commons:«Attribution» 4.0

В данной работе рассматривается вопрос применения машинного обучения к мультиагентным системам. Предлагается усовершенствование одного из современных методов машинного обучения мультиагентных систем. На примере моделирования игры в футбол продемонстрирована эффективность предложенного усовершенствования.

Быстрое развитие высоких технологий, наблюдаемое в последние десятилетия, неизбежно поднимает вопрос о возможности моделирования человеческого сознания искусственным интеллектом, способным не только действовать по заранее заложенной в него программе, но и обучаться решению некоторых задач в ходе своей работы. Ответом на этот вопрос стало формирование машинного обучения, как раздела науки, исследующего различные подходы к накоплению таким интеллектом опыта и обучения его принятию решений исходя из этого опыта.
Одна из концепций машинного обучения, особенно бурно развивающаяся в настоящее время – обучение с подкреплением (ОП). ОП рассматривает обучаемую систему – агента в его взаимодействии со средой. В процессе обучения агент «выясняет», какие его действия (или последовательности действий) приводят к наиболее благоприятной реакции среды, тем самым достигая оптимального в некотором смысле поведения.
ОП имеет приложения в самых различных сферах человеческой деятельности, среди которых:
Робототехника [7]
Общение и лингвистика [14, 19]
Настольные и компьютерные игры [2, 20]
На настоящий момент, ОП применяется как для сред с одним обучаемым агентом, так и для областей, где необходимо учитывать взаимодействие между многими агентами. Среди них – уже упомянутые игры (для случая нескольких игроков), управление группами роботов и исследование социальных взаимодействий.
Востребованность и перспективность ОП стали решающими факторами в выборе данной области знаний, как поля для данного исследования.
Среди методов ОП выделяют несколько классов, один из которых – методы градиента политики. Они основываются на одноименной теореме, которая позволяет представить процесс обучения в виде задачи максимизации функционала, зависящего от набора параметров, определяющих поведение агента. Оптимизация происходит с помощью градиентного подъема по параметрам [16]. Долгое время оставалась нерешенной задача применения таких алгоритмов в мультиагентной среде. К настоящему моменту она решена. Например, в работе [9] представлена адаптация метода градиента политики на мультиагентный случай. В ходе работы этого алгоритма происходит параллельное получение двух структур для каждого агента: политики, согласно которой агент принимает решения и критика, который оценивает качество принятых решений. Алгоритм демонстрирует хорошие результаты, однако требует большого количества времени на обучение. Данная работа концентрируется на вопросе ускорения процесса обучения.

По результатам проделанной работы можно сделать вывод, что цель, поставленная перед работой, была достигнута. В ходе исследования была обнаружена возможность сократить влияние размерности задачи машинного обучения на время, требуемое на обучение, без ущерба для качества обучения.
Были предложены два различных подхода к реализации этой возможности, а также исследованы сильные и слабые стороны этих подходов.
Выигрыш от использования предложенных подходов к обучению варьируется с размерностью задачи. При одновременном обучении 14 агентов один из подходов продемонстрировал незначительную потерю эффективности (5 % от времени обучения исходной версией алгоритма), другой привел к незначительному (3 %) выигрышу. Обучение 22 агентов новыми подходами привело к экономии 33% и 72% времени. Обучение 30 агентов одним из подходов привело к увеличению среднего прироста вознаграждения в секунду в 1.3 раза (с 0.12 до 0.16), однако за время, отведенное на эксперименты, не удалось установить, сохранится ли эта тенденция на протяжении всего процесса обучения. Исследование этого вопроса предлагается вынести в дальнейшую работу.

H. Daume. A Course in Machine Learning. Сiml.info, 2017.
J. Foerster, G. Farquhar, T. Afouras, N. Nardelli, and S. Whiteson. Counterfactual multi-agent policy gradients, 2017.
Gupta J.K., Egorov M., Kochenderfer M. (2017) Cooperative Multi-agent Control Using Deep Reinforcement Learning. In: Sukthankar G., Rodriguez-Aguilar J. (eds) Autonomous Agents and Multiagent Systems. // AAMAS 2017. Lecture Notes in Computer Science, vol 10642. Springer, Cham.
N. Heess, G. Wayne, D. Silver, T. Lillicrap, Y. Tassa, T. Erez. Learning Continuous Control Policies by Stochastic Value Gradients, 2015.
T. Kohonen. Learning Vector Quantization, Neural Networks, 1 (suppl 1), 1988
M Kurek. Deep Reinforcement Learning in Keepaway Soccer, Master’s thesis at Poznań University of Technology, 2015.
S. Levine, C. Finn, T. Darrell, and P. Abbeel. End-to-end training of deep visuomotor policies, 2016.
M. L. Littman. Markov games as a framework for multi-agent reinforcement learning. // Proceedings of the eleventh international conference on machine learning, volume 157, pages 157–163, 1994
R. Lowe, Yi Wu, Aviv Tamar, Jean Harb, Pieter Abbeel and Igor Mordatch, 2018. Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments.
L. Matignon, G. J. Laurent, and N. Le Fort-Piat. Independent reinforcement learners in cooperative markov games: a survey regarding coordination problems. // The Knowledge Engineering Review, 27(01):1–31, 2012
W.S. McCulloch, W.H. Pitts. A Logical Calculus of the Ideas Immanent in Nervous Activity // Bulletin of Mathematical Biophysics, Vol. 5, 1943, p. 115-133
V. Mnih, K. Kavukcuoglu, D. Silver, A. A. Rusu, J. Veness, M. G. Bellemare, A. Graves, M. Riedmiller, A. K. Fidjeland, G. Ostrovski, et al. Human-level control through deep reinforcement learning. // Nature, 518(7540):529–533, 2015.
I. Mordatch and P. Abbeel. Emergence of grounded compositional language in multi-agent populations, 2017.
F. Rosenblatt, The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain, Cornell Aeronautical Laboratory, Psychological Review, v65, No. 6, pp. 386–408, 1958.
Optimization for Machine Learning/ Под ред. S. Sra, S. Nowozin, and S. J. Wright. The MIT Press, 2012. 494 с.
S. Sukhbaatar, R. Fergus, et al. Learning multiagent communication with backpropagation. // Advances in Neural Information Processing Systems, pages 2244–2252, 2016.
R. S. Sutton, A. G. Barto. Reinforcement Learning: An Introduction, second edition. The MIT Press, 2018. 548 c.
A. Tampuu, T. Matiisen, D. Kodelja, I. Kuzovkin, K. Korjus, J. Aru, J. Aru, and R. Vicente. Multiagent cooperation and competition with deep reinforcement learning. PloS one, 12(4):e0172395, 2017.
M. Tan. Multi-agent reinforcement learning: Independent vs. cooperative agents. // Proceedings of the tenth international conference on machine learning, pages 330–337, 1993.
G. Tesauro. Extending q-learning to general adaptive multi-agent systems. // Advances in neural information processing systems, pages 871–878, 2004.
AlphaGo.
The MNIST DATABASE of handwritten digits.

Заказать новую

Лучшие эксперты сервиса ждут твоего задания

от 5 000 ₽

Не подошла эта работа?
Закажи новую работу, сделанную по твоим требованиям

    Нажимая на кнопку, я соглашаюсь на обработку персональных данных и с правилами пользования Платформой

    Хочешь уникальную работу?

    Больше 3 000 экспертов уже готовы начать работу над твоим проектом!

    Антон П. преподаватель, доцент
    4.8 (1033 отзыва)
    Занимаюсь написанием студенческих работ (дипломные работы, маг. диссертации). Участник международных конференций (экономика/менеджмент/юриспруденция). Постоянно публик... Читать все
    Занимаюсь написанием студенческих работ (дипломные работы, маг. диссертации). Участник международных конференций (экономика/менеджмент/юриспруденция). Постоянно публикуюсь, имею высокий индекс цитирования. Спикер.
    #Кандидатские #Магистерские
    1386 Выполненных работ
    Екатерина С. кандидат наук, доцент
    4.6 (522 отзыва)
    Практически всегда онлайн, доработки делаю бесплатно. Дипломные работы и Магистерские диссертации сопровождаю до защиты.
    Практически всегда онлайн, доработки делаю бесплатно. Дипломные работы и Магистерские диссертации сопровождаю до защиты.
    #Кандидатские #Магистерские
    1077 Выполненных работ
    Олег Н. Томский политехнический университет 2000, Инженерно-эконо...
    4.7 (96 отзывов)
    Здравствуйте! Опыт написания работ более 12 лет. За это время были успешно защищены более 2 500 написанных мною магистерских диссертаций, дипломов, курсовых работ. Явл... Читать все
    Здравствуйте! Опыт написания работ более 12 лет. За это время были успешно защищены более 2 500 написанных мною магистерских диссертаций, дипломов, курсовых работ. Являюсь действующим преподавателем одного из ВУЗов.
    #Кандидатские #Магистерские
    177 Выполненных работ
    Ксения М. Курганский Государственный Университет 2009, Юридический...
    4.8 (105 отзывов)
    Работаю только по книгам, учебникам, статьям и диссертациям. Никогда не использую технические способы поднятия оригинальности. Только авторские работы. Стараюсь учитыв... Читать все
    Работаю только по книгам, учебникам, статьям и диссертациям. Никогда не использую технические способы поднятия оригинальности. Только авторские работы. Стараюсь учитывать все требования и пожелания.
    #Кандидатские #Магистерские
    213 Выполненных работ
    Катерина В. преподаватель, кандидат наук
    4.6 (30 отзывов)
    Преподаватель одного из лучших ВУЗов страны, научный работник, редактор научного журнала, общественный деятель. Пишу все виды работ - от эссе до докторской диссертации... Читать все
    Преподаватель одного из лучших ВУЗов страны, научный работник, редактор научного журнала, общественный деятель. Пишу все виды работ - от эссе до докторской диссертации. Опыт работы 7 лет. Всегда на связи и готова прийти на помощь. Вместе удовлетворим самого требовательного научного руководителя. Возможно полное сопровождение: от статуса студента до получения научной степени.
    #Кандидатские #Магистерские
    47 Выполненных работ
    Кирилл Ч. ИНЖЭКОН 2010, экономика и управление на предприятии транс...
    4.9 (343 отзыва)
    Работы пишу, начиная с 2000 года. Огромный опыт и знания в области экономики. Закончил школу с золотой медалью. Два высших образования (техническое и экономическое). С... Читать все
    Работы пишу, начиная с 2000 года. Огромный опыт и знания в области экономики. Закончил школу с золотой медалью. Два высших образования (техническое и экономическое). Сейчас пишу диссертацию на соискание степени кандидата экономических наук.
    #Кандидатские #Магистерские
    692 Выполненных работы
    Анна К. ТГПУ им.ЛН.Толстого 2010, ФИСиГН, выпускник
    4.6 (30 отзывов)
    Я научный сотрудник федерального музея. Подрабатываю написанием студенческих работ уже 7 лет. 3 года назад начала писать диссертации. Работала на фирмы, а так же помог... Читать все
    Я научный сотрудник федерального музея. Подрабатываю написанием студенческих работ уже 7 лет. 3 года назад начала писать диссертации. Работала на фирмы, а так же помогала студентам, вышедшим на меня по рекомендации.
    #Кандидатские #Магистерские
    37 Выполненных работ
    Екатерина П. студент
    5 (18 отзывов)
    Работы пишу исключительно сама на основании действующих нормативных правовых актов, монографий, канд. и докт. диссертаций, авторефератов, научных статей. Дополнительно... Читать все
    Работы пишу исключительно сама на основании действующих нормативных правовых актов, монографий, канд. и докт. диссертаций, авторефератов, научных статей. Дополнительно занимаюсь английским языком, уровень владения - Upper-Intermediate.
    #Кандидатские #Магистерские
    39 Выполненных работ
    AleksandrAvdiev Южный федеральный университет, 2010, преподаватель, канд...
    4.1 (20 отзывов)
    Пишу качественные выпускные квалификационные работы и магистерские диссертации. Опыт написания работ - более восьми лет. Всегда на связи.
    Пишу качественные выпускные квалификационные работы и магистерские диссертации. Опыт написания работ - более восьми лет. Всегда на связи.
    #Кандидатские #Магистерские
    28 Выполненных работ

    Другие учебные работы по предмету

    Кооперативные игры на гиперграфах
    📅 2019год
    🏢 Санкт-Петербургский государственный университет