Моделирование информационных процессов в социальных сетях
В настоящее время информация является одним из основным инструментом продвижения различных товаров, услуг, создания социальной среды. Процесс распространения информации является динамическим и может быть описан с помощью специальных математических моделей, которые задаются дифференциальными уравнениями. Эти модели могут быть использованы для работы с эпидемическими, социальными, а также экономическими процессами, происходящими в обществе. В данной работе будем применять принципы математического моделирования для описания распространения информации в популяции в задаче о системе налогообложения.
В данной работе была разработана модель SIAP (susceptible – infected – alert – pay), описывающая динамику распространения и влияния двух видов информации о налоговой проверке в популяции, в которой взаимодействие агентов описывается на многоуровневой сети. В данном случае многоуровневая сеть описывает возможные виды контактов между агентами популяции.
Для анализа модели SIAP, была создана программа и процедуры в пакете MATLAB. С их помощью была проиллюстрирована динамика распространения информации в популяции налогоплательщиков, основываясь на модели SIAP, а также проведены четыре серии экспериментов, с целью исследования влияния топологии сети на распространение информации.
Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
Постановка задачи и целей . . . . . . . . . . . . . . . . . . . . . . . . 8
Глава 1. Эпидемические модели . . . . . . . . . . . . . . . . . . . . . 10
1.1 Модель SIS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.2 Модель SAIS . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.3 Модель GEMF . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
Глава 2. Модель распространения информации о налоговых проверках 21
2.1 Описание модели SIAP . . . . . . . . . . . . . . . . . . . . . . 21
2.2 Процедура моделирования процесса распространения инфор-
мации модели SIAP . . . . . . . . . . . . . . . . . . . . . . . . . . 27
Глава 3. Численное моделирование . . . . . . . . . . . . . . . . . . . 31
3.1 Первая серия экспериментов . . . . . . . . . . . . . . . . . . . 31
3.2 Вторая серия экспериментов . . . . . . . . . . . . . . . . . . . 35
3.3 Третья серия экспериментов . . . . . . . . . . . . . . . . . . . 38
3.4 Четвертая серия экспериментов . . . . . . . . . . . . . . . . . 41
3.5 Выводы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
Заключение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
Список литературы . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
Приложение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
Математическое моделирование уже давно применяется для изуче-
ния распространения инфекционных заболеваний. С его помощью были
созданы эпидемические модели — упрощенный способ описания передачи
инфекционных заболеваний через отдельных лиц. Эпидемическое модели-
рование помогает исследовать процессы распространения вирусных заболе-
ваний, выявлять их тенденции к дальнейшему развитию, искать решения
предотвращения эпидемий в будущем.
Самыми первыми эпидемическими моделями являются детерминиро-
ванные. При их использовании предполагается, что популяция разделена
на группы, которые соответствуют стадиям развития болезни и размер по-
пуляции фиксирован.
Первая детерминированная модель была представлена в 1927 году в
статье «Contribution to the mathematical theory of epidemics» [1]. В ней
W. O. Kermack и A. G. McKendrick описали модель SIR (susceptible —
infected — recovered). Она легла в основу математического моделирования
эпидемических процессов, так как позволяет описывать распространение
простых инфекционных заболеваний, которые включают в себя три основ-
ные группы, соответствующие стадиям болезни: S — восприимчивые, I —
инфицированные, R — иммунные. Но также SIR легко адаптируется под
более сложные виды эпидемий.
В современных исследованиях большое внимание уделяется модели
SIS (susceptible — infected — susceptible) [2] — модификации SIR модели —
так как она может рассматриваться как простейшая модель эпидемии, в
которой популяция разделена на две группы: инфицированные и воспри-
имчивые.
В последнее время детерминированные модели применяются все ре-
же, так как имеют некоторые недостатки. Один из самых главных заклю-
чается в том, что детерминированные модели не учитывают влияние от-
дельных индивидов на эпидемический процесс. Данный факт не позволя-
ет получить полноценное представление об эпидемическом процессе. Это
приводит к тому, что используемая модель далека от реальности. Поэто-
му сейчас изучаются новые методы и модели, учитывающие взаимосвя-
зи индивидов в популяции. Это необходимо для того, чтобы оценивать и,
возможно, контролировать влияние каждого индивида в распространении
инфекционного заболевания.
Модификация детерминированных моделей заключается в том, что
распространение инфекционного заболевания рассматривается на графе с
применением теории марковских процессов. Узлы графа обозначают аген-
тов, а ребра графа — контакты. В этом случае говорят о точных или сто-
хастических моделях. Такой метод исследования эпидемического процесса
применяет Piet Van Mieghem в своей статье [3]. В ней автор получает диф-
ференциальные уравнения для точных моделей SIR и SIS.
Модель SIR была тщательно изучена в работе «An individual-based
approach to SIR epidemics in contact networks» [4]. В этой статье, на осно-
ве детерминированной модели SIR, авторы проводят сравнительный ана-
лиз нескольких видов моделей распространения инфекции на случайной
сети. Также исследуют взаимосвязь топологии сети и спектра матрицы
смежности с параметрами эпидемии. Еще одним примером исследования
влияния топологии является статья «Networks and epidemic models» [5].
Однако, в ней авторы делают упор на определение взаимосвязи между ди-
намикой эпидемического процесса и различными типами сетей: случайной
сетью, решеткой, моделью малого мира. Понимание структуры сети явля-
ется важным аспектом моделирования, так как учет реальных размеров
сети обычно невозможен в силу ограниченности ресурсов.
Как правило, в задачах моделирования процессов сеть задается од-
ним графом. Однако, при изучении эпидемий это не всегда может быть
корректно, так как между индивидами в обществе возникают контакты
разных видов. Поэтому следующей ступенью в изучении распространения
инфекционных заболеваний встал вопрос об изменении одноуровневой се-
тевой модели. В связи с этим в задачах, требующих рассмотрения несколь-
ких типов взаимодействий между агентами, необходимо использовать мно-
гоуровневые сети.
Авторы в работе «Generalized Epidemic Mean-Field Model for Spreading
Processes Over Multilayer Complex Networks» [6] предлагают обобщенную
модель GEMF (Generalized Epidemic Mean-Field), применимую к эпидеми-
ческим моделям, которые могут включать в себя любое число состояний
и уровней сети. Таким образом, исследование процессов распространения
становится более эффективным, при использовании такой модели.
К сожалению, анализ точных моделей довольно сложный, поэтому на
практике используются аппроксимации точных моделей. Piet Van Mieghem
в статье «The N-Nntertwined SIS epidemic network model» [7] предложил
модель NIMFA (N-Intertwined mean-field approximation) — аппроксимацию
точной модели SIS. В работе «Virus spread in Networks» [8] в общем ви-
де моделируется процесс распространения вируса на сети с применением
теории Маркова для эпидемии, которая имеет два возможных состояния
(группы). Найдена система обыкновенных дифференциальных уравнений
для модели NIMFA, а также проведен сравнительный анализ этой модели
и аналогичной ей точной модели.
На сегодняшний день имеется много научных исследований, посвя-
щенных изучению точных эпидемических моделей и их аппроксимаций.
Причин такого интереса к данной теме может быть несколько.
Во-первых, конечно, с развитием науки люди смогли искоренить опре-
деленные виды инфекционных заболеваний, некоторые научились контро-
лировать и не допускать их распространения среди населения. Однако,
все еще существуют инфекционные заболевания, способные привести к ле-
тальному исходу, а также появляются новые, не изученные виды вирусов,
которые могут спровоцировать вспышку эпидемии. К тому же у вирусов,
вызывающих инфекционные заболевания, возникают мутации. Эта пробле-
ма была исследована в статье «Optimal Control of Influenza Epidemic Model
with Virus Mutations» [9]. В ней рассматривается вариант эпидемии вируса
гриппа среди населения, когда за один эпидемический сезон вирус грип-
па мутирует, что приводит к циркуляции уже двух типов вируса в одной
популяции. Классическая модель SIR, которая обычно применяется для
изучения этого заболевания, не приспособлена для такого вида постановки
задачи. Поэтому необходимо модернизировать ее, чтобы она учитывала ди-
намику не только эпидемического процесса среди населения, но и мутации
вируса.
Во-вторых, существуют различные аппроксимационные методы, ко-
торые, в большинстве случаев, могут быть применимы ко множеству эпи-
демических моделей. Однако, на сегодняшний момент не существует наи-
лучшего метода аппроксимации, поэтому до сих пор возникают новые.
В работах [10] – [11] рассматриваются аппроксимации с использо-
ванием как методов теории среднего поля для модели SIS: N-intertwined
mean-field approximation (NIMFA), Heterogeneous mean-field method (HMF),
Second-order NIMFA, так и методов Link percolation approach (LP), Message
passing approach (MP). Каждый из методов имеет свои положительные и
отрицательные стороны, поэтому необходимо выбирать тот, который при-
меним к конкретной задаче.
В-третьих, на основе классических моделей создаются новые за счет
исключения или добавления состояний, описывающих эпидемию. Поэтому,
для любого процесса, поведение которого подобно эпидемическому, можно
создать модель и изучить динамику этого процесса. Например, авторы F.
D. Sahneh и C. Scoglio статьи «Epidemic Spread in Human Networks» [12]
добавили новую группу A (alert – бдительный) к модели SIS и получили
модель SAIS. Она предполагает, что восприимчивый индивидуум может
перейти в бдительное состояние A с вероятностью γA , если он окружен ин-
фицированными соседями, а из этого состояния в инфицированное (I) с
вероятностью γI < β , где β - вероятность перехода индивида из воспри-
имчивого в инфицированное состояние.
Как уже говорилось, методы моделирования эпидемий могут также
применяться вне эпидемиологии, расширяя тем самым область их примене-
ния и круг задач. Например, для изучения распространения информации
в обществе, в задачах сетевой безопасности или в исследованиях вирусного
маркетинга.
A. L.Hill, D. G. Rand, M. A. Nowak, N. A. Christakis провели интерес-
ное исследование, посвященное изучению распространения положительных
и отрицательных эмоций у людей посредством социальных сетей. В статье
«Emotions as infectious diseases in a large social network: the SISa model» [13]
приводятся результаты этого исследования. Они предложили свою модель
SISa, которая была получена на основе классической SIS модели, с помо-
щью дополнительной стадии a, которая задает процесс спонтанной смены
настроения у человека, который не зависит от контактов рассматриваемого
индивида.
Например, в работе «Complete game-theoretic characterization of SIS
epidemics protection strategies» [14] группа ученых используют аппрокси-
мационную модель NIMFA для анализа процесса распространения вируса
в полной сети. В этой статье формулируется задача о поиске оптимальной
стратегии защиты игрока от вредоносного программного обеспечения. Для
постановки задачи применяется не только теория эпидемического модели-
рования, но и теория игр заполнения [15].
Рассмотрим еще один пример использования эпидемических моделей
вне эпидемиологии. Для качественного налогового контроля необходимо
осуществлять налоговые проверки, направленные на выявление недобро-
совестных налогоплательщиков, которые деклалируют свои доходы не в
полном объеме или не декларируют их вовсе. Проблема заключается в том,
что проведение таких аудитов требует больших финансовых вложений. По-
этому для снижения расходов на проверки, а также для побуждения людей
платить налоги, указывая весь доход, в работах [16] - [18] рассматривается
возможность влияния на поведение налогоплательщиков с помощью рас-
пространения информации о предстоящем аудите.
Постановка задачи и целей
Динамические процессы, происходящие в окружающей среде, могут
описываться с помощью математических моделей. Они задаются системой
дифференциальных уравнений и моделируют эпидемические, социальные
изменения в жизни общества, а также экономические процессы. В данной
работе будем рассматривать принципы математического моделирования в
задаче о системе налогообложения.
Таким образом, в рамках этой работы была определена цель: разра-
ботать модель, описывающую динамику распространения и влияния ин-
формации о налоговой проверке в популяции, в которой взаимодействие
агентов описывается на многоуровневой сети.
Налоги и сборы составляют основу налоговой системы, а ее ключе-
вой функцией является контроль уплаты налогов налогоплательщиками.
Необходимость контроля состоит в том, что существуют налогоплательщи-
ки, которые предпочитают уклоняться от налогов. Однако, любой вид на-
логового аудита требует определённых затрат. Следовательно, при увели-
чении числа проверяемых налоговым органом, снижается эффективность
проверки.
Необходимо ввести меры влияния на общество, позволяющие одно-
временно увеличивать налоговые выплаты и снижать затраты на налого-
вый контроль. Один из способов решения данной проблемы заключается в
воздействии на общество с помощью распространения информации о пред-
стоящей проверке.
Будем полагать, что в начальный момент времени рассмотрения про-
цесса распространения часть налогоплательщиков обладает информацией
о предстоящей налоговой проверке. Далее эта информация циркулирует
среди агентов в рассматриваемом обществе. Так как время проведения на-
логовой проверки ограничено, то информация о ней может устаревать. По-
этому информированный агент, через определенный промежуток времени,
может перестать обладать информацией.
Описанный процесс аналогичен распространению инфекции в обще-
стве, который соответствует эпидемической модели SIS. Однако, в нашем
случае, распространение информации о налоговой проверке имеет некото-
рые особенности, что приводит к усложнению этой модели.
Основной целью применения в сфере налогового контроля распро-
странения информации в обществе является побуждение налогоплатель-
щиков платить налоги и платить в полном объеме. В связи с этим, при
создании модели, необходимо учесть влияние, которое оказывает инфор-
мация на поведение человека, после того как он ее получил. Поэтому глав-
ное отличие от эпидемиологии состоит в том, что нужно не только изучить
процесс распространения информации, но и проанализировать его влияние
на общество.
Однако, каждый налогоплательщик принимает решение об уплате
налога исходя из своих личных убеждений и в действительности все при-
чины, оказывающие влияние на этот выбор неизвестны. Для того, чтобы
приблизить наше исследование к реальности, мы будем моделировать рас-
пространение информации основываясь, на многоуровневой модели GEMF
(Generalized Epidemic Mean-Field).
В соответствии с целью выпускной квалификационной работы основ-
ными задачами стали:
В выпускной квалификационной работе была описана стохастическая
модель SAIS и изучена обобщенная модель GEMF, позволяющая модели-
ровать распространение процессов на многоуровневой структуре сети. Эти
модели были адаптированы для задачи о системе налогообложения и на
их основе была создана модель SIAP, которая описывает распространение
двух видов информации в обществе налогоплательщиков и позволяет ис-
следовать влияние этой информации на решение налогоплательщиков об
уплате налогов.
Для изучения введенной модели SIAP, была разработана программа
и процедуры в пакете MATLAB. С их помощью были проведены четыре
серии экспериментов, с целью иллюстрации и исследования динамики рас-
пространения информации в популяции модели SIAP.
Таким образом, написанная программа вместе со вспомогательными
процедурами образуют инструмент для изучения динамики распростране-
ния двух видов информации в популяции, которая может быть представ-
лена многоуровневой сетью.
Задачи, поставленные в начале работы и сформулированные в со-
ответствии с целью, были успешно реализованы. Полученные результаты
можно использовать в дальнейших исследованиях в области налогового
аудита, используя данную модель SIAP и инструмент моделирования. Со-
зданный инструмент позволяет осуществлять изучение и подбор парамет-
ров системы, а также начальных долей состояний системы для модели рас-
пространения SIAP, в соответствии с реальными данными о выплатах нало-
гов налогоплательщиками в Российской Федерации. Таким образом, разра-
ботанные модель SIAP и инструмент моделирования, можно использовать
для корректирования процесса налогового аудита с целью повышения его
эффективности.
[1] Kermack W. O., McKendrick A. G. A Contribution to the mathematical
theory of epidemics // Proceedings of the Royal Society. 1927. P. 700—721.
Последние выполненные заказы
Хочешь уникальную работу?
Больше 3 000 экспертов уже готовы начать работу над твоим проектом!