Вероятностное моделирование в классификации коллекции документов

Халиуллина Лия Рауфовна
Бесплатно
В избранное
Работа доступна по лицензии Creative Commons:«Attribution» 4.0

В настоящее время большой популярностью пользуются различные статистические методы обработки текста, в частности, вероятностное тематическое моделирование. В данной работе рассматриваются модели, использующиеся в задачах классификации коллекций документов. Выделена проблема отсутствия готовой качественной обучающей выборки для множественной классификации. Предложено решение в виде создания обучающей выборки путем нечеткой кластеризации. Описан алгоритм построения модели классификации коллекции документов с обучением на выборке, созданной в результате предложенного решения.

Введение …………………………………………………………………………………………………… 3
Постановка задачи …………………………………………………………………………………….. 5
Глава 1. Вероятностное тематическое моделирование ………………………………… 6
1.1. Основные понятия ………………………………………………………………………. 6
1.2. Модель PLSA ……………………………………………………………………………… 7
1.3. Модель LDA ……………………………………………………………………………….. 9
1.4. Аддитивная регуляризация тематических моделей …………………….. 12
1.4.1. Общий подход ……………………………………………………………………… 12
1.4.2. Разновидности регуляризаторов …………………………………………… 13
1.5. Метрики для оценки качества модели ………………………………………… 18
Глава 2. Предлагаемый алгоритм ……………………………………………………………… 20
3.1. Предварительная обработка текста ……………………………………………….. 22
3.2. Создание обучающей выборки и обучение классификатора ………….. 25
3.3. Оценка качества построенной модели и выводы …………………………… 30
Заключение …………………………………………………………………………………………….. 33
Список литературы ………………………………………………………………………………….. 34
Приложение …………………………………………………………………………………………….. 36

Быстрый рост потоков информации ставит не только вопрос её
хранения, но и задачу её систематизации и анализа. При работе с текстами
подобный анализ помогает извлечь необходимые сведения о настроении,
актуальности, тематике, а также является необходимой ступенью перед
последующими действиями вроде поиска, сравнения или категоризации.
Большой популярностью пользуются различные статистические методы
обработки текста, в частности, тематическое моделирование. Вероятностная
тематическая модель (probabilistic topic model) коллекции документов
представляет каждый документ в виде дискретного распределения
вероятностей тем, а каждую тему – в виде дискретного распределения
вероятностей слов (терминов). Построение вероятностной тематической
модели можно также описать как задачу одновременной кластеризации (би-
кластеризации) документов и слов по одному и тому же множеству кластеров,
называемых темами. Особенностью подобного моделирования является
осуществление «нечеткой кластеризации» (soft clustering), то есть документ
может принадлежать нескольким темам [2].

В данной работе рассмотрены некоторые вероятностные тематические
модели. Выделена проблема отсутствия готовой качественной обучающей
выборки для множественной классификации по относительно большому
количеству относительно небольших классов. Предложено решение в виде
создания обучающей выборки путем мягкой кластеризации через
вероятностно тематическую модель. Описан алгоритм построения
вероятностной тематической модели множественной классификации
коллекции документов с обучением на выборке, созданной в результате
предложенного решения.

Описанный в работе алгоритм показал хорошую работу, и модель можно
считать достаточно качественной.

Заказать новую

Лучшие эксперты сервиса ждут твоего задания

от 5 000 ₽

Не подошла эта работа?
Закажи новую работу, сделанную по твоим требованиям

    Нажимая на кнопку, я соглашаюсь на обработку персональных данных и с правилами пользования Платформой

    Хочешь уникальную работу?

    Больше 3 000 экспертов уже готовы начать работу над твоим проектом!

    Елена С. Таганрогский институт управления и экономики Таганрогский...
    4.4 (93 отзыва)
    Высшее юридическое образование, красный диплом. Более 5 лет стажа работы в суде общей юрисдикции, большой стаж в написании студенческих работ. Специализируюсь на напис... Читать все
    Высшее юридическое образование, красный диплом. Более 5 лет стажа работы в суде общей юрисдикции, большой стаж в написании студенческих работ. Специализируюсь на написании курсовых и дипломных работ, а также диссертационных исследований.
    #Кандидатские #Магистерские
    158 Выполненных работ
    Мария Б. преподаватель, кандидат наук
    5 (22 отзыва)
    Окончила специалитет по направлению "Прикладная информатика в экономике", магистратуру по направлению "Торговое дело". Защитила кандидатскую диссертацию по специальнос... Читать все
    Окончила специалитет по направлению "Прикладная информатика в экономике", магистратуру по направлению "Торговое дело". Защитила кандидатскую диссертацию по специальности "Экономика и управление народным хозяйством". Автор научных статей.
    #Кандидатские #Магистерские
    37 Выполненных работ
    Олег Н. Томский политехнический университет 2000, Инженерно-эконо...
    4.7 (96 отзывов)
    Здравствуйте! Опыт написания работ более 12 лет. За это время были успешно защищены более 2 500 написанных мною магистерских диссертаций, дипломов, курсовых работ. Явл... Читать все
    Здравствуйте! Опыт написания работ более 12 лет. За это время были успешно защищены более 2 500 написанных мною магистерских диссертаций, дипломов, курсовых работ. Являюсь действующим преподавателем одного из ВУЗов.
    #Кандидатские #Магистерские
    177 Выполненных работ
    Татьяна Б.
    4.6 (92 отзыва)
    Добрый день, работаю в сфере написания студенческих работ более 7 лет. Всегда довожу своих студентов до защиты с хорошими и отличными баллами (дипломы, магистерские ди... Читать все
    Добрый день, работаю в сфере написания студенческих работ более 7 лет. Всегда довожу своих студентов до защиты с хорошими и отличными баллами (дипломы, магистерские диссертации, курсовые работы средний балл - 4,5). Всегда на связи!
    #Кандидатские #Магистерские
    138 Выполненных работ
    Анна Н. Государственный университет управления 2021, Экономика и ...
    0 (13 отзывов)
    Закончила ГУУ с отличием "Бухгалтерский учет, анализ и аудит". Выполнить разные работы: от рефератов до диссертаций. Также пишу доклады, делаю презентации, повышаю уни... Читать все
    Закончила ГУУ с отличием "Бухгалтерский учет, анализ и аудит". Выполнить разные работы: от рефератов до диссертаций. Также пишу доклады, делаю презентации, повышаю уникальности с нуля. Все работы оформляю в соответствии с ГОСТ.
    #Кандидатские #Магистерские
    0 Выполненных работ
    Екатерина Б. кандидат наук, доцент
    5 (174 отзыва)
    После окончания института работала экономистом в системе государственных финансов. С 1988 года на преподавательской работе. Защитила кандидатскую диссертацию. Преподав... Читать все
    После окончания института работала экономистом в системе государственных финансов. С 1988 года на преподавательской работе. Защитила кандидатскую диссертацию. Преподавала учебные дисциплины: Бюджетная система Украины, Статистика.
    #Кандидатские #Магистерские
    300 Выполненных работ
    Евгений А. доктор, профессор
    5 (154 отзыва)
    Более 40 лет занимаюсь преподавательской деятельностью. Специалист в области философии, логики и социальной работы. Кандидатская диссертация - по логике, докторская - ... Читать все
    Более 40 лет занимаюсь преподавательской деятельностью. Специалист в области философии, логики и социальной работы. Кандидатская диссертация - по логике, докторская - по социальной работе.
    #Кандидатские #Магистерские
    260 Выполненных работ
    Петр П. кандидат наук
    4.2 (25 отзывов)
    Выполняю различные работы на заказ с 2014 года. В основном, курсовые проекты, дипломные и выпускные квалификационные работы бакалавриата, специалитета. Имею опыт напис... Читать все
    Выполняю различные работы на заказ с 2014 года. В основном, курсовые проекты, дипломные и выпускные квалификационные работы бакалавриата, специалитета. Имею опыт написания магистерских диссертаций. Направление - связь, телекоммуникации, информационная безопасность, информационные технологии, экономика. Пишу научные статьи уровня ВАК и РИНЦ. Работаю техническим директором интернет-провайдера, имею опыт работы ведущим сотрудником отдела информационной безопасности филиала одного из крупнейших банков. Образование - высшее профессиональное (в 2006 году окончил военную Академию связи в г. Санкт-Петербурге), послевузовское профессиональное (в 2018 году окончил аспирантуру Уральского федерального университета). Защитил диссертацию на соискание степени "кандидат технических наук" в 2020 году. В качестве хобби преподаю. Дисциплины - сети ЭВМ и телекоммуникации, информационная безопасность объектов критической информационной инфраструктуры.
    #Кандидатские #Магистерские
    33 Выполненных работы
    Татьяна П. МГУ им. Ломоносова 1930, выпускник
    5 (9 отзывов)
    Журналист. Младший научный сотрудник в институте РАН. Репетитор по английскому языку (стаж 6 лет). Также знаю французский. Сейчас занимаюсь написанием диссертации по и... Читать все
    Журналист. Младший научный сотрудник в институте РАН. Репетитор по английскому языку (стаж 6 лет). Также знаю французский. Сейчас занимаюсь написанием диссертации по истории. Увлекаюсь литературой и темой космоса.
    #Кандидатские #Магистерские
    11 Выполненных работ

    Другие учебные работы по предмету

    Кооперативные игры на гиперграфах
    📅 2019год
    🏢 Санкт-Петербургский государственный университет