Top.Mail.Ru

Вероятностное моделирование в классификации коллекции документов

Халиуллина Лия Рауфовна
Бесплатно
В избранное
Работа доступна по лицензии Creative Commons:«Attribution» 4.0

В настоящее время большой популярностью пользуются различные статистические методы обработки текста, в частности, вероятностное тематическое моделирование. В данной работе рассматриваются модели, использующиеся в задачах классификации коллекций документов. Выделена проблема отсутствия готовой качественной обучающей выборки для множественной классификации. Предложено решение в виде создания обучающей выборки путем нечеткой кластеризации. Описан алгоритм построения модели классификации коллекции документов с обучением на выборке, созданной в результате предложенного решения.

Введение …………………………………………………………………………………………………… 3
Постановка задачи …………………………………………………………………………………….. 5
Глава 1. Вероятностное тематическое моделирование ………………………………… 6
1.1. Основные понятия ………………………………………………………………………. 6
1.2. Модель PLSA ……………………………………………………………………………… 7
1.3. Модель LDA ……………………………………………………………………………….. 9
1.4. Аддитивная регуляризация тематических моделей …………………….. 12
1.4.1. Общий подход ……………………………………………………………………… 12
1.4.2. Разновидности регуляризаторов …………………………………………… 13
1.5. Метрики для оценки качества модели ………………………………………… 18
Глава 2. Предлагаемый алгоритм ……………………………………………………………… 20
3.1. Предварительная обработка текста ……………………………………………….. 22
3.2. Создание обучающей выборки и обучение классификатора ………….. 25
3.3. Оценка качества построенной модели и выводы …………………………… 30
Заключение …………………………………………………………………………………………….. 33
Список литературы ………………………………………………………………………………….. 34
Приложение …………………………………………………………………………………………….. 36

Быстрый рост потоков информации ставит не только вопрос её
хранения, но и задачу её систематизации и анализа. При работе с текстами
подобный анализ помогает извлечь необходимые сведения о настроении,
актуальности, тематике, а также является необходимой ступенью перед
последующими действиями вроде поиска, сравнения или категоризации.
Большой популярностью пользуются различные статистические методы
обработки текста, в частности, тематическое моделирование. Вероятностная
тематическая модель (probabilistic topic model) коллекции документов
представляет каждый документ в виде дискретного распределения
вероятностей тем, а каждую тему – в виде дискретного распределения
вероятностей слов (терминов). Построение вероятностной тематической
модели можно также описать как задачу одновременной кластеризации (би-
кластеризации) документов и слов по одному и тому же множеству кластеров,
называемых темами. Особенностью подобного моделирования является
осуществление «нечеткой кластеризации» (soft clustering), то есть документ
может принадлежать нескольким темам [2].

В данной работе рассмотрены некоторые вероятностные тематические
модели. Выделена проблема отсутствия готовой качественной обучающей
выборки для множественной классификации по относительно большому
количеству относительно небольших классов. Предложено решение в виде
создания обучающей выборки путем мягкой кластеризации через
вероятностно тематическую модель. Описан алгоритм построения
вероятностной тематической модели множественной классификации
коллекции документов с обучением на выборке, созданной в результате
предложенного решения.

Описанный в работе алгоритм показал хорошую работу, и модель можно
считать достаточно качественной.

Заказать новую

Лучшие эксперты сервиса ждут твоего задания

от 5 000 ₽

Не подошла эта работа?
Закажи новую работу, сделанную по твоим требованиям

    Нажимая на кнопку, я соглашаюсь на обработку персональных данных и с правилами пользования Платформой

    Хочешь уникальную работу?

    Больше 3 000 экспертов уже готовы начать работу над твоим проектом!

    Анна К. ТГПУ им.ЛН.Толстого 2010, ФИСиГН, выпускник
    4.6 (30 отзывов)
    Я научный сотрудник федерального музея. Подрабатываю написанием студенческих работ уже 7 лет. 3 года назад начала писать диссертации. Работала на фирмы, а так же помог... Читать все
    Я научный сотрудник федерального музея. Подрабатываю написанием студенческих работ уже 7 лет. 3 года назад начала писать диссертации. Работала на фирмы, а так же помогала студентам, вышедшим на меня по рекомендации.
    #Кандидатские #Магистерские
    37 Выполненных работ
    Вирсавия А. медицинский 1981, стоматологический, преподаватель, канди...
    4.5 (9 отзывов)
    руководитель успешно защищенных диссертаций, автор около 150 работ, в активе - оппонирование, рецензирование, написание и подготовка диссертационных работ; интересы - ... Читать все
    руководитель успешно защищенных диссертаций, автор около 150 работ, в активе - оппонирование, рецензирование, написание и подготовка диссертационных работ; интересы - медицина, биология, антропология, биогидродинамика
    #Кандидатские #Магистерские
    12 Выполненных работ
    Дарья П. кандидат наук, доцент
    4.9 (20 отзывов)
    Профессиональный журналист, филолог со стажем более 10 лет. Имею профильную диссертацию по специализации "Радиовещание". Подробно и серьезно разрабатываю темы научных... Читать все
    Профессиональный журналист, филолог со стажем более 10 лет. Имею профильную диссертацию по специализации "Радиовещание". Подробно и серьезно разрабатываю темы научных исследований, связанных с журналистикой, филологией и литературой
    #Кандидатские #Магистерские
    33 Выполненных работы
    Анна Н. Государственный университет управления 2021, Экономика и ...
    0 (13 отзывов)
    Закончила ГУУ с отличием "Бухгалтерский учет, анализ и аудит". Выполнить разные работы: от рефератов до диссертаций. Также пишу доклады, делаю презентации, повышаю уни... Читать все
    Закончила ГУУ с отличием "Бухгалтерский учет, анализ и аудит". Выполнить разные работы: от рефератов до диссертаций. Также пишу доклады, делаю презентации, повышаю уникальности с нуля. Все работы оформляю в соответствии с ГОСТ.
    #Кандидатские #Магистерские
    0 Выполненных работ
    Елена С. Таганрогский институт управления и экономики Таганрогский...
    4.4 (93 отзыва)
    Высшее юридическое образование, красный диплом. Более 5 лет стажа работы в суде общей юрисдикции, большой стаж в написании студенческих работ. Специализируюсь на напис... Читать все
    Высшее юридическое образование, красный диплом. Более 5 лет стажа работы в суде общей юрисдикции, большой стаж в написании студенческих работ. Специализируюсь на написании курсовых и дипломных работ, а также диссертационных исследований.
    #Кандидатские #Магистерские
    158 Выполненных работ
    Дарья Б. МГУ 2017, Журналистики, выпускник
    4.9 (35 отзывов)
    Привет! Меня зовут Даша, я окончила журфак МГУ с красным дипломом, защитила магистерскую диссертацию на филфаке. Работала журналистом, PR-менеджером в международных ко... Читать все
    Привет! Меня зовут Даша, я окончила журфак МГУ с красным дипломом, защитила магистерскую диссертацию на филфаке. Работала журналистом, PR-менеджером в международных компаниях, сейчас работаю редактором. Готова помогать вам с учёбой!
    #Кандидатские #Магистерские
    50 Выполненных работ
    Екатерина Д.
    4.8 (37 отзывов)
    Более 5 лет помогаю в написании работ от простых учебных заданий и магистерских диссертаций до реальных бизнес-планов и проектов для открытия своего дела. Имею два об... Читать все
    Более 5 лет помогаю в написании работ от простых учебных заданий и магистерских диссертаций до реальных бизнес-планов и проектов для открытия своего дела. Имею два образования: экономист-менеджер и маркетолог. Буду рада помочь и Вам.
    #Кандидатские #Магистерские
    55 Выполненных работ
    Екатерина С. кандидат наук, доцент
    4.6 (522 отзыва)
    Практически всегда онлайн, доработки делаю бесплатно. Дипломные работы и Магистерские диссертации сопровождаю до защиты.
    Практически всегда онлайн, доработки делаю бесплатно. Дипломные работы и Магистерские диссертации сопровождаю до защиты.
    #Кандидатские #Магистерские
    1077 Выполненных работ
    Александра С.
    5 (91 отзыв)
    Красный диплом референта-аналитика информационных ресурсов, 8 лет преподавания. Опыт написания работ вплоть до докторских диссертаций. Отдельно специализируюсь на повы... Читать все
    Красный диплом референта-аналитика информационных ресурсов, 8 лет преподавания. Опыт написания работ вплоть до докторских диссертаций. Отдельно специализируюсь на повышении уникальности текста и оформлении библиографических ссылок по ГОСТу.
    #Кандидатские #Магистерские
    132 Выполненных работы

    Другие учебные работы по предмету

    Кооперативные игры на гиперграфах
    📅 2019год
    🏢 Санкт-Петербургский государственный университет