Вероятностное моделирование в классификации коллекции документов

Халиуллина Лия Рауфовна
Бесплатно
В избранное
Работа доступна по лицензии Creative Commons:«Attribution» 4.0

В настоящее время большой популярностью пользуются различные статистические методы обработки текста, в частности, вероятностное тематическое моделирование. В данной работе рассматриваются модели, использующиеся в задачах классификации коллекций документов. Выделена проблема отсутствия готовой качественной обучающей выборки для множественной классификации. Предложено решение в виде создания обучающей выборки путем нечеткой кластеризации. Описан алгоритм построения модели классификации коллекции документов с обучением на выборке, созданной в результате предложенного решения.

Введение …………………………………………………………………………………………………… 3
Постановка задачи …………………………………………………………………………………….. 5
Глава 1. Вероятностное тематическое моделирование ………………………………… 6
1.1. Основные понятия ………………………………………………………………………. 6
1.2. Модель PLSA ……………………………………………………………………………… 7
1.3. Модель LDA ……………………………………………………………………………….. 9
1.4. Аддитивная регуляризация тематических моделей …………………….. 12
1.4.1. Общий подход ……………………………………………………………………… 12
1.4.2. Разновидности регуляризаторов …………………………………………… 13
1.5. Метрики для оценки качества модели ………………………………………… 18
Глава 2. Предлагаемый алгоритм ……………………………………………………………… 20
3.1. Предварительная обработка текста ……………………………………………….. 22
3.2. Создание обучающей выборки и обучение классификатора ………….. 25
3.3. Оценка качества построенной модели и выводы …………………………… 30
Заключение …………………………………………………………………………………………….. 33
Список литературы ………………………………………………………………………………….. 34
Приложение …………………………………………………………………………………………….. 36

Быстрый рост потоков информации ставит не только вопрос её
хранения, но и задачу её систематизации и анализа. При работе с текстами
подобный анализ помогает извлечь необходимые сведения о настроении,
актуальности, тематике, а также является необходимой ступенью перед
последующими действиями вроде поиска, сравнения или категоризации.
Большой популярностью пользуются различные статистические методы
обработки текста, в частности, тематическое моделирование. Вероятностная
тематическая модель (probabilistic topic model) коллекции документов
представляет каждый документ в виде дискретного распределения
вероятностей тем, а каждую тему – в виде дискретного распределения
вероятностей слов (терминов). Построение вероятностной тематической
модели можно также описать как задачу одновременной кластеризации (би-
кластеризации) документов и слов по одному и тому же множеству кластеров,
называемых темами. Особенностью подобного моделирования является
осуществление «нечеткой кластеризации» (soft clustering), то есть документ
может принадлежать нескольким темам [2].

В данной работе рассмотрены некоторые вероятностные тематические
модели. Выделена проблема отсутствия готовой качественной обучающей
выборки для множественной классификации по относительно большому
количеству относительно небольших классов. Предложено решение в виде
создания обучающей выборки путем мягкой кластеризации через
вероятностно тематическую модель. Описан алгоритм построения
вероятностной тематической модели множественной классификации
коллекции документов с обучением на выборке, созданной в результате
предложенного решения.

Описанный в работе алгоритм показал хорошую работу, и модель можно
считать достаточно качественной.

Заказать новую

Лучшие эксперты сервиса ждут твоего задания

от 5 000 ₽

Не подошла эта работа?
Закажи новую работу, сделанную по твоим требованиям

    Нажимая на кнопку, я соглашаюсь на обработку персональных данных и с правилами пользования Платформой

    Хочешь уникальную работу?

    Больше 3 000 экспертов уже готовы начать работу над твоим проектом!

    Екатерина Б. кандидат наук, доцент
    5 (174 отзыва)
    После окончания института работала экономистом в системе государственных финансов. С 1988 года на преподавательской работе. Защитила кандидатскую диссертацию. Преподав... Читать все
    После окончания института работала экономистом в системе государственных финансов. С 1988 года на преподавательской работе. Защитила кандидатскую диссертацию. Преподавала учебные дисциплины: Бюджетная система Украины, Статистика.
    #Кандидатские #Магистерские
    300 Выполненных работ
    Сергей Н.
    4.8 (40 отзывов)
    Практический стаж работы в финансово - банковской сфере составил более 30 лет. За последние 13 лет, мной написано 7 диссертаций и более 450 дипломных работ и научных с... Читать все
    Практический стаж работы в финансово - банковской сфере составил более 30 лет. За последние 13 лет, мной написано 7 диссертаций и более 450 дипломных работ и научных статей в области экономики.
    #Кандидатские #Магистерские
    56 Выполненных работ
    Шиленок В. КГМУ 2017, Лечебный , выпускник
    5 (20 отзывов)
    Здравствуйте) Имею сертификат специалиста (врач-лечебник). На данный момент являюсь ординатором(терапия, кардио), одновременно работаю диагностом. Занимаюсь диссертац... Читать все
    Здравствуйте) Имею сертификат специалиста (врач-лечебник). На данный момент являюсь ординатором(терапия, кардио), одновременно работаю диагностом. Занимаюсь диссертационной работ. Помогу в медицинских науках и прикладных (хим,био,эколог)
    #Кандидатские #Магистерские
    13 Выполненных работ
    Татьяна М. кандидат наук
    5 (285 отзывов)
    Специализируюсь на правовых дипломных работах, магистерских и кандидатских диссертациях
    Специализируюсь на правовых дипломных работах, магистерских и кандидатских диссертациях
    #Кандидатские #Магистерские
    495 Выполненных работ
    Евгений А. доктор, профессор
    5 (154 отзыва)
    Более 40 лет занимаюсь преподавательской деятельностью. Специалист в области философии, логики и социальной работы. Кандидатская диссертация - по логике, докторская - ... Читать все
    Более 40 лет занимаюсь преподавательской деятельностью. Специалист в области философии, логики и социальной работы. Кандидатская диссертация - по логике, докторская - по социальной работе.
    #Кандидатские #Магистерские
    260 Выполненных работ
    Дарья Б. МГУ 2017, Журналистики, выпускник
    4.9 (35 отзывов)
    Привет! Меня зовут Даша, я окончила журфак МГУ с красным дипломом, защитила магистерскую диссертацию на филфаке. Работала журналистом, PR-менеджером в международных ко... Читать все
    Привет! Меня зовут Даша, я окончила журфак МГУ с красным дипломом, защитила магистерскую диссертацию на филфаке. Работала журналистом, PR-менеджером в международных компаниях, сейчас работаю редактором. Готова помогать вам с учёбой!
    #Кандидатские #Магистерские
    50 Выполненных работ
    Анна В. Инжэкон, студент, кандидат наук
    5 (21 отзыв)
    Выполняю работы по экономическим дисциплинам. Маркетинг, менеджмент, управление персоналом. управление проектами. Есть опыт написания магистерских и кандидатских диссе... Читать все
    Выполняю работы по экономическим дисциплинам. Маркетинг, менеджмент, управление персоналом. управление проектами. Есть опыт написания магистерских и кандидатских диссертаций. Работала в маркетинге. Практикующий бизнес-консультант.
    #Кандидатские #Магистерские
    31 Выполненная работа
    Елена Л. РЭУ им. Г. В. Плеханова 2009, Управления и коммерции, пре...
    4.8 (211 отзывов)
    Работа пишется на основе учебников и научных статей, диссертаций, данных официальной статистики. Все источники актуальные за последние 3-5 лет.Активно и уместно исполь... Читать все
    Работа пишется на основе учебников и научных статей, диссертаций, данных официальной статистики. Все источники актуальные за последние 3-5 лет.Активно и уместно использую в работе графический материал (графики рисунки, диаграммы) и таблицы.
    #Кандидатские #Магистерские
    362 Выполненных работы
    Александра С.
    5 (91 отзыв)
    Красный диплом референта-аналитика информационных ресурсов, 8 лет преподавания. Опыт написания работ вплоть до докторских диссертаций. Отдельно специализируюсь на повы... Читать все
    Красный диплом референта-аналитика информационных ресурсов, 8 лет преподавания. Опыт написания работ вплоть до докторских диссертаций. Отдельно специализируюсь на повышении уникальности текста и оформлении библиографических ссылок по ГОСТу.
    #Кандидатские #Магистерские
    132 Выполненных работы

    Другие учебные работы по предмету

    Кооперативные игры на гиперграфах
    📅 2019год
    🏢 Санкт-Петербургский государственный университет