Top.Mail.Ru

Вероятностное моделирование в классификации коллекции документов

Халиуллина Лия Рауфовна
Бесплатно
В избранное
Работа доступна по лицензии Creative Commons:«Attribution» 4.0

В настоящее время большой популярностью пользуются различные статистические методы обработки текста, в частности, вероятностное тематическое моделирование. В данной работе рассматриваются модели, использующиеся в задачах классификации коллекций документов. Выделена проблема отсутствия готовой качественной обучающей выборки для множественной классификации. Предложено решение в виде создания обучающей выборки путем нечеткой кластеризации. Описан алгоритм построения модели классификации коллекции документов с обучением на выборке, созданной в результате предложенного решения.

Введение …………………………………………………………………………………………………… 3
Постановка задачи …………………………………………………………………………………….. 5
Глава 1. Вероятностное тематическое моделирование ………………………………… 6
1.1. Основные понятия ………………………………………………………………………. 6
1.2. Модель PLSA ……………………………………………………………………………… 7
1.3. Модель LDA ……………………………………………………………………………….. 9
1.4. Аддитивная регуляризация тематических моделей …………………….. 12
1.4.1. Общий подход ……………………………………………………………………… 12
1.4.2. Разновидности регуляризаторов …………………………………………… 13
1.5. Метрики для оценки качества модели ………………………………………… 18
Глава 2. Предлагаемый алгоритм ……………………………………………………………… 20
3.1. Предварительная обработка текста ……………………………………………….. 22
3.2. Создание обучающей выборки и обучение классификатора ………….. 25
3.3. Оценка качества построенной модели и выводы …………………………… 30
Заключение …………………………………………………………………………………………….. 33
Список литературы ………………………………………………………………………………….. 34
Приложение …………………………………………………………………………………………….. 36

Быстрый рост потоков информации ставит не только вопрос её
хранения, но и задачу её систематизации и анализа. При работе с текстами
подобный анализ помогает извлечь необходимые сведения о настроении,
актуальности, тематике, а также является необходимой ступенью перед
последующими действиями вроде поиска, сравнения или категоризации.
Большой популярностью пользуются различные статистические методы
обработки текста, в частности, тематическое моделирование. Вероятностная
тематическая модель (probabilistic topic model) коллекции документов
представляет каждый документ в виде дискретного распределения
вероятностей тем, а каждую тему – в виде дискретного распределения
вероятностей слов (терминов). Построение вероятностной тематической
модели можно также описать как задачу одновременной кластеризации (би-
кластеризации) документов и слов по одному и тому же множеству кластеров,
называемых темами. Особенностью подобного моделирования является
осуществление «нечеткой кластеризации» (soft clustering), то есть документ
может принадлежать нескольким темам [2].

В данной работе рассмотрены некоторые вероятностные тематические
модели. Выделена проблема отсутствия готовой качественной обучающей
выборки для множественной классификации по относительно большому
количеству относительно небольших классов. Предложено решение в виде
создания обучающей выборки путем мягкой кластеризации через
вероятностно тематическую модель. Описан алгоритм построения
вероятностной тематической модели множественной классификации
коллекции документов с обучением на выборке, созданной в результате
предложенного решения.

Описанный в работе алгоритм показал хорошую работу, и модель можно
считать достаточно качественной.

Заказать новую

Лучшие эксперты сервиса ждут твоего задания

от 5 000 ₽

Не подошла эта работа?
Закажи новую работу, сделанную по твоим требованиям

    Нажимая на кнопку, я соглашаюсь на обработку персональных данных и с правилами пользования Платформой

    Хочешь уникальную работу?

    Больше 3 000 экспертов уже готовы начать работу над твоим проектом!

    Петр П. кандидат наук
    4.2 (25 отзывов)
    Выполняю различные работы на заказ с 2014 года. В основном, курсовые проекты, дипломные и выпускные квалификационные работы бакалавриата, специалитета. Имею опыт напис... Читать все
    Выполняю различные работы на заказ с 2014 года. В основном, курсовые проекты, дипломные и выпускные квалификационные работы бакалавриата, специалитета. Имею опыт написания магистерских диссертаций. Направление - связь, телекоммуникации, информационная безопасность, информационные технологии, экономика. Пишу научные статьи уровня ВАК и РИНЦ. Работаю техническим директором интернет-провайдера, имею опыт работы ведущим сотрудником отдела информационной безопасности филиала одного из крупнейших банков. Образование - высшее профессиональное (в 2006 году окончил военную Академию связи в г. Санкт-Петербурге), послевузовское профессиональное (в 2018 году окончил аспирантуру Уральского федерального университета). Защитил диссертацию на соискание степени "кандидат технических наук" в 2020 году. В качестве хобби преподаю. Дисциплины - сети ЭВМ и телекоммуникации, информационная безопасность объектов критической информационной инфраструктуры.
    #Кандидатские #Магистерские
    33 Выполненных работы
    Яна К. ТюмГУ 2004, ГМУ, выпускник
    5 (8 отзывов)
    Помощь в написании магистерских диссертаций, курсовых, контрольных работ, рефератов, статей, повышение уникальности текста(ручной рерайт), качественно и в срок, в соот... Читать все
    Помощь в написании магистерских диссертаций, курсовых, контрольных работ, рефератов, статей, повышение уникальности текста(ручной рерайт), качественно и в срок, в соответствии с Вашими требованиями.
    #Кандидатские #Магистерские
    12 Выполненных работ
    Екатерина Б. кандидат наук, доцент
    5 (174 отзыва)
    После окончания института работала экономистом в системе государственных финансов. С 1988 года на преподавательской работе. Защитила кандидатскую диссертацию. Преподав... Читать все
    После окончания института работала экономистом в системе государственных финансов. С 1988 года на преподавательской работе. Защитила кандидатскую диссертацию. Преподавала учебные дисциплины: Бюджетная система Украины, Статистика.
    #Кандидатские #Магистерские
    300 Выполненных работ
    Андрей С. Тверской государственный университет 2011, математический...
    4.7 (82 отзыва)
    Учился на мат.факе ТвГУ. Любовь к математике там привили на столько, что я, похоже, никогда не перестану этим заниматься! Сейчас работаю в IT и пытаюсь найти время на... Читать все
    Учился на мат.факе ТвГУ. Любовь к математике там привили на столько, что я, похоже, никогда не перестану этим заниматься! Сейчас работаю в IT и пытаюсь найти время на продолжение диссертационной работы... Всегда готов помочь! ;)
    #Кандидатские #Магистерские
    164 Выполненных работы
    Логик Ф. кандидат наук, доцент
    4.9 (826 отзывов)
    Я - кандидат философских наук, доцент кафедры философии СГЮА. Занимаюсь написанием различного рода работ (научные статьи, курсовые, дипломные работы, магистерские дисс... Читать все
    Я - кандидат философских наук, доцент кафедры философии СГЮА. Занимаюсь написанием различного рода работ (научные статьи, курсовые, дипломные работы, магистерские диссертации, рефераты, контрольные) уже много лет. Качество работ гарантирую.
    #Кандидатские #Магистерские
    1486 Выполненных работ
    Екатерина П. студент
    5 (18 отзывов)
    Работы пишу исключительно сама на основании действующих нормативных правовых актов, монографий, канд. и докт. диссертаций, авторефератов, научных статей. Дополнительно... Читать все
    Работы пишу исключительно сама на основании действующих нормативных правовых актов, монографий, канд. и докт. диссертаций, авторефератов, научных статей. Дополнительно занимаюсь английским языком, уровень владения - Upper-Intermediate.
    #Кандидатские #Магистерские
    39 Выполненных работ
    Кормчий В.
    4.3 (248 отзывов)
    Специализация: диссертации; дипломные и курсовые работы; научные статьи.
    Специализация: диссертации; дипломные и курсовые работы; научные статьи.
    #Кандидатские #Магистерские
    335 Выполненных работ
    Александра С.
    5 (91 отзыв)
    Красный диплом референта-аналитика информационных ресурсов, 8 лет преподавания. Опыт написания работ вплоть до докторских диссертаций. Отдельно специализируюсь на повы... Читать все
    Красный диплом референта-аналитика информационных ресурсов, 8 лет преподавания. Опыт написания работ вплоть до докторских диссертаций. Отдельно специализируюсь на повышении уникальности текста и оформлении библиографических ссылок по ГОСТу.
    #Кандидатские #Магистерские
    132 Выполненных работы
    Мария А. кандидат наук
    4.7 (18 отзывов)
    Мне нравится изучать все новое, постоянно развиваюсь. Могу написать и диссертацию и кандидатскую. Есть опыт в различных сфера деятельности (туризм, экономика, бухучет... Читать все
    Мне нравится изучать все новое, постоянно развиваюсь. Могу написать и диссертацию и кандидатскую. Есть опыт в различных сфера деятельности (туризм, экономика, бухучет, реклама, журналистика, педагогика, право)
    #Кандидатские #Магистерские
    39 Выполненных работ

    Другие учебные работы по предмету

    Кооперативные игры на гиперграфах
    📅 2019год
    🏢 Санкт-Петербургский государственный университет