Метод конверсационного анализа неструктурированных текстов социальных сетей
Введение
1 Компьютерная обработка неструктурированных текстов
1.1 Традиционные методы компьютерной обработки текстов
1.1.1 Анализ тональности текста
1.1.2 Автоматическая тематическая классификация
1.2 Неструктурированные текстовые данные
1.3 Традиционный подход к анализу текстов с применением
компьютерной обработки
1.4 Задача извлечения контекста
1.5 Конверсационный анализ для контекстных связей
Выводы главы 1
2 Конверсационный анализ
2.1 Метод конверсационного анализа
2.2 Предобработка текстовых данных
2.3 Алгоритмы векторизации
2.3.1 N-граммы
2.3.2 Мешок слов
2.3.3 Word2Vec
2.3.4 Алгоритм векторизации неструктурированных текстов
2.3.4.1 Алгоритм построения матриц порядка
2.3.4.2 Алгоритм построения частотных словарей
2.4 Сравнение существующих алгоритмов векторизации
Выводы главы 2
3 Технология компьютерной обработки неструктурированных текстов
3.1 Описание экспериментов
3.1.1 Описание наборов текстов
3.1.2 Индексы качества классификации
3.1.3 Предварительная обработка текстов
3.1.4 Методика применения технологии конверсационного анализа
3.2 Расчет близости между высказываниями для идентификации
автора текста
3.3 Классификация набора текстов
3.3.1 Классификация сообщений по тематикам
3.3.2 Классификация сообщений по сообществам
3.3.3 Классификация сообщений по авторам
3.4 Расчет текстовой близости между текстовыми единицами для
выявления синонимичных инвариантов
3.5 Выявление семантических различий для расчета контекстной
дистанции между сообществами социальных сетей
3.6 Анализ активности и тональности сообществ в социальных сетях
3.7 Сегментация текста на самостоятельные единицы (главы)
3.8 Детектирование синтезированного текста
Выводы главы 3
4 Высокопроизводительная реализация алгоритмов для компьютерной
обработки неструктурированных текстов
4.1 Требования к программному комплексу
4.2 Описание архитектуры программного комплекса
4.3 Особенности программного комплекса
4.4 Сравнение последовательной и параллельной реализации
программного комплекса
Выводы главы 4
ЗАКЛЮЧЕНИЕ
СПИСОК ЛИТЕРАТУРЫ
ПРИЛОЖЕНИЕ А. Свидетельства о регистрации программы для ЭВМ
ПРИЛОЖЕНИЕ Б. Акты о внедрении результатов диссертации
Во Введении обоснована актуальность темы диссертации, изложены цель и
задачи исследования, дана общая характеристика работы, сформулированы научная новизна полученных результатов и положения, выносимые на защиту.
В Главе 1 рассматривается традиционный подход компьютерной обработки неструктурированных текстов (КОНТ), вводятся основные понятия и определе- ние конверсационного анализа, осуществляется постановка задачи, а также пред- лагается подход КОНТ с применением конверсационного анализа.
Конверсационный анализ – один из перспективных подходов в задаче компь- ютерной обработки неструктурированных текстов. В отличие от стандартных под- ходов конверсационный анализ представляет собой структурно-семиотическое ис- следование текста. Основная задача конверсационного анализа заключается в уста- новлении относительного контекста: трудно описать контекстный словарь конкрет- ного текста, но существует возможность построения контекстного словаря относи- тельно словаря любого другого текста и оценки близости текстов. В случае если контекстные словари становятся похожими (текстовая близость стремится к 0), можно сделать предположение, например, об общем авторстве двух текстов. В про- тивном случае выдвигается обратная гипотеза.
Отличительной особен- ностью исследования явля- ется работа с неструктуриро- ванными данными. Под «не- структурированными дан- ными» будем понимать наборы текстовых данных, в которых четко не определена последовательность текстов.
Традиционный подход
КОНТ (рисунок 1) характери-
зуется последовательным вы-
полнением этапов, каждый из
которых производит опреде-
ленные действия над текстом. После выполнения последнего этапа возможна дальнейшая визуализация результатов.
В начале 2000-х годов французский лингвист Мари-Анн Паво предлагает интегративный подход при определении объекта исследования разговоров. В от- личие от стандартных подходов, конверсационный анализ – это методология ин- терпретации, которая тщательно анализирует устные или письменные высказы- вания, или действия на предмет их встроенной коммуникативной значимости. В данной работе будем рассматривать тексты как набор диалогов. При таком под- ходе появляется возможность анализа контекста между текстовыми единицами.
Задача извлечения контекстных связей ставится следующим образом. Пусть T – множество текстовых сообщений, собранных в социальных сетях: T = {Tj} (j ∈ N). (1)
Рисунок 1 – Схема традиционного подхода КОНТ
Каждый из текстов Tj, в свою очередь, состоит из набора текстовых единиц: Tj = tj1●…●tjn, (n ∈ N), (2)
где «●» – операция конкатенации текстовых единиц.
Текстовой единицей будем называть последовательность из одного или не- скольких слов, объединенных семантической связью.
Контекстом будем называть совокупность смыслов слов текста, которые определяют значение конкретного слова. Данными особенностями в работе бу- дем называть относительные и абсолютные частоты употребления текстовых единиц в рамках одного текста.
S – множество сообществ социальной сети, откуда были собраны тексты Т: S = {sm} (m ∈ N), (3)
А – множество авторов сообщений:
A = a1 … ap, (p ∈ N), (4)
которые являются генераторами текстов Тj в сообществах sm.
В каждом из сообществ s авторы в какие-либо случайные моменты времени пополняют набор Т новым текстом.
Будем описывать набор текстов ориентированным графом GТ(T, cont(T)), в котором узлами являются текстовые сообщения Tj, а ребрами контекстные связи cont(T) между сообщениями. Если дополнительно извлечь из метаданных текста информацию об исходном сообществе s и авторе a, то появляется возмож- ность описать понятие «социальная сеть» (SN) при помощи тройки SN = (GT, S, A), где каждый элемент ( , , ) – текст Tj автора ap в сообществе sm. Также
можно описать множество сообщений одного автора (T(a):⋃ = ( , , )), мно-
жество сообщений в одном сообществе (T(s):⋃ = ( , , )) и множество сооб-
щений в одном сообществе от одного автора (T(a, s):⋃ = ( , , )). =
Задача извлечения контекста заключается в формировании отображения Ф на основе фраз естественного языка множества Tj, которое позволит сформиро- вать признак текста и установить контекстные связи между текстами одной группы:
Ф:Т→ , Ф( , )={0,если ∉ , (5) 1, если ∈
где F – множество сообществ S или множество авторов A.
В Главе 2 рассматриваются метод конверсационного анализа, процесс пред- варительной обработки текстов, а также алгоритм векторизации на основе ме- тода конверсационного анализа.
Наиболее часто в задачах КОНТ в качестве векторизующего алгоритма при- меняют Word2Vec. Его целью является генерация уникального абсолютного век- торизатора, на базе которого производится классификация текстов, подаваемых на вход. Результат работы такого классификатора неизменен (одинаковые фразы
принадлежат одному классу). Задачей метода конверсационного анализа явля- ется формирование отображений на основе инвариантов (авторских, групповых, тематических) и статистических характеристик текста (количество слов, порядок слов, частотные словари текстовых единиц, тональные характеристики (отрица- тельные, положительные), статистика употребления по частям речи), уникаль- ных для каждого объекта.
Конверсационный анализ представляет собой структурно-семиотическое исследование текста. Его особенностью является то, что контекстные связи изу- чаются не в рамках соседних текстовых единиц, а с учетом контекста всего пред- ложения / текста, который придает ему некоторую форму.
Метод конверсационного анализа
Вход: неструктурированный текст, базовый словарь.
Выход: набор контекстных характеристик, контекстный словарь.
1. Предварительная обработка и разметка неструктурированных текстов. 2. Разбиение текста на текстовые единицы заданного размера.
3. Вычисление и нормировка набора признаков для каждого попарного сочета-
ния текстовых единиц в тексте (на расстоянии, не превышающем заданного мак- симального значения дистанции между текстовыми единицами) относительно об- щего контекстного словаря на основе заданного типа подсчитываемых частот.
4. Определение мер близости контекстных характеристик неструктуриро- ванного текста относительно общего контекстного словаря.
5. Получение набора контекстных характеристик неструктурированных тек- стов.
Для работы метода конверсационного анализа требуется контекстный сло- варь корпуса текстов:
1. Формирование общего контекстного словаря текстовых единиц на базе общего корпуса всех текстов.
2. Предварительно загруженный контекстный словарь. В качестве параметров метода могут выступать:
1. Тип разбиения: отсутствует / по главам / по абзацам / по предложениям.
2. Максимальное значение расстояния между текстовыми единицами: 0 (анализ всех длин) / <значение максимального расстояния между текстовыми единицами>.
3. Максимальное количество словоформ в текстовой единице: 0 (без огра- ничений) / <значение максимального количества словоформ>.
4. Тип подсчитываемых частот: относительная / абсолютная.
Одним из важных этапов обработки текстов служит процесс перевода текста в цифровой формат – векторизация. В зависимости от способа кодирования тек- ста выбирается дальнейшая стратегия его обработки. Ставшие классическими алгоритмы векторизации (например, n-граммы, Word2Vec, мешок слов) хорошо зарекомендовали себя, однако в настоящее время возникает проблема извлече- ния не только статистических, но и контекстных характеристик, которые смогли
бы дать еще больше информации для дальнейшего анализа текстов.
Для выявления контекстных зависимостей был разработан соответствую-
щий алгоритм векторизации.
Алгоритм векторизации неструктурированных текстов
Вход: Tj // Исходный текст из множества T (Tj ∈ T).
Выход: Vg = (vg1 … vgy) // Набор контекстных характеристик неструктурирован-
ного текста Начало
Шаг 1: текста.
Шаг 2: ста Tj.
Расчет элементов dist_matrix на нулевом слое с использованием коси- нусной дистанции с проекцией на контекстный словарь корпуса текстов для тек- ста Tj.
Шаг 4: Проецирование нулевого слоя матрицы статистических признаков текста dist_matrix в векторный формат при помощи метода главных компонент.
Конец
Важным этапом алгоритма векторизации является формирование матрицы порядка.
Алгоритм построения матрицы порядка
Матрица порядка – математический формат представления текста при пред- положении, что на большом наборе данных две текстовые единицы имеют похо- жие векторы дистанций употреблений V (вектор, который показывает, как две текстовые единицы соотносятся между собой в рамках данных, где в качестве метрик выступает индекс q (указывает дистанцию в предложении (количество слов) между единицами) и vq (количество сочетаний (встреч в рамках одного предложения) между единицами); v0 – общее количество употреблений двух тек- стовых единиц в пределах одного предложения).
Алгоритм построения матрицы порядка
Вход: Tj // Исходный текст из множества T (Tj ∈ T).
Выход: dist_matrix // матрица статистических признаков текста. Начало
Шаг 1: Предобработка текста Tj (Т ∈ Т).
Шаг 2: По словоформе (нормализированная форма слова) найти породившее его слово W (w W). Если слово W уже имеется в словаре Dict, то ранее подсчитан- ное число n(W) употреблений слова W увеличится на 1, иначе новое слово W следует занести в словарь Dict c n(W)=1.
Шаг 3: Создание матрицы dist_matrix[размер(Dict)][размер(Dict)]:
на сторонах матрицы находятся слова из словаря Dict;
размерности матрицы (размер(Dict)) равны длине словаря Dict.
Шаг 4: Разбиение исходного текста Tj на отдельные предложения (Tj = Tj1 … Tjz, z ∈ N).
Шаг 5: Для каждого предложения Tjz:
Шаг 5.1: произвести разбиение на отдельные слова (Tjz = Tjz1 … Tjzi).
Шаг 5.2: Для каждой пары текстовых единиц рассчитать дистанцию:
dist= dist(Tjza, Tjzb) = abs(b-a) (a, b ∈ [1, i]).
Шаг 5.3: Увеличение значений вектора V, находящегося на позиции dist_ma-
trix[Tjza][Tjzb], на позициях 0 и dist. В случае если длина вектора V меньше dist, то вектор увеличивается до размерности dist.
Конец
Шаг 3:
Формирование dist_matrix // матрица статистических признаков
Слияние базиса слов общего контекстного словаря и базиса слов тек-
В матрице порядка индексам соответствуют слова из словаря Dict. В про- цессе выполнения алгоритма формируются элементы матрицы – векторы дистан- ций между двумя текстовыми единицами (на нулевой и на позиции вектора, со- ответствующей дистанции между текстовыми единицами, значение увеличива- ется на 1). Таким образом производится фиксация относительной последователь- ности и положение текстовых единиц в предложении.
Частным случаем алгоритма построения матриц порядка является алго- ритм векторизации на основе построения частотных словарей (где требу- ется посчитать относительную частоту употребления текстовых единиц во всем тексте). Важной частью алгоритма является применение существующих техник снижения размерности пространства признаков для решения задачи ранжирова- ния слов.
При расчете частотных словарей формируется нормированный словарь, ко- торый отображает статистику употребления слов в тексте. Для сравнения двух текстов (а точнее, их словарей) между собой требуется сформировать два вари- анта словарей: словарь уникальных инвариантов каждого текста и общий сло- варь.
К частным реализациям предложенного метода конверсационного анализа можно отнести и классические алгоритмы векторизации (N-грамм и мешок слов). В случае n-грамм параметр n задается при помощи максимального коли- чества словоформ в текстовой единице, а глубина осмотра текста в матрице ди- станций – максимальным значением расстояния между текстовыми единицами. В случае мешка слов строится матрица абсолютных частот употребления слов в тексте.
В Главе 3 описывается технология компьютерной обработки неструктури- рованных текстов, поставленные эксперименты и их результаты.
Подход КОНТ с использованием конверсационного анализа представлен на рисунке 2.
Конверсационный анализ позво- ляет получить статистические (коли- чество слов, порядок слов, частотные словари текстовых единиц, тональ- ные характеристики, статистика упо- требления по частям речи) и кон- текстные (матрицы дистанций) ха- рактеристики.
Конверсационный анализ позво- ляет на основе статистических дан- ных о тексте выстраивать кон- текстные связи между текстовыми единицами с получением на выходе «цифровой» информации о тексте. В дальнейшем её можно представить в необходимом виде.
Рисунок 2 – Подход КОНТ с использованием конверсационного анализа
Технология компьютерной обработки неструктурированных текстов со- стоит из следующих этапов:
1. Формирование контекстных признаков на основе метода конверсаци- онного анализа.
2. Формирование выборки для обработки.
3. Векторизация выборки разработанным алгоритмом. 4. Применение алгоритмов постобработки.
5. Анализ полученных результатов.
В рамках диссертационной работы было проведено 7 задач компьютерной обработки неструктурированных текстов:
1) расчет меры текстовой близости между текстами для идентификации автора текста;
2) классификация набора текстов (по тематикам, группам, авторам);
3)расчет текстовой близости между текстовыми единицами выявления синонимичных инвариантов;
4) выявление семантических различий для расчета контекстной дистан- ции между сообществами социальных сетей;
5) анализ активности и тональности сообществ в социальных сетях;
6) сегментация текста на самостоятельные единицы (главы);
7) применение разработанного алгоритма векторизации в задаче детекти-
рования машинописного текста.
Для проведения экспериментов было подготовлено 7 наборов текстов. Пол-
ное описание наборов текстов приводится в тексте работы.
Для оценивания качества классификации в данной работе предлагается:
Индекс Rand:
= TP+FN ; (6) + + +
distance = 1 − Т ∙ . (8)
Проведенные эксперименты
Полный перечень результатов экспериментов представлен в полной версии работы. Рассмотрим три основных эксперимента.
1. Расчет меры текстовой близости.
В эксперименте использовался набор нарративных текстов (русская класси- ческая литература).
В данном эксперименте под точностью будем подразумевать метрику, кото- рая отражает долю документов, по которым классификатор принял правильное решение:
= , (9) 13
Индекс Жаккара:
Будем использовать следующую метрику для расчета дистанции:
= TP . (7) + +
‖Т ‖2‖ ‖2
Таблица 1 – Дистанции между матрицами текстов
«Война и мир»
«Повести Белкина»
0,23 1
«Тихий Дон»
«Судьба человека»
«Война и мир» «Повести Белкина» «Тихий Дон» «Судьба Человека»
0,37 0,33 0,25 0,27 1 0,65
где T – количество документов, по которым классификатор принял правиль- ное решение, а N – размер обучающей выборки.
Рассмотрим работу метода конверсационного анализа на примере задачи определения автора текста. Интерпретируем нарративные тексты как набор вы- сказываний (т.е. переведем текст в неструктурированный формат) и таким обра- зом проверим базовую гипотезу о применимости подходов конверсационного анализа. На основе знаний о наборе известных текстов (а конкретнее, словарей известных текстов), принимается решение о том, какому автору принадлежит текст. Значения дистанций между матрицами текстов авторов представлены в таблице 1.
Таблица 2 – Точность определения автора текста
Л.Н. А.С. М. А. Толстой Пушкин Шолохов
TFTFTF
Acc
Нормиро- ванное Acc
«Война и мир»
0,87 – – 0,05 – 0,08 0,87 0,629
«Повести Белкина»
– 0,01 0,96 – – 0,03 0,96 0,023
«Тихий Дон»
– 0,08 – 0,00 0,92 – 0,92 0,126
«Судьба человека»
– 0,03 – 0,01 0,96 – 0,96 0,111
Сумма Асс
0,889
Анализ результатов показал, что применение разработанной технологии компьютерной обработки неструктурированных текстов позволяет с высокой до- лей вероятности верно классифицировать тексты. Для проверки возможности определения автора текста повторим эксперимент с остальными частями имею- щихся текстов, подавая их на вход алгоритма в случайном порядке. Точность определения автора текста представлена в таблице 2.
Анализ результатов показал, что предложенный алгоритм векторизации на основе метода конверсационного анализа позволяет успешно определять автора текста. При этом ошибка определения автора текста составляет 11 %.
2. Классификация текстов.
В рамках данного эксперимента выполнена классификация текстов по трем направлениям:
тематики (определение тематических инвариантов); группы (определение групповых инвариантов);
авторы (определение авторских инвариантов).
При классификации использовался предложенный алгоритм векторизации, а затем полученные векторы характеристик подавались на вход классифицирую- щего алгоритма.
Результаты оценки качества классификации представлены в таблице 3.
Таблица 3 – Оценка качества классификации данных
Название По тематикам По группам По авторам метода Rand Jaccard Rand Jaccard Rand Jaccard
N-граммы 0,500 0,394 0,418 0,301 0,273 0,198
Мешок слов 0,525 0,469 0,455 0,342 0,274 0,175
Word2vec 0,588 0,559 0,502 0,475 0,355 0,281
Предложенный алгоритм
0,666 0,624 0,630 0,566 0,512 0,358
Анализ результатов показал, что предложенный алгоритм векторизации позволяет достигнуть наилучшего значения качества классификации текстов со- циальных сетей (по сравнению с существующими алгоритмами векторизации):
на основе тематических инвариантов – 67 % (на 13 % выше); на основе групповых инвариантов – 63 % (на 20 % выше);
на основе авторских инвариантов – 51 % (на 44 % выше).
3. Выявление семантических различий между сообществами.
Для исследования эффективности предложенной технологии компьютерной обработки неструктурированных текстов были выбраны сообщества, имеющие схожие тематики. В эксперименте использовался набор текстов, представляю- щий собой набор текстов и комментариев к ним, собранных из 5 сообществ со- циальной сети. Авторы – пользователи социальных сетей, состоящие в этих со- обществах. Все выбранные сообщества являются сообществами жителей одного региона и три из пяти групп служат открытыми площадками для общения сту- дентов и преподавателей двух самых крупных вузов региона. В связи с суще- ствующим ограничением на сбор данных в рамках данного исследования был введён дополнительный критерий отбора записей на основании времени их пуб- ликации (с 1 января по 20 мая 2018 года).
После сбора записей выбранных сообществ на указанном промежутке вре- мени, в соответствии с разработанным алгоритмом векторизации, были выде- лены тексты записей, проведена процедура разделения полученных текстов на слова, выполнена проверка орфографии и подсчитано количество постов и ком- ментариев для каждого из исследуемых сообществ.
На рисунке 3 отражены
спроецированные положе-
ния сообществ на двумер-
ную плоскость при помощи
метода главных компонент.
Из рисунка видно, как ме-
няется местоположение со-
обществ относительно друг
друга на протяжении вре-
мени. Расположение объек-
тов в пространстве метрик
подтверждает правомер-
ность подобных интерпре-
таций. Так, метрика четко
разделяет общегородские и
общеуниверситетские сообщества. Можно сказать, что в сообществах универси- тетов обсуждается жизнь студентов, а не жизнь университета, в то время как во- просы, обсуждаемые в общегородских сообществах, значимы для города в це- лом. Иными словами, сообщества университетов – это сообщества именно сту- дентов, а городские сообщества – это группы горожан, активных в социальных сетях.
В Главе 4 описывается высокопроизводительная реализация предложен- ного алгоритма и программный комплекс для высокопроизводительных вычис- лительных систем.
В рамках исследования была разработана высокопроизводительная реали- зация предложенного алгоритма векторизации. В основу предложенного про- граммного комплекса заложена разработанная высокопроизводительная реали- зация алгоритма векторизации. Программный комплекс реализует парадигму Spark для декомпозиции по данным. Комплекс реализован на языке Python 3.6.
Запуски программного ком- плекса производились на конфи- гурациях 1, 2, 4, 8, 16 и 32 ядер на программно-аппаратном ком- плексе обработки структуриро- ванных и неструктурированных данных сверхбольшого объёма IBM Puredata for Analytics (Netezza) лаборатории по обра- ботке данных сверхбольшого объема Самарского универси- тета. Данный программно-аппа- ратный комплекс имеет следую- щие характеристики:
2
1 5
43
4
2
2
5
4
1.0
0.8
0.6
0.4
0.2
0.0
0.0 0.2
0.4 0.6 0.8 1.0
Рисунок 3 – Проецирование положения сообществ на двумерную плоскость
Рисунок 4 – Ускорение высокопроизводительной реализации алгоритма
1 2 4 8 16 32 25000
20000
15000
10000
5000 0
КОЛИЧЕСТВО ДАННЫХ, ШТ.
ВРЕМЯ ОБРАБОТКИ, С
специализированный программно-аппаратный комплекс хранения и аналитического анализа структурированных данных IBM Puredata for Analytics (Netezza) с объёмом дискового пространства не менее 96ТБайт (с учетом 4-х кратного сжатия данных);
комплекс серверов IBM System X для подсистемы распределённого хранения и аналитической обработки неструктурированных данных с исполь- зованием программного обеспечения IBM Infosphere BigInsights, в т.ч. сервер управления IBM x3630 M4 (два процессора Intel Xeon Processor E5-2450v2; 96 Гбайт памяти; 2 диска по
600ГБ) и четыре сервера обра- ботки данных IBM x3630 M4 (два процессора Intel Xeon Processor E5-2450v2; 96 Гбайт оперативной памяти; 8TB дис- ковой памяти).
Оценка качества работы производилась по трем пунктам: ускорение (рисунок 4);
эффективность (рису- нок 5);
масштабируемость (ри- сунок 6).
Из результатов видно:
1. Зависимость между временем обработки текстов и
объемом данных близка к линейной.
2. Прирост ускорения ~70 % на ядро.
3. Использование больше 16 потоков обработки не рекомендуется. Время на прием/передачу данных существенно замедляет работу алгоритма.
В Приложениях диссерта- ции приведены свидетельства о ре- гистрации программ для ЭВМ, а также акты внедрения результатов диссертации.
Рисунок 5 – Эффективность высокопроизводи- тельной реализации алгоритма
1600
1400
1200
1000
600
200
1 2 4 8 16 32
КОЛИЧЕСТВО ДАННЫХ, ШТ
Рисунок 6 – Масштабируемость высокопроизво- дительной реализации алгоритма
100 90 80 70 60 50 40 30 20 10 0
1/2 1/4 1/8
1/16 1/32
КОЛИЧЕСТВО ДАННЫХ, ШТ
ВЫЧИСЛИТЕЛЬНАЯ ЭФФЕКТИВНОСТЬ, % УСКОРЕНИЕ, %
ЗАКЛЮЧЕНИЕ
В диссертации предложен метод конверсационного анализа для неструкту- рированных текстов; разработан алгоритм векторизации на основе метода кон- версационного анализа; предложена технология компьютерной обработки не- структурированных текстов; исследована возможность применения разработан- ной технологии к задачам анализа неструктурированных текстов; предложена и исследована высокопроизводительная реализация алгоритма векторизации на основе конверсационного анализа.
Основные результаты диссертации:
1.Разработан метод конверсационного анализа неструктурированных текстов. Применение разработанного метода позволяет формировать пространство контекстных признаков неструктурированных текстов.
2. Разработан алгоритм векторизации текста на основе конверсационного анализа, позволяющий извлекать параметры контекстных связей и учитывающий частоту употребления текстовых единиц в тексте.
3. Предложена технология КОНТ для обработки и выделения контекста неструктурированных текстов социальных сетей. С использованием разработанной технологии решены задачи КОНТ: выявление семантических различий текстов, разделение текста на самостоятельные единицы, анализ эмоциональной и количественной характеристики неструктурированных текстов.
4. Использование разработанной технологии компьютерной обработки неструктурированных текстов позволяет рассчитывать меру текстовой близости между текстами в задаче идентификации автора текста. Предложенная технология позволила обеспечить высокую точность классификации и составляет 89 %.
5. Применение разработанной технологии компьютерной обработки неструктурированных текстов в задаче сегментации текста позволяет достичь значения средней ошибки на уровне 7,9 %.
6. Разработанный алгоритм векторизации позволяет достигнуть наилучшего (по сравнению с существующими алгоритмами векторизации) качества классификации текстов социальных сетей:
на основе тематических инвариантов – 67 % (на 13 % выше); на основе групповых инвариантов – 63 % (на 20 % выше);
на основе авторских инвариантов – 51 % (на 44 % выше).
7. Показана возможность:
расчетатекстовойблизостимеждутекстовымиединицамиприпомощи
разработанной технологии компьютерной обработки неструктурированных текстов для выявления синонимичных инвариантов в словарях;
применения разработанной технологии компьютерной обработки неструктурированных текстов в задаче выявления семантических различий для расчета контекстной дистанции между сообществами;
применения разработанной технологии компьютерной обработки неструктурированных текстов к задаче анализа активности, тональности
сообществ и оценки информационного воздействия на характер обсуждения актуальных вопросов в тематических группах.
8. Предложена высокопроизводительная реализация алгоритма векторизации неструктурированных текстов. За счет применения технологии Spark, значение вычислительной эффективности компьютерной обработки неструктурированных данных составило 70 %.
Актуальность темы исследования
Мир социальных сетей стал основной платформой, где каждый человек
может создать своего цифрового двойника. В связи с увеличением объемов
генерируемого контента и данных пользователей глобальной сети Интернет
современные технологии и алгоритмы интеллектуального анализа данных
требуют дальнейшего развития [1,2]. Для углубления анализа виртуального
мира необходима разработка новых технологий и подходов к анализу не
только семантики, но и контекста данных.
В современном мире существует большое количество электронных
устройств, а также web- и мобильных приложений, служащих средствами
коммуникации. Люди пользуются интернет-форумами, чатами, создают
блоги, взаимодействуют друг с другом посредством социальных сетей.
Всеобъемлющее проникновение цифровых технологий во все сферы
повседневной жизни привело к трансформации социальных отношений, что
оказывает неизбежное влияние на каждого человека, на его личность.
Социальные сети, став предметом социализации людей, заняли одну из
лидирующих позиций по производству «больших данных» [3,4]. Возможность
делиться сообщениями, фотографиями, музыкой, видеоматериалами с
друзьями, возможность создавать и организовывать различные мероприятия,
продвигать бизнес – все это являет собой колоссальные объемы постоянно
генерируемых, устаревающих и обновляющихся данных [5].
В результате такого взаимодействия появляется огромное количество
информации о самих пользователях, об их отношении к другим людям, к
событиям, происходящим как в частной жизни, так и в мире. Такая
информация может быть полезна при моделировании процессов,
протекающих в обществе, прогнозировании поведения его участников,
поэтому методы сбора и анализа информации, содержащейся в виртуальных
социальных сетях или на форумах, представляют большой интерес для
исследователей [6].
Технологии обработки естественного языка сделали большой прорыв в
области вычислений и искусственного интеллекта. К настоящему времени
процесс обработки естественного языка востребован в множестве сфер:
• распознавании и анализе текстовых данных для построения чат-ботов
или автоматической обработки документов;
• определении тональности отзывов о компании или продукте в
управлении корпоративной репутацией в интернете;
• разработке и развитии голосовых помощников;
• автоматическом переводе текста и его фильтрации.
Большой пул задач [7,8] из области обработки естественного языка
также доказывает, что данная тема актуальна.
Анализ социальных данных стремительно набирает популярность во
всём мире благодаря появлению в начале 2000-х онлайновых сервисов и
социальных сетей (Facebook, Twitter, YouTube, ВКонтакте и др.). С этим
связан феномен социализации персональных данных: стали публично
доступными события и факты биографии, переписка, дневники, фото-, видео- ,
аудиоматериалы, заметки о путешествиях и т.д. Таким образом, социальные
сети являются уникальным источником данных о личной жизни и интересах
реальных людей. Это открывает беспрецедентные возможности для решения
исследовательских [9,10] и бизнес-задач [11,12] (многие из которых до этого
невозможно было решать эффективно из-за недостатка данных), а также при
создании вспомогательных сервисов и приложений для пользователей
социальных сетей. Кроме того, наблюдается повышенный интерес к сбору и
анализу социальных данных со стороны компаний и исследовательских
центров.
Большая часть информации, находящейся в сети Интернет,
представлена в текстовом виде на естественном языке. Это усложняет ее
обработку и требует привлечения методов компьютерной лингвистики, в связи
с чем в настоящее время возрастает актуальность лингвистических
исследований, разработок новых эффективных программных систем
извлечения фактов из неструктурированных массивов текстовой информации,
классификации и кластеризации информации, нацеленных как на анализ
самих сообщений в сети, так и на выявление источников распространяемой
информации [6].
Компьютерная лингвистика — направление прикладной лингвистики,
ориентированное на использование компьютерных программ для
моделирования функционирования языка в тех или иных условиях.
Дисциплина зародилась в 60-е годы XX века и прежде всего представляла
собой разработку методов для общения человека с ЭВМ на естественном или
ограниченно естественном языке.
Первые исследования в области компьютерной лингвистики начались
еще в начале XX века. В 1913 г. русский математик А.А. Марков на примере
произведения А.С. Пушкина «Евгений Онегин» подтвердил согласованность
эмпирических оценок вероятностей появления связанных событий с
теоретическими значениями в задаче определения оценок вероятностей
появления в тексте гласных и согласных букв, а также их двух- и
трехбуквенных сочетаний.
Появление компьютеров, на которых можно было полностью хранить и
обрабатывать наборы текстов, а также проводить сложные вычисления,
позволило активно использовать статистические методы и методы машинного
обучения для работы с текстом. В целом, в начале 90-х годов XX в. в области
компьютерной лингвистики произошел переход к статистическим методам и,
затем — методам машинного обучения и анализа данных, которые
применяются к уже написанным и существующим текстам.
Однако с увеличением объема передачи данных возникает новая
проблема – стандартные алгоритмы и подходы не справляются с потоками
генерируемых данных и требуют внедрения подходов обработки данных
сверхбольшого объема [13*].
Понятие сверхбольших данных подразумевает работу с информацией
огромного объема и разнообразного состава, весьма часто обновляемой и
находящейся в разных источниках [14*].
Одной из актуальных задач в области модернизации алгоритмов под
технологию «Больших данных» является векторизация данных. Задача
векторизации – перевод набора данных в числовые вектора [15]. Выбор метода
векторизации, как правило, зависит от конкретного случая и приложения [16].
Развитие технологий анализа контента исследования в области анализа
данных социальных сетей создает повышение возможности для
исследователей данной сферы. Социальная сеть – особая экосистема, где
каждый пользователь может через своего цифрового двойника выразить
личное мнение по абсолютно любому вопросу, что является особенно ценным
в задачах анализа данных. При этом социальные сети, в настоящее время –
крупнейшие контент-генераторы по всем направлениям данных. Но, как
правило, основным типом данных для анализа становятся текстовые данные
(новости, посты, комментарии). Особенности текстовых данных
(неструктурированность, непоследовательность) определяют задачу
компьютерной обработки текстовых данных нетривиальной и требуют особых
условий для проведения исследований. Отсюда следует, что необходима
разработка новых алгоритмов, в основе которых должен содержаться анализ
не синтаксических единиц, а контекстных связей.
Традиционными задачами в области анализа текста в настоящее время
являются анализ тональности текста и автоматическая тематическая
классификация.
Согласно зарубежным публикациям, в задаче анализа тональности
текста, при классификации по тональности узкотематических текстов на два
класса («позитивно», «негативно»), точность классификаторов, основанных на
униграммах, превышает 82 % [17], однако, при определении положительного
или отрицательного влияния текста на репутацию упомянутого в нем объекта,
точность снижается до 40 %. При решении задачи классификации более чем
на два класса («позитивно», «негативно», «нейтрально») точность
классификации существенно снижается. Это связанно с субъективным
восприятием информации: то, что один человек считает «позитивным»,
другой может отнести к «нейтральному» или даже «склонному к
негативному». Таким образом, можно сделать вывод, что субъективность
восприятия, отсутствие количественной оценки текста, отсутствие
семантического анализа, требование к объему банка данных словоформ – это
основные недостатки данного подхода к анализу текстов.
В задаче автоматической тематической классификации современные
автоматические системы работы с текстами на естественном языке
основываются на статистике встречаемости слов запроса в различных
контекстах с целью поиска документа, максимально релевантного запросу.
Данный подход полностью оправдывает себя в задаче информационного
поиска, но он не позволяет воссоздать целостный образ самой ситуации
использования текста на естественном языке для описания фрагмента
действительности. Однако, большинство разработок носят
экспериментальный характер, и многие из них недоступны, и многие
существующие системы не поддерживают некоторые языки при
формировании аннотаций (Oracle Text, TextAnalyst, IBM Text Mining) [18, 19,
20]. Также к недостаткам алгоритмов можно отнести зависимость качества
классификации от выбранного метода, требование к репрезентативности
набора данных, высокую вычислительную сложность, сложность
интерпретируемости параметров методов и неустойчивость по отношению к
выбросам в наборах данных.
Пока что не существует математических методов определения
смысловых значений слов. Интонация и подтекст живого языка, его
разговорный контекст, могут быть косвенно измерены только при
соотношении с другими словами, содержащимися в высказывании. Слово,
вырванное из фразы, может диссонировать со смыслом, который оно имело в
контексте. Следовательно, слово не может быть единицей однозначного
анализа для текстов, содержащихся в социальной многоуровневой
коммуникации. Как показали исследования [21], более емкой и более
показательной единицей содержания может служить, так называемый,
фиксированный семантический код. Семантический код – это единица
анализа, состоящая из пятидесяти наиболее часто встречающихся слов в
коммуникации цифровых двойников после отделения местоимений, союзов,
предлогов и числительных. Семантический код может интерпретировать как
вектор содержания групповой коммуникации.
Слова, в зависимости от контекста, приобретают многозначность.
Конвергенция смысла складывается в результате сочетания слов и частоты их
употребления. Смысл слова необходимо соотносить с изменчивостью его
формы и устойчивостью его корня. Устойчивые слова и парные или
перекрестные сочетания позволяют понять концептуальную основу или
обсуждаемую в сообществе сферу интересов.
В семантическом коде выделяются устойчивые, статичные и
изменчивые по частоте или наличию, динамичные слова. Такое разделение
позволяет легко установить соотношение между статичным набором слов и
динамичным, как в текущем времени, так и между сообществами.
Характеристика частотной статичности позволяет говорить об изменчивости,
активности, витальности группы относительно самой себя (тематического
развития) и относительно других групп. Чем больше различия в соотношениях
статика/ динамика, тем дальше друг от друга находятся группы, даже при
совпадении тематических интересов. Одним из таких подходов является
предложенный д.п.н. К.С. Лисецким — авторский метод перекрестных кросс-
референций [22*]. Он включает в себя идеи конверсационного анализа и
направлен на работу с контекстом. В основе предложенного метода лежит
предположение, что при помощи выявления контекстных связей между
текстами можно определить в социальных сетях положение социальной
группы относительно остальных. Тексты анализируются современными
методами контент-анализа, а также проводится их нормализация и
упорядочение текста по частям речи [23*].
Поскольку оценка качества сегментации текста обладает большой
вариативностью и субъективностью, то для оценки качества будем
использовать термин «надежность», характеризующий вероятность покрытия
параметра θ доверительным интервалом (θ*–ε; θ*+ε).
В настоящее время задачей анализа текстов занимаются несколько
научных школ в т.ч.: Национальный исследовательский университет «Высшая
школа экономики» под руководством К.В. Воронцова [24, 25, 26, 27, 28, 29, 30,
31, 32, 33, 34] и Институт систем информатики им. А.П. Ершова СО РАН под
руководством Ю.А. Загорулько [35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47,
48]. В ВШЭ развиваются направления тематического моделирования текстов.
В ИСИ СО РАН исследуются системы автоматического сбора и анализа
информации.
В коммерческой сфере проводятся исследования по смежным областям
работы с данными (создание моделей языка (GPT-3, Сбербанк, 2020 [49]);
обработка естественного языка («Алиса», Yandex, 2017-по н.в. [50]); системы
коррекции текстов (Яндекс, 2019 [51]) и др.).
Обзор современных исследований показывает, что наряду с большими
достижениями в области компьютерной лингвистики и успешными
коммерческими проектами существует ряд нерешенных задач, в т.ч. задача
обработки неструктурированных текстов на основе выделения контекста.
Объект исследования
Объектом исследования являются алгоритмы векторизации текстов.
Предмет исследования
Предметом исследования служит применение метода конверсационного
анализа для решения задач обработки неструктурированных текстов.
Цель и задачи диссертационной работы
Целью данной диссертационной работы является повышение качества
компьютерной обработки неструктурированных текстов социальных сетей на
основе метода конверсационного анализа.
Для достижения поставленной цели необходимо решить ряд задач:
1. Разработка метода конверсационного анализа неструктурированных
текстов для выделения и обработки контекста текстов на естественном
языке.
2. Разработка алгоритма векторизации текста на основе метода
конверсационного анализа.
3. Разработка технологии компьютерной обработки
неструктурированных текстов с применением конверсационного
анализа.
4. Разработка высокопроизводительной вычислительной реализации
алгоритма векторизации на основе конверсационного анализа в
технологии компьютерной обработки неструктурированных текстов
социальных сетей.
Научная новизна результатов исследования
В ходе исследования получены следующие новые научные результаты:
1. Разработан метод конверсационного анализа, основанный на
разбиении на текстовые единицы для формирования пространства
контекстных признаков текстов.
2. Разработан алгоритм векторизации текста на основе конверсационного
анализа, обеспечивающий возможность извлечения параметров
контекстных связей неструктурированных текстов.
3. Предложена и исследована технология компьютерной обработки
неструктурированных текстов, основанная на конверсационном
анализе, обеспечивающая возможность извлечения контекстных
характеристик текстов на естественном языке.
4. Предложена и исследована высокопроизводительная вычислительная
реализация алгоритма векторизации, позволяющая использовать при
обработке неструктурированных текстов парадигму Spark. Значение
вычислительной эффективности компьютерной обработки
неструктурированных текстов достигло 70 %.
Практическая значимость работы
Разработанный комплекс программ решает прикладные задачи
компьютерной обработки неструктурированных текстов, связанные с
анализом контекста неструктурированных текстов. Разработанный алгоритм
векторизации позволяет повысить надежность результатов выделения
контекстных характеристик по критерию текстовой близости. Разработанный
алгоритм успешно внедрен в рамках реализации междисциплинарного
проекта «Социальный эхолот» по мониторингу данных социальных сетей и
НИР «Стратегии комплексного развития г.о. Самара», а также апробирован в
процессе решения конкретных задач и дал положительные результаты в
ИСОИ РАН – филиале федерального государственного учреждения
«Федеральный научно-исследовательский центр «Кристаллография и
фотоника» РАН». Научно-методические результаты успешно применяются в
учебном процессе на кафедре технической кибернетики Самарского
университета при подготовке магистров по направлению 01.04.02
«Прикладная математика и информатика». Результаты внедрения работы
подтверждены соответствующими актами.
Реализация результатов работы
Диссертационная работа выполнялась в Самарском национальном
исследовательском университете имени академика С. П. Королева и
Институте систем обработки изображений РАН – филиале федерального
государственного учреждения «Федеральный научно-исследовательский
центр «Кристаллография и фотоника» РАН» в соответствии с планами
государственных программ: грантов РФФИ № 17-01-00972 (исполнитель); №
18-37-00418 (исполнитель); № 19-29-01135 (исполнитель); № 19-31-90160
(исполнитель); государственного задания ФНИЦ «Кристаллография и
фотоника» РАН (соглашение № 007-ГЗ/Ч3363/26); в рамках выполнения
государственного задания Минобрнауки России (Проект № 0777-2020-0017);
программы повышения конкурентоспособности федерального
государственного автономного образовательного учреждения высшего
образования «Самарский государственный аэрокосмический университет
имени академика С. П. Королева (национальный исследовательский
университет)» среди ведущих мировых научно-образовательных центров на
2013-2020 гг.
Методологическая, теоретическая и эмпирическая база
исследования
В диссертационной работе используются методы линейной алгебры,
математической статистики, методы машинного обучения, методы
оптимизации. Результаты исследований подтверждены реализацией основных
алгоритмов в виде зарегистрированных комплексов программ и
проведенными вычислительными экспериментами на модельных данных и
данных социальных сетей.
Основные положения диссертации, выносимые на защиту:
1 Метод конверсационного анализа неструктурированных текстов.
2 Алгоритм векторизации текста на основе конверсационного анализа
для извлечения параметров контекстных связей неструктурированных
текстов.
3 Технология компьютерной обработки неструктурированных текстов на
основе конверсационного анализа.
4 Высокопроизводительная реализация алгоритма векторизации
неструктурированных текстов.
Перечисленные положения, выносимые на защиту, составляющие
содержание диссертационного исследования, разработаны автором лично.
Соответствие диссертации паспорту научной специальности
Результаты исследования соответствуют следующим пунктам паспорта
научной специальности 05.13.17 – Теоретические основы информатики:
5 Разработка и исследование моделей и алгоритмов анализа данных,
обнаружения закономерностей в данных и их извлечениях разработка
и исследование методов и алгоритмов анализа текста, устной речи и
изображений.
6 Разработка методов, языков и моделей человекомашинного общения;
разработка методов и моделей распознавания, понимания и синтеза
речи, принципов и методов извлечения данных из текстов на
естественном языке.
Достоверность результатов
Достоверность результатов обеспечивается применением
апробированного математического аппарата, корректностью изложения
основных теоретических положений работы, согласованностью с ранее
полученными результатами другими авторами, а также достаточным объёмом
выборки и количеством экспериментов.
Апробация и реализация результатов диссертации
Основные результаты и положения диссертации были представлены на
6 конференциях, в т.ч.: Международная конференция и молодёжная школа
«Информационные технологии и нанотехнологии» (2017-2020); LXIX
Молодёжная научная конференция Самарского университета; 8th International
Symposium on Digital Forensics and Security.
Основные результаты работы представлялись на 3 выставках и форумах,
в т.ч.: AI Conference (Москва, 2018); Открытые инновации (Москва,
инновационный центр «Сколково», 2019); VI Ежегодной национальной
выставке «ВУЗПРОМЭКСПО» (Москва, 2019).
Публикации
Автором лично и в соавторстве опубликовано 20 научных работ. Из них
9 статей в изданиях, индексируемых в базах Web of Science / Scopus, 2 – в
журналах, рекомендуемых ВАК, 4 свидетельства о регистрации программы
для ЭВМ.
Структура и объём диссертации
Диссертация состоит из введения, четырёх глав, заключения, списка
литературы и двух приложений. Текст диссертации изложен на 101 странице
машинописного текста, содержит 19 рисунков, 12 таблиц. Список литературы
составляет 91 наименование.
Основные результаты, полученные в ходе исследования заключаются в
следующем:
1. Разработан метод конверсационного анализа неструктурированных
текстов. Применение разработанного метода позволяет формировать
пространство контекстных признаков неструктурированных текстов.
2. Разработан алгоритм векторизации текста на основе конверсационного
анализа, позволяющий извлекать параметры контекстных связей и
учитывающий частоту употребления текстовых единиц в тексте.
3. Предложена технология КОНТ для обработки и выделения контекста
неструктурированных текстов социальных сетей. С использованием
разработанной технологии решены задачи КОНТ: выявление
семантических различий текстов, разделение текста на
самостоятельные единицы, анализ эмоциональной и количественной
характеристики неструктурированных текстов.
4. Использование разработанной технологии компьютерной обработки
неструктурированных текстов позволяет рассчитывать меру текстовой
близости между текстами в задаче идентификации автора текста.
Предложенная технология позволила обеспечить высокую точность
классификации и составляет 89 %.
5. Применение разработанной технологии компьютерной обработки
неструктурированных текстов в задаче сегментации текста позволяет
достичь значения средней ошибки на уровне 7,9 %.
6. Разработанный алгоритм векторизации позволяет достигнуть
наилучшего (по сравнению с существующими алгоритмами
векторизации) качества классификации текстов социальных сетей:
• на основе тематических инвариантов – 67 % (на 13 % выше);
• на основе групповых инвариантов – 63 % (на 20 % выше);
• на основе авторских инвариантов – 51 % (на 44 % выше).
7. Показана возможность:
• расчета текстовой близости между текстовыми единицами при
помощи разработанной технологии компьютерной обработки
неструктурированных текстов для выявления синонимичных
инвариантов в словарях;
• применения разработанной технологии компьютерной обработки
неструктурированных текстов в задаче выявления семантических
различий для расчета контекстной дистанции между сообществами;
• применения разработанной технологии компьютерной обработки
неструктурированных текстов к задаче анализа активности,
тональности сообществ и оценки информационного воздействия на
характер обсуждения актуальных вопросов в тематических группах.
8. Предложена высокопроизводительная реализация алгоритма
векторизации неструктурированных текстов. За счет применения
технологии Spark, значение вычислительной эффективности
компьютерной обработки неструктурированных данных составило
70 %.
Получено 4 свидетельства о государственной регистрации программы для
ЭВМ:
• № 2018665439 «Модуль для сбора и анализа данных социальных сетей
“Social Data Parser”» // Правообладатель: Самарский университет;
Авторы: Рыцарев И.А., Куприянов А.В., Парингер Р.А., Кирш Д.В.;
• № 2018665440 «Модуль быстрого подсчета слов “FastWordCount”» //
Правообладатель: Самарский университет; Авторы: Рыцарев И.А.,
Куприянов А.В., Лисецкий К.С., Парингер Р.А., Самыкина Н.Ю.;
• № 2018665821 «Модуль обработки первичных данных “Social Network
Data Parser”» // Правообладатель: Самарский университет; Авторы:
Рыцарев И.А., Куприянов А.В., Шиверов П.К., Парингер Р.А., Лисецкий
А.К.;
• № 2018666882 «Модуль поиска ключевых слов “Find Keywords in Data”»
// Правообладатель: Самарский университет; Авторы: Рыцарев И.А.,
Куприянов А.В., Лисецкий К.С., Парингер Р.А., Козлов Д.Д.
Основные результаты диссертации отражены в 16 публикациях, в т.ч.:
• 11 научных статей, из них:
o 9 в изданиях, входящих в базу WoS / Scopus;
o 2 в издании, рекомендованном ВАК;
• 5 тезисов докладов.
Основные результаты и положения диссертации были представлены на
6 конференциях, в т.ч.: Международная конференция и молодёжная школа
«Информационные технологии и нанотехнологии» (2017-2020); LXIX
Молодёжная научная конференция Самарского университета; 8th International
Symposium on Digital Forensics and Security.
Основные результаты работы представлены на 3 выставках и форумах:
AI Conference (Москва, 2018); Открытые инновации (Москва, инновационный
центр «Сколково», 2019); VI Ежегодной национальной выставке
«ВУЗПРОМЭКСПО» (Москва, 2019).
Результаты работы были внедрены в учебном процессе в рамках курса
«Анализ социальных сетей» направления 01.04.02 «Прикладная математика и
информатика» при реализации магистерской образовательной программы
«Науки о данных» ФГАОУ ВО «Самарский национальный исследовательский
университет имени академика С.П. Королева».
1Галина, А. В. Обзор технологии text mining [Текст] / А. В. Галина, Е. А.
Есина //Аллея науки. – 2018. – Т. 2. – №. 1. – С. 393-396.
2Лутфуллаева, М. Ж., Пьянков К. А. Актуальность разработки и
внедрения информационных систем, ориентированных на обработку
больших объемов данных в государственном управлении [Текст] / М. Ж.
Лутфуллаева, К. А. Пьянков //Донецкие чтения 2017: Русский мир как
цивилизационная основа научно-образовательного и культурного развития
Донбасса. – 2017. – С. 52-55.
3Ghani, N. A. Social media big data analytics: A survey [Text] / N. A. Ghani,
S. Hamid, I. A. T. Hashem, E. Ahmed //Computers in Human Behavior. – 2019. –
Т. 101. – С. 417-428.
4Oliverio, J. A survey of social media, big data, data mining, and analytics
[Text] //Journal of Industrial Integration and Management. – 2018. – Т. 3. – №. 03.
– С. 1850003.
5Jiang, D. Sentiment computing for the news event based on the social media
big data [Text] / D. Jiang, X. Luo, J. Xuan, Z. Xu //IEEE Access. – 2016. – Т. 5. –
С. 2373-2382.
6Рубцова, Ю. В. Методы и алгоритмы построения информационных
систем для классификации текстов социальных сетей по тональности [Текст]
: дис. … канд. тех. наук : 05.13.17 : защищена 27.02.20 : утв. 15.07.02 /
Загорулько Юрий Алексеевич. – Новосибирск, 2020. – 141 с.
7ИИ и Natural Language Processing: большой обзор рынка. Часть 1
[Электронный ресурс] // Российская венчурная компания. 2019. URL:
https://www.rvc.ru/press-service/media-review/rvk/152348/ (дата обращения:
13.07.2020).
8ИИ и Natural Language Processing: большой обзор рынка. Часть 2
[Электронный ресурс] // Российская венчурная компания. 2019. URL:
https://www.rvc.ru/press-service/media-review/rvk/153082/ (дата обращения:
13.07.2020).
9Жучкова, С. Е. Эмпирическое исследование зависимости подростков от
социальных сетей [Текст] / С. Е. Жучкова, М. Н. Воробьева //Личность, семья
и общество: вопросы педагогики и психологии. – 2016. – №. 9 (66).
10Овчар, Н. А. Технологии исследования социального самочувствия
горожан на основе анализа web-контента [Текст] / Н. А.Овчар, А.
С.Воробьев, Д. С. Парыгин, Н. П. Садовникова//Системный анализ в науке и
образовании. – 2019. – №. 1. – С. 83-92.
11Калашникова, С. В. Роль социальных сетей в продвижении
гостиничных услуг [Текст] / С. В. Калашникова, З. А. Ханахок //Новые
технологии. – 2019. – №. 1.
12Красноставская, Н. В. Возможности использования инструментов
социальных сетей для продвижения виртуального магазина на
международной торговой интернет-площадке //Неделя науки СПбПУ. – 2017.
– С. 328-331.
13* Рыцарев, И.А. Разработка и реализация сервисов по сбору данных
социальных сетей в целях улучшения среды обитания человека / И.А.
Рыцарев, А.В. Благов, М.И. Хотилин // Сборник трудов ИТНТ-2018 IV
международная конференция и молодежная школа «Информационные
технологии и нанотехнологии» (ИТНТ-2018). Самара, 24 – 27 апреля 2018 г. –
Самара: Новая техника. – 2018. – С. 2452-2457.
14* Рыцарев, И.А. Кластеризация изображений социальных сетей с
использованием технологии BigData / И.А. Рыцарев, А.В. Куприянов, Д.В.
Кирш // Сборник трудов ИТНТ-2018 IV международная конференция и
молодежная школа «Информационные технологии и нанотехнологии»
(ИТНТ-2018). Самара, 24 – 27 апреля 2018 г. – Самара: Новая техника. – 2018.
– С. 2306-2310.
15Открытый курс машинного обучения. Тема 6. Построение и отбор
признаков [Электронный ресурс] // Хабр. 2017. URL:
https://habr.com/ru/company/ods/blog/325422/ (дата обращения: 3.10.2019).
16Федюшкин, Н. А. О выборе методов векторизации текстовой
информации [Текст] / Н. А. Федюшкин, С. А. Федосин //Научно-технический
вестник Поволжья. – 2019. – №. 6. – С. 129-134.
17Pang, B. Thumbs up?: sentiment classification using machine learning
techniques / B. Pang, L. Lee, S. Vaithyanathan // Proceedings of the ACL-02
conference on Empirical methods in natural language processing-Volume 10. –
Association for Computational Linguistics, 2002. – С. 79-86.
18Oracle Database Technologies. [Электронный ресурс] // oracle.com URL:
https://www.oracle.com/technetwork/database/enterprise-edition/index-
098492.html (дата обращения: 17.05.2020)
19TextAnalyst SDK. [Электронный ресурс] // analyst.ru URL:
http://www.analyst.ru/index.php?lang=rus (дата обращения: 21.05.2020)
20IBM Knowledge Center. [Электронный ресурс] // ibm.com URL:
https://www.ibm.com/support/knowledgecenter/en/SS3RA7_15.0.0/com.ibm.spss.t
a.help/tm_intro_tm_defined.htm (дата обращения: 22.05.2020)
21Голенков, В. В. Семантическая технология проектирования
интеллектуальных систем / В. В. Голенков, Н. А. Гулякина, И. Т. Давыденко,
Д. Н. Корончик, Д. В. Шункевич //Вісник Кременчуцького національного
університету імені Михайла Остроградського. – 2014. – №. 5. – С. 28-33.
22* Rytsarev, I. A. Application of principal component analysis to identify
semantic differences and estimate relative positioning of network communities in
the study of social networks content [Text] / I. A. Rytsarev, R. A. Paringer, A. V.
Kupriyanov, Kirsh D. V. //Journal of Physics: Conference Series. – IOP
Publishing, 2019. – Т. 1368. – №. 5. – С. 052032.
23* Rytsarev, I.A. Development and implementation of social network data
collection services to improve the human environment / I.A. Rytsarev, A.V.
Blagov, M.I. Khotilin // CEUR Workshop Proceedings. – 2018. – Vol. 2212. – P.
193-198.
24Еремеев, М. Разведочный поиск на основе тематического
моделирования / М. Еремеев, А. Янина //Ломоносов-2019. – 2019. – С. 114-
116.
25Ianina, A. Hierarchical Interpretable Topical Embeddings for Exploratory
Search and Real-Time Document Tracking / A. Ianina, K. Vorontsov
//International Journal of Embedded and Real-Time Communication Systems
(IJERTCS). – 2020. – Т. 11. – №. 4. – С. 134-152.
26Ianina, A. Regularized multimodal hierarchical topic model for document-
by-document exploratory search / A. Ianina, K. Vorontsov //2019 25th Conference
of Open Innovations Association (FRUCT). – IEEE, 2019. – С. 131-138.
27Ianina, A. Multi-objective topic modeling for exploratory search in tech
news / A. Ianina, L. Golitsyn, K. Vorontsov // Conference on Artificial Intelligence
and Natural Language. – Springer, Cham, 2017. – С. 181-193.
28Veselova, E. Topic Balancing with Additive Regularization of Topic Models
/ E. Veselova, K. Vorontsov //Proceedings of the 58th Annual Meeting of the
Association for Computational Linguistics: Student Research Workshop. – 2020. –
С. 59-65.
29Irkhin, I. A. Additive regularizarion of topic models with fast text
vectorizartion / I. A. Irkhin, V. G. Bulatov, K. V. Vorontsov //Computer Research
and Modeling. – 2020. – Т. 12. – №. 6. – С. 1515-1528.
30Belyy, A. V. Quality evaluation and improvement for hierarchical topic
modeling / A. V. Belyy, M. S. Seleznova, A. K. Sholokhov, K. V. Vorontsov
//Computational Linguistics and Intellectual Technologies: Materials of
DIALOGUE 2018. – 2018. – С. 110-123.
31Vorontsov, K. V. Additive regularization for topic models of text collections
/ K. V. Vorontsov //Doklady Mathematics. – Pleiades Publishing, 2014. – Т. 89. –
№. 3. – С. 301-304.
32Vorontsov, K. Bigartm: Open source library for regularized multimodal
topic modeling of large collections / K. Vorontsov, O. Frei, M. Apishev, P.
Romov, M. Dudarenko //International Conference on Analysis of Images, Social
Networks and Texts. – Springer, Cham, 2015. – С. 370-381.
33Alekseev, V. A., Intra-text coherence as a measure of topic models’
interpretability / V. A. Alekseev, V. G. Bulatov, K. V. Vorontsov //Komp’juternaja
Lingvistika i Intellektual’nye Tehnologii. – 2018. – С. 1-13.
34Skachkov, N. A. Improving topic models with segmental structure of texts /
N. A. Skachkov, K. V. Vorontsov //Komp’juternaja Lingvistika i Intellektual’nye
Tehnologii. – 2018. – С. 652-661.
35Рубцова, Ю.В. Методы и алгоритмы построения информационных
систем для классификации текстов социальных сетей по тональности: дис. .
канд. т.н. наук: 05.13.17. – Новосибирск, 2019.
36Еримбетова, А.С. Лингвистическое и алгоритмическое обеспечение
процесса информационного поиска на основе грамматики связей, в том числе
для тюркских языков: дис. … канд. т.н. наук: 05.13.17. – Новосибирск, 2019.
37Михайлов, Д. В. Выделение знаний и языковых форм их выражения на
множестве тематических текстов: подход на основе меры TF-IDF [Текст] / Д.
В. Михайлов, А. П. Козлов, Г. М. Емельянов //Компьютерная оптика. – 2015.
– Т. 39. – №. 3.
38Михайлов, Д. В. Выделение знаний и языковых форм их выражения на
множестве тематических текстов анализом связей слов в составе n-грамм
[Текст] / Д. В. Михайлов, А. П. Козлов, Г. М. Емельянов //Компьютерная
оптика. – 2017. – Т. 41. – №. 3.
39Сидорова, Е. А. Мультиагентный алгоритм анализа текста на основе
онтологии предметной области [Текст] / Е. А. Сидорова, Н. О. Гаранина, Ю.
А. Загорулько //Тринадцатая национальная конференция по искусственному
интеллекту с международным участием КИИ-2012 (16-20 октября 2012 г., г.
Белгород, Россия): Труды конференции. Т. 1. — Белгород: Изд-во БГТУ. –
2012. – С. 219.
40Сидорова, Е. А. Представление жанровой структуры документов и ее
использование в задачах обработки текста [Текст] / Е. А. Сидорова, И. С.
Кононенко //Перспективы систем информатики. – 2009. – С. 248-254.
41Батура, Т. В. Временные и пространственные понятия в текстах на
естественном языке и их исследование [Текст] // Вестник СибГУТИ. – 2019. –
№. 3. – С. 27-35.
42Батура, Т. В. Методы и системы автоматического реферирования
текстов [Текст] / Т. В. Батур, А. М. Бакиева. – Новосибирск : ИПЦ НГУ. –
2019. – 110 стр.
43Батура, Т. В., Бакиева А. М. Гибридный метод автореферирования
научно-технических текстов на основе риторического анализа [Текст] / Т. В.
Батура, А. М. Бакиева //Программные продукты и системы. – 2020. – Т. 33. –
№. 1.
44Варламов, О. О. О математическом моделировании естественно-
научных процессов понимания компьютерами смысла текстов, образов и
речи на основе перспективных миварных технологий [Текст] //Системы и
средства искусственного интеллекта. – 2013. – Т. 1. – С. 47-50.
45Адамова, Л. Е. О концептуально-прикладном решении проблемы
“понимание смысла текста” на основе миварных технологий и концепции
вещь-свойство-отношение [Текст] / Л. Е. Адамова, О. О. Варламов //Труды
Конгресса по интеллектуальным системам и информационным технологиям”.
– IS&IT’17”. – 2017. – С. 214-221.
46Загорулько, Ю. А. Подход к построению интеллектуальных
информационных систем на основе семантических сетей //Открытые
семантические технологии проектирования интеллектуальных систем. –
2011. – №. 1. – С. 15-20.
47Загорулько, Ю. А. Современные средства формализации семантики
областей знаний на основе онтологий //Информационные и математические
технологии в науке и управлении. – 2018. – №. 3 (11).
48Загорулько, Ю. А., Боровикова О. И. Проблемы построения онтологий
научных предметных областей на основе паттернов онтологического
проектирования //Информационные технологии и системы. – 2019. – С. 157-
161.
49Сбер выложил русскоязычную модель GPT-3 Large с 760 миллионами
параметров в открытый доступ // Хабр URL:
https://habr.com/ru/company/sberbank/blog/524522/ (дата обращения:
20.08.2020).
50«Яндекс» выпустил голосового помощника «Алиса» // vc.ru URL:
https://vc.ru/services/27314-yandeks-vypustil-golosovogo-pomoshchnika-alisa
(дата обращения: 25.08.2020).
51Как Яндекс научил искусственный интеллект находить ошибки в
новостях // Хабр URL: https://habr.com/ru/company/yandex/blog/479662/ (дата
обращения: 20.08.2020).
52Волкова, И. А. Введение в компьютерную лингвистику. Практические
аспекты создания лингвистических процессоров. – 2006.
53Марков, А.А. Пример статистического исследования над текстом
“Евгения Онегина”, иллюстрирующий связь испытаний в цепь [Текст] //
Известия Имп.Акад.наук. – серия VI Т.X. N3. – 1913. – с.153.
54NLP: как стать специалистом по обработке естественного языка
[Электронный ресурс] // Tproger. 2019. URL: https://tproger.ru/blogs/nlp-
professional-howto/ (дата обращения: 11.03.2020).
55Барсегян, А.А. Технологии анализа данных: Data Mining, Visual Mining,
Text Mining, OLAP [Текст] / А. А. Барсегян, М. С. Куприянов, В. В.
Степаненко, И. И. Холод. – 2-е изд., перераб, и доп. – СПб.: БХВ-Петербург,
2007. – 384 с.
56Chantree, F. Ambiguity management in natural language generation [Text] /
F. Chantree // 7th Ann. CLUK Research Colloquium. – 2004.
57Pang B. Seeing stars: Exploiting class relationships for sentiment
categorization with respect to rating scales / B. Pang, L. Lee // Proceedings of the
43rd annual meeting on association for computational linguistics. – Association for
Computational Linguistics, 2005. – С. 115-124.
58Карташева, Е. Л. Инструментальные средства подготовки и анализа
данных для решения трехмерных задач математической физики, Матем.
моделирование. – 1997. – Т. 9, №7. – С.113–127
59Тарасов, С.Д. Современные методы автоматического реферирования.
Научно-технические ведомости СПбГПУ 6’2010. – Информатика.
Телеуоммуникации. Управление. – 2010. – С.59–73
60Бродский, А. Алгоритмы контекстно-зависимого аннотирования
Яндекса на РОМИП-2008 [Текст] / Бродский, Р. Ковалев, М. Лебедев, Д.
Лещинер, П. Сушин, И. Мучник // Труды РОМИП. – 2007. – Т. 2008. – С. 160-
169.
61Гулин, А. Яндекс на РОМИП’2009. Оптимизация алгоритмов
ранжирования методами машинного обучения [Текст] / А. Гулин //
Российский семинар по Оценке Методов Информационного Поиска. Труды
РОМИП. – 2009. – С. 163-168.
62* Rytsarev, I.A. Clustering of social media content with the use of BigData
technology [Text] / I.A. Rytsarev, A.V. Kupriyanov, D.V. Kirsh, K.S. Liseckiy //
Journal of Physics: Conference Series. – 2018. – Vol. 1096, Iss. 1. – P. 1-7.
63Швецов, А. А. Лексическое значение слова и его роль в оптимизации
систем” интеллектуального” поиска //Профессиональное лингвообразование.
– 2019. – С. 405-411.
64Котельников, Е. В. Определение весов оценочных слов на основе
генетического алгоритма в задаче анализа тональности текстов [Текст] / Е. В.
Котельников, М. В. Клековкина //Программные продукты и системы. – 2013.
– №. 4.
65Как решить 90% задач NLP: пошаговое руководство по обработке
естественного языка [Электронный ресурс] // Хабр. 2018. URL:
https://habr.com/ru/company/oleg-bunin/blog/352614/ (дата обращения:
11.04.2019).
66Ермаков, А. Е. Семантическая интерпретация в системах
компьютерного анализа текста [Текст] / А. Е. Ермаков, В. В. Плешко
//Информационные технологии. – 2009. – Т. 6. – С. 2-7.
67Аношин, П. И. Автоматический анализ текстов. Синтаксический и
семантический анализ [Текст] //Евразийский научный журнал. – 2017. – №. 6.
68Обработка текстов на естественном языке [Электронный ресурс] //
Издательство “Открытые системы”. 2003. URL:
https://www.osp.ru/os/2003/12/183694 (дата обращения: 23.02.2018).
69Исупова, О. Г. Конверсационный анализ: представление метода [Текст]
/ О. Г. Исупова //Социология: методология, методы, математическое
моделирование (4М). – 2002. – №. 15. – С. 33-52.
70Основные термины в Natural Language Processing [Электронный ресурс]
// Singularika. 2018. URL: https://singularika.com/ru/nlp/natural-language-
processing-terms/ (дата обращения: 13.06.2019).
71Интеллектуальный анализ текста [Электронный ресурс] // Википедия.
2018. URL: https://en.wikipedia.org/wiki/N-gram (дата обращения: 12.05.2020).
72A Gentle Introduction to the Bag-of-Words Model [Электронный ресурс] //
Machine Learning Mastery. 2019. URL:
https://machinelearningmastery.com/gentle-introduction-bag-words-model/ (дата
обращения: 14.05.2020).
73Обработка естественного языка [Электронный ресурс] // Университет
ИТМО. 2020. URL:
http://neerc.ifmo.ru/wiki/index.php?title=Обработка_естественного_языка
#cite_note-4 (дата обращения: 16.09.2020).
74Чудесный мир Word Embeddings: какие они бывают и зачем нужны?
[Электронный ресурс] // Хабр. 2017. URL:
https://habr.com/ru/company/ods/blog/329410/ (дата обращения: 18.12.2018).
75Интеллектуальный анализ текста [Электронный ресурс] // Википедия.
2018. URL: https://en.wikipedia.org/wiki/Word2vec (дата обращения:
17.05.2020).
76* Rytsarev, I.A. Research and analysis of messages of users of social networks
using BigData technology / I.A. Rytsarev, A.V. Kupriyanov, D.V. Kirsh, R.A.
Paringer // CEUR Workshop Proceedings. – 2019. – Iss. 2416. – P. 504-509.
77Метод главных компонент [Электронный ресурс] // MachineLearning.
2018. URL:
http://www.machinelearning.ru/wiki/index.php?title=Метод_главных_компонент
(дата обращения: 14.06.2020).
78* Мухин, А.С. Определение близости групп в социальных сетях на
основе анализа текста с использованием больших данных [Текст] / А.С.
Мухин, И.А. Рыцарев // Сборник трудов ИТНТ-2019. – Самара: Новая
техника. – 2019. – Т. 4. – С. 757-760.
79* Rytsarev, I.A. Text data mining using conversation analysis / I.A. Rytsarev
// CEUR Workshop Proceedings. – 2020. – Iss. 2667. – P. 159-161.
80* Рыцарев, И.А. Кластеризация медиаконтента из социальных сетей с
использованием технологии BigData [Текст] / И.А. Рыцарев, Д.В. Кирш, А.В.
Куприянов // Компьютерная оптика. – 2018. – Т. 42, № 5. – С. 921-927.
81* Рыцарев, И.А. Анализ текстовых данных с применением
конверсационного анализа / И.А. Рыцарев // Информационные технологии и
нанотехнологии (ИТНТ-2020): сборник трудов VI Международной
конференции и молодёжной школы. – Самара: Изд-во Самарского
университета. – 2020. – С. 60-63.
82* Rytsarev, I.A. Application of principal component analysis to identify
semantic differences and estimate relative positioning of network communities in
the study of social networks content / I.A. Rytsarev, R.A. Paringer, A.V.
Kupriyanov, D.V. Kirsh // Journal of Physics: Conference Series. – 2019. – Vol.
1368, Iss. 5. – P. 32767-32767.
83* Kurbatov, Y.A. Research Of Text Data Processing Algorithms In Social
Networks / Y.A. Kurbatov, I.A. Rytsarev, A.V. Kupriyanov // IEEE Xplore. –
2020. – P. 9253271 [1-3].
84* Рыцарев, И.А. Метод конверсационного анализа для оценки активности
и тональности сообществ в социальных сетях / И.А. Рыцарев, А.В.
Куприянов, В.Г. Литвинов // Известия Самарского научного центра
Российской академии наук. – Самара: Издательство Самарского
федерального исследовательского центра РАН. – 2020. – Т. 22, № 6. – С. 88-
91.
85* Свидетельство № 2018665439 «Модуль для сбора и анализа данных
социальных сетей “Social Data Parser”» // Правообладатель: Самарский
университет; Авторы: Рыцарев И.А., Куприянов А.В., Парингер Р.А., Кирш
Д.В.
86* Свидетельство № 2018665440 «Модуль быстрого подсчета слов
“FastWordCount”» // Правообладатель: Самарский университет; Авторы:
Рыцарев И.А., Куприянов А.В., Лисецкий К.С., Парингер Р.А., Самыкина
Н.Ю.
87* Свидетельство № 2018666882 «Модуль поиска ключевых слов “Find
Keywords in Data”» // Правообладатель: Самарский университет; Авторы:
Рыцарев И.А., Куприянов А.В., Лисецкий К.С., Парингер Р.А., Козлов Д.Д.
88* Свидетельство № 2018665821 «Модуль обработки первичных данных
“Social Network Data Parser”» // Правообладатель: Самарский университет;
Авторы: Рыцарев И.А., Куприянов А.В., Шиверов П.К., Парингер Р.А.,
Лисецкий А.К.
89* Agbo I. Big Data Architecture: Designing the Right Solution for Social
Network Analysis [Text] / Agbo I., Kupriyanov A., Rytsarev I. //2020 8th
International Symposium on Digital Forensics and Security (ISDFS). – IEEE
Xplore, 2020. – P. 9116274 [1-5].
90* Рыцарев, И.А. Исследование и анализ сообщений пользователей
социальных сетей с использованием технологии BigData / И.А. Рыцарев, А.В.
Куприянов, Д.В. Кирш [Текст] // Сборник трудов ИТНТ-2019 V
международная конференция и молодёжная школа «Информационные
технологии и нанотехнологии» (ИТНТ-2019). Самара, 21 – 24 мая 2019 г. –
Самара: Новая техника. – 2019. – С. 748-752.
91Лаборатория обработки данных сверхбольшого объёма (Big Data Lab)
[Электронный ресурс] // Самарский университет. 2020. URL:
http://hpc.ssau.ru/node/3351 (дата обращения: 15.06.2020).
Помогаем с подготовкой сопроводительных документов
Хочешь уникальную работу?
Больше 3 000 экспертов уже готовы начать работу над твоим проектом!