Эффективные строковые алгоритмы в модели потока данных : диссертация на соискание ученой степени кандидата физико-математических наук : 05.13.17

📅 2020 год
Меркурьев, О. А.
Бесплатно
В избранное
Работа доступна по лицензии Creative Commons:«Attribution» 4.0

1 Введение 4
1.1 Предварительные сведения . . . . . . . . . . . . . . . . . . . . . . 5
1.1.1 Строки . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.1.2 Асимптотические оценки сложности . . . . . . . . . . . . . 6
1.1.3 Алгоритмы . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.1.4 Хэш Карпа–Рабина . . . . . . . . . . . . . . . . . . . . . . . 7
1.1.5 Словари . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.1.6 Принцип Яо . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.1.7 Модель потока данных . . . . . . . . . . . . . . . . . . . . . 10
1.2 Обзор диссертации . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.2.1 Цели и задачи диссертации . . . . . . . . . . . . . . . . . . 12
1.2.2 Основные методы исследования . . . . . . . . . . . . . . . 12
1.2.3 Структура диссертации и организация текста . . . . . . . . 12
1.2.4 Апробация и публикации . . . . . . . . . . . . . . . . . . . 13
1.2.5 Основные результаты диссертации . . . . . . . . . . . . . . 13

2 Палиндромы в потоках 17
2.1 Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2 Нижние оценки . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.3 Алгоритмы реального времени . . . . . . . . . . . . . . . . . . . . 19
2.3.1 Аддитивная погрешность . . . . . . . . . . . . . . . . . . . 21
2.3.2 Мультипликативная погрешность ≤ 1 . . . . . . . . . . . 22
2.3.3 Мультипликативная погрешность > 1 . . . . . . . . . . . 27

3 Повторы и обратные повторы в потоках 32
3.1 Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.2 Определения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.3 Сведение к сжатым повторам . . . . . . . . . . . . . . . . . . . . . 35
3.4 Поиск наибольшего обратного повтора . . . . . . . . . . . . . . . . 37
3.5 Поиск наибольшего повтора . . . . . . . . . . . . . . . . . . . . . . 44
3.6 Нижние оценки . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4 Максимальные периодические подстроки в потоках 50
4.1 Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.2 Определения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.3 Инструменты . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.3.1 Хэши, фреймы, чекпойнты . . . . . . . . . . . . . . . . . . 53
4.3.2 Видимые периодические строки . . . . . . . . . . . . . . . 54
4.3.3 Свежие и чёрствые вхождения . . . . . . . . . . . . . . . . 56
4.3.4 Структуры данных . . . . . . . . . . . . . . . . . . . . . . . 57
4.4 Алгоритм . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.4.1 Удаление чекпойнтов . . . . . . . . . . . . . . . . . . . . . . 59
4.4.2 Обновление групп . . . . . . . . . . . . . . . . . . . . . . . 60
4.4.3 Обнаружение периодических подстрок . . . . . . . . . . . . 61
4.4.4 Обновление списка отслеживания . . . . . . . . . . . . . . 64

Заключение 68

Список литературы 70

Список иллюстраций 75

Актуальность темы
Строка — один из центральных объектов компьютерных наук. Любая последо-
вательность данных может рассматриваться как строка (последовательность
символов). Такое абстрактное представление, не учитывающее структуру обра-
батываемых данных, имеет очень широкую область применений — от поиска в
базах данных до анализа структуры ДНК и белков. Раздел компьютерных наук,
занимающийся алгоритмами работающими со строками, называется стринго-
логия (англ. stringology от string — строка). Название было предложено в 1985
в работе [27]. Этой динамически развивающейся в настоящее время области
посвящен ряд монографий [18, 22, 34, 55] и специализированных конференций с
высоким уровнем цитируемости: Combinatorial Pattern Matching (CPM), String
Processing and Information Retrieval (SPIRE) и др. Задачи, рассматриваемые в
стрингологии, можно сгруппировать в несколько кластеров: поиск по образцу
(pattern matching), индексирование данных, сжатие данных и алгоритмы на сжа-
тых представлениях, а также поиск регулярных структур, таких как повторы,
палиндромы, периодические фрагменты и различные их обобщения. Последнему
кластеру принадлежат задачи, рассматриваемые в диссертации.
Одной из активно исследуемых областей являются строковые алгоритмы в
модели потока данных. В этой модели элементы последовательности данных
поступают один за одним и не могут быть сохранены в связи с малым объёмом
доступной памяти. Первые работы, рассматривающие подобные ограничения,
появились в 1970-е годы [52]. При этом понятие модели потока данных было
сформулировано в работе [1], авторы которой получили в 2005 г. премию Гёделя
за основополагающие исследования в области потоковых алгоритмов. Интересной
особенностью модели потока данных является то, что в ней зачастую удаётся
получить нижние оценки на вычислительную сложность задач, в первую очередь
на необходимый объём памяти.
Первый значительный результат о строковых алгоритмах в модели потока
данных был получен в [53]. В последнее десятилетие модель потока данных яв-
ляется заметным трендом в стрингологии. В настоящей работе рассматриваются
строковые задачи, связанные с поиском регулярных структур в потоке данных.

Итоги выполненного исследования
В диссертации рассмотрены задачи поиска основных регулярных структур в
строках в модели потока данных. Представим краткое резюме по каждой из трёх
основных глав и сформулируем связанные открытые проблемы для дальнейшего
исследования.
Отметим, что все разработанные нами алгоритмы являются рандомизи-
рованными алгоритмами типа Монте-Карло, т.е. решают задачи с высокой
вероятностью, используя детерминированный объём памяти за детерминиро-
ванное время. При этом доказано, что другие типы алгоритмов для решения
поставленных задач требуют как минимум линейных затрат памяти, а значит,
непригодны для потоковой модели.

Палиндромы в потоках
Для задачи LPS о наибольшем палиндроме в модели потока данных мы предста-
вили алгоритмы реального времени для приближенного решения с аддитивной
и мультипликативной погрешностью. При этом объём памяти, используемый
представленными алгоритмами, асимптотически точно совпадает с имеющимися
нижними оценками при большинстве значений параметров задачи. Таким обра-
зом, вопрос о вычислительной сложности задачи LPS в модели потока данных
разрешён.
Отдельно можно отметить введённую функцию времени жизни (ttl), ко-
торая показала себя удобным инструментом и для решения задачи о поиске
максимальных периодических подстрок (approxRuns).

Повторы и обратные повторы в потоках
Мы показали, что задача поиска наибольшего повтора(LRS) и задача поиска
наибольшего обратного повтора(LRRS) в модели потока данных могут быть
решены только с использованием приближенных алгоритмов типа Монте-Карло.
И доказали нижнюю оценку в Ω( log min{|Σ|, }) бит памяти для приближения
ответа с аддитивной погрешностью .
Для обеих задач представлены алгоритмы типа Монте-Карло, близкие к
реальному времени, использующие ( + ) слов памяти, где — аддитивная
ошибка приближения. При этом используемая
√ память точно совпадает с нижни-
ми оценками при условиях = ( ) и |Σ| = Ω( 0.01 ). Алгоритмы основаны
на суффиксных деревьях, что весьма необычно для потоковой модели.

Максимальные периодические подстроки в потоках
Мы доказали, что в потоковой модели не существует алгоритма, точно находя-
щего все максимальные периодические подстроки и сформулировали прибли-
женную версию задачи (approxRuns).
Для приближенной задачи мы представили алгоритм типа Монте-Карло,
близкий к реальному времени, и использующий ( log ) слов памяти.

Перспективы дальнейшей разработки темы
В задаче поиска наибольшего повтора(LRS) и задаче поиска наибольшего обрат-
ного повтора(LRRS) в модели потока данных открытыми остаются вопросы о
нижней оценке на необходимую память для приближения
√ с мультипликативной
ошибкой, а также с аддитивной ошибкой = Ω( ). Кроме того, открыт вопрос
о потоковом алгоритме с мультипликативной ошибкой.
В задаче приближенного поиска всех максимальных периодических подстрок
в потоках открытым остаётся вопрос о нижней оценке на необходимую память.

[1] Alon N., Matias Y., Szegedy M. The space complexity of approximating the
frequency moments // Journal of Computer and system sciences. –– 1999. ––
Vol. 58, no. 1. –– P. 137–147.

Заказать новую

Лучшие эксперты сервиса ждут твоего задания

от 5 000 ₽

Не подошла эта работа?
Закажи новую работу, сделанную по твоим требованиям

    Нажимая на кнопку, я соглашаюсь на обработку персональных данных и с правилами пользования Платформой

    Помогаем с подготовкой сопроводительных документов

    Совместно разработаем индивидуальный план и выберем тему работы Подробнее
    Помощь в подготовке к кандидатскому экзамену и допуске к нему Подробнее
    Поможем в написании научных статей для публикации в журналах ВАК Подробнее
    Структурируем работу и напишем автореферат Подробнее

    Хочешь уникальную работу?

    Больше 3 000 экспертов уже готовы начать работу над твоим проектом!

    Анастасия Б.
    5 (145 отзывов)
    Опыт в написании студенческих работ (дипломные работы, магистерские диссертации, повышение уникальности текста, курсовые работы, научные статьи и т.д.) по экономическо... Читать все
    Опыт в написании студенческих работ (дипломные работы, магистерские диссертации, повышение уникальности текста, курсовые работы, научные статьи и т.д.) по экономическому и гуманитарному направлениях свыше 8 лет на различных площадках.
    #Кандидатские #Магистерские
    224 Выполненных работы
    Глеб С. преподаватель, кандидат наук, доцент
    5 (158 отзывов)
    Стаж педагогической деятельности в вузах Москвы 15 лет, автор свыше 140 публикаций (РИНЦ, ВАК). Большой опыт в подготовке дипломных проектов и диссертаций по научной с... Читать все
    Стаж педагогической деятельности в вузах Москвы 15 лет, автор свыше 140 публикаций (РИНЦ, ВАК). Большой опыт в подготовке дипломных проектов и диссертаций по научной специальности 12.00.14 административное право, административный процесс.
    #Кандидатские #Магистерские
    216 Выполненных работ
    Татьяна Б.
    4.6 (92 отзыва)
    Добрый день, работаю в сфере написания студенческих работ более 7 лет. Всегда довожу своих студентов до защиты с хорошими и отличными баллами (дипломы, магистерские ди... Читать все
    Добрый день, работаю в сфере написания студенческих работ более 7 лет. Всегда довожу своих студентов до защиты с хорошими и отличными баллами (дипломы, магистерские диссертации, курсовые работы средний балл - 4,5). Всегда на связи!
    #Кандидатские #Магистерские
    138 Выполненных работ
    Алёна В. ВГПУ 2013, исторический, преподаватель
    4.2 (5 отзывов)
    Пишу дипломы, курсовые, диссертации по праву, а также истории и педагогике. Закончила исторический факультет ВГПУ. Имею высшее историческое и дополнительное юридическо... Читать все
    Пишу дипломы, курсовые, диссертации по праву, а также истории и педагогике. Закончила исторический факультет ВГПУ. Имею высшее историческое и дополнительное юридическое образование. В данный момент работаю преподавателем.
    #Кандидатские #Магистерские
    25 Выполненных работ
    Олег Н. Томский политехнический университет 2000, Инженерно-эконо...
    4.7 (96 отзывов)
    Здравствуйте! Опыт написания работ более 12 лет. За это время были успешно защищены более 2 500 написанных мною магистерских диссертаций, дипломов, курсовых работ. Явл... Читать все
    Здравствуйте! Опыт написания работ более 12 лет. За это время были успешно защищены более 2 500 написанных мною магистерских диссертаций, дипломов, курсовых работ. Являюсь действующим преподавателем одного из ВУЗов.
    #Кандидатские #Магистерские
    177 Выполненных работ
    Ольга Р. доктор, профессор
    4.2 (13 отзывов)
    Преподаватель ВУЗа, опыт выполнения студенческих работ на заказ (от рефератов до диссертаций): 20 лет. Образование высшее . Все заказы выполняются в заранее согласован... Читать все
    Преподаватель ВУЗа, опыт выполнения студенческих работ на заказ (от рефератов до диссертаций): 20 лет. Образование высшее . Все заказы выполняются в заранее согласованные сроки и при необходимости дорабатываются по рекомендациям научного руководителя (преподавателя). Буду рада плодотворному и взаимовыгодному сотрудничеству!!! К каждой работе подхожу индивидуально! Всегда готова по любому вопросу договориться с заказчиком! Все работы проверяю на антиплагиат.ру по умолчанию, если в заказе не стоит иное и если это заранее не обговорено!!!
    #Кандидатские #Магистерские
    21 Выполненная работа
    Дарья С. Томский государственный университет 2010, Юридический, в...
    4.8 (13 отзывов)
    Практикую гражданское, семейное право. Преподаю указанные дисциплины в ВУЗе. Выполняла работы на заказ в течение двух лет. Обучалась в аспирантуре, подготовила диссерт... Читать все
    Практикую гражданское, семейное право. Преподаю указанные дисциплины в ВУЗе. Выполняла работы на заказ в течение двух лет. Обучалась в аспирантуре, подготовила диссертационное исследование, которое сейчас находится на рассмотрении в совете.
    #Кандидатские #Магистерские
    18 Выполненных работ
    Виктор В. Смоленская государственная медицинская академия 1997, Леч...
    4.7 (46 отзывов)
    Имеют опыт грамотного написания диссертационных работ по медицине, а также отдельных ее частей (литературный обзор, цели и задачи исследования, материалы и методы, выв... Читать все
    Имеют опыт грамотного написания диссертационных работ по медицине, а также отдельных ее частей (литературный обзор, цели и задачи исследования, материалы и методы, выводы).Пишу статьи в РИНЦ, ВАК.Оформление патентов от идеи до регистрации.
    #Кандидатские #Магистерские
    100 Выполненных работ
    Антон П. преподаватель, доцент
    4.8 (1033 отзыва)
    Занимаюсь написанием студенческих работ (дипломные работы, маг. диссертации). Участник международных конференций (экономика/менеджмент/юриспруденция). Постоянно публик... Читать все
    Занимаюсь написанием студенческих работ (дипломные работы, маг. диссертации). Участник международных конференций (экономика/менеджмент/юриспруденция). Постоянно публикуюсь, имею высокий индекс цитирования. Спикер.
    #Кандидатские #Магистерские
    1386 Выполненных работ

    Другие учебные работы по предмету

    Расширенное суперпиксельное представление изображений для их обработки и анализа
    📅 2022год
    🏢 ФГАОУ ВО «Самарский национальный исследовательский университет имени академика С.П. Королева»
    Метод восстановления динамических изображений на основе оптимальной интерполяции
    📅 2022год
    🏢 ФГАОУ ВО «Самарский национальный исследовательский университет имени академика С.П. Королева»
    Метод конверсационного анализа неструктурированных текстов социальных сетей
    📅 2021год
    🏢 ФГАОУ ВО «Самарский национальный исследовательский университет имени академика С.П. Королева»