Эффективные строковые алгоритмы в модели потока данных : диссертация на соискание ученой степени кандидата физико-математических наук : 05.13.17

📅 2020 год
Меркурьев, О. А.
Бесплатно
В избранное
Работа доступна по лицензии Creative Commons:«Attribution» 4.0

1 Введение 4
1.1 Предварительные сведения . . . . . . . . . . . . . . . . . . . . . . 5
1.1.1 Строки . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.1.2 Асимптотические оценки сложности . . . . . . . . . . . . . 6
1.1.3 Алгоритмы . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.1.4 Хэш Карпа–Рабина . . . . . . . . . . . . . . . . . . . . . . . 7
1.1.5 Словари . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.1.6 Принцип Яо . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.1.7 Модель потока данных . . . . . . . . . . . . . . . . . . . . . 10
1.2 Обзор диссертации . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.2.1 Цели и задачи диссертации . . . . . . . . . . . . . . . . . . 12
1.2.2 Основные методы исследования . . . . . . . . . . . . . . . 12
1.2.3 Структура диссертации и организация текста . . . . . . . . 12
1.2.4 Апробация и публикации . . . . . . . . . . . . . . . . . . . 13
1.2.5 Основные результаты диссертации . . . . . . . . . . . . . . 13

2 Палиндромы в потоках 17
2.1 Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2 Нижние оценки . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.3 Алгоритмы реального времени . . . . . . . . . . . . . . . . . . . . 19
2.3.1 Аддитивная погрешность . . . . . . . . . . . . . . . . . . . 21
2.3.2 Мультипликативная погрешность ≤ 1 . . . . . . . . . . . 22
2.3.3 Мультипликативная погрешность > 1 . . . . . . . . . . . 27

3 Повторы и обратные повторы в потоках 32
3.1 Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.2 Определения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.3 Сведение к сжатым повторам . . . . . . . . . . . . . . . . . . . . . 35
3.4 Поиск наибольшего обратного повтора . . . . . . . . . . . . . . . . 37
3.5 Поиск наибольшего повтора . . . . . . . . . . . . . . . . . . . . . . 44
3.6 Нижние оценки . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4 Максимальные периодические подстроки в потоках 50
4.1 Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.2 Определения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.3 Инструменты . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.3.1 Хэши, фреймы, чекпойнты . . . . . . . . . . . . . . . . . . 53
4.3.2 Видимые периодические строки . . . . . . . . . . . . . . . 54
4.3.3 Свежие и чёрствые вхождения . . . . . . . . . . . . . . . . 56
4.3.4 Структуры данных . . . . . . . . . . . . . . . . . . . . . . . 57
4.4 Алгоритм . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.4.1 Удаление чекпойнтов . . . . . . . . . . . . . . . . . . . . . . 59
4.4.2 Обновление групп . . . . . . . . . . . . . . . . . . . . . . . 60
4.4.3 Обнаружение периодических подстрок . . . . . . . . . . . . 61
4.4.4 Обновление списка отслеживания . . . . . . . . . . . . . . 64

Заключение 68

Список литературы 70

Список иллюстраций 75

Актуальность темы
Строка — один из центральных объектов компьютерных наук. Любая последо-
вательность данных может рассматриваться как строка (последовательность
символов). Такое абстрактное представление, не учитывающее структуру обра-
батываемых данных, имеет очень широкую область применений — от поиска в
базах данных до анализа структуры ДНК и белков. Раздел компьютерных наук,
занимающийся алгоритмами работающими со строками, называется стринго-
логия (англ. stringology от string — строка). Название было предложено в 1985
в работе [27]. Этой динамически развивающейся в настоящее время области
посвящен ряд монографий [18, 22, 34, 55] и специализированных конференций с
высоким уровнем цитируемости: Combinatorial Pattern Matching (CPM), String
Processing and Information Retrieval (SPIRE) и др. Задачи, рассматриваемые в
стрингологии, можно сгруппировать в несколько кластеров: поиск по образцу
(pattern matching), индексирование данных, сжатие данных и алгоритмы на сжа-
тых представлениях, а также поиск регулярных структур, таких как повторы,
палиндромы, периодические фрагменты и различные их обобщения. Последнему
кластеру принадлежат задачи, рассматриваемые в диссертации.
Одной из активно исследуемых областей являются строковые алгоритмы в
модели потока данных. В этой модели элементы последовательности данных
поступают один за одним и не могут быть сохранены в связи с малым объёмом
доступной памяти. Первые работы, рассматривающие подобные ограничения,
появились в 1970-е годы [52]. При этом понятие модели потока данных было
сформулировано в работе [1], авторы которой получили в 2005 г. премию Гёделя
за основополагающие исследования в области потоковых алгоритмов. Интересной
особенностью модели потока данных является то, что в ней зачастую удаётся
получить нижние оценки на вычислительную сложность задач, в первую очередь
на необходимый объём памяти.
Первый значительный результат о строковых алгоритмах в модели потока
данных был получен в [53]. В последнее десятилетие модель потока данных яв-
ляется заметным трендом в стрингологии. В настоящей работе рассматриваются
строковые задачи, связанные с поиском регулярных структур в потоке данных.

Итоги выполненного исследования
В диссертации рассмотрены задачи поиска основных регулярных структур в
строках в модели потока данных. Представим краткое резюме по каждой из трёх
основных глав и сформулируем связанные открытые проблемы для дальнейшего
исследования.
Отметим, что все разработанные нами алгоритмы являются рандомизи-
рованными алгоритмами типа Монте-Карло, т.е. решают задачи с высокой
вероятностью, используя детерминированный объём памяти за детерминиро-
ванное время. При этом доказано, что другие типы алгоритмов для решения
поставленных задач требуют как минимум линейных затрат памяти, а значит,
непригодны для потоковой модели.

Палиндромы в потоках
Для задачи LPS о наибольшем палиндроме в модели потока данных мы предста-
вили алгоритмы реального времени для приближенного решения с аддитивной
и мультипликативной погрешностью. При этом объём памяти, используемый
представленными алгоритмами, асимптотически точно совпадает с имеющимися
нижними оценками при большинстве значений параметров задачи. Таким обра-
зом, вопрос о вычислительной сложности задачи LPS в модели потока данных
разрешён.
Отдельно можно отметить введённую функцию времени жизни (ttl), ко-
торая показала себя удобным инструментом и для решения задачи о поиске
максимальных периодических подстрок (approxRuns).

Повторы и обратные повторы в потоках
Мы показали, что задача поиска наибольшего повтора(LRS) и задача поиска
наибольшего обратного повтора(LRRS) в модели потока данных могут быть
решены только с использованием приближенных алгоритмов типа Монте-Карло.
И доказали нижнюю оценку в Ω( log min{|Σ|, }) бит памяти для приближения
ответа с аддитивной погрешностью .
Для обеих задач представлены алгоритмы типа Монте-Карло, близкие к
реальному времени, использующие ( + ) слов памяти, где — аддитивная
ошибка приближения. При этом используемая
√ память точно совпадает с нижни-
ми оценками при условиях = ( ) и |Σ| = Ω( 0.01 ). Алгоритмы основаны
на суффиксных деревьях, что весьма необычно для потоковой модели.

Максимальные периодические подстроки в потоках
Мы доказали, что в потоковой модели не существует алгоритма, точно находя-
щего все максимальные периодические подстроки и сформулировали прибли-
женную версию задачи (approxRuns).
Для приближенной задачи мы представили алгоритм типа Монте-Карло,
близкий к реальному времени, и использующий ( log ) слов памяти.

Перспективы дальнейшей разработки темы
В задаче поиска наибольшего повтора(LRS) и задаче поиска наибольшего обрат-
ного повтора(LRRS) в модели потока данных открытыми остаются вопросы о
нижней оценке на необходимую память для приближения
√ с мультипликативной
ошибкой, а также с аддитивной ошибкой = Ω( ). Кроме того, открыт вопрос
о потоковом алгоритме с мультипликативной ошибкой.
В задаче приближенного поиска всех максимальных периодических подстрок
в потоках открытым остаётся вопрос о нижней оценке на необходимую память.

[1] Alon N., Matias Y., Szegedy M. The space complexity of approximating the
frequency moments // Journal of Computer and system sciences. –– 1999. ––
Vol. 58, no. 1. –– P. 137–147.

Заказать новую

Лучшие эксперты сервиса ждут твоего задания

от 5 000 ₽

Не подошла эта работа?
Закажи новую работу, сделанную по твоим требованиям

    Нажимая на кнопку, я соглашаюсь на обработку персональных данных и с правилами пользования Платформой

    Помогаем с подготовкой сопроводительных документов

    Совместно разработаем индивидуальный план и выберем тему работы Подробнее
    Помощь в подготовке к кандидатскому экзамену и допуске к нему Подробнее
    Поможем в написании научных статей для публикации в журналах ВАК Подробнее
    Структурируем работу и напишем автореферат Подробнее

    Хочешь уникальную работу?

    Больше 3 000 экспертов уже готовы начать работу над твоим проектом!

    Шагали Е. УрГЭУ 2007, Экономика, преподаватель
    4.4 (59 отзывов)
    Серьезно отношусь к тренировке собственного интеллекта, поэтому постоянно учусь сама и с удовольствием пишу для других. За 15 лет работы выполнила более 600 дипломов и... Читать все
    Серьезно отношусь к тренировке собственного интеллекта, поэтому постоянно учусь сама и с удовольствием пишу для других. За 15 лет работы выполнила более 600 дипломов и диссертаций, Есть любимые темы - они дешевле обойдутся, ибо в радость)
    #Кандидатские #Магистерские
    76 Выполненных работ
    Ольга Р. доктор, профессор
    4.2 (13 отзывов)
    Преподаватель ВУЗа, опыт выполнения студенческих работ на заказ (от рефератов до диссертаций): 20 лет. Образование высшее . Все заказы выполняются в заранее согласован... Читать все
    Преподаватель ВУЗа, опыт выполнения студенческих работ на заказ (от рефератов до диссертаций): 20 лет. Образование высшее . Все заказы выполняются в заранее согласованные сроки и при необходимости дорабатываются по рекомендациям научного руководителя (преподавателя). Буду рада плодотворному и взаимовыгодному сотрудничеству!!! К каждой работе подхожу индивидуально! Всегда готова по любому вопросу договориться с заказчиком! Все работы проверяю на антиплагиат.ру по умолчанию, если в заказе не стоит иное и если это заранее не обговорено!!!
    #Кандидатские #Магистерские
    21 Выполненная работа
    Анастасия Б.
    5 (145 отзывов)
    Опыт в написании студенческих работ (дипломные работы, магистерские диссертации, повышение уникальности текста, курсовые работы, научные статьи и т.д.) по экономическо... Читать все
    Опыт в написании студенческих работ (дипломные работы, магистерские диссертации, повышение уникальности текста, курсовые работы, научные статьи и т.д.) по экономическому и гуманитарному направлениях свыше 8 лет на различных площадках.
    #Кандидатские #Магистерские
    224 Выполненных работы
    Дмитрий М. БГАТУ 2001, электрификации, выпускник
    4.8 (17 отзывов)
    Помогаю с выполнением курсовых проектов и контрольных работ по электроснабжению, электроосвещению, электрическим машинам, электротехнике. Занимался наукой, писал стать... Читать все
    Помогаю с выполнением курсовых проектов и контрольных работ по электроснабжению, электроосвещению, электрическим машинам, электротехнике. Занимался наукой, писал статьи, патенты, кандидатскую диссертацию, преподавал. Занимаюсь этим с 2003.
    #Кандидатские #Магистерские
    19 Выполненных работ
    Виктор В. Смоленская государственная медицинская академия 1997, Леч...
    4.7 (46 отзывов)
    Имеют опыт грамотного написания диссертационных работ по медицине, а также отдельных ее частей (литературный обзор, цели и задачи исследования, материалы и методы, выв... Читать все
    Имеют опыт грамотного написания диссертационных работ по медицине, а также отдельных ее частей (литературный обзор, цели и задачи исследования, материалы и методы, выводы).Пишу статьи в РИНЦ, ВАК.Оформление патентов от идеи до регистрации.
    #Кандидатские #Магистерские
    100 Выполненных работ
    Ксения М. Курганский Государственный Университет 2009, Юридический...
    4.8 (105 отзывов)
    Работаю только по книгам, учебникам, статьям и диссертациям. Никогда не использую технические способы поднятия оригинальности. Только авторские работы. Стараюсь учитыв... Читать все
    Работаю только по книгам, учебникам, статьям и диссертациям. Никогда не использую технические способы поднятия оригинальности. Только авторские работы. Стараюсь учитывать все требования и пожелания.
    #Кандидатские #Магистерские
    213 Выполненных работ
    Ольга Б. кандидат наук, доцент
    4.8 (373 отзыва)
    Работаю на сайте четвертый год. Действующий преподаватель вуза. Основные направления: микробиология, биология и медицина. Написано несколько кандидатских, магистерских... Читать все
    Работаю на сайте четвертый год. Действующий преподаватель вуза. Основные направления: микробиология, биология и медицина. Написано несколько кандидатских, магистерских диссертаций, дипломных и курсовых работ. Слежу за новинками в медицине.
    #Кандидатские #Магистерские
    566 Выполненных работ
    Анна К. ТГПУ им.ЛН.Толстого 2010, ФИСиГН, выпускник
    4.6 (30 отзывов)
    Я научный сотрудник федерального музея. Подрабатываю написанием студенческих работ уже 7 лет. 3 года назад начала писать диссертации. Работала на фирмы, а так же помог... Читать все
    Я научный сотрудник федерального музея. Подрабатываю написанием студенческих работ уже 7 лет. 3 года назад начала писать диссертации. Работала на фирмы, а так же помогала студентам, вышедшим на меня по рекомендации.
    #Кандидатские #Магистерские
    37 Выполненных работ
    Андрей С. Тверской государственный университет 2011, математический...
    4.7 (82 отзыва)
    Учился на мат.факе ТвГУ. Любовь к математике там привили на столько, что я, похоже, никогда не перестану этим заниматься! Сейчас работаю в IT и пытаюсь найти время на... Читать все
    Учился на мат.факе ТвГУ. Любовь к математике там привили на столько, что я, похоже, никогда не перестану этим заниматься! Сейчас работаю в IT и пытаюсь найти время на продолжение диссертационной работы... Всегда готов помочь! ;)
    #Кандидатские #Магистерские
    164 Выполненных работы

    Последние выполненные заказы

    Другие учебные работы по предмету

    Расширенное суперпиксельное представление изображений для их обработки и анализа
    📅 2022год
    🏢 ФГАОУ ВО «Самарский национальный исследовательский университет имени академика С.П. Королева»
    Метод восстановления динамических изображений на основе оптимальной интерполяции
    📅 2022год
    🏢 ФГАОУ ВО «Самарский национальный исследовательский университет имени академика С.П. Королева»
    Метод конверсационного анализа неструктурированных текстов социальных сетей
    📅 2021год
    🏢 ФГАОУ ВО «Самарский национальный исследовательский университет имени академика С.П. Королева»