Эффективные строковые алгоритмы в модели потока данных : диссертация на соискание ученой степени кандидата физико-математических наук : 05.13.17

📅 2020 год
Меркурьев, О. А.
Бесплатно
В избранное
Работа доступна по лицензии Creative Commons:«Attribution» 4.0

1 Введение 4
1.1 Предварительные сведения . . . . . . . . . . . . . . . . . . . . . . 5
1.1.1 Строки . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.1.2 Асимптотические оценки сложности . . . . . . . . . . . . . 6
1.1.3 Алгоритмы . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.1.4 Хэш Карпа–Рабина . . . . . . . . . . . . . . . . . . . . . . . 7
1.1.5 Словари . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.1.6 Принцип Яо . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.1.7 Модель потока данных . . . . . . . . . . . . . . . . . . . . . 10
1.2 Обзор диссертации . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.2.1 Цели и задачи диссертации . . . . . . . . . . . . . . . . . . 12
1.2.2 Основные методы исследования . . . . . . . . . . . . . . . 12
1.2.3 Структура диссертации и организация текста . . . . . . . . 12
1.2.4 Апробация и публикации . . . . . . . . . . . . . . . . . . . 13
1.2.5 Основные результаты диссертации . . . . . . . . . . . . . . 13

2 Палиндромы в потоках 17
2.1 Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2 Нижние оценки . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.3 Алгоритмы реального времени . . . . . . . . . . . . . . . . . . . . 19
2.3.1 Аддитивная погрешность . . . . . . . . . . . . . . . . . . . 21
2.3.2 Мультипликативная погрешность ≤ 1 . . . . . . . . . . . 22
2.3.3 Мультипликативная погрешность > 1 . . . . . . . . . . . 27

3 Повторы и обратные повторы в потоках 32
3.1 Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.2 Определения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.3 Сведение к сжатым повторам . . . . . . . . . . . . . . . . . . . . . 35
3.4 Поиск наибольшего обратного повтора . . . . . . . . . . . . . . . . 37
3.5 Поиск наибольшего повтора . . . . . . . . . . . . . . . . . . . . . . 44
3.6 Нижние оценки . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4 Максимальные периодические подстроки в потоках 50
4.1 Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.2 Определения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.3 Инструменты . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.3.1 Хэши, фреймы, чекпойнты . . . . . . . . . . . . . . . . . . 53
4.3.2 Видимые периодические строки . . . . . . . . . . . . . . . 54
4.3.3 Свежие и чёрствые вхождения . . . . . . . . . . . . . . . . 56
4.3.4 Структуры данных . . . . . . . . . . . . . . . . . . . . . . . 57
4.4 Алгоритм . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.4.1 Удаление чекпойнтов . . . . . . . . . . . . . . . . . . . . . . 59
4.4.2 Обновление групп . . . . . . . . . . . . . . . . . . . . . . . 60
4.4.3 Обнаружение периодических подстрок . . . . . . . . . . . . 61
4.4.4 Обновление списка отслеживания . . . . . . . . . . . . . . 64

Заключение 68

Список литературы 70

Список иллюстраций 75

Актуальность темы
Строка — один из центральных объектов компьютерных наук. Любая последо-
вательность данных может рассматриваться как строка (последовательность
символов). Такое абстрактное представление, не учитывающее структуру обра-
батываемых данных, имеет очень широкую область применений — от поиска в
базах данных до анализа структуры ДНК и белков. Раздел компьютерных наук,
занимающийся алгоритмами работающими со строками, называется стринго-
логия (англ. stringology от string — строка). Название было предложено в 1985
в работе [27]. Этой динамически развивающейся в настоящее время области
посвящен ряд монографий [18, 22, 34, 55] и специализированных конференций с
высоким уровнем цитируемости: Combinatorial Pattern Matching (CPM), String
Processing and Information Retrieval (SPIRE) и др. Задачи, рассматриваемые в
стрингологии, можно сгруппировать в несколько кластеров: поиск по образцу
(pattern matching), индексирование данных, сжатие данных и алгоритмы на сжа-
тых представлениях, а также поиск регулярных структур, таких как повторы,
палиндромы, периодические фрагменты и различные их обобщения. Последнему
кластеру принадлежат задачи, рассматриваемые в диссертации.
Одной из активно исследуемых областей являются строковые алгоритмы в
модели потока данных. В этой модели элементы последовательности данных
поступают один за одним и не могут быть сохранены в связи с малым объёмом
доступной памяти. Первые работы, рассматривающие подобные ограничения,
появились в 1970-е годы [52]. При этом понятие модели потока данных было
сформулировано в работе [1], авторы которой получили в 2005 г. премию Гёделя
за основополагающие исследования в области потоковых алгоритмов. Интересной
особенностью модели потока данных является то, что в ней зачастую удаётся
получить нижние оценки на вычислительную сложность задач, в первую очередь
на необходимый объём памяти.
Первый значительный результат о строковых алгоритмах в модели потока
данных был получен в [53]. В последнее десятилетие модель потока данных яв-
ляется заметным трендом в стрингологии. В настоящей работе рассматриваются
строковые задачи, связанные с поиском регулярных структур в потоке данных.

Итоги выполненного исследования
В диссертации рассмотрены задачи поиска основных регулярных структур в
строках в модели потока данных. Представим краткое резюме по каждой из трёх
основных глав и сформулируем связанные открытые проблемы для дальнейшего
исследования.
Отметим, что все разработанные нами алгоритмы являются рандомизи-
рованными алгоритмами типа Монте-Карло, т.е. решают задачи с высокой
вероятностью, используя детерминированный объём памяти за детерминиро-
ванное время. При этом доказано, что другие типы алгоритмов для решения
поставленных задач требуют как минимум линейных затрат памяти, а значит,
непригодны для потоковой модели.

Палиндромы в потоках
Для задачи LPS о наибольшем палиндроме в модели потока данных мы предста-
вили алгоритмы реального времени для приближенного решения с аддитивной
и мультипликативной погрешностью. При этом объём памяти, используемый
представленными алгоритмами, асимптотически точно совпадает с имеющимися
нижними оценками при большинстве значений параметров задачи. Таким обра-
зом, вопрос о вычислительной сложности задачи LPS в модели потока данных
разрешён.
Отдельно можно отметить введённую функцию времени жизни (ttl), ко-
торая показала себя удобным инструментом и для решения задачи о поиске
максимальных периодических подстрок (approxRuns).

Повторы и обратные повторы в потоках
Мы показали, что задача поиска наибольшего повтора(LRS) и задача поиска
наибольшего обратного повтора(LRRS) в модели потока данных могут быть
решены только с использованием приближенных алгоритмов типа Монте-Карло.
И доказали нижнюю оценку в Ω( log min{|Σ|, }) бит памяти для приближения
ответа с аддитивной погрешностью .
Для обеих задач представлены алгоритмы типа Монте-Карло, близкие к
реальному времени, использующие ( + ) слов памяти, где — аддитивная
ошибка приближения. При этом используемая
√ память точно совпадает с нижни-
ми оценками при условиях = ( ) и |Σ| = Ω( 0.01 ). Алгоритмы основаны
на суффиксных деревьях, что весьма необычно для потоковой модели.

Максимальные периодические подстроки в потоках
Мы доказали, что в потоковой модели не существует алгоритма, точно находя-
щего все максимальные периодические подстроки и сформулировали прибли-
женную версию задачи (approxRuns).
Для приближенной задачи мы представили алгоритм типа Монте-Карло,
близкий к реальному времени, и использующий ( log ) слов памяти.

Перспективы дальнейшей разработки темы
В задаче поиска наибольшего повтора(LRS) и задаче поиска наибольшего обрат-
ного повтора(LRRS) в модели потока данных открытыми остаются вопросы о
нижней оценке на необходимую память для приближения
√ с мультипликативной
ошибкой, а также с аддитивной ошибкой = Ω( ). Кроме того, открыт вопрос
о потоковом алгоритме с мультипликативной ошибкой.
В задаче приближенного поиска всех максимальных периодических подстрок
в потоках открытым остаётся вопрос о нижней оценке на необходимую память.

[1] Alon N., Matias Y., Szegedy M. The space complexity of approximating the
frequency moments // Journal of Computer and system sciences. –– 1999. ––
Vol. 58, no. 1. –– P. 137–147.

Заказать новую

Лучшие эксперты сервиса ждут твоего задания

от 5 000 ₽

Не подошла эта работа?
Закажи новую работу, сделанную по твоим требованиям

    Нажимая на кнопку, я соглашаюсь на обработку персональных данных и с правилами пользования Платформой

    Помогаем с подготовкой сопроводительных документов

    Совместно разработаем индивидуальный план и выберем тему работы Подробнее
    Помощь в подготовке к кандидатскому экзамену и допуске к нему Подробнее
    Поможем в написании научных статей для публикации в журналах ВАК Подробнее
    Структурируем работу и напишем автореферат Подробнее

    Хочешь уникальную работу?

    Больше 3 000 экспертов уже готовы начать работу над твоим проектом!

    Дарья Б. МГУ 2017, Журналистики, выпускник
    4.9 (35 отзывов)
    Привет! Меня зовут Даша, я окончила журфак МГУ с красным дипломом, защитила магистерскую диссертацию на филфаке. Работала журналистом, PR-менеджером в международных ко... Читать все
    Привет! Меня зовут Даша, я окончила журфак МГУ с красным дипломом, защитила магистерскую диссертацию на филфаке. Работала журналистом, PR-менеджером в международных компаниях, сейчас работаю редактором. Готова помогать вам с учёбой!
    #Кандидатские #Магистерские
    50 Выполненных работ
    Дмитрий К. преподаватель, кандидат наук
    5 (1241 отзыв)
    Окончил КазГУ с красным дипломом в 1985 г., после окончания работал в Институте Ядерной Физики, защитил кандидатскую диссертацию в 1991 г. Работы для студентов выполня... Читать все
    Окончил КазГУ с красным дипломом в 1985 г., после окончания работал в Институте Ядерной Физики, защитил кандидатскую диссертацию в 1991 г. Работы для студентов выполняю уже 30 лет.
    #Кандидатские #Магистерские
    2271 Выполненная работа
    Анастасия Б.
    5 (145 отзывов)
    Опыт в написании студенческих работ (дипломные работы, магистерские диссертации, повышение уникальности текста, курсовые работы, научные статьи и т.д.) по экономическо... Читать все
    Опыт в написании студенческих работ (дипломные работы, магистерские диссертации, повышение уникальности текста, курсовые работы, научные статьи и т.д.) по экономическому и гуманитарному направлениях свыше 8 лет на различных площадках.
    #Кандидатские #Магистерские
    224 Выполненных работы
    Анна Н. Государственный университет управления 2021, Экономика и ...
    0 (13 отзывов)
    Закончила ГУУ с отличием "Бухгалтерский учет, анализ и аудит". Выполнить разные работы: от рефератов до диссертаций. Также пишу доклады, делаю презентации, повышаю уни... Читать все
    Закончила ГУУ с отличием "Бухгалтерский учет, анализ и аудит". Выполнить разные работы: от рефератов до диссертаций. Также пишу доклады, делаю презентации, повышаю уникальности с нуля. Все работы оформляю в соответствии с ГОСТ.
    #Кандидатские #Магистерские
    0 Выполненных работ
    Александра С.
    5 (91 отзыв)
    Красный диплом референта-аналитика информационных ресурсов, 8 лет преподавания. Опыт написания работ вплоть до докторских диссертаций. Отдельно специализируюсь на повы... Читать все
    Красный диплом референта-аналитика информационных ресурсов, 8 лет преподавания. Опыт написания работ вплоть до докторских диссертаций. Отдельно специализируюсь на повышении уникальности текста и оформлении библиографических ссылок по ГОСТу.
    #Кандидатские #Магистерские
    132 Выполненных работы
    Татьяна Б.
    4.6 (92 отзыва)
    Добрый день, работаю в сфере написания студенческих работ более 7 лет. Всегда довожу своих студентов до защиты с хорошими и отличными баллами (дипломы, магистерские ди... Читать все
    Добрый день, работаю в сфере написания студенческих работ более 7 лет. Всегда довожу своих студентов до защиты с хорошими и отличными баллами (дипломы, магистерские диссертации, курсовые работы средний балл - 4,5). Всегда на связи!
    #Кандидатские #Магистерские
    138 Выполненных работ
    Юлия К. ЮУрГУ (НИУ), г. Челябинск 2017, Институт естественных и т...
    5 (49 отзывов)
    Образование: ЮУрГУ (НИУ), Лингвистический центр, 2016 г. - диплом переводчика с английского языка (дополнительное образование); ЮУрГУ (НИУ), г. Челябинск, 2017 г. - ин... Читать все
    Образование: ЮУрГУ (НИУ), Лингвистический центр, 2016 г. - диплом переводчика с английского языка (дополнительное образование); ЮУрГУ (НИУ), г. Челябинск, 2017 г. - институт естественных и точных наук, защита диплома бакалавра по направлению элементоорганической химии; СПХФУ (СПХФА), 2020 г. - кафедра химической технологии, регулирование обращения лекарственных средств на фармацевтическом рынке, защита магистерской диссертации. При выполнении заказов на связи, отвечаю на все вопросы. Индивидуальный подход к каждому. Напишите - и мы договоримся!
    #Кандидатские #Магистерские
    55 Выполненных работ
    Евгений А. доктор, профессор
    5 (154 отзыва)
    Более 40 лет занимаюсь преподавательской деятельностью. Специалист в области философии, логики и социальной работы. Кандидатская диссертация - по логике, докторская - ... Читать все
    Более 40 лет занимаюсь преподавательской деятельностью. Специалист в области философии, логики и социальной работы. Кандидатская диссертация - по логике, докторская - по социальной работе.
    #Кандидатские #Магистерские
    260 Выполненных работ
    Татьяна М. кандидат наук
    5 (285 отзывов)
    Специализируюсь на правовых дипломных работах, магистерских и кандидатских диссертациях
    Специализируюсь на правовых дипломных работах, магистерских и кандидатских диссертациях
    #Кандидатские #Магистерские
    495 Выполненных работ

    Последние выполненные заказы

    Другие учебные работы по предмету

    Расширенное суперпиксельное представление изображений для их обработки и анализа
    📅 2022год
    🏢 ФГАОУ ВО «Самарский национальный исследовательский университет имени академика С.П. Королева»
    Метод восстановления динамических изображений на основе оптимальной интерполяции
    📅 2022год
    🏢 ФГАОУ ВО «Самарский национальный исследовательский университет имени академика С.П. Королева»
    Метод конверсационного анализа неструктурированных текстов социальных сетей
    📅 2021год
    🏢 ФГАОУ ВО «Самарский национальный исследовательский университет имени академика С.П. Королева»