Разработка и исследование методики извлечения данных из веб-ресурсов систем цифрового бизнеса
1 АНАЛИЗ ПРОЦЕССА ИЗВЛЕЧЕНИЯ ДАННЫХ И ИНСТРУМЕНТОВ ДЛЯ ВЫПОЛНЕНИЯ ЭКСТРАКЦИЙ 10
1.1 Информационные ресурсы для систем цифрового бизнеса 10
1.2 Характеристики процесса извлечения данных 13
1.3 Представление элементов веб-страницы 18
1.4. Проблемы с HTML для извлечения данных 19
1.5 Обзор существующих инструментов извлечения данных 22
1.6 Выводы по первому разделу 28
2 РАЗРАБОТКА МЕТОДИКИ ИЗВЛЕЧЕНИЯ ДАННЫХ ИЗ ВЕБ-РЕСУРСОВ СИСТЕМ ЦИФРОВОГО БИЗНЕСА 30
2.1. Особенности извлечении и идентификации данных текстового веб-контента 30
2.2. Разработка концептуальной модели представления единого информационного пространства ресурсов бизнес деятельности корпорации 36
2.3 Модель извлечения информации из слабоструктурированного текста 41
2.4 Модель веб скрапинга для автоматизации извлечения данных из веб страниц 46
2.5 Трудности извлечения данных из веб страниц и способы их решения 49
2.6 Выводы ко второму разделу 50
3 ПРОЕКТИРОВАНИЕ СИСТЕМЫ ИЗВЛЕЧЕНИЯ ДАННЫХ ИЗ ВЕБ-РЕСУРСОВ СИСТЕМ ЦИФРОВОГО БИЗНЕСА 52
3.1 Требования и задачи программного продукта 52
3.2 Программный проект 53
3.3 Разработка требований 54
3.3.1 Моделирование прецедентов 55
3.3.2 Используемые средства и технологии 57
3.4Детализированный дизайн 57
3.4.1 Веб приложение DBS 57
3.4.2 Веб сервис Scrapyd 59
3.5 Выводы по третьему разделу 60
4 АНАЛИЗ РЕЗУЛЬТАТОВ ИССЛЕДОВАНИЯ 62
4.1 Обеспечение качества информационной системы извлечения данных из веб-ресурсов систем цифрового бизнеса 62
4.2 Протокол проведения функционального тестирования 63
4.3 Руководство пользователя 65
4.4 Применение разработанной методики на практике 66
4.5 Результаты работы программы 70
4.6 Выводы по четвертому разделу 75
ВЫВОДЫ 76
ПЕРЕЧЕНЬ ССЫЛОК 79
ПРИЛОЖЕНИЕ А ЛИСТИНГ ПРОГРАММЫ 95
ПРИЛОЖЕНИЕ Б РЕЗУЛЬТАТЫ РАБОТЫ ПРОГРАММЫ 99
Целью данного исследования является повышение полноты и оперативности извлечения открытых данных за счет разработки системы информационной поддержки цифрового бизнеса.
Для достижения поставленной цели в работе решаються следующие задачи:
– анализ существующих систем и технологий извлечения данных;
– рассмотрение особенностей извлечения данных;
– рассмотрение особенностей архитектурных решений при создании систем извлечения данных;
– анализ возможностей систем извлечения данных;
– разработка методики извлечения данных для элементов систем цифрового бизнеса;
1. Эльфадил Хамза. Analyze of the most popular web data extraction tools / Хамза Эльфадил // Материалы Восьмой Международной научной конференции студентов и молодых ученых «Современные информационные технологии 2018» МИТ-2018 / МОН Украины; Одес. Нал. политех. ун-т: Ин-т компьют. систем – Одесса: Экология, 2018. – С. 11 – 14.
2. Найдич А. Big Data: проблема, технология, рынок [Электронный ресурс]. URL: http://compress.ru/article.aspx?id=22725 (дата обращения: 20.10.2019).
3. Паклин Н.Б. Бизнес-аналитика: от данных к знаниям / Н.Б. Паклин, В.И. Орешков. СПб .: Питер, 2009. 624 с .: ил.
4. Инфографика [Электронный ресурс] / Википедия. URL: https://ru.wikipedia.org/wiki/%D0%98%D0%BD%D1%84%D0%BE%D0%B3%D1%80%D0%B0%D1%84%D0%B8 % D0% BA% D0% B0 (дата обращения: 20.06.2019).
5. ETL [Электронный ресурс] / Википедия. URL: https://ru.wikipedia.org/wiki/ETL (дата обращения: 20.06.2019).
и еще 25 источников
Хочешь уникальную работу?
Больше 3 000 экспертов уже готовы начать работу над твоим проектом!