Оценка влияния уровня читабельности текста на популярность отзывов в сервисе «Кинопоиск»

Короткова Анна Андреевна
Бесплатно
В избранное
Работа доступна по лицензии Creative Commons:«Attribution» 4.0

Данная работа посвящена изучению влияния индекса удобочитаемости текста на русском языке на популярность рецензии к кинофильму. Материалом для исследования выступили отзывы на фильмы в сервисе «Кинопоиск». Оценка читабельности текстов была проведена с использованием следующих формул определения индексов удобочитаемости: SMOG, ARI, Coleman-Liau, Flesch-Kinkaid, Dale-Chale.
Итоговый корпус отзывов содержит 3910 отзывов на фильмы и размечен с указанием синтаксических характеристик, показателей индексов удобочитаемости, популярности пользователя и рецензии.
В работе представлен корреляционный анализ зависимости между показателями индексов удобочитаемости текстов отзывов и популярностью соответствующей рецензии. Корреляционный анализ проведен с использованием коэффициентов корреляции Пирсона, Спирмена и Кендалла.
Проведено выделение признаков (feature selection) в целях определения важности тех или иных параметров текста отзыва в контексте влияния на его популярность, проанализированы аномалии в связях «читабельность»-«популярность».
Анализ показал отсутствие корреляций между удобочитаемостью отзыва, посчитанной по указанным формулам, и его популярностью. В работе сделаны предположения о причинах отсутствия корреляции.

Введение …………………………………………………………………………………………………………… 4

Глава 1. Теория и методология исследования роли читабельности в оценке
популярности отзывов ………………………………………………………………………………………. 6

1.1 Определение понятия «читабельность» …………………………………………………….. 6

1.2 Обзор формул, использующихся для оценки удобочитаемости ………………….. 8

1.3 О сервисе «Кинопоиск» …………………………………………………………………………… 16

1.4 Рецензии …………………………………………………………………………………………………. 18

1.5 Понятие коэффициента корреляции ………………………………………………………… 20

1.5.1 Коэффициент корреляции Пирсона ……………………………………………………. 21

1.5.2 Коэффициенты корреляции Спирмена и Кендалла ………………………….. 22

Глава 2. Эксперимент по оценке влияния уровня читабельности на популярность
отзывов в сервисе «Кинопоиск» ………………………………………………………………………. 24

2.1. Общее описание эксперимента ……………………………………………………………….. 24

2.2. Сбор корпуса отзывов и его метаразметка ………………………………………………. 24

2.3. Разметка сложности собранных отзывов ………………………………………………… 25

2.4. Проблемы при сборе корпуса и их решение ……………………………………………. 29

2.5. Описание корпуса текстов ……………………………………………………………………… 32

2.6. Расчет корреляции …………………………………………………………………………………. 36

2.7. Общие показатели корреляции ……………………………………………………………….. 38

2.8. Частные показатели корреляции …………………………………………………………….. 40

2.9. Алгоритм выделения признаков ……………………………………………………………… 46

2.10. Поиск аномалий в зависимости цепи «популярность» – «читабельность» 48

2.11. Анализ результатов ………………………………………………………………………………. 50
Заключение …………………………………………………………………………………………………….. 52

Список литературы …………………………………………………………………………………………. 55

Приложение 1. Листинг программы сбора корпуса ………………………………………….. 58

Приложение 2. Примеры аномальных рецензий ………………………………………………. 62

Тексты даже по одной тематике могут быть очень разными. Какие-то
читаются легко, какие-то требуют большого напряжения для чтения и понимания.
С 30-х годов XX века исследователи пытались определить, по каким параметрам
необходимо оценивать сложность восприятия того или иного текста читателем.
Было разработано более 200 формул для определения индекса
удобочитаемости текста. Основная часть формул работает со статистическими и
синтаксическими метриками текста (длина слова, количество слогов, средние
показатели), однако некоторые формулы используют иные метрики, например,
количество «трудных» слов, а также индекс абстрактности лексики.
Данная работа нацелена на определение степени влияния уровня
удобочитаемости текстов рецензий на кинофильмы на сервисе «Кинопоиск». В
работе проверяется, связано ли значение индекса удобочитаемости по пяти
формулам (указанных ниже) с уровнем популярности отзывов. Наличие или
отсутствие такой связи позволит оценить, насколько релевантно использование
формул для определения индекса удобочитаемости текстов в данном дискурсе в
целом.
Цель работы: определить, связан ли уровень удобочитаемости по

Читабельность текста является важным параметром в определении простоты
понимания текста читателем. Большинство формул определения индекса
удобочитаемости текстов было разработано для определения читабельности
текстов на английском языке. Тем не менее, исследователи не оставляют попыток
модификации данных формул с целью применения их к русскоязычным текстам.
Именно с использованием подобных «русифицированных» формул было
проведено данное исследование.
Материалом для исследования выступили более трех тысяч текстов
рецензий, написанных пользователями к фильмам на русском языке в сервисе
«Кинопоиск». Корпус отзывов был собран и размечен по ряду параметров, среди
которых основные показатели для вычисления читабельности текста (длина слов,
предложений; количество слогов, слов в тексте; средние показатели), которые были
в дальнейшем использованы для определения индексов читабельности по пяти
наиболее распространенным формулам:
• SMOG;
• ARI;
• Coleman-Liau;
• Flesch-Kinkaid;
• Dale-Chale.
Результаты вычислений также были занесены в корпус. Наконец, в таблицу
были включены данные о популярности рецензий. Под популярностью в данной
работе мы понимаем общий отклик пользователей на отзыв, то есть суммарное
количество положительных и негативных отметок.
Далее мы провели корреляционный анализ, целью которого стало выявление
зависимости между показателями индексов удобочитаемости рецензии и ее
популярностью. Данный анализ был проведен при помощи коэффициентов
Пирсона, Спирмена и Кендалла. Анализ показал отсутствие корреляций между
удобочитаемостью отзыва, посчитанной по указанным формулам, и его
популярностью.
В работе также был проведен анализ отзывов с помощью алгоритма выделения
признаков (feature selection), который опять же указал на отсутствие значимости
такой метрики как удобочитаемость текста в контексте связи с популярностью
рецензии на кинофильм.
Наконец, нами был выполнен поиск аномалий в связи «читабельность»-
«популярность». Было выявлено, что существует большое количество рецензий,
имеющих хорошие (низкие) показатели читабельности, при этом плохие (низкие)
показатели популярности. Более того, часто встречается и противоположная
ситуация, когда встречаются тексты с плохими (высокими) показателями
удобочитаемости, при этом имеющие хорошие (высокие) показатели
популярности.
Исследование показало, что использование указанных индексов
удобочитаемости текстов на русском языке в качестве метрики в контексте
популярности отзывов не совсем корректно, так как наблюдается отсутствие связи
между показателями читабельности и показателями отклика у отзыва. Мы
предполагаем, что причина данного явления может быть связана с отсутствием
разработанных и протестированных формул именно для русского языка.
Наконец, под сомнение была поставлена корректность работы используемого
API, так как изначально данное программное обеспечение опиралось на формулы,
используемые для исследования текстов на английском языке. Тем не менее,
применение формул удобочитаемости в исследовании англоязычных текстов также
не всегда может давать валидные результаты [4].
Полученный результат указывает на то, что формулы для определения индексов
удобочитаемости текстов необходимо совершенствовать, в особенности, формулы,
применяемые для определения читабельности текстов на русском языке. Для
усовершенствования существующих (разработки новых коэффициентов на основе
имеющихся «англоязычных» формул) или же создания новых формул необходимо
проведения ряда исследований, в частности, с применением алгоритмов
машинного обучения, а также психо- и нейролингвистических исследований
вопроса простоты усваивания прочитанного текста реципиентом.

1. Бююль А. SSPS: искусство обработки информации. Анализ статистических
данных и восстановление скрытых закономерностей: Пер. с нем. / А. Бююль, П.
Цёфель. – СПб. : ООО «ДиаСофтЮП», 2005. – 608 с.
2. Кисельников А. С. Параметры сложности экзаменационных текстов /А.
С. Кисельников, М. И. Солнышкина // Вестник Волгоградского государственного
университета. Сер. 2: Языкознание. – 2015. – №1 (25). –С. 99-107.
3. Кобзарь А. И. Прикладная математическая статистика / А. И. Кобзарь. –
М. : Физматлит, 2006. – 816 с.
4. Короткова А. А. Определение сложности текстов ЕГЭ по английскому
языку при помощи цифровых технологий / А. А. Короткова, О. С. Сафонкина //
Нижегородское образование. – 2019. – № 2. – С. 107-111.
5. Мальчевская Е. А. Трансформация жанра рецензии / Е. А. Мальчевская //
Веснік Беларускага дзяржаўнага універсітэта. Сер. 4, Філалогія. Журналістыка.
Педагогіка. – 2011. – № 1. – С. 74-77.
6. Мацковский М. С. Проблемы читабельности печатного материала /М.
С. Мацковский// Смысловое восприятие речевого сообщения в условиях массовой
коммуникации. – М. : Наука, 1976. – С. 126-142.
7. Микк Я. А. О факторах понятности учебного текста: автореф. дис. … канд.
пед. наук / Я. А. Микк. – Тарту, 1970. – 22 с.
8. Наследов А. Д. IBM SP SS Statistics 20 и AMOS: профессиональный
статистический анализ данных / А. Д. Наследов. – СПб. : Питер, 2013. – 416 с.
9. Наследов А. Д. Математические методы психологического исследования.
Анализ иинтерпретация данных / А. Д. Наследов. – СПб. : Речь, 2012. – 392 с.
10. Невдах М. М. Разработка метода автоматизированной оценки
сложности учебных текстов для высшей школы / М. М. Невдах // Международная
научнаяконференция:«Теориявероятностей,случайныепроцессы,
математическая статистика и приложения». – 2008. – С. 239-243.
11. Осетрова О. Шрифт в рекламном дизайне / О. Осетрова // Коммуникации.
– 2005. – № 11.
12. Тертычный А. А. Жанры периодической печати: Учеб. пособие для
студентов вузов / А. А. Тертычный. – М. : Аспект Пресс, 2000. – 310 с.
13. Филиппова А. В. Управление качеством учебных материалов на основе
анализа трудности понимания учебных текстов: автореф. дис. … канд. техн. наук /
А. В. Филиппова. – Уфа, 2010. – 20 с.
14. Фомина В. А. Виды и маркеры интердискурсивности в текстах
кинорецензий [Электронный источник] / В. А. Фомина // Вестник Балтийского
федерального университета им. И. Канта / Научная электронная библиотека
«Киберленинка».–2011.–Режимдоступа:
http://cyberleninka.ru/article/n/kinoretsenziya-v-sisteme-diskursnyh-vzaimodeystviy.
– Загл. с экрана.
15. Chall J. S. Readability revisited: The New Dale-Chall Readability Formula / J.
S. Chall, E. Dale. – Cambridge, Mass. : Brookline Books, 1995. – 149 p.
16. Dale E., Chall J. S. A formula for predicting readability / E. Dale, J. S. Chall //
Educational Research Bulletin. – 1948. – № 27 (2). – Р. 11-54.
17. A handbook for writers and editors / G. Hargis, A. K. Hernandez, P. Hughes,
J. Ramaker, S. Rouiller, E. Wilde. – Upper Saddle River, NJ: Prentice Hall, 1998.
18. Dubay W. H. The Principles of Readability / W. H. Dubay. – Costa Mesa:
Impact Information, 2004. – 72 p.
19. Flesch R. A new readability yardstick / R. Flesch // Journal of Applied
Psychology. – 1948. – № 32 (3). – P. 221-233.
20. Gamble L. G. Ease of Comprehension of Standard and Readable Insurance
Policies as a Function of Reading Ability / L. G. Gamble, J. P. Kincaid // Journal of
Reading Behavior. – 1977. – № 1. – P. 87-95.
21. Harkova E. V. Unified (Russian) state exam in English: Reading
comprehension tasks / E. V. Harkova, A. S. Kiselnikov, M. I. Solnyshkina // English
Language Teaching. – 2014. – № 12. – P. 1-11.
22. Klare G. R. The measurement of readability / G. R. Klare. – Ames, Iowa: Iowa
State University Press, 1963.
23. Long A. Calculating Reading Level / A. Long // Tameri Guide for Writers
[Электронный ресурс] Режим доступа: http://www.tameri.com/edit/levels.html. –
Загл. с экрана.
24. Mclaughlin G. H. SMOG grading – a new readability formula /G.
H. Mclaughlin // Journal of reading. – 1969. – № 12 (8). – Р. 639-646.
25. Miles T. H. The fog index: a practical readability scale / T. H. Miles // In Critical
Thinking and Writing for Science and Technology. Harcourt Brace Jovanovich. – 1990.
– P. 280–284.
26. Sticht T. G. Research towards the design, development and evaluation of a job-
functional literacy training program for the US Army / T. G. Sticht //Literacy Discussion.
– 1973. – № 4. – P. 339-369.
27. Washburne C. Grade Placement of Children’s Books / C. Washburne,M.
Vogel // Elementary School Journal. – 1938. – Vol. XXXVII. – Р. 335-364.
28. Рецензии пользователей на «Кинопоиске» [Электронный ресурс]. –
Режим доступа: https://www.kinopoisk.ru/reviews/. – Загл. с экрана.
29. Частые вопросы о «Кинопоиске» – «Кинопоиск». Справка [Электронный
ресурс]. – Режим доступа: https://yandex.ru/support/kinopoisk/index.html. – Загл. с
экрана.
30. API для определения читабельности текста [Электронный ресурс]. –
Режим доступа: http://api.plainrussian.ru/api/1.0/ru/measure/. – Загл. с экрана.
31. API: документация для определения читабельности текста [Электронный
ресурс]. – Режим доступа: https://github.com/ivbeg/readability.io/wiki/API. – Загл. с
экрана.
32.Coleman–liauIndex[Электронныйресурс]Режимдоступа:
http://en.wikipedia.org/wiki/Coleman-Liau_Index. – Загл. с экрана.
33. Review. Definition of Review by Merriam-Webster [Электронный ресурс]
Режим доступа: http://www.merriam-webster.com/dictionary/review. – Загл. с
экрана.

Заказать новую

Лучшие эксперты сервиса ждут твоего задания

от 5 000 ₽

Не подошла эта работа?
Закажи новую работу, сделанную по твоим требованиям

    Нажимая на кнопку, я соглашаюсь на обработку персональных данных и с правилами пользования Платформой

    Хочешь уникальную работу?

    Больше 3 000 экспертов уже готовы начать работу над твоим проектом!

    Татьяна Б.
    4.6 (92 отзыва)
    Добрый день, работаю в сфере написания студенческих работ более 7 лет. Всегда довожу своих студентов до защиты с хорошими и отличными баллами (дипломы, магистерские ди... Читать все
    Добрый день, работаю в сфере написания студенческих работ более 7 лет. Всегда довожу своих студентов до защиты с хорошими и отличными баллами (дипломы, магистерские диссертации, курсовые работы средний балл - 4,5). Всегда на связи!
    #Кандидатские #Магистерские
    138 Выполненных работ
    Катерина В. преподаватель, кандидат наук
    4.6 (30 отзывов)
    Преподаватель одного из лучших ВУЗов страны, научный работник, редактор научного журнала, общественный деятель. Пишу все виды работ - от эссе до докторской диссертации... Читать все
    Преподаватель одного из лучших ВУЗов страны, научный работник, редактор научного журнала, общественный деятель. Пишу все виды работ - от эссе до докторской диссертации. Опыт работы 7 лет. Всегда на связи и готова прийти на помощь. Вместе удовлетворим самого требовательного научного руководителя. Возможно полное сопровождение: от статуса студента до получения научной степени.
    #Кандидатские #Магистерские
    47 Выполненных работ
    Рима С.
    5 (18 отзывов)
    Берусь за решение юридических задач, за написание серьезных научных статей, магистерских диссертаций и дипломных работ. Окончила Кемеровский государственный универси... Читать все
    Берусь за решение юридических задач, за написание серьезных научных статей, магистерских диссертаций и дипломных работ. Окончила Кемеровский государственный университет, являюсь бакалавром, магистром юриспруденции (с отличием)
    #Кандидатские #Магистерские
    38 Выполненных работ
    Юлия К. ЮУрГУ (НИУ), г. Челябинск 2017, Институт естественных и т...
    5 (49 отзывов)
    Образование: ЮУрГУ (НИУ), Лингвистический центр, 2016 г. - диплом переводчика с английского языка (дополнительное образование); ЮУрГУ (НИУ), г. Челябинск, 2017 г. - ин... Читать все
    Образование: ЮУрГУ (НИУ), Лингвистический центр, 2016 г. - диплом переводчика с английского языка (дополнительное образование); ЮУрГУ (НИУ), г. Челябинск, 2017 г. - институт естественных и точных наук, защита диплома бакалавра по направлению элементоорганической химии; СПХФУ (СПХФА), 2020 г. - кафедра химической технологии, регулирование обращения лекарственных средств на фармацевтическом рынке, защита магистерской диссертации. При выполнении заказов на связи, отвечаю на все вопросы. Индивидуальный подход к каждому. Напишите - и мы договоримся!
    #Кандидатские #Магистерские
    55 Выполненных работ
    Вики Р.
    5 (44 отзыва)
    Наличие красного диплома УрГЮУ по специальности юрист. Опыт работы в профессии - сфера банкротства. Уровень выполняемых работ - до магистерских диссертаций. Написан... Читать все
    Наличие красного диплома УрГЮУ по специальности юрист. Опыт работы в профессии - сфера банкротства. Уровень выполняемых работ - до магистерских диссертаций. Написание письменных работ для меня в удовольствие.Всегда качественно.
    #Кандидатские #Магистерские
    60 Выполненных работ
    Виктор В. Смоленская государственная медицинская академия 1997, Леч...
    4.7 (46 отзывов)
    Имеют опыт грамотного написания диссертационных работ по медицине, а также отдельных ее частей (литературный обзор, цели и задачи исследования, материалы и методы, выв... Читать все
    Имеют опыт грамотного написания диссертационных работ по медицине, а также отдельных ее частей (литературный обзор, цели и задачи исследования, материалы и методы, выводы).Пишу статьи в РИНЦ, ВАК.Оформление патентов от идеи до регистрации.
    #Кандидатские #Магистерские
    100 Выполненных работ
    Дарья Б. МГУ 2017, Журналистики, выпускник
    4.9 (35 отзывов)
    Привет! Меня зовут Даша, я окончила журфак МГУ с красным дипломом, защитила магистерскую диссертацию на филфаке. Работала журналистом, PR-менеджером в международных ко... Читать все
    Привет! Меня зовут Даша, я окончила журфак МГУ с красным дипломом, защитила магистерскую диссертацию на филфаке. Работала журналистом, PR-менеджером в международных компаниях, сейчас работаю редактором. Готова помогать вам с учёбой!
    #Кандидатские #Магистерские
    50 Выполненных работ
    Ольга Б. кандидат наук, доцент
    4.8 (373 отзыва)
    Работаю на сайте четвертый год. Действующий преподаватель вуза. Основные направления: микробиология, биология и медицина. Написано несколько кандидатских, магистерских... Читать все
    Работаю на сайте четвертый год. Действующий преподаватель вуза. Основные направления: микробиология, биология и медицина. Написано несколько кандидатских, магистерских диссертаций, дипломных и курсовых работ. Слежу за новинками в медицине.
    #Кандидатские #Магистерские
    566 Выполненных работ
    Александр Р. ВоГТУ 2003, Экономический, преподаватель, кандидат наук
    4.5 (80 отзывов)
    Специальность "Государственное и муниципальное управление" Кандидатскую диссертацию защитил в 2006 г. Дополнительное образование: Оценка стоимости (бизнеса) и госфин... Читать все
    Специальность "Государственное и муниципальное управление" Кандидатскую диссертацию защитил в 2006 г. Дополнительное образование: Оценка стоимости (бизнеса) и госфинансы (Казначейство). Работаю в финансовой сфере более 10 лет. Банки,риски
    #Кандидатские #Магистерские
    123 Выполненных работы

    Другие учебные работы по предмету

    Влияние И.С. Тургенева на раннее творчество А.П. Чехова
    📅 2021год
    🏢 Санкт-Петербургский государственный университет
    Поток сознания как кинематографический прием
    📅 2021год
    🏢 Санкт-Петербургский государственный университет
    Поэтика женских образов в прозе А.П. Чехова
    📅 2021год
    🏢 Санкт-Петербургский государственный университет
    Каноны Косьмы Маюмского: опыт филологического анализа
    📅 2021год
    🏢 Санкт-Петербургский государственный университет