Адаптация произносительного словаря для автоматического распознавания разных типов речи
Работа посвящена вопросам адаптации произносительных словарей для систем автоматического распознавания русской речи применительно к разным её типам. Материалом исследования послужили три корпуса русской речи. Были проведены эксперименты по созданию систем для автоматической генерации фонемных и фонетических транскрипций на основе конечных автоматов и нейронных сетей. При использовании таких транскрипций для задач распознавания наилучшие результаты показала система, создающая фонемные транскрипции, отражающие особенности разговорной речи. Также были проведены эксперименты по модификации в словарях произношения конкретных морфем, показано, что такие модификации могут улучшить результаты распознавания.
Введение………………………………………………………………………………………………………..4
Глава 1. Автоматическое распознавание речи и автоматическая обработка
транскрипций…………………………………………………………………………………………………6
1.1. Задачи автоматического распознавания речи………………………………………….6
1.2. Краткая историческая справка……………………………………………………………….7
1.3. Устройство системы АРР………………………………………………………………………8
1.4. Произносительный словарь…………………………………………………………………14
1.5. Автоматическое создание транскрипций……………………………………………..17
1.5.1. Системы, работающие по правилам………………………………………………18
1.5.2. Машинное обучение……………………………………………………………………..19
1.5.3. Оценка автоматически созданного словаря…………………………………….20
1.6. Обзор существующих систем АРР……………………………………………………….21
1.7. Выводы по главе 1………………………………………………………………………………22
Глава 2. Фонетические особенности русской спонтанной речи……………………….24
2.1. Фонетическая система русского языка…………………………………………………24
2.2. Междикторская и внутридикторская вариативность…………………………….26
2.3. Фонетические особенности русской разговорной речи…………………………27
2.4. Особенности реализации окончаний прилагательных…………………………..30
2.6. Выводы по главе 2………………………………………………………………………………31
Глава 3. Автоматическое создание произносительного словаря………………………32
3.1. Материал исследования………………………………………………………………………32
3.2. Инструменты для автоматического создания транскрипций…………………34
3.2.1. Взвешенные конечные преобразователи………………………………………..35
3.2.2. Двунаправленные сети с долгой краткосрочной памятью……………….36
3.3. Инструменты для автоматического распознавания речи……………………….38
3.4. Использованное оборудование…………………………………………………………….38
3.5. Автоматическое создание транскрипций……………………………………………..39
3.5.1. Автоматическое создание идеальных транскрипций………………………39
3.5.2. Автоматическое создание реальных транскрипций………………………..42
3.6. Анализ необходимого объёма данных для обучения системы G2P………..46
3.7. Использование произносительных вариантов для морфем……………………47
3.8. Выводы по главе 3………………………………………………………………………………50
Заключение…………………………………………………………………………………………………..52
Список литературы……………………………………………………………………………………….54
Приложение. Варианты произносительных словарей для распознавания
окончаний прилагательных……………………………………………………………………………63
Данная работа посвящена вопросам адаптации и оптимизации
произносительных словарей для систем автоматического распознавания (АРР)
русской речи применительно к разным её типам. Известно, что на речь человека
влияет множество факторов, и это в немалой степени касается её фонетической
стороны. В зависимости от речевой ситуации одни и те же лексические
единицы могут реализовываться в различных формах; более того, зачастую эти
формы значительно отличаются от вариантов, предложенных в орфоэпических
словарях.
Системы автоматического распознавания речи чаще всего пользуются
именно такими орфоэпическими транскрипциями, что не может не отражаться
на качестве распознавания. Поиск транскрипций, которые бы наилучшим для
системы АРР образом отражали реальное произношение, является актуальным
и на сегодняшний день [Adda-Decker, Lamel, 2018; Lukeš и др., 2018], и не в
меньшей степени он является актуальным для русского языка, который
характеризуется разного рода фонетическими процессами: изменение гласных
вследствие коартикуляционных процессов, их редукция в безударном
положении, ассимилятивные изменения согласных и др.
Объектом данного исследования является автоматическое распознавание
речи; предметом — методы адаптации произносительных словарей и
зависимость качества распознавания от использования тех или иных словарных
транскрипций.
Целью исследования является поиск способов оптимизации
существующих словарей или создания новых таким образом, чтобы
результирующий словарь обеспечил улучшение качества автоматического
распознавания.
Для достижения данной цели были выполнены следующие задачи:
1. Обзор литературы, описывающей существующие методы и подходы к
распознаванию речи, а также созданию и модификации транскрипций;
2. Обзор литературы, описывающей особенности русского языка,
отражение которых в произносительном словаре могло бы повысить качество
распознавания;
3. Предложение способов создания или модификации произносительного
словаря;
4. Проведение экспериментов по автоматическому созданию
транскрипций и автоматическому распознаванию речи;
5. Подведение итогов экспериментального исследования и оценка
предложенных методов.
Результаты данного исследования могут помочь в создании новых систем
АРР, адаптированных под разные типы речи, а также в создании систем
автоматического выравнивания.
Работа состоит из введения, трёх глав и заключения. В первой главе
освещены устройство систем распознавания речи, особенности создания
словарей для задач АРР, методы автоматического создания транскрипций. Во
второй главе рассмотрены фонетические характеристики и особенности русской
разговорной речи, имеющие значение для поставленной задачи. В третьей главе
описаны материал и методика исследования, освещены поставленные
эксперименты и приведены их результаты.
В данной работе было проведено исследование методов адаптации
произносительного словаря для автоматического распознавания разных типов
речи. В ходе исследования были сделаны следующие выводы:
1. Для автоматического создания транскрипций можно применять методы
машинного обучения. Обучающим материалом в данном случае могут стать как
аннотации размеченных вручную фонетических корпусов, так и результаты
работы транскрипторов, основанных на правилах; в каждом случае
результирующая система будет отражать транскрипционные конвенции,
использованные при создании обучающего материала. Для качественной работы
такой системы необходим материал в объёме тысяч словоупотреблений.
2. Возможно также применять методы машинного обучения для
генерации реальных транскрипций на основе идеальных или орфографии. Так
же, как и в предыдущем случае, значительную роль играет фактор объёма
доступного обучающего материала. Вероятно, в данном случае минимальный
объём обучающих данных несколько выше, чем в предыдущем.
3. Созданные таким образом транскрипции можно использовать для задач
автоматического распознавания речи, однако от качества модели будет зависеть
и качество распознавания. Наилучшие результаты показали словари, созданные
на основе реальной фонемной транскрипции из корпуса CORPRES, причём
генерация транскрипции могла происходить как из орфографической записи,
так и из орфоэпической фонемной транскрипции. Наихудшие же результаты
показали словари, основанные на реальной фонетической транскрипции из
корпуса INTAS. Это возможно объяснить как недостатком обучающего
материала ввиду маленького объёма корпуса INTAS, так и повышенным
фактором неопределённости системы в силу большей точности транскрипции.
4. Изменение вариантов произношения отдельных морфем в словарях
может влиять на качество распознавания речи; поиск таких вариантов
представляет собой перспективное направление исследований. Показано, что
для наилучшего качества распознавания окончаний форм прилагательных
необходимы словари, содержащие различные варианты транскрипций, как
орфоэпических, так и отражающих реальные произносительные варианты.
Полученные выводы могут служить основой для дальнейших
исследований по созданию различных вариантов систем создания
автоматической транскрипции для русского языка, что потенциально имеет
приложения не только в области автоматического распознавания речи, но также
синтеза и выравнивания (т. е. автоматической расстановки границ); последняя
задача является важной для проведения многих исследований акустических
особенностей языков.
1. Андросова С. В. и др. Реализация фонетических единиц в информационной
структуре высказывания // 2006.
2. Апушкина И. Е. Качество гласных и восприятие словесного ударения в
спонтанной речи // Вестник Санкт-Петербургского Университета Язык И
Литература. 2011. № 4.
3. Болотова О. Б. Гласные в спонтанной речи и при чтении связного текста
(экспериментально-фонетическое исследование на материале русского языка) //
2005.
4. Бондарко Л. В. и др. Стили произношения и типы произнесения // Вопросы
Языкознания. 1974. Т. 2. С. 64—70.
5. Бондарко Л. В. Звуковой строй современного русского языка. : Просвещение,
1977.
6. Васильева Л. А., Тананайко С. О. Морфонологические факторы и редукция
безударных гласных в нормативной русской речи // Филологические Науки
Вопросы Теории И Практики. 2009. № 1. С. 32—36.
7. Васильева Л. А., Тананайко С. О. Специфика реализации заударных звуковых
последовательностей в слитной речи // Филологические Науки Вопросы Теории
И Практики. 2010. № 2. С. 31—33.
8. Венцов А. В. и др. Корпус русских спонтанных текстов: структура и
единицы // Корпусная лингвистика-2013. , 2013. С. 223—230.
9. Горлова А. А., Слепокурова Н. А. Редукция предударных компонентов
словоформ в спонтанной речи // Шестой междисциплинарный семинар «Анализ
разговорной русской речи» (АР3-2012). , 2012. С. 15—20.
10. Евдокимова В. В., Скрелин П. А., Чукаева Т. В. Автоматический адаптивный
фонетический транскриптор для русского языка // Анализ разговорной русской
речи (АР3-2017). , 2017. С. 32—39.
11. Ерофеева Е. В. Вероятностные структуры идиомов: социолингвистический
аспект. Пермь: Издательство Пермского университета, 2005. 320 с.
12. Кипяткова И. С., Карпов А. А. Модуль фонематического транскрибирования
для системы распознавания разговорной русской речи // 2008.
13. Кипяткова И. С., Карпов А. А. Аналитический обзор систем распознавания
русской речи с большим словарем // Труды СПИИРАН. 2010. № 12. С. 7—20.
14. Кипяткова И. С., Карпов А. А. Методология оценивания работы систем
автоматического распознавания речи // Известия Высших Учебных Заведений
Приборостроение. 2012. Т. 55. № 11. С. 38—43.
15. Кипяткова И. С., Карпов А. А. Разновидности глубоких искусственных
нейронных сетей для систем распознавания речи // Труды СПИИРАН. 2016. Т. 6.
№ 49. С. 80—103.
16. Князев С. Русская диалектная фонетика // М Изд-Во МГУ. 2008.
17. Кочаров Д. А., Кочеткова У. Е. Огубленность безударных гласных в русской
речи // Вопросы Языкознания. 2020. № 6. С. 31—47.
18. Левенштейн В. И. Двоичные коды с исправлением выпадений, вставок и
замещений символов // Доклады Академии наук. : Российская академия наук,
1965. С. 845—848.
19. Леонтьева Ал. Б., Кипяткова И. C. Моделирование нефонемных речевых
элементов и создание альтернативных транскрипций для распознавания
спонтанной речи // Труды Первого Междисциплинарного Семинара «Анализ
Разговорной Русской Речи»АР3-2007—СПб ГУАП. 2007. С. 77—85.
20. Ляшевская О. Н. Корпусные инструменты в грамматических исследованиях
русского языка. М.: Издательский дом ЯСК, Рукописные памятники Древней
Руси, 2016. 520 с.
21. Ронжин А. Л., Евграфова К. В. Анализ вариативности спонтанной речи и
способов устранения речевых сбоев // Изв Вузов Гум Науки. 2011. Т. 2. № 3. С.
227—231.
22. Ронжин А. Л., Евграфова К. В., Кипяткова И. С. Анализ проблем
автоматическойобработкиспонтаннойрусскойречи//Пятый
междисциплинарный семинар” Анализ разговорной русской речи”(АР3-2011). ,
2011. С. 48—54.
23. Скрелин П. А., Евдокимова В. В. Вариативность реализаций гласных фонем
в спонтанной речи и чтении // Второй междисциплинарный семинар” Анализ
разговорной русской речи”(АР3-2008). , 2008. С. 42—47.
24. Тампель И., Карпов А. Автоматическое распознавание речи // Учебное
Пособие- СПб Университет ИТМО. 2016.
25. Холявин П. А. Оценка эффективности акустических моделей для систем
распознавания речи на ограниченном материале // Фонетический Лицей. 2019.
№ 5. С. 45—52.
26. Adda-Decker M., Lamel L. Discovering speech reductions across speaking styles
and languages // Rethinking Reduction. : De Gruyter Mouton, 2018. С. 101—128.
27. Allauzen C. и др. OpenFst: A general and efficient weighted finite-state
transducer library // International Conference on Implementation and Application of
Automata. : Springer, 2007. С. 11—23.
28. Baker J. The DRAGON system—An overview // IEEE Trans. Acoust. Speech
Signal Process. 1975. Т. 23. № 1. С. 24—29.
29. Baum L. E. An inequality and associated maximization technique in statistical
estimation for probabilistic functions of Markov processes // Inequalities. 1972. Т. 3.
№ 1. С. 1—8.
30. Bisani M., Ney H. Joint-sequence models for grapheme-to-phoneme conversion //
Speech Commun. 2008. Т. 50. № 5. С. 434—451.
31. Black A., Lenzo K. Issues in Building General Letter to Sound Rules // 2003.
32. Bondarko L. V. и др. Phonetic properties of Russian spontaneous speech //
Proceedings of the 15th International Congress of Phonetic Sciences. , 2003. С. 2973
—2976.
33. Bruguier A. и др. Pronunciation Learning with RNN-Transducers // Interspeech
2017. : ISCA, 2017. С. 2556—2560.
34. Bruguier A., Bakhtin A., Sharma D. Dictionary Augmented Sequence-to-
Sequence Neural Network for Grapheme to Phoneme prediction // Interspeech. 2018.
Т. 2018.
35. Byrne W. и др. Morpheme based language models for speech recognition of
Czech // International Workshop on Text, Speech and Dialogue. : Springer, 2000. С.
211—216.
36. Casali S. P., Williges B. H., Dryden R. D. Effects of Recognition Accuracy and
Vocabulary Size of a Speech Recognition System on Task Performance and User
Acceptance // Hum. Factors. 1990. Т. 32. № 2. С. 183—196.
37. Chan W. и др. Listen, attend and spell: A neural network for large vocabulary
conversational speech recognition // 2016 IEEE International Conference on
Acoustics, Speech and Signal Processing (ICASSP). : IEEE, 2016. С. 4960—4964.
38. Dahl G. E. и др. Context-dependent pre-trained deep neural networks for large-
vocabulary speech recognition // IEEE Trans. Audio Speech Lang. Process. 2011. Т.
20. № 1. С. 30—42.
39. Davel M., Wet F. Verifying pronunciation dictionaries using conflict analysis. ,
2010. С. 1898—1901.
40. Davis K. H., Biddulph R., Balashek S. Automatic Recognition of Spoken Digits //
J. Acoust. Soc. Am. 1952. Т. 24. № 6. С. 637—642.
41. Deri A., Knight K. Grapheme-to-phoneme models for (almost) any language //
Proceedings of the 54th Annual Meeting of the Association for Computational
Linguistics (Volume 1: Long Papers). , 2016. С. 399—408.
42. Dillon J. V. и др. Tensorflow distributions // ArXiv Prepr. ArXiv171110604. 2017.
43. Domokos J., Szakács Z. A. Web Application for Romanian Language Phonetic
Transcription // MACRo 2015. 2017. Т. 2. № 1. С. 1—10.
44. El-Hadi C., Mhania G. Phonetisaurus-based letter-to-sound transcription for
Standard Arabic // 2017 5th International Conference on Electrical Engineering –
Boumerdes (ICEE-B). , 2017. С. 1—4.
45. Evgrafova K. The phonetic characterisics of vowel epenthesis in Russian
consonant clusters // 13th International Conference on Speech and Computer
SPECOM 2009. , 2009. С. 419—422.
46. Fosler-Lussier J. Dynamic Pronunciation Models for Automatic Speech
Recognition // 2000.
47. Gales M. J. F., Young S. The Application of Hidden Markov Models in Speech
Recognition // Found. Trends Signal Process. 2007. Т. 1. С. 195—304.
48. Gevaert W., Tsenov G., Mladenov V. Neural networks used for speech recognition
// J. Autom. Control. 2010. Т. 20.
49. Giwa O., Davel M. H. Bilateral G2P accuracy: Measuring the effect of variants //
2017 Pattern Recognition Association of South Africa and Robotics and Mechatronics
(PRASA-RobMech). Bloemfontein, South Africa: IEEE, 2017. С. 208—213.
50. Harris D., Harris S. L. Digital design and computer architecture. : Morgan
Kaufmann, 2010.
51. Haykin S. Neural Networks: A Comprehensive Foundation. Upper Saddle River,
NJ, USA: Prentice Hall PTR, 1998. Вып. 2.
52. Hochreiter S., Schmidhuber J. Long Short-term Memory // Neural Comput. 1997.
Т. 9. С. 1735—80.
53. Huang X. и др. An overview of the SPHINX-II speech recognition system. :
CARNEGIE-MELLON UNIV PITTSBURGH PA SCHOOL OF COMPUTER
SCIENCE, 1993.
54. Huang X. и др. Spoken language processing: A guide to theory, algorithm, and
system development. : Prentice hall PTR Upper Saddle River, 2001.
55. International Phonetic Association. Handbook of the International Phonetic
Association: A guide to the use of the International Phonetic Alphabet. : Cambridge
University Press, 1999.
56. Jain A. и др. Finnish ASR with Deep Transformer Models // Conference of the
International Speech Communication Association (INTERSPEECH). , 2020.
57. Jelinek F. Continuous speech recognition by statistical methods // Proc. IEEE.
1976. Т. 64. № 4. С. 532—556.
58. Jurafsky D., Martin J. H. Speech and language processing. : Pearson London,
2014.
59. Kachkovskaia T. и др. SibLing Corpus of Russian Dialogue Speech Designed for
Research on Speech Entrainment // Proceeding of LREC (in press). , 2020.
60. Kaplan R. M., Kay M. Regular models of phonological rule systems // Comput.
Linguist. 1994. Т. 20. № 3. С. 331—378.
61. Kessens J. M. Making a difference: On automatic transcription and modeling of
Dutch pronunciation variation for automatic speech recognition. : [Sl: sn], 2002.
62. Korobov M. Morphological analyzer and generator for Russian and Ukrainian
languages // International Conference on Analysis of Images, Social Networks and
Texts. : Springer, 2015. С. 320—332.
63. Koval S., Smirnova N., Khitrov M. Modelling pronunciation variability for ASR
tasks // ISCA Tutorial and Research Workshop (ITRW) on Pronunciation Modeling
and Lexicon Adaptation for Spoken Language Technology. , 2002.
64. Lama P., Namburu M. Speech recognition with dynamic time warping using
MATLAB // Proj. Rep. CS 525 Spring 2010. 2010.
65. Lee K.-F. и др. Speech recognition using hidden Markov models: A CMU
perspective // Speech Commun. 1990. Т. 9. № 5. С. 497—508.
66. Lombard E. Le signe de l’elevation de la voix // Ann Mal Oreille Larynx. 1911.
С. 101—119.
67. Lowerre B., Reddy R. The Harpy Speech Recognition System: performance with
large vocabularies // J. Acoust. Soc. Am. 1976. Т. 60. № S1. С. S10—S11.
68. Lukeš D. и др. Pronunciation Variants and ASR of Colloquial Speech: A Case
Study on Czech // Proceedings of the Eleventh International Conference on Language
Resources and Evaluation (LREC 2018). , 2018.
69. Mohri M. Weighted Finite-State Transducer Algorithms. An Overview // Formal
Languages and Applications Studies in Fuzziness and Soft Computing. / под ред. C.
Martín-Vide, V. Mitrana, G. Păun. Berlin, Heidelberg: Springer, 2004. С. 551—563.
70. Nigmatulina Y. O. Sound contraction in russian spontaneous speech and its
implication for spoken word recognition // New Perspect. Speech Action Proc. 2nd
SJUSK. 2013. С. 127—139.
71. Nilsson T. Speech Recognition Software and Vidispine. , 2013.
72. Nkosi M. C. Creation of a pronunciation dictionary for automatic speech
recognition : a morphological approach. , 2012.
73. Novak J. R., Minematsu N., Hirose K. Phonetisaurus: Exploring grapheme-to-
phoneme conversion with joint n-gram models in the WFST framework // Nat. Lang.
Eng. 2016. Т. 22. № 6. С. 907—938.
74. Palaz D., Collobert R. Analysis of CNN-based speech recognition system using
raw speech as input. : Idiap, 2015.
75. Pan J. и др. Investigation of deep neural networks (DNN) for large vocabulary
continuous speech recognition: Why DNN surpasses GMMs in acoustic modeling //
2012 8th International Symposium on Chinese Spoken Language Processing. : IEEE,
2012. С. 301—305.
76. Pereltsvaig A. Languages of the World. : Cambridge University Press, 2020.
77. Povey D. и др. The Kaldi speech recognition toolkit. : IEEE Signal Processing
Society, 2011.
78. Rabiner L. R. A tutorial on hidden Markov models and selected applications in
speech recognition // Proc. IEEE. 1989. Т. 77. № 2. С. 257—286.
79. Rao K. и др. Grapheme-to-phoneme conversion using long short-term memory
recurrent neural networks // 2015 IEEE International Conference on Acoustics,
Speech and Signal Processing (ICASSP). : IEEE, 2015. С. 4225—4229.
80. Reddy и др. The Hearsay-I Speech Understanding System: An Example of the
Recognition Process // IEEE Trans. Comput. 1976. Т. C—25. № 4. С. 422—431.
81. Schlippe T. и др. Automatic error recovery for pronunciation dictionaries //
Thirteenth Annual Conference of the International Speech Communication
Association. , 2012.
82. Skrelin P. и др. CORPRES // Text, Speech and Dialogue Lecture Notes in
Computer Science. / под ред. P. Sojka и др. Berlin, Heidelberg: Springer, 2010. С.
392—399.
83. Sloboda T., Waibel A. Dictionary learning for spontaneous speech recognition //
Proceeding of Fourth International Conference on Spoken Language Processing.
ICSLP ’96. , 1996. С. 2328—2331 т.4.
84. Stone M. Cross-Validatory Choice and Assessment of Statistical Predictions // J.
R. Stat. Soc. Ser. B Methodol. 1974. Т. 36. № 2. С. 111—133.
85. Strik H., Cucchiarini C. Modeling pronunciation variation for ASR: A survey of
the literature // Speech Commun. 1999. Т. 29. № 2. С. 225—246.
86. Taylor P. Hidden Markov models for grapheme to phoneme conversion // Ninth
European Conference on Speech Communication and Technology. , 2005.
87. Vaswani A. и др. Attention is all you need // ArXiv Prepr. ArXiv170603762.
2017.
88. Vinyals O., Ravuri S. V., Povey D. Revisiting recurrent neural networks for robust
ASR // 2012 IEEE international conference on acoustics, speech and signal
processing (ICASSP). : IEEE, 2012. С. 4085—4088.
89. Vozila P. и др. Grapheme to phoneme conversion and dictionary verification
using graphonemes. , 2003.
90. Yolchuyeva S., Németh G., Gyires-Tóth B. Transformer based grapheme-to-
phoneme conversion // ArXiv Prepr. ArXiv200406338. 2020.
91. Zhang C., Woodland P. C. A general artificial neural network extension for
HTK // Sixteenth Annual Conference of the International Speech Communication
Association. , 2015.
Последние выполненные заказы
Хочешь уникальную работу?
Больше 3 000 экспертов уже готовы начать работу над твоим проектом!