Разработка и исследование субполосных методов и алгоритмов сегментации речевых сигналов
ВВЕДЕНИЕ 4
ГЛАВА 1 СОВРЕМЕННЫЕ МЕТОДЫ И АЛГОРИТМЫ СЕГМЕНТАЦИИ РЕЧЕВЫХ СИГНАЛОВ 10
1.1 Основные характеристики звуков русской речи 10
1.2 Исследование существующих алгоритмов селекции пауз 23
1.3 Исследование существующих алгоритмов сегментации речевых сигналов 28
1.4 Исследование существующих алгоритмов оценивания периода основного тона 37
1.5 Основные положения субполосного анализа сигналов 43
1.6 Задачи исследования 48
ГЛАВА 2 СУБПОЛОСНЫЕ МОДЕЛИ ОТРЕЗКОВ РЕЧЕВЫХ СИГНАЛОВ И СЕЛЕКЦИЯ ПАУЗ МЕЖДУ ЗВУКАМИ РЕЧИ 50
2.1 Вычислительные аспекты субполосного анализа отрезков РС 50
2.2 Распределение энергий по частотным интервалам отрезков РС, порождаемых разными звуками русской речи 57
2.3 Селекция пауз между звуками речи 77
2.4 Результаты и выводы главы 99
ГЛАВА 3 СЕГМЕНТАЦИЯ РЕЧЕВЫХ СИГНАЛОВ ПО ГРАНИЦАМ ЗВУКОВ РУССКОЙ РЕЧИ 100
3.1 Метод и алгоритм определения границ звуков русской речи 100
3.2 Селекция вокализованных звуков русской речи и оценка периода основного тона 121
3.3 Результаты и выводы главы 141
ГЛАВА 4 ПРОГРАММНАЯ РЕАЛИЗАЦИИ АЛГОРИТМОВ СЕГМЕНТАЦИИ РЕЧЕВЫХ СИГНАЛОВ 142
4.1 Описание структуры программной реализации алгоритмов сегментации РС 142
4.2 Интерфейс прототипа программной поддержки алгоритмов сегментации РС 145
4.3 Рекомендации по выбору параметров 148
4.4 Результаты и выводы главы 149
ЗАКЛЮЧЕНИЕ 151
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ 153
ПРИЛОЖЕНИЕ А 166
ПРИЛОЖЕНИЕ Б 172
ПРИЛОЖЕНИЕ В 173
ПРИЛОЖЕНИЕ Г 175
ПРИЛОЖЕНИЕ Д 177
ПРИЛОЖЕНИЕ Е 179
Актуальность диссертационного исследования. Устная речь является одной из наиболее естественных для человека форм информационного обмена. В соответствии с этим существенное внимание уделяется разработке методов автоматического анализа устной речи на компьютерах, одним из важнейших направлений развития которых является совершенствование человекомашинных интерфейсов. При этом обработке подвергаются речевые сигналы (РС), которые представляют собой результаты регистрации электромагнитных колебаний на выходе микрофонов, возбуждаемых акустическими воздействиями. В определенном смысле базовым этапом автоматического анализа устной речи служит сегментация РС на отрезки, которые порождены в разных условиях. Наибольший интерес представляет выделение участков, зарегистрированных при отсутствии звуков речи (селекция пауз, в том числе при сжатии речевых данных), определение границ участков, порождаемых разными звуками речи и определение среди последних отрезков, порождаемых вокализованными звуками (в задачах идентификации дикторов и оценки их психофизического состояния, распознавания речи и ее вокодерного синтеза с помощью липредеров и т.д).
Проблема анализа речевых сигналов рассматривалась в достаточно большом количестве работ зарубежных и российских авторов, среди которых можно отметить Л. Рабинера, Б. Голда, М.А. Сапожкова, О.И. Шелухина, А.В. Аграновского, В.Н. Сорокина, Р.В. Гудонавичюса, Ю.Н. Прохорова, В.Г. Санникова, М.В. Хитрова, Е.Г. Жилякова и других. В основе многих из разработанных подходов используются частотные представления, так как порождаемые звуками речи отрезки РС обладают свойством концентрации энергии в достаточно «узких» полосах частотной оси. В связи с этим можно упомянуть рассматриваемое в литературных источниках разбиение частотной полосы на так называемые критические полосы слуха, которые опосредованно отражаются на частотных свойствах РС. До определенной степени эквивалентным (с учетом равенства Парсеваля) инструментом обработки РС представляется корреляционный анализ, особенно в задачах распознавания речевых конструкций из созданных заранее словарей.
Вместе с тем можно отметить, что предлагаемые в настоящее время методы сегментации РС на основе анализа их частотно-корреляционных свойств либо не отражают свойства концентрации энергии, либо слишком чувствительны к изменениям энергии в паузах.
Таким образом, адекватным подходом к обработке РС является субполосный анализ, когда их свойства соотносятся с некоторым разбиением оси частот на интервалы конечной ширины. Причем, в виду зависимости частотного распределения энергий от вида произносимого звука, анализу необходимо подвергать отрезки РС конечной длительности. Отметим необходимость проведения специальных исследований специфики частотного распределения энергий отрезков РС, порождаемых русской устной речью.
В рамках данной работы в качестве основных субполосных характеристик рассматриваются:
,
,
где и – трансформанты (спектры) Фурье анализируемых отрезков вида
,
Vr – составной интервал оси частот
.
Соотношение определяет часть энергии, попадающую в заданный частотный интервал Vr, а – субполосную корреляцию спектров различных отрезков. В дальнейшем будет показано, что вычисление их точных значений можно осуществить непосредственно во временной области, не вычисляя спектров.
Вместе с тем следует отметить, что в настоящее время в качестве основного инструмента частотной обработки РС используется преобразование Фурье, преимущественно дискретное преобразование Фурье (ДПФ), что, по-видимому, обусловлено наличием алгоритма его быстрого вычисления (алгоритма БПФ). Важно иметь в виду, что ДПФ является вариантом разложения сигналов по ортонормированному базису специального вида и не позволяет в полной мере описать распределение энергий отрезков РС по частотным интервалам, то есть адекватно отразить их физическую сущность.
Использование ортогональных разложений по иным базисам, например, вейвлет-анализ, по тем же причинам нельзя признать адекватным подходом к описанию распределения энергий анализируемых отрезков по частотным интервалам.
Таким образом, разработка субполосных методов и алгоритмов сегментации речевых сигналов на основе адекватного анализа динамики изменений распределения энергий их отрезков по частотным интервалам является актуальной задачей.
Целью данной работы является совершенствование методов и алгоритмов компьютерного анализа русской устной речи на основе разработки субполосных методов сегментации РС на отрезки со значимыми различиями в распределениях энергий по частотным интервалам, которые обусловлены сменами звуков речи либо их отсутствием (наличием пауз).
Методы исследований. В работе использованы методы субполосного анализа/синтеза, статистического анализа, цифровой обработки речевых данных, линейной алгебры и вычислительных экспериментов.
Научную новизну работы составляет следующее:
1. Модели частотного распределения энергий порождаемых звуками русской устной речи отрезков РС с учетом их длительности.
2. Решающие функции для сопоставления распределений энергий различных отрезков речевых сигналов по частотным интервалам в задачах селекции пауз и определения границ между звуками в русской устной речи.
3. Субполосный нормированный коэффициент корреляции, позволяющий повысить обоснованность решений о величине периода основного тона в задачах селекции вокализованных звуков русской устной речи.
Практическая значимость работы определяется разработанными алгоритмами сегментации РС по границам звуков русской устной речи, применение которых позволяет усовершенствовать процедуры решения задач сжатия речевых данных, распознавания речи, её синтеза, идентификации дикторов, проведения психофизических исследований и т.д.
Полученные результаты используются в ООО «Матрица», что подтверждается соответствующим актом, а также в учебном процессе подготовки бакалавров и магистров факультета КНиТ ФГАОУ ВПО «Белгородский государственный национальный исследовательский университет».
Область исследования. Содержание диссертации соответствует паспорту специальности 05.13.17 «Теоретические основы информатики» (технические науки) по следующим областям исследований:
п.5. Разработка и исследование моделей и алгоритмов анализа данных, обнаружения закономерностей в данных и их извлечениях, разработка и исследование методов и алгоритмов анализа текста, устной речи и изображений.
п.6. Разработка методов, языков и моделей человекомашинного общения; разработка методов и моделей распознавания, понимания и синтеза речи, принципов и методов извлечения данных из текстов на естественном языке.
Связь с научными и инновационными программами. Диссертационное исследование выполнялось в рамках следующих федеральных проектов: ГК № П964 от 27 мая 2010г., ФЦП «Научные и научно-педагогические кадры инновационной России» на 2009-2013 годы; проект № 2.1.2/9382 АВЦП “Развитие научного потенциала высшей школы (2009-2010 годы)”; ГК № 10-07-00326а, РФФИ; программа УМНИК-2010, проект № 13990; программа УМНИК-2012, проект № 16945.
Положения, выносимые на защиту:
1. Субполосные методы сегментации РС по границам звуков русской устной речи, позволяющие усовершенствовать процедуры селекции пауз, определения границ звуков русской речи, селекции вокализованных звуков русской речи, включая оценивание периода основного тона.
2. Алгоритмы субполосной обработки отрезков речевых сигналов при их сегментации по границам звуков русской устной речи.
3. Результаты сравнительных вычислительных экспериментов, иллюстрирующих эффективность разработанных алгоритмов субполосной сегментации РС.
Достоверность выводов и рекомендаций обусловлена корректностью применяемых математических преобразований, отсутствием противоречий с известными фактами теории и практики обработки речевых сигналов, а также иллюстрируется результатами вычислительных экспериментов с реальными речевыми данными.
Личный вклад соискателя. Все изложенные в диссертации результаты исследования получены либо соискателем лично, либо при его непосредственном участии.
Апробация результатов диссертационного исследования.
Результаты диссертационного исследования обсуждались на следующих научно-технических конференциях: Международная молодежная конференция «Прикладная математика, управление и информатика», (г.Белгород, 2012); 13-ая, 12-ая Международная конференция и выставка «Цифровая обработка сигналов и её применение – DSPA» (г.Москва, 2011, 2010 гг.); XIX Международная научно-практическая конференция «Информационные технологии: наука, техника, технология, образование, здоровье» (г.Харьков, 2011); II Международная научно-практическая конференция «Информационные технологии и компьютерная инженерия» (г.Харьков, 2011); Вторая Международная научно-техническая конференция, «Компьютерные науки и технологии» (г.Белгород, 2011); XXIII Международная научная конференция «Математические методы в технике и технологиях-ММТТ-23» (г.Саратов, 2010); Вторая Международная научно-практическая Интернет-конференция Белгородского филиала НАЧОУВПОСГА (г.Белгород, 2010); Всероссийская научная конференция с элементами научной школы для молодежи «Параллельная компьютерная алгебра» (г.Ставрополь, 2010); Всероссийская молодежная конференция «Теория и практика системного анализа» (г.Белгород, 2012).
Публикации. По теме диссертационного исследования опубликовано 24 печатные работы (из них 8 в журналах из списка ВАК РФ), в том числе 2 Свидетельства Роспатента РФ о государственной регистрации программ для ЭВМ.
Объем и структура работы. Диссертация состоит из Введения, четырех глав, Заключения и Приложений. Работа изложена на 165 страницах машинописного текста, включая 86 рисунков, 10 таблиц и список литературных источников из 110 наименований.
1. Аграновский, А.В. Теоретические аспекты алгоритмов обработки и классификации речевых сигналов [Текст]/ А.В. Аграновский, Д.А. Леднов – М.: Радио и связь, 2004. – 164 с.
2. Алдошина, И.А. Основы психоакустики. Слух и речь. Часть 2 [Текст] / И.А. Алдошина // Информационно-технический журнал «Звукорежиссер». – 2002. – №3. – С.54-58.
3. Алдошина, И.А. Основы психоакустики. Слух и речь. Часть 3 [Текст] / И.А. Алдошина // Информационно-технический журнал «Звукорежиссер». – 2002. – №4. – С.38-44.
4. Алдошина, И.А. Основы психоакустики. Слух и речь. Часть 4 [Текст] / И.А. Алдошина // Информационно-технический журнал «Звукорежиссер». – 2002. – №5. – С.44-50.
5. Алдошина, И.А. Основы психоакустики. Слух и речь. Часть1 [Текст] / И.А. Алдошина // Информационно-технический журнал «Звукорежиссер». – 2002. – №1. – С.38-44.
6. Алдошина, И.А. Слуховые модели восприятия линейных и нелинейных искажений в музыке и речи. Часть1 [Текст] / И.А. Алдошина // Информационно-технический журнал «Звукорежиссер». – 2006. – №3. – С.38-44.
7. Бабкин, В.В. Помехоустойчивый выделитель основного тона речи [Текст] /В.В. Бабкин// Труды 7-й Международной Конференции и Выставки Цифровая Обработка Сигналов и ее Применение (DSPA-2005) – Москва, 2005. – С.175-178.
8. Бабкина Л.Н., Молчанов А.П. «Способ адаптивной фильтрации речевых сигналов в слуховых аппаратах», патент RU -2047946 от 10.11.95
9. Бабкина, Л.Н. Особенности отображения частотной структуры сигналов в периферическом отделе слухового анализатора в норме и патологии [Текст]/ Л.Н. Бабкина, А.П. Молчанов // Вестник оториноларингологии. – 2000. – N3. – С.28-30
10. Баронин, С.П. Спектральный анализ и проблема сокращенного описания речевых сигналов [Текст] – В кн.: Спектральный анализ звуков речи и интонации звуков речи и интонации. М. 1969, с. 13-30.
11. Баронин, С.П. Автокорреляционный метод выделения основного тона речи. Пятьдесят лет спустя [Текст] /С.П. Баронин// Речевые технологии, 2/2008. – 2008. – С.3-12.
12. Бахвалов, Н.С. Численные методы [Текст] / Н.С. Бахвалов, Н.П. Жидков, Г.М, Кобельников. – 3-е изд., перераб. – М.: БИНОМ. Лаборатория знаний, 2003. -.632 с.
13. Белов, А.С. Исследования алгоритма обнаружения пауз в речевых сообщениях [Текст]/ А.С. Белов// Научные ведомости БелГУ, серия «Информатика и прикладная математика». – Белгород. – 2007. – Вып. 7(38). – С.214-221
14. Белов, А.С. Новый алгоритм обработки звуковых сигналов для обнаружения пауз [Текст]/ А.С. Белов// Труды учебных заведений связи. – СПб. – 2007. – №176. – С.163-170.
15. Белов, С.П. О различиях частотных свойств информационных и неинформационных звуковых сигналов речевого диапазона [Текст] / С.П. Белов, А.С. Белов // журнал «Научные ведомости БелГУ» Серия: Информатика. – Белгород. – 2008. – Вып. 7(38). – С.214-221.
16. Белошапкова, В.А. Современный русский язык: Учеб. для филол. спец. ун-тов [Текст]/ В.А. Белошапкова, Е.А. Брызгунова, Е.А. Земская под ред. В.А. Белошапковой – М.: Высш. шк., 1989. – 800 с.
17. Буланин, Л.Л. Фонетика современного русского языка [Текст]. – М.: «Высшая школа», 1970. – 206 с.
18. Васильев, Е.М. Система распознавания фонетических образов на основе нейросетевой модели восприятия речи [Текст] /Е.М. Васильев, В.В. Меренков// Вестник Воронежского государственного технического университета. – 2009. – Т.5. № 10. – С.130-134.
19. Винцюк, Т.К., Анализ, распознавание и интерпретация речевых сигналов [Текст]/ Винцюк Т.К. – Киев: Наук.думка, 1987. – 264с.
20. Воеводин, В.В. Матрицы и вычисления [Текст] / В.В. Воеводин, Ю.А. Кузнецов. – М.: Наука, 1984. – 318 с.
21. Гантмахер, Ф.Р. Теория матриц [Текст] / Ф.Р. Гантмахер. – М.: Физматлит, 2004. – 560с.
22. Герасимов, А.В. Применение метода модифицированного линейного предсказания к задачам выделения акустических признаков речевых сигналов [Текст] / А.В.Герасимов, О.А. Морозов, В.Р. Фидельман // Радиотехника и Электроника. – 2005. – том 50. №10. – С. 1287-1292.
23. Гольдштейн, B.C. IP-Телефония [Текст] / B.C. Гольдштейн, А.В. Пинчук, А.Л.Суховицкий. – М.: Радио и связь, 2001. – 336с.: ил.
24. Гребнов, С.В. Аналитический обзор методов распознавания речи в системах голосового управления [Текст]/ С.В. Гребнов // Вестник ИГЭУ. – 2009. – Вып.3. – С.83-85.
25. Губочкин, И.В. Разработка алгоритмов анализа и распознавания речи на основе адаптивной кластерной модели и критерия минимального информационного рассогласования [Текст]: автореф. дис. канд. техн наук / И.В. Губочкин – Нижний Новгород: НГЛУ, 2011. – 22с.
26. Гудонавичюс, Р.В. Распознавание речевых сигналов по их структурным свойствам [Текст]/Р.В. Гудонавичюс, П.П. Кемешис, А.Б. Читавичюс – Л.: «Энергия», 1977. – 64 с.
27. Деркач, М.Ф. Динамические спектры речевых сигналов [Текст]/ М.Ф. Деркач, Р.Я. Гумецкий, Б.М. Гура, М.Е. Чабан – Львов: Виша школа. Изд-во при Львов. ун-те, 1983. – 168 с.
28. Дорохин, О.А. Сегментация речевого сигнала [Текст] / О.А. Дорохин, Д.Г. Старушко, Е.Е. Федоров, В.Ю. Шелепов // Институт проблем искусственного интеллекта. – 2000. – 3/2000. – С.450-458.
29. Жиляков, Е.Г. Алгоритмы обнаружения основного тона речевых сигналов [Текст]/ Е.Г. Жиляков, А.А. Фирсова, Н.А. Чеканов // Научные ведомости Белгородского государственного университета. Сер. История. Политология. Экономика. Информатика. – 2012. – №1(120), выпуск 21/1. – С.135-143.
30. Жиляков, Е.Г. Об одном подходе к обнаружению пауз в речевых сообщениях [Текст] / Е.Г. Жиляков, А.С. Белов // Материалы 8-ой международной научно-технической конференции УГАТУ «Проблемы техники и технологии телекоммуникаций. – Уфа. – 2007. – С.73-74.
31. Жиляков, Е.Г. Сегментация речевых сигналов на основе анализа распределения энергии по частотным интервалам [Текст]/ Е.Г. Жиляков, Е.И. Прохоренко, А.В. Болдышев, А.А. Фирсова, М.В. Фатова // Научные ведомости Белгородского государственного университета. Сер. История. Политология. Экономика. Информатика. – 2011. – № 7 (102), выпуск 18/1. – С.187-196.
32. Жиляков, Е.Г. Уменьшение объема битового представления речевых данных на основе нового метода удаления пауз [Текст] / Е.Г. Жиляков, С.П.Белов, Е.И. Прохоренко // Вопросы радиоэлектроники. Сер. «Электронная вычислительная техника (ЭВТ)». – 2007. – вып. 2. – С.124-139.
33. Жиляков, Е.Г. Вариационные методы анализа и построения функций по эмпирическим данным: моногр. [Текст] / Е.Г. Жиляков. – Белгород: Изд-во БелГУ, 2007. – 160 с.
34. Жиляков, Е.Г. Исследование алгоритмов определения частоты основного тона речевых сигналов [Текст] / Е.Г. Жиляков, А.А. Фирсова // Сборник трудов Международной молодежной конференции «Прикладная математика, управление и информатика». – Белгород. – 2012. – т1. – С.371-375.
35. Жиляков, Е.Г. Исследование решающих функций при сегментации речевых сигналов для различных звуков русской речи [Текст] / Е.Г. Жиляков, А.А. Фирсова, Д.К. Секисов // Сборник трудов Второй Международной научно-технической конференции «Компьютерные науки и технологии». – Белгород. 2011. – С.579-584.
36. Жиляков, Е.Г. Компьютерная сегментация речевых сигналов [Текст] / Е.Г. Жиляков, Е.И. Прохоренко, А.А. Фирсова, Д.К. Секисов// Журнал «Вопросы радиоэлектроники». Сер. «Электронная вычислительная техника». – 2012.– Вып. 1. – С.48-54.
37. Жиляков, Е.Г. Метод обнаружения пауз в речевых сигналах [Текст] / Е.Г. Жиляков, С.П. Белов, Е.И. Прохоренко // Системы синхронизации, формирования и обработки сигналов для связи и вещания. Материалы научно-технического семинара Российского научно-технического общества радиоэлектроники и связи имени А.С. Попова. – Белгород. – 2006. – С. 94-98
38. Жиляков, Е.Г. Методы обработки речевых данных в информационно-телекоммуникационных системах на основе частотных представлений [Текст]/ Е.Г. Жиляков, С.П. Белов, Е.И. Прохоренко. – Белгород: Изд-во БелГУ, 2007. – 136 с.
39. Жиляков, Е.Г. Модели распределения энергии звуков русской речи на основе частотных представлений [Текст] / Е.Г. Жиляков, А.В. Болдышев, А.А. Фирсова// XXIII Международной научной конференции МАТЕМАТИЧЕСКИЕ МЕТОДЫ В ТЕХНИКЕ И ТЕХНОЛОГИЯХ – Саратов. – 2010. – С.236-239.
40. Жиляков, Е.Г. О кодировании пауз в речевых сигналах [Текст] / Е.Г. Жиляков, С.П.Белов, Е.И. Прохоренко // Материалы Шестой Международной научно-технической конференции «Проблемы техники и технологии телекоммуникаций». –Уфа. – 2005. – С.73-74.
41. Жиляков, Е.Г. О сжатии речевых сигналов [Текст] / Е.Г. Жиляков, С.П. Белов, Е.И.Прохоренко // Вестник Национального технического университета «ХПИ». – 2005. – вып.56. – С.32-41.
42. Жиляков, Е.Г. О субполосном кодировании сигнала [Текст] / Е.Г. Жиляков, И.Г.Попов, И.И. Чижов // Вестник национального технического университета «ХПИ». – 2004. – № 46. – С.
43. Жиляков, Е.Г. О субполосном преобразовании звуковых сигналов [Текст] / Е.Г.Жиляков, С.П. Белов, Е.И. Прохоренко // Труды Российского научно-технического общества радиотехники, электроники и связи имени А.С.Попова. – Москва. – 2006. – Выпуск VIII-1. – С. 167-169.
44. Жиляков, Е.Г. Об использовании особенностей распределения энергии звуков русской речи [Текст] / Е.Г. Жиляков, А.В. Болдышев, А.А. Фирсова // Сборник научных трудов «Инновационные подходы к применению информационных технологий в профессиональной деятельности» по материалам второй Международной научно-практической Интернет-конференции Белгородского филиала НАЧОУВПОСГА. –Белгород. – 2010. – С.323-326.
45. Жиляков, Е.Г. Об эффективности различных подходов к сегментации речевых сигналов на основе обнаружения пауз [Текст] / Е.Г. Жиляков, С.П. Белов, А.С. Белов, А.А. Фирсова, А.В. Глушак // Научные ведомости Белгородского государственного университета. Сер. История. Политология. Экономика. Информатика. – 2010. – №7(78), вып. 14/1. – С.187-193.
46. Жиляков, Е.Г. Обзор существующих методов сегментации речевых сигналов [Текст] / Е.Г. Жиляков, С.П. Белов, А.А. Фирсова// Тезисы II Международной научно-практической конференции «Информационные технологии и компьютерная инженерия». – Харьков. – 2011. – С.129-130.
47. Жиляков, Е.Г. Обнаружение звуков речи на фоне шумов [Текст]/ Е.Г. Жиляков, С.П. Белов // Научные ведомости Белгородского государственного университета. Сер. История. Политология. Экономика. Информатика. – 2012. – №7(126) Выпуск 22/1. – С.182-189.
48. Жиляков, Е.Г. Частотный анализ речевых сигналов [Текст] / Е.Г. Жиляков, Е.И.Прохоренко // Научные ведомости Белгородского государственного университета. Сер. Информатика и прикладная математика – 2006. – №2(31), выпуск 3. – С.201-208.
49. Жуйков, В.Я. Алгоритм автоматической классификации сегментов речи на основе автокорреляционных и энергетических характеристик [Текст] / В.Я. Жуйков, Н.Н. Кузнецов, А.Н. Харченко // Электроника и связь 5’ Тематический выпуск «Электроника и нанотехнологии» – 2010 – С.83-89.
50. Засыпкин, А.В. О дикторонезависимой системе голосового телефонного номеронабирателя [Текст] / А.В. Засыпкин, А.Т. Мицевич, М.В. Овецкий, В.Ю. Шелепов// Труды международной конференции “Знание-Диалог-Решение”. – Ялта. – 1995. – С.427-430.
51. Каганов, А.Ш. Криминалистическая экспертиза звукозаписей. – М.: “Юрлитинформ”, 2005. – 272с.
52. Калинцев, Ю.К. Разборчивость речи в цифровых вокодерах [Текст]. – М.: «Радио и связь», 1991. – 220 с.
53. Ковалев, В.П. Современный русский литературный язык, Часть 1 [Текст]/В.П. Ковалев, Л.И. Минина – М.: «Просвещение», 1979. – С.304.
54. Коваль, С.Л. Идентификация дикторов на основе сравнения статистик основного тона голоса [Текст] / С.Л. Коваль, П.В. Лабутин, Е.В. Малая, Е.А. Прощина // Сб. трудов XV международной научной конференции «Информатизация и информационная безопасность правоохранительных органов». – Москва. –2006. – С.324-327.
55. Коваль С.Л., Лабутин П.В., Раев А.Н. Патент РФ 2230375 от 10.06.2004 «Метод распознавания диктора и устройство для его осуществления».
56. Колерс, П.А. Распознавание образов. Исследование живых и автоматических распознающих систем [Текст]/ П.А. Колерс, Е.Д. Мюрей, пер. Л.И. Титомира – М.: «Мир», 1970. – 288 с.
57. Коротаев, Г.А. Системы анализа и синтеза речевого сигнала с линейным предсказанием [Текст] / Г.А. Коротаев // Зарубежная радиоэлектроника. – 1976. – № 10. – С.3-14.
58. Коротаев, Г.А. Некоторые аспекты линейного предсказания при анализе речевого сигнала [Текст] / Г.А. Коротаев // Зарубежная радиоэлектроника. – 1991. – № 7. – С.13-31.
59. Лабутин, В. К. Модели механизмов слуха [Текст] / В.К. Лабутин, А. П. Молчанов. – М.: Энергия, 1973. – 200 с.
60. Ле, Н.В. Распознавание речи на основе искусственных нейронных сетей [Текст] / Н.В. Ле, Д.П. Панченко // Технические науки в России и за рубежом: материалы междунар. заоч. науч. конф.– Москва. – 2011. – С.8-11.
61. Леонович, А.А. Современные технологии распознавания речи [Текст] /А.А. Леонович // Материалы конференции «Диалог: Компьютерная лингвистика и интеллектуальные технологии». – Звенигород. – 2005.
62. Ли, У.А. Методы автоматического распознавания речи. [Текст] В 2-х книгах. Кн.1. / Пер. с англ./Под ред. У.Ли. – М.; Мир, 1983. –328 с.
63. Ли, У.А., Методы автоматического распознавания речи. [Текст] В 2-х книгах. Кн.2. /Пер. с англ. Под ред. У.Ли. – М.; Мир, 1983. – 392 с.
64. Лузин, Д.А. Разработка и исследование системы автоматического выделения основного тона речи [Текст]: автореф. дис. канд. техн. наук /Д.А. Лузин. – Ижевск, 2009. – 26с.
65. Мазуренко, И.Л. Компьютерные системы распознавания речи [Текст] / И.Л. Мазуренко // Интеллектуальные системы. – Москва. – 1998. – т.3. вып. 1-2. – С.117-134.
66. Мазуренко, И.Л. Одна модель распознавания речи [Текст] / И.Л. Мазуренко // Компьютерные аспекты в научных исследованиях и учебном процессе. –Москва – 1996 – С.107-112.
67. Маркел, Дж.Д. Линейное предсказание речи [Текст] /Дж.Д. Маркел, А.Х. Грэй. Пер. с англ. Под ред. Ю.Н. Прохорова – М.: Связь, 1980.– 308с.
68. Матвеев, Ю.Н. Система идентификации дикторов по голосу для конкурса NIST SRE 2010/ Ю.Н. Матвеев, К.К. Симончик // 20я Международная Конференция по Компьютерной Графике и Зрению. – Санкт-Петербург. – 2010. – С.35-39.
69. Ниценко, А.В. Алгоритмы пофонемного распознавания слов наперед заданного словаря [Текст] / А.В. Ниценко, В.Ю. Шелепов // Искусственный интеллект. – 2004. – С.633-639.
70. Новиков, Л.А. Современный русский язык [Текст] / Л.А. Новиков, Л.Г. Зубкова, В.В. Иванов и др. под общей ред. Л.А. Новикова – СПб.: «Лань», 1999. – 865 с.
71. Питмен, Э. Основы теории статистических выводов [Текст] /Э. Питмен // Пер. с англ. – М.: Мир, 1986. – 104с.
72. Прохоров, Ю.Н. Рекуррентное оценивание параметров речевых сигналов [Текст] / Ю.Н. Прохоров – М.: Наука, 1977. – С.67-80.
73. Рабинер, Л. Теория и применение цифровой обработки сигналов /Л.Рабинер, Б.Гоулд – М.: Мир, 1978. – 848с.
74. Рабинер, Л.Р. Цифровая обработка речевых сигналов [Текст]/ Л.Р. Рабинер, Р.Ф. Шафер – М.: Радио и связь, 1981. – 496 с.
75. Савченко, В.В. Различение случайных сигналов в частотной области [Текст] /В.В. Савченко // Радиотехника и электроника. – 1997. – Т.42, №4. – С.426-429.
76. Сапожков, М.А. Вокодерная связь [Текст]/ М.А. Сапожков, В.Г. Михайлов – М.: «Радио и связь», 1983. – 248 с.
77. Сорокин, В.Н. Артикуляторно-ориентированная система распознавания речи [текст] / В.Н. Сорокин, А.Н. Ижнин, А.И. Цыплихин, Д.Н. Чепелев // Труды Международного семинара «Диалог – 2003». – 2003. С.657-662.
78. Сорокин, В.Н. Модель многослойного первичного анализа речевых сигналов [Текст] / В.Н. Сорокин // Труды 13-й сессии Российского акустического общества. – 2003. – С.11-16.
79. Сорокин, В.Н. Первичный анализ речевых сигналов [Текст] / В.Н. Сорокин, Д.Н. Чепелев // Акустический ж. – 2005. – Т.51, №4. – С.536-542.
80. Сорокин, В.Н. Сегментация и распознавание гласных [Текст] / В.Н. Сорокин, А.И. Цыплихин // Информационные процессы. – 2004. – Т.4, №2. – С. 202-220.
81. Сорокин, В.Н. Сегментация речи на кардинальные элементы [Текст] / В.Н. Сорокин, А.И. Цыплихин // Информационные процессы. – 2006. – Т.6, №3. – С.177-207.
82. Сорокин, В.Н. Синтез речи [Текст] / В.Н.Сорокин. – М.: Наука, 1992. – 392 с.
83. Сорокин, В.Н. Теория речеобразования [Текст] / В.Н. Сорокин – М.: Радио и связь, 1985. – 312 с.
84. Фант, Г. Акустическая теория речеобразования [Текст] / Г. Фант – М.:Наука, 1964. – 304 c.
85. Фирсова, А.А. Исследование решающей функции максимальной чувствительности к изменению частей энергии в частотных интервалах [Текст] / С.П. Белов, А.А. Фирсова // Научные ведомости Белгородского государственного университета. Сер. История. Политология. Экономика. Информатика. – 2012. – №13(132), выпуск 23/1. – С.227-231.
86. Фирсова, А.А. К вопросу эффективности обнаружения пауз в речевых сигналах на основе применения технологии VAD [Текст] / А.А. Фирсова // Всероссийская научная конференция с элементами научной школы для молодежи «Параллельная компьютерная алгебра». – Ставрополь. – 2010. – т.4. – С.332-336.
87. Фирсова, А.А. Компьютерное моделирование алгоритмов обнаружения пауз в IP-телефонии [Текст] / Н.А. Чеканов, А.А. Фирсова // Журнал «Вопросы радиоэлектроники». Сер. «Электронная вычислительная техника» (ЭВТ). – 2011г. – С.72-82.
88. Фирсова, А.А. О возможности использования особенностей распределения энергии по частотным диапазонам в задачах сегментации речевых сигналов [Текст] /А.А. Фирсова, М.В. Фатова // Материалы 13-ой Международной конференции и выставки «ЦИФРОВАЯ ОБРАБОТКА СИГНАЛОВ и ЕЁ ПРИМЕНЕНИЕ-DSPA’2011». Москва. – 2011. – С.255-258.
89. Фирсова, А.А. О различии концентрации энергии по частотным диапазонам на отрезках сигналов, соответствующих шипящим звукам русской речи и шумам [Текст] / А.С. Белов, А.В. Курлов, А.А. Фирсова // Научные ведомости Белгородского государственного университета. Сер. История. Политология. Экономика. Информатика. – 2011. – №13(108), выпуск 19/1. – С.186-191.
90. Фирсова, А.А. О различиях распределения энергии звуков русской речи и шума [Текст] / А.В. Болдышев, А.А. Фирсова// Материалы 12-ой Международной конференции и выставке «ЦИФРОВАЯ ОБРАБОТКА СИГНАЛОВ и ЕЁ ПРИМЕНЕНИЕ-DSPA’2010». – Москва. – 2010. – С.204-207.
91. Фирсова, А.А. Разработка информационной технологии кодирования пауз в речевых сообщениях при IP-телефонии [Текст] / А.А. Фирсова // Сборник докладов III Международной научно-практической конференции «Научно-техническое творчество молодежи – путь к обществу, основанному на знаниях». – Москва. – 2011. – С.247-249.
92. Фланаган, Дж. Л. Анализ, синтез и восприятие речи [Текст]/ пер.с англ. А.А. Пирогова. – М.:Связь, 1968. – 397с.
93. Чистович, Л.А. Физиология речи. Восприятие речи человеком [Текст] /Л.А. Чистович, А.И. Венцов, М.П. Гранстрем и др. – М.: Наука, 1976. – 388 с.
94. Шанский, Н.М. Современный русский язык: Учеб. для пед. ун-тов [Текст]/ Н.М. Шанский, В.В. Иванов – М.: «Просвещение», 1987. – 192 с.
95. Шелепов, В.Ю. Амплитудная сегментация речевого сигнала, использующая фильтрацию и известный фонетический состав [Текст]/ В.Ю. Шелепов, А.В. Ниценко // Искусственный интеллект. – 2003. – №3. – С.421-426.
96. Шелепов, В.Ю. К проблеме пофонемного распознавания [Текст] / В.Ю. Шелепов, А.В. Ниценко // Искусственный интеллект. – 2005. – №4. – С.662-668.
97. Шелухин, О.И. Цифровая обработка и передача речи [Текст] / О.И. Шелухин, Н.Ф.Лукьянцев; под ред. О.И. Шелухина. – М.: Радио и связь, 2000. – 456с.
98. Atal S. Speech Analysis and Synthesis by Linear Prediction of the Speech Wave [Текст] / S. Atal, S. L. Hanauer – New York, 1971.
99. Bridle J. An efficient elastic template method for detecting given words in running speech/ J. Bridle – British Acoustical Society Meeting, Apr. – 1973.
100. Couvreur Chr. Hidden Markov Models and Their Mixtures / Chr. Couvreur – DEA Thesis, Department of Mathematics, Catholic University of Louvain. – 1996.
101. Hazen T. Recognition confidence scoring and its use in speech understanding systems/ T.Hazen – Computer Speech and Language. – 2002.
102. Higgins A. Keyword recognition using template concatenation. Acoustics, Speech, and Signal Processing/ A. Higgins – IEEE International Conference on ICASSP, 1985.
103. Jim Kaiser. On a simple algorithm to calculate the ‘energy’ of a signal// IEEE ICASSP 1990, pp 381-384
104. Portnov, M.R. A Quasi-One-Dimensional Digital Simulation for the Time-Varying Vocal Tract, M.S. Thesis, Dept. of Elect. Engr., MIT, Cambridge, Mass., June 1973.
105. Rabiner L. R. A tutorial on Hidden Markov Models and selected applications in speech recognition/ L. R. Rabiner. – Proceedings of the IEEE. – 1989.
106. Rebecca Fiebrink. An Exploration of then Teager Operator// MUMT 605, 2004.
107. Reynolds D. Experimental evaluation of features for robust speaker identification. – IEEE Trans. On Speech and Audio Processing, 1994, vol. 2, №4, p.p. 639-643.
108. Rosenberg E. Effect of Glottal Pulse Shape on the Quality of Natural Vowels [Текст] / E. Rosenberg. – New York, 1971.
109. Rosti I. Linear gaussian models for speech recognition / I. Rosti. – PhD thesis, University of Cambridge. – 2004.
110. Winham G. Input Generators for Digital Sound Synthesis [Текст] / G. Winham, K. Steiglitz – New York, 1970.
Помогаем с подготовкой сопроводительных документов
Хочешь уникальную работу?
Больше 3 000 экспертов уже готовы начать работу над твоим проектом!