Методы и алгоритмы настройки проекционной оценки плотности вероятности случайного вектора в условиях малых выборок
Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
Глава 1. Обзор методов оценивания функции плотности вероятности . . . . . . . . 15
§ 1.1. Основные определения и обозначения . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
§ 1.2. Оценки проекционного типа . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
§ 1.3. Ядерные оценки . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
§ 1.4. Другие виды оценок . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
Выводы. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .35
Глава 2. Оптимизация проекционной оценки плотности вероятности . . . . . . . . 36
§ 2.1. Обоснование применимости проекционной оценки . . . . . . . . . . . . . . . . 36
§ 2.2. Методы настройки коэффициентов . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
§ 2.3. Методы настройки длины ряда . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
§ 2.4. Многомерный случай . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
Выводы. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .89
Глава 3. Применение оценок плотности вероятности . . . . . . . . . . . . . . . . . . . . . . . . . 91
§ 3.1. Оценивание функции регрессии. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .91
§ 3.2. Классификация . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
§ 3.3. Оценивание количества информации . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
Выводы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
Заключение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
Список литературы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
Актуальность темы и степень её разработанности. Разработка и
исследование моделей и алгоритмов анализа данных, обнаружения закономер-
ностей в данных в условиях неопределённости практически всегда предполагает
оценивание функции распределения либо плотности вероятности соответству-
ющих величин. В частности, задача оценивания плотности вероятности случай-
ного вектора возникает при разработке методов распознавания образов, филь-
трации, распознавания и синтеза изображений [61, 65].
Имеющиеся в настоящее время методы оценивания функции плотности
вероятности можно разделить на параметрические и непараметрические. Па-
раметрические методы используются в случае, когда известна структура зако-
на распределения с точностью до параметров, и задача сводится к построению
статистических оценок этих параметров, удовлетворяющих заданным условиям
(состоятельность, несмещённость и др.). К числу наиболее разработанных па-
раметрических методов относятся метод моментов, метод максимального прав-
доподобия, метод минимума 2 [46, 86]. Однако часто в практических задачах
возникают ситуации, когда структура закона распределения неизвестна, т.е. си-
туации непараметрической неопределённости [131]. При этом априорная ин-
формация о функции плотности вероятности ( ) носит более общий характер,
например, ( ) может предполагаться непрерывной на данном отрезке, имею-
щей -ю производную, имеющей суммируемый квадрат и т.п. Использование
параметрических методов при фактическом несовпадении структуры закона
распределения приводит к неудовлетворительным результатам. В этом случае
используются методы, получившие название непараметрических.
Исторически первой непараметрической оценкой функции плотности ве-
роятности является гистограмма, исследованная К. Пирсоном в 1895 г. Во вто-
рой половине 20-го века интерес к непараметрическим методам значительно
возрос, о чём свидетельствует ряд работ, посвящённых следующим оценкам:
полиграмма [131], оценка ближайших соседей [124], оценка Розенблатта – Пар-
зена [25, 20], проекционная оценка [144].
При использовании непараметрических методов представляет интерес ис-
следование сходимости получаемых оценок к истинной функции плотности ве-
роятности по заданной метрике, а также оценка скорости сходимости. В связи
с этим возникает задача оптимальной настройки оценок функции плотности
вероятности. Так, одной из первых формул для расчёта числа интервалов груп-
пирования одинаковой длины при построении гистограммы является формула
Стэрджеса [31]. В случае использования полиграммы или оценки ближай-
ших соседей подлежит настройке численный параметр, определяющий степень
сглаженности полученной оценки.
При использовании проекционной оценки плотности вероятности случай-
ного вектора x = ( 1 , . . . , ):
∑︁
^(x) = (x)
=0
В ходе выполнения диссертационной работы были получены следующие
результаты:
– показано, что весовое гильбертово пространство 2, (Ω) может быть
использовано для построения проекционной оценки любой функции плотности
вероятности (предл. 2.4);
– найден критерий на весовую функцию (x) для расширения простран-
ства 2 (Ω) до пространства 2, (Ω), которое содержит более широкое множе-
ство функций плотности вероятности (теорема 2.4);
– предложен способ построения весовой функции (x), при котором со-
ответствующее расширение 2, (Ω) пространства 2, содержит оцениваемую
функцию плотности вероятности (x) (формула (2.9));
– предложен новый метод настройки коэффициентов проекционной оцен-
ки функции плотности вероятности случайного вектора, являющийся обобще-
нием метода моментов (формула (2.13));
– доказано, что при определённых условиях частным случаем предло-
женного обобщения является традиционный метод оценивания коэффициентов
(теорема 2.5);
– предложен новый метод оценивания длины ряда проекционной оценки, в
которой коэффициенты настраиваются методом моментов или его обобщением
(формула (2.25));
– экспериментально установлено, что на малых выборках обобщение ме-
тода моментов позволяет повысить эффективность проекционной оценки (табл.
2.5, 2.8);
– экспериментально установлено, что для прикладных задач (восстановле-
ние функции регрессии, классификация, оценка количества информации) более
предпочтительной является оценка Розенблатта – Парзена.
Также было экспериментально установлено, что условиях малых выбо-
рок метод моментов является более предпочтительным при настройке проек-
ционной оценки. В тех случаях, когда нет возможности использовать ядерные
оценки (например, ограниченные вычислительные ресурсы), целесообразно ис-
пользовать проекционную оценку, так как она не содержит всю исследуемую
выборку и допускает лаконичное математическое выражение. При этом для
настройки длины ряда рекомендуется использовать предложенный подход.
Используемый метод сравнения алгоритмов восстановления плотности ве-
роятности и полученные численные результаты могут быть также использова-
ны при сравнении эффективности любых непараметрических оценок функции
плотности вероятности.
Помогаем с подготовкой сопроводительных документов
Хочешь уникальную работу?
Больше 3 000 экспертов уже готовы начать работу над твоим проектом!