Бутстреп (размножение выборок)

Другое из упомянутых выше направлений - бутстреп - связано с интенсивным использованием возможностей вычислительной техники. Основная идея состоит в том, чтобы теоретическое исследование заменить вычислительным экспериментом. Вместо описания выборки распределением из параметрического семейства строим большое число "похожих" выборок, т.е. "размножаем" выборку. Затем вместо оценивания характеристик и параметров и проверки гипотез на основе свойств теоретического распределения решаем эти задачи вычислительным методом, рассчитывая интересующие нас статистики по каждой из "похожих" выборок и анализируя полученные при этом распределения. Например, вместо того, чтобы теоретическим путем находить распределение статистики, доверительные интервалы и другие характеристики, моделируют много выборок, похожих на исходную, рассчитывают соответствующие значения интересующей исследователя статистики и изучают их эмпирическое распределение. Квантили этого распределения задают доверительные интервалы, и т.д.

Термин "бутстреп" мгновенно получил известность после первой же статьи Б.Эфрона 1979 г. [39] по этой тематике. Он сразу же стал обсуждаться в массе публикаций, в том числе и научно-популярных [40]. В "Заводской лаборатории" была помещена подборка статей по бутстрепу [41], выпущен сборник статей Б.Эфрона [42]. Основная идея бутстрепа по Б.Эфрону состоит в том, что методом Монте-Карло (статистических испытаний) многократно извлекаются выборки из эмпирического распределения. Эти выборки, естественно, являются вариантами исходной, напоминают ее.

Сама по себе идея "размножения выборок" была известна гораздо раньше. Статья Б.Эфрона [39] называется так: "Бутстреп-методы: новый взгляд на метод складного ножа". Упомянутый "метод складного ножа" (jackknife) предложен М.Кенуем еще в 1949 г., за 30 лет до статьи Б.Эфрона. "Размножение выборок" при этом осуществляется путем исключения одного наблюдения. При этом для выборки объема n получаем n "похожих" на нее выборок объема (n - 1) каждая. Если же исключать по 2 наблюдения, то число "похожих" выборок возрастает до n (n - 1) / 2 объема (n - 2) каждая.

Преимущества и недостатки бутстрепа как статистического метода обсуждаются в [43]. Там же и в [18] приводится информация о ряде аналогичных методов. Необходимо подчеркнуть, что бутстреп по Эфрону [39-42] - лишь один из вариантов методов "размножения выборки" (resampling), и, на наш взгляд, не самый удачный. Метод "складного ножа" представляется более полезным. На его основе можно сформулировать следующую простую практическую рекомендацию.

Предположим, что Вы по выборке делаете какие-либо статистические выводы. Вы хотите узнать также, насколько эти выводы устойчивы. Если у Вас есть другие (контрольные) выборки, описывающие то же явление, то Вы можете применить к ним ту же статистическую процедуру и сравнить результаты. А если таких выборок нет? Тогда Вы можете их построить искусственно. Берете исходную выборку и исключаете один элемент. Получаете похожую выборку. Затем возвращаете этот элемент и исключаете другой. Получаете вторую похожую выборку. Поступив так со всеми элементами исходной выборки, получаете столько выборок, похожих на исходную, каков ее объем. Остается обработать их тем же способом, что и исходную, и изучить устойчивость получаемых выводов - разброс оценок параметров, частоты принятия или отклонения гипотез и т.д.

Можно изменять не выборку, а сами данные. Поскольку всегда имеются погрешности измерения, то реальные данные - это не числа, а интервалы (результат измерения плюс-минус погрешность). Нужна статистическая теория анализа таких данных.

Дополнительно

Эволюция биологических механизмов запасения энергии
В основу эволюционной концепции биоэнергетики положена гипотеза о том, что на заре становления жизни адениновая часть АДФ и АДФ-со-держащих коферментов использовалась в качестве антенны, улавливающей ультрафиолетовый свет, который в те времена достигал поверхности океана. Поглощение ультрафиолета ...

Эволюция и самоорганизация химических систем. Макромолекулы и зарождение органической жизни
Понятие самоорганизация означает упорядоченность существования материальных динамических, то есть качественно изменяющихся систем. Оно отражает особенности существования таких систем, которые сопровождаются их восхождением на все более высокие уровни сложности и системной упорядоченности или матер ...

Меню сайта