Статистика объектов нечисловой природы как часть прикладной статистики

Согласно классификации статистических методов, принятой в [55-56], прикладная статистика делится на следующие четыре области:

статистика (числовых) случайных величин,

многомерный статистический анализ,

статистика временных рядов и случайных процессов,

статистика объектов нечисловой природы.

Первые три из этих областей являются классическими. Остановимся на четвертой, только еще входящей в массовое сознание специалистов. Ее именуют также статистикой нечисловых данных или попросту нечисловой статистикой.

Исходный объект в математической статистике - это выборка. В вероятностной теории статистики выборка - это совокупность независимых одинаково распределенных случайных элементов. Какова природа этих элементов? В классической математической статистике (той, что обычно преподают студентам) элементы выборки - это числа. В многомерном статистическом анализе - вектора. А в нечисловой статистике элементы выборки - это объекты нечисловой природы, которые нельзя складывать и умножать на числа. Другими словами, объекты нечисловой природы лежат в пространствах, не имеющих векторной структуры.

Примерами объектов нечисловой природы являются (см. также обзоры [56-57]):

значения качественных признаков, т.е. результаты кодировки объектов с помощью заданного перечня категорий (градаций);

упорядочения (ранжировки) экспертами образцов продукции (при оценке ее технического уровня и конкурентоспособности)) или заявок на проведение научных работ (при проведении конкурсов на выделение грантов);

классификации, т.е. разбиения объектов на группы сходных между собой (кластеры);

толерантности, т.е. бинарные отношения, описывающие сходство объектов между собой, например, сходства тематики научных работ, оцениваемого экспертами с целью рационального формирования экспертных советов внутри определенной области науки;

результаты парных сравнений или контроля качества продукции по альтернативному признаку ("годен" - "брак"), т.е. последовательности из 0 и 1;

множества (обычные или нечеткие), например, зоны, пораженные коррозией, или перечни возможных причин аварии, составленные экспертами независимо друг от друга;

слова, предложения, тексты;

вектора, координаты которых - совокупность значений разнотипных признаков, например, результат составления статистического отчета о научно-технической деятельности (форма No.1-наука) или заполненная компьютеризированная история болезни, в которой часть признаков носит качественный характер, а часть - количественный;

ответы на вопросы экспертной, маркетинговой или социологической анкеты, часть из которых носит количественный характер (возможно, интервальный), часть сводится к выбору одной из нескольких подсказок, а часть представляет собой тексты; и т.д.

Интервальные данные (см. выше) тоже можно рассматривать как пример объектов нечисловой природы, а именно, как частный случай нечетких множеств.

С начала 70-х годов под влиянием запросов прикладных исследований в технических, медицинских и социально-экономических науках в России активно развивается статистика объектов нечисловой природы, известная также как статистика нечисловых данных или нечисловая статистика. В создании этой сравнительно новой области прикладной математической статистики приоритет принадлежит российским ученым.

Большую роль сыграл основанный в 1973 г. научный семинар "Экспертные оценки и анализ данных". В 60-е годы советское научное сообщество стало интересоваться методами экспертных оценок (об их истории и современном состоянии см. обзор [58]). Как следствие, началось знакомство с конкретными математизированными теориями, связанными с этими методами. Речь идет о репрезентативной теории измерений, ставшей известной в нашей стране по статье П.Суппеса и Дж.Зинеса в сборнике [59] и книге И.Пфанцагля [60], о теории нечеткости Л.А.Заде [61], теории парных сравнений, описанной в монографии Г.Дэвида [62]. К этому кругу идей примыкают теория случайных множеств (см., например, книгу Ж.Матерона [63]) и методы многомерного шкалирования (описаны в монографиях А.Ю.Терехиной [64] и В.Т.Перекреста [65]). Но наибольшее влияние оказали идеи Дж.Кемени, который аксиоматически ввел расстояние между ранжировками (теперь оно именуется в литературе расстоянием Кемени) и предложил использовать в качестве средней величины решение оптимизационной задачи (теперь - медиана Кемени). Его скромная книжка [66], написанная в соавторстве с Дж.Снеллом, породила большой поток исследований.

Перейти на страницу: 1 2 3 4

Дополнительно

Термоиндикаторы
Роль температурных и тепловых измерений настолько велика, что в настоящее время без них не может обойтись практически ни одна область знаний, ни одна отрасль промышленности. Каждый из существующих способов измерения температуры имеет свои достоинства и недостатки, поэтому выбор того или ин ...

Технология производства мяса гусей
Животноводство - вторая важнейшая отрасль сельского хозяйства. Она обеспечивает население высокобелковыми и диетическими продуктами питания, а ряд отраслей промыш­ленности - сырьем. Особенность ее в том, что энергоемкость продукции животноводства (затраты энергии на одну кало­рию продукции) в 15-2 ...

Меню сайта