Агрессия на регрессию

Доброго времени суток всем читателям блога!

«Не умножай сущности без необходимости» -так кратко выразил свой принцип Уильям Оккам — английский философ-схоласт, логик и церковно-политический писатель (ок 1285—1349)WilliamЭтот древний принцип поддержал английский физик-теоретик, один из создателей квантовой механики Поль Дирак: «При описании результатов экспериментов у теории с красивой математикой больше шансов на успех, чем у безобразной»

 

Сегодня наш разговор посвящен одной из ветвей математики — статистике вывода. В основе статистики вывода лежит теория вероятностей

Предметом её являются выборки, т.е. части полных совокупностей данных, называемых генеральными совокупностями. В настоящее время статистические методы применяются в самых разнообразных сферах: бизнесе, бухгалтерском учете, финансовом деле, маркетинге, медицине…(перечислять можно долго).

На протяжении последнего столетия статистика играла важную роль в стимулировании развития информационных технологий. В свою очередь, первые компьютерные программы способствовали расширению сферы статистических приложений.

Естественно, по мере развития информационных технологий статистические методы становились все сложнее и сложнее. Для различных приложений требовались специальные программы, появились статистические пакеты, позволяющие автоматизировать рутинные вычисления и обработку данных.

Для простых пользователей, (к примеру, таким каким я был в управляющей энергетическом офисе),  вместо недоступных пакетов есть дешевая альтернатива: графические и статистические функции программы Microsoft Excel.

Привлекательные черты этой программы:

— отпадают затраты на дополнительное программное обеспечение;

— многие пользователи в той или иной степени знакомы с ней;

— программа проста;

— графические и статистические функции программы Microsoft Excel оперируют с теми же рабочими листами, которые пользователи применяют для хранения данных;

— по отзывам пользователей статистических пакетов некоторые графические функции Excel создают более ясное визуальное представление данных.

Но у программы есть и недостаток — она не предотвращает ошибок. Используя программу Excel для статистического анализа надо не только делать правильный выбор метода, но и хорошо знать условия его применения.

Ещё по теме:   Решения головоломок Я. Перельмана

Знать ограничения, которые на нее налагаются, — одного заучивания комбинаций клавиш и команд меню явно недостаточно. Программа ничего не стоит, если пользователь не знает статистики.

Чтоб не быть голословным приведу один пример из прочитанной мной диссертации, касающейся медицинской тематики.

Автор определяет набор объясняющих переменных, который позволил бы построить адекватную и точную модель без необходимости учитывать все переменные.

 Речь идет о регрессии — регрессией называется зависимость среднего значения одной случайной величины от некоторой другой (или от нескольких случайных величин),

а регрессионным анализом — раздел математической статистики, объединяющий прикладные методы исследования регрессионных зависимостей. Регрессионный анализ приобрел большую популярность в связи с распространением ЭВМ.

В работе используется способ пошаговой регрессии (stepwise regression), с помощью которой можно определить наилучшую регрессионную модель без перебора всех регрессионных моделей:

 «Для выявления зависимости АД (артериального давления) от социально – бытовых условий жизни работниц применен более чувствительный метод  исследования – множественная регрессия с использованием процедуры stepwise regression.

Независимые переменные были следующие:

1 – семейное положение – С.

2 – Образование – ОБ.

3 – Дополнительная или сверхурочная работа – ДОП.

4 – Работа в ночную смену – НС.

5 – Обучение заочно или вечерне – ОЗ.

6 – Средний доход на одного члена семьи – СД.

7 – Жилищные условия – ЖУ.

Если же за зависимую переменную принять САД, то уравнение множественной линейной регрессии примет следующий вид: САД = 140,833 + 0,880*С – 5,220*ОБ – 5,625*ДОП + 2,321*НС – 8,020*ОЗ + 1,655*СД + 2,036*ЖУ.

Число прочитанных реализаций – 1961, множественный R – квадрат – 0,0942.

При зависимой переменной ДАД уравнение выглядит так:

ДАД = 90,705 + 0,577*С -2,761*ОБ – 2,230*ДОП + 1,732*НС – 5,142*ОЗ + 1,251*ЖУ (множественный R – квадрат – 0,0793)»…

Ещё по теме:   Глупый защитник

Прочитав этот кусочек работы , у меня в голове и родилась ассоциация, выразившаяся в заголовке этой заметки.

Регрессивный анализ используют в тех случаях, когда не только зависимая переменная является количественной, непрерывной, но и независимые переменные, называемые предикторами (предсказателями), также являются количественными, непрерывными.

В данном случае зависимые переменные САД и ДАД отвечают этому требованию, тогда как независимые признаки являются дискретными признаками. Поэтому приведенные в диссертации уравнения регрессии не имеют смысла.

Как говорится: а ля селяви — финита, — дальше диссертацию можно не читать.

Построение моделей является синтезом искусства и науки. Грубой агрессией на регрессию можно легко попасть в ловушку и уж никак не улучшить тем самым неблагоприятную в нашей стране статистику смертности от повышенного артериального давления.



Понравилась статья? Поделиться с друзьями:
Добавить комментарий

*

code

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: