Заполнение пропусков


При проведении исследований, часто, по разным причинам можно наблюдать пропуски, отсутствующие данные.
При этом собрать материал не представляется возможным и велик соблазн заполнить пропуски.

Мы считаем, что заполнять пропуски данных средними значениями нежелательно:
а) "..такие алгоритмы хотя и привлекательны, но дают слишком оптимистические результаты, которые обычно потом не подтверждаются при проверке работоспособности мат.модели...." (Реброва О.Ю. Статистический анализ медицинских данных....-М., МедиаСфера, 202.-312 с.

б) "…..самым простейшим приемом анализа неполных данных является исключение некомплектных наблюдении, содержащих пропуски хотя бы в одной из переменных, и дальнейший анализ полученных таким образом “полных” данных. Вполне понятно, что такой подход приводит к сильному различию статистических выводов, сделанных при наличии в данных пропусков и при их отсутствии.
Большинство программных средств использует такие методы заполнения пропусков, как средневыборочные по присутствующим значениям, с помощью уравнения регрессии или главных компонент. Подобные методы заполнения приводят к тому, что распределение данных после заполнения будет существенно отличаться от истинного распределения и представлять собой смесь истинного и вырожденных распределений (распределений, соответствующих некомплектным наблюдениям с различными структурами пропусков) с вырождением на гиперплоскостях, на которых располагаются предсказываемые значения.
Оценки параметров таких “полных” данных не будут отвечать требованиям состоятельности и несмещенности. Качество оценок с увеличением доли пропусков будет ухудшаться. Кроме того, если параметры для заполнения пропусков вычисляются по присутствующим данным, как в рассматриваемых методах, то появляется зависимость между наблюдениями…" (Чурилова Э. Ю. Проблемы неполных данных при исследовании деятельности малых предприятий, 1998)


_______________
© 6 сигма - статистический анализ экспериментальных данных
______________________________________________________________

11%

..... в работе рассмотрено 53 статьи, посвященных изучению рака: исследователи попытались воспроизвести результаты этих работ (важно то, что они общались с авторами оригинальных статей, получали от них дополнительные данные и и т.д.).

Только в 11% случаев удалось воспроизвести результаты.

http://www.nature.com/nature/journal/v485/n7396/full/485041e.html
_______________
© 6 сигма - статистический анализ экспериментальных данных
______________________________________________________________