Preview

Industrial laboratory. Diagnostics of materials

Advanced search

Three Main Results of the Mathematical Theory of Classification

Abstract

The mathematical theory of classification is rather diverse, it contains a large number of approaches, models, methods, and algorithms. We distinguish three main results: the best method of diagnosis (discriminant analysis), an adequate indicator of the quality of algorithm of discriminant analysis, and the statement about stopping after a finite number of steps of iterative algorithms of cluster analysis. Proceeding from the Neyman - Pearson Lemma it is shown that the optimal method of diagnosis exists and is expressed through the probability density function corresponding to the classes. If the probability density is unknown, the non-parametric estimators of the training samples should be used. “The probability (or share) the correct classification (diagnosis)” is often used as a quality indicator of the diagnostic algorithm - the more the better. Is shown that a widespread use of this indicator is unreasonable and the other “predictive power” indicator obtained by conversion in the model of linear discriminant analysis is offered. Stopping after a finite number of steps of iterative algorithms of cluster analysis is demonstrated on an example of k-means. In our opinion, the results make a fundamental contribution to the theory of classification and each expert should be informed about the obtained conclusions for further developing and application of the theory of classification.

About the Author

A. I. Orlov
Московский государственный технический университет им. Н. Э. Баумана; Московский физико-технический институт; Центральный научно-исследовательский институт машиностроения
Russian Federation


References

1. Орлов А. И. О развитии математических методов теории классификации / Заводская лаборатория. Диагностика материалов. 2009. Т. 75. № 7. С. 51 - 63.

2. Новиков Д. А., Орлов А. И. Математические методы классификации / Заводская лаборатория. Диагностика материалов. 2012. Т. 78. № 4. С. 3.

3. Орлов А. И. Математические методы теории классификации / Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета. 2014. №95. С. 423 - 459.

4. Орлов А. И. Структура непараметрической статистики / Заводская лаборатория. Диагностика материалов. 2015. Т. 81. № 7. С. 62 - 72.

5. Орлов А. И. Тридцать лет статистики объектов нечисловой природы (обзор) / Заводская лаборатория. Диагностика материалов. 2009. Т. 75. № 5. С. 55 - 64.

6. Орлов А. И. Новая парадигма прикладной статистики / Заводская лаборатория. Диагностика материалов. 2012. Т. 78. № 1. Ч. I. С. 87 - 93.

7. Леман Э. Л. Проверка статистических гипотез. 2-е изд., испр. - М.: Наука, 1979. -408 с.

8. Орлов А. И. Оценки плотности в пространствах произвольной природы / Статистические методы оценивания и проверки гипотез: межвуз. сб. науч. тр. - Пермь: Перм. гос. нац. иссл. ун-т, 2013. Вып. 25. С. 21-33.

9. Орлов А. И. Предельные теоремы для ядерных оценок плотности в пространствах произвольной природы / Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета. 2015. № 108. С.316- 333.

10. Андерсон Т. Введение в многомерный статистический анализ. - М.: Физматгиз, 1963. - 500 с.

11. Рао С. Р. Линейные статистические методы и их применения. - М.: Наука, 1968. - 548 с.

12. Алгоритмы и программы восстановления зависимостей / Под ред. В. Я. Вапника. - М.: Наука, 1984. - 816 с.

13. Горелик А. Л., Скрипкин В. А. Методы распознавания: учеб. для вузов. - М.: Высшая школа, 1984. - 208 с.

14. Орлов А. И. Ядерные оценки плотности в пространствах произвольной природы / Статистические методы оценивания и проверки гипотез: межвуз. сб. науч. трудов. - Пермь: Пермский госуниверситет, 1996. С. 68 - 75.

15. Орлов А. И. Математические методы исследования и диагностика материалов / Заводская лаборатория. Диагностика материалов. 2003. Т. 69. № 3. С. 53 -64.

16. Толчеев В. О. Модифицированный и обобщенный метод ближайшего соседа для классификации библиографических текстовых документов / Заводская лаборатория. Диагностика материалов. 2009. Т. 75. №7. С. 63-70.

17. Алексеевская М. А., Гельфанд И. М., Губерман Ш. А., Мартынов И. В., Ротвайн И. М., Саблин В. М. Прогнозирование исхода мелкоочагового инфаркта миокарда с помощью программы узнавания / Кардиология. 1977. Т. 17. № 7. С. 26 - 71.

18. Гельфанд И. М., Губерман Ш. А., Сыркин А. Л., Головня Л. Д., Извекова М. Л., Алексеевская М. А. Прогнозирование исхода инфаркта миокарда с помощью программы «Кора-3» / Кардиология. 1977. Т. 17. № 6. С. 19 - 23.

19. Гельфанд И. М., Розенфельд Б. И., Шифрин М. А. Очерки о совместной работе математиков и врачей (2-е, дополненное издание). - М.: УРСС, 2004. - 320 с.

20. Фишер Р. Э. Использование множественных измерений в задачах таксономии / Современные проблемы кибернетики. - М.: Знание, 1979. С. 6-20.

21. Орлов А. И. Прогностическая сила как показатель качества алгоритма диагностики / Статистические методы оценивания и проверки гипотез: межвуз. сб. науч. тр. - Пермь: Перм. гос. нац. иссл. ун-т, 2011. Вып. 23. С. 104 - 116.

22. Орлов А. И. Прогностическая сила - наилучший показатель качества алгоритма диагностики / Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета. 2014. № 99. С. 15 - 32.

23. Орлов А. И. Организационно-экономическое моделирование: учебник. В 3 ч. Ч. 1. Нечисловая статистика. - М.: Изд-во МГТУ им. Н. Э. Баумана, 2009. - 541 с.

24. Орлов А. И. Сходимость эталонных алгоритмов / Прикладной многомерный статистический анализ: Ученые записки по статистике. -М.: Наука, 1978. Т. 33. С. 361 -364.

25. Орлов А. И. Остановка после конечного числа шагов для алгоритмов кластер-анализа / Алгоритмическое и программное обеспечение прикладного статистического анализа: Ученые записки по статистике. - М.: Наука, 1980. Т. 36. С. 374 - 377.

26. Орлов А. И. Некоторые вероятностные вопросы теории классификации / Прикладная статистика: Ученые записки по статистике. 1983. Т. 45. С. 166- 179.

27. Орлов А. И. Классификация объектов нечисловой природы на основе непараметрических оценок плотности / Проблемы компьютерного анализа данных и моделирования: Сборник научных статей. - Минск: Изд-во Белорусского государственного университета, 1991. С. 141-148.

28. Орлов А. И. Заметки по теории классификации / Социология: методология, методы, математические модели. 1991. № 2. С. 28 - 50.

29. Орлов А. И., Толчеев В. О. Об использовании непараметрических статистических критериев для оценки точности методов классификации (обобщающая статья) / Заводская лаборатория. Диагностика материалов. 2011. Т. 77. № 3. С. 58 - 66.

30. Орлов А. И. Устойчивость классификации относительно выбора метода кластер-анализа / Заводская лаборатория. Диагностика материалов. 2013. Т. 79. № 1. С. 68 - 71.


Review

For citations:


Orlov A.I. Three Main Results of the Mathematical Theory of Classification. Industrial laboratory. Diagnostics of materials. 2016;82(5):63-69. (In Russ.)

Views: 458


ISSN 1028-6861 (Print)
ISSN 2588-0187 (Online)