

Процедура проверки однородности выборок текстовых документов на основе непараметрических критериев
https://doi.org/10.26896/1028-6861-2023-89-7-71-77
Аннотация
При построении высокоточных классификаторов одной из важнейших задач является формирование достаточно больших репрезентативных и непротиворечивых выборок. В частности, при анализе и обработке текстовых документов объединяют наборы данных, полученных из различных информационных источников. В ряде случаев из-за нехватки профильных текстов на русском языке датасет расширяют за счет добавления переведенных англоязычных документов. В таких ситуациях целесообразно оценивать однородность-неоднородность объединяемых массивов. Однако подобная проверка осложняется тем, что документы представляют собой многомерные векторы, корректное сопоставление которых является весьма нетривиальной задачей. Недостаточная разработанность процедур проверки однородности выборок для многомерного случая приводит к тому, что на практике проблема возможных различий в данных игнорируется как несущественная. Как следствие, обучение классификаторов проводится по выборкам, представляющим собой смесь достаточно разнотипных текстов, и результирующее качество категоризации не улучшается (или даже ухудшается). Все это обуславливает актуальность разработки процедуры проверки однородности документальных выборок. Для этого авторы провели комплексное изучение проблемы сдвига в текстовых данных, выявили и проанализировали причины, которые определяют неоднородность документальных массивов. Исследуемые выборки состоят из библиографических описаний научных статьей (название, аннотация, ключевые слова). Авторы разработали процедуру оценки однородности двух выборок, имеющих приблизительно одинаковый объем и единый способ расчета весов терминов. Для сопоставления использовали центроиды, которые имеют размер общего словаря двух датасетов (в случае отсутствия некоторых терминов в соответствующие позиции центроидов проставляют нулевые значения). Представление выборок в виде «терминологических портретов» (центроидов) позволяет свести проверку однородности многомерных векторов-документов к хорошо изученной задаче анализа двух одномерных связанных выборок, для решения которой применяли непараметрические критерии (в частности, критерий знаков и критерий знаковых рангов Вилкоксона). Предложенная процедура проверки однородности выборок на основе непараметрических критериев проверена на трех коллекциях документов, полученных из русско- и англоязычных источников.
Об авторах
Ш. И. СафинРоссия
Шахим Ильмирович Сафин
111250, Москва, ул. Красноказарменная, д. 14
В. О. Толчеев
Россия
Владимир Олегович Толчеев
111250, Москва, ул. Красноказарменная, д. 14
Список литературы
1. Орлов А. И. Прикладная статистика. — М.: Экзамен, 2006. — 671 с.
2. Бурков А. Инженерия машинного обучения. — М.: ДМК Пресс, 2022. — 306 с.
3. Мулатов Н. И., Мохов А. С., Толчеев В. О. Способы построения текстовых коллекций для обучения классификаторов / Заводская лаборатория. Диагностика материалов. 2021. Т. 87. № 7. С. 76 – 84. DOI: 10.26896/1028-6861-2021-87-7-76-84
4. Кафтанников И. Л., Парасич А. В. Проблемы формирования обучающей выборки в задачах машинного обучения / Вестник ЮУрГУ. Серия Компьютерные технологии, управление, радиоэлектроника. 2016. Т. 16. № 3. С. 15 – 24.
5. Холлендер М., Вульф Д. Непараметрические методы статистики. — М.: Финансы и статистика, 1983 — 518 с.
6. Орлов А. И. Основные требования к математическим методам классификации / Заводская лаборатория. Диагностика материалов. 2020. Т. 86. ¹ 11. С. 67 – 78. DOI: 10.26896/1028-6861-2020-86-11-67-78
7. Lipton Z., Wang Y-X., Smola A. Detecting and Correcting for Label Shift with Black Box Predictors / ArXiv: 1802.03916.2018.
8. Dataset Shift in Machine Learning / J. Quinonero-Candela, M. Sugiyama, A. Schwaighofer, N. Lawrence, Eds. — The MIT Press, 2022. — 248 p.
9. Zhang K., Scholkopf B., Muandet K., Wang Z. Domain Adaptation under Target and Conditional Shift / Proceedings of the 30th International Conference on Machine Learning. 2013. Vol. 28. N 3. P. 819 – 827.
10. Subbaswamy A., Schulam P., Saria S. Preventing Failures Due to Dataset Shift: Learning Predictive Models that Transport / Proceedings of the 22nd International Conference on Artificial Intelligence and Statistics. 2019. Vol. 89. P. 3118 – 3127.
11. Parker B., Khan L. Rapidly Labeling and Tracking Dynamically Evolving Concepts in Data Streams / IEEE 13th International Conference on Data Mining Workshops. 2013. P. 1161 – 1164.
12. Ефимова И. В. Формирование однородных обучающих выборок для задач медицинской диагностики / Труды 57-й Международной научной конференции МФТИ. 2014. С. 91 – 92.
13. Evangeline M., Shyamala K. Text Categorization Techniques: A Survey / International Conference on Innovative Practices in Technology and Management (ICIPTM). 2021. P. 137 – 142.
14. Kreutz C. K., Schenkel R. Scientific Paper Recommendation Systems: a Literature Review of recent Publications / ArXiv: 2201.00682.2022.
15. Silambarasan M., Shathik J. Ensemble Text Classifier: A Document Classification Technique to Predict and Categorizes Regularised and Novel Classes Using Incremental Learning / International Journal of Applied Engineering Research. 2017. Vol. 12. N 22. P. 12454 – 12459.
16. Understanding Dataset Shift and Potential Remedies. Technical Report. — Vector Institute, 2021. — 27 p.
17. Орлов А. И. Какие гипотезы можно проверять с помощью двухвыборочного критерия Вилкоксона / Заводская лаборатория. Диагностика материалов. 1999. Т. 65. № 1. С. 51 – 56.
18. Орлов А. И. Модель анализа совпадений при расчете непараметрических ранговых статистик / Заводская лаборатория. Диагностика материалов. 2017. Т. 83. № 11. С. 66 – 72. DOI: 10.26896/1028-6861-2017-83-11-66-72
19. Орлов А. И. Распределения реальных статистических данных не являются нормальными / Научный журнал КубГАУ. 2016. № 117. С. 71 – 90.
20. Орлов А. И. Методы проверки однородности связанных выборок / Заводская лаборатория. Диагностика материалов. 2004. Т. 70. ¹ 7. С. 57 – 61.
21. Frias-Blanco I., Campo-Avila J., Ramos-Jimenez G., Morales-Bueno R., Ortiz-Diaz A., Caballero-Mota Y. Online and Non-Parametric Drift Detection Methods Based on Hoeffding’s Bounds / IEEE Transactions on Knowledge and Data Engineering. 2014. Vol. 27. N 3. P. 810 – 823.
22. Digital Library Elibrary [cited February 3, 2023]. Available: https://eLibrary.ru
23. Electronic archive of scientific articles of Cornell University with open access [cited February 3, 2023]. Available: https:// arxiv.org
24. Electronic Library of the Association for Computing Machinery ACM Digital Library [cited February 3, 2023]. Available: https://dl.acm.org
Рецензия
Для цитирования:
Сафин Ш.И., Толчеев В.О. Процедура проверки однородности выборок текстовых документов на основе непараметрических критериев. Заводская лаборатория. Диагностика материалов. 2023;89(7):71-77. https://doi.org/10.26896/1028-6861-2023-89-7-71-77
For citation:
Safin S.I., Tolcheev V.O. Procedure for checking the uniformity of samples of text documents based on nonparametric criteria. Industrial laboratory. Diagnostics of materials. 2023;89(7):71-77. (In Russ.) https://doi.org/10.26896/1028-6861-2023-89-7-71-77