Preview

Заводская лаборатория. Диагностика материалов

Расширенный поиск
Доступ открыт Открытый доступ  Доступ закрыт Только для подписчиков

Сравнительный анализ бинарных классификаторов на массиве научных публикаций

https://doi.org/10.26896/1028-6861-2022-88-7-79-87

Аннотация

Исследованы бинарные классификаторы на сбалансированных текстовых выборках. Выборки сформированы из научных публикаций в области Компьютерных наук (Computer Science). Первый класс содержит статьи по «Интеллектуальному анализу текстовых данных» (класс «ИАД»), второй — работы по другим тематикам Computer Science (класс «не ИАД»). Рассмотрены основные этапы предварительной обработки текстовых документов, проанализированы модели их представления. Поставлена задача бинарной классификации и приведены показатели качества, которые использованы в исследовании. Предложена методика формирования выборки из российской цифровой библиотеки Elibrary. Сформированная выборка состоит из библиографических описаний документов (название, аннотация и ключевые слова). Проведен разведочный анализ и изучена структура выборки. Построены и проанализированы «облака терминов» для двух классов, проведена визуализация документов с помощью метода стохастического вложения соседей с t-распределением (t-distributed Stochastic Neighbor Embedding). На основе обзора и анализа известных классификаторов для исследования отобраны следующие методы: K-ближайших соседей, случайный лес, градиентный бустинг, логистическая регрессия, метод опорных векторов. В исследовании также использовали профильные методы, которые основаны на построении вектора (профиля) наиболее информативных терминов, определенных по частоте совстречаемости терминов и классов. Параметры методов были настроены с помощью пятикратной перекрестной проверки. Наилучшее качество классификации на рассматриваемой выборке показали методы, использующие ансамблевый (коллективный) принцип принятия решений (случайный лес, градиентный бустинг), а также метод опорных векторов. У лучшего классификатора — градиентного бустинга — доля правильных ответов составила 0,98, полнота и точность — 0,99. Остальные (более простые) методы, использовавшиеся в исследовании, в целом также показали достаточно хорошее качество классификации; для наименее точного метода K-ближайших соседей доля правильных ответов, полнота и точность составили соответственно 0,90, 0,81 и 0,91.

Об авторах

П. А. Козлов
Национальный исследовательский университет «МЭИ»
Россия

Павел Андреевич Козлов

Россия, 111250, Москва, Красноказарменная улица, д. 14



А. С. Мохов
Национальный исследовательский университет «МЭИ»
Россия

Андрей Сергеевич Мохов

Россия, 111250, Москва, Красноказарменная улица, д. 14



Н. А. Назаров
Национальный исследовательский университет «МЭИ»
Россия

Николай Алексеевич Назаров

Россия, 111250, Москва, Красноказарменная улица, д. 14



Ш. И. Сафин
Национальный исследовательский университет «МЭИ»
Россия

Шахим Ильмирович Сафин

Россия, 111250, Москва, Красноказарменная улица, д. 14



В. О. Толчеев
Национальный исследовательский университет «МЭИ»
Россия

Владимир Олегович Толчеев

Россия, 111250, Москва, Красноказарменная улица, д. 14



Список литературы

1. Evangeline M., Shyamala K. Text Categorization Techniques: A Survey / International Conference on Innovative Practices in Technology and Management (ICIPTM), 2021. P. 137 – 142.

2. Surya K., Nithin R., Prasanna S., Venkatesan R. A comprehensive study on machine learning concepts for text mining / International Conference on Circuit, Power and Computing Technologies (ICCPCT), 2016. P. 1 – 5.

3. Маннинг К., Рагхаван П., Шютце Х. Введение в информационный поиск. — М.: Вильямс, 2014. — 528 с.

4. Флах П. Машинное обучение — Наука и искусство построения алгоритмов, которые извлекают знания из данных. — М.: ДМК-пресс, 2015. — 400 с.

5. Орлов А. И. Три основных результата математической теории классификации / Заводская лаборатория. Диагностика материалов. 2016. Т. 82. № 5. С. 63 – 70.

6. Орлов А. И. Основные требования к математическим методам классификации / Заводская лаборатория. Диагностика материалов. 2020. Т. 86. № 11. С. 67 – 78. DOI: 10.26896/1028-6861-2020-86-11-67-78

7. Che W., Liu Y., Wang Y., Zheng B., Liu T. Towards better UD parsing: Deep contextualized word embeddings, ensemble, and treebank concatenation / CoRR. arXiv: 1807.03121. 2018.

8. Devlin J., Chang M.-W., Lee K., Toutanova K. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding / Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Vol. 1 (Long and Short Papers). 2019. P. 4171 – 4186.

9. Жеребцова Ю. А., Чижик А. В. Сравнение моделей векторного представления текстов в задаче создания чат-бота / Вестник НГУ. Серия: Лингвистика и межкультурная коммуникация. 2020. Т. 18. № 3. С. 17 – 32. DOI: 10.25205/1818-7935-2020-18-3-16-34

10. Kilimci Z. H., Akyokuş S. The Analysis of Text Categorization Represented With Word Embeddings Using Homogeneous Classifiers / IEEE International Symposium on Innovations in Intelligent SysTems and Applications (INISTA). 2019. P. 1 – 6. DOI: 10.1109/INISTA.2019.8778329

11. Kreutz C. K., Schenkel R. Scientific Paper Recommendation Systems: a Literature Review of recent Publications / arXiv-CS-Digital Libraries (IF). Pub Date. 2022-01-03. DOI: arxiv-2201.00682

12. Шокин Ю. И., Федотов А. М., Жижимов О. Л. Технологии создания распределенных информационных систем поддержки научных исследований / Вычислительные технологии. 2015. Т. 20. № 5. С. 251 – 274.

13. Бершадская Е. Г. Анализ технологий поддержки научных исследований / XXI век: итоги прошлого и проблемы настоящего. Серия: Технические науки. Информационные технологии. 2015. Вып. 3. Т. 1. С. 11 – 17.

14. Ширяев А. А. Управленческие информационные системы в научной сфере / Научно-техническая информация. Сер. 1. Организация и методика информационной работы. 2015. № 10. С. 31 – 36.

15. Козлов П. А., Мохов А. С., Толчеев В. О. Кластеризация научных публикаций кафедры (на основе данных из библиотеки eLibrary.ru) / VIII Международная научно-практическая конференция «Нечеткие системы, мягкие вычисления и интеллектуальные технологии» НСМВИТ-2020 / Труды конференции. Т. 2. — Смоленск: Универсум, 2020. С. 189 – 199.

16. Павлов Н. А., Андрейченко А. Е., Владзимирский А. В., Ревазян А. А., Кирпичев Ю. С., Морозов С. П. Эталонные медицинские датасеты (MosMedData) для независимой внешней оценки алгоритмов на основе искусственного интеллекта в диагностике / Digital Diagnostics. 2021. Т. 2. № 1. С. 49 – 65. DOI: 10.17816/DD60635

17. Simon C., Davidsen K., Hansen C. A text mining tool for performing classification of biomedical literature / Bioinformatics 19 — BioReade, 2019. P. 57. DOI: 10.1186/s12859-19-2607-x

18. Научная электронная библиотека eLibrary.ru. https://www.elibrary.ru

19. Van der Maaten L., Hinton G. Visualizing High-Dimensional Data Using t-SNE / Journal of Machine Learning Research. 2008. No. 9. P. 2579 – 2605.

20. Мохов А. С., Толчеев В. О. Разработка профильных методов классификации двуязычных текстовых документов / Материалы 6-й Всероссийской мультиконференции по проблемам управления. Т. 1. Дивноморское, 2013. С. 75 – 79.

21. Scikit-learn tutorial: statistical-learning for scientific data processing. Marsland Machine Learning (An Algorithmic Perspective). CRC Press, 2009. https://scikit-learn.org/stable/index.html

22. Word Cloud for Python. http://amueller.github.io/word_cloud

23. Gradient Boosting and XGBoost. https://medium.com/hackernoon/gradient-boosting-and-xgboost-90862daa6c77


Рецензия

Для цитирования:


Козлов П.А., Мохов А.С., Назаров Н.А., Сафин Ш.И., Толчеев В.О. Сравнительный анализ бинарных классификаторов на массиве научных публикаций. Заводская лаборатория. Диагностика материалов. 2022;88(7):79-87. https://doi.org/10.26896/1028-6861-2022-88-7-79-87

For citation:


Kozlov P.A., Mokhov A.S., Nazarov N.A., Safin Sh.I., Tolcheev V.O. Comparative analysis of binary classifiers on an array of scientific publications. Industrial laboratory. Diagnostics of materials. 2022;88(7):79-87. (In Russ.) https://doi.org/10.26896/1028-6861-2022-88-7-79-87

Просмотров: 402


ISSN 1028-6861 (Print)
ISSN 2588-0187 (Online)