Preview

Заводская лаборатория. Диагностика материалов

Расширенный поиск
Доступ открыт Открытый доступ  Доступ закрыт Только для подписчиков

Способы построения текстовых коллекций для обучения классификаторов

https://doi.org/10.26896/1028-6861-2021-87-7-76-84

Полный текст:

Аннотация

Решена задача по составлению русскоязычной текстовой коллекции, состоящей из библиографических описаний научных статей, для обучения классификаторов. Рассмотрены различные подходы к созданию таких коллекций, оценена целесообразность использования экспертов (асессоров) для присвоения меток классов. Проведен анализ известных наборов документов, приведены требования к формируемому текстовому массиву, обоснован выбор предметной области. Отмечено, что по ряду тематик (например, «Интеллектуальный анализ данных», Data and Text Mining) в русскоязычных электронных библиотеках находится мало статей, что затрудняет формирование сбалансированных наборов документов. Для решения этой проблемы предложено составлять коллекцию с помощью автоматизированного перевода публикаций из известных англоязычных электронных библиотек (ACM digital library, IEEE Xplore digital library, CiteSeerX) с последующим экспертным контролем качества перевода. Исследована сформированная коллекция библиографических научных документов с помощью методов кластеризации (латентный семантический анализ) и визуализации (метод главных компонент). Составлены обучающие и тестовые выборки, применены «стандартные» классификаторы (метод K-ближайших соседей, логистическая регрессия, случайный лес), рассчитаны меры качества (аккуратность, точность и полнота). Экспериментальные результаты показали, что при проведении жесткой классификации все рассчитанные меры для исследуемых классификаторов находятся в диапазоне [0,79; 0,87], мягкой классификации — [0,91; 0,95]. При этом эксперименты выявили практически идентичные результаты при использовании для обучения-тестирования русско- и англоязычных библиографических описаний (различия не превосходят двух процентов). Предложенный способ формирования текстовой коллекции сокращает трудоемкость процесса проставления меток по сравнению с экспертным подходом, решает проблему недостатка русскоязычных документов в области «Интеллектуальный анализ данных», позволяет сформировать достаточно большие сбалансированные наборы библиографических документов для обучения-тестирования классификаторов.

Об авторах

Н. И. Мулатов
Национальный исследовательский университет «Московский энергетический институт»
Россия

Николай Иванович Мулатов

111250, Москва, Красноказарменная ул., д. 14



А. С. Мохов
Национальный исследовательский университет «Московский энергетический институт»
Россия

Андрей Сергеевич Мохов

111250, Москва, Красноказарменная ул., д. 14



В. О. Толчеев
Национальный исследовательский университет «Московский энергетический институт»
Россия

Владимир Олегович Толчеев

111250, Москва, Красноказарменная ул., д. 14



Список литературы

1. Орлов А. И. Теория принятия решений: учебник для вузов. — М.: Экзамен, 2006. — 576 с.

2. Орлов А. И. О работах по теории принятия решений и экспертным оценкам / Материалы международной научно-практической конференции «Теория активных систем». 2019. С. 281 – 288.

3. Васильев В. Г. Вероятностные модели и методы оценки качества эталонных массивов текстов при классификации / Труды XV Всероссийской научной конференции RCDL’2013. 2013. С. 259 – 268.

4. Гилязев Р. А., Турдаков Д. Ю. Активное обучение и краудсорсинг: обзор методов оптимизации разметки данных / Труды ИСП РАН. 2018. Т. 30. Ч. 2. С. 215 – 250.

5. Zhang J., Sheng V. S., Wu J., Wu X. Multi-class ground truth inference in crowdsourcing with clustering / IEEE Transactions on Knowledge and Data Engineering. 2016. Vol. 28. N 4. P. 1080 – 1085.

6. Snow R., O’Connor B., Jurafsky D., Ng A. Y. Cheap and fast-but is it good?: Evaluating non-expert annotations for natural language tasks / Proc. of the Conference on Empirical Methods in Natural Language Processing, 2008. P. 254 – 263.

7. Gay C. W., Kayaalp M., Aronson A. R. Semi-automatic indexing of full text biomedical articles / Annual AMIA Symposium Proc. 2005. P. 271 – 275.

8. Sarkar T. How to use a clustering technique for synthetic data generation / Towards Data Science. https://towardsdatascience.com/?source=post_page7c84b6b678ea

9. Serrano M. A., Flammin, A., Menczer F. Modeling statistical properties of written text / PLoS One. 2009. Vol. 4. N 4. P. 1 – 8.

10. Stanford S., Iriondo R., Shukla P. Best Public Datasets for Machine Learning and Data Science. https://pub.towardsai.net

11. Ванюшкин А. С., Гращенко Л. А. Обзор доступных корпусов для оценивания алгоритмов автоматического извлечения ключевых слов / XV Международная конференция по компьютерной и когнитивной лингвистике. Казань, 2018. С. 40 – 54.

12. Ахмадеева И. Р., Загорулько Ю. А., Саломатина Н. В., Серый А. С., Сидорова Е. А., Шестаков В. К. Подход к формированию тематических коллекций текстов на основе интернет-ресурсов / Вестник Новосибирского государственного университета. Серия: Информационные технологии. 2013. Т. 11. Вып. 4. С. 5 – 15.

13. Крейнес М. Г. Модели текстов и текстовых коллекций для поиска и анализа информации / Математические модели эколого-экономических систем: экономика / Труды МФТИ. 2017. Т. 9. № 3. С. 132 – 142.

14. Lewis D. D., Yang Y., Rose T. G., Li. F. RCV1: A new benchmark collection for text categorization research / J. Mach. Learn. Res. 2004. N 5. P. 361 – 397.

15. Lehmann J., Isele R., Jakob M., Jentzsch A., Kontokostas D., Mendes P., Hellmann S., Morsey M. Kleef P., Auer S., Bizer C. DBpedia — a large-scale, multilingual knowledge base extracted from Wikipedia / Semantic Web J. 2015. Vol. 6. N 2. P. 167 – 195.

16. Chetviorkin I., Braslavskiy P., Loukachevitch N. Sentiment Analysis Track at ROMIP 2011 / Computational Linguistics and Intellectual Technologies: Papers from the Annual International Conference «Dialogue». 2012. Vol. 2. N 11(18). P. 1 – 14.

17. Mohammad S. M., Kiritchenko S., Sobhani P., Zhu X., Cherry C. SemEval2016 Task 6: Detecting Stance in Tweets / Proceedings of SemEval-2016. 2016. P. 31 – 41.

18. Rajadesingan A., Liu H. Identifying Users with Opposing Opinions in Twitter Debates / 7th Int. Conf. on Social Computing, Behavioral Cultural Modeling, and Prediction (SBP 2014), 2014. P. 153 – 160.

19. Маннинг К., Рагхаван П., Шютце Х. Введение в информационный поиск. — М.: Вильямс, 2014. — 528 с.

20. Aggarwal C. C. Machine Learning for Text. — Springer, 2018. — 452 p.

21. Толчеев В. О. Анализ проблемы и разработка процедуры выявления нечетких дубликатов научных статей по библиографическим описаниям / Информационные технологии. 2011. № 2. С. 17 – 21.

22. Флах П. Машинное обучение — наука и искусство построения алгоритмов, которые извлекают знания из данных. — М.: ДМК-пресс, 2015. — 400 с.


Для цитирования:


Мулатов Н.И., Мохов А.С., Толчеев В.О. Способы построения текстовых коллекций для обучения классификаторов. Заводская лаборатория. Диагностика материалов. 2021;87(7):76-84. https://doi.org/10.26896/1028-6861-2021-87-7-76-84

For citation:


Mulatov N.I., Mokhov A.S., Tolcheev V.О. Ways to build text collections for training classifiers. Industrial laboratory. Diagnostics of materials. 2021;87(7):76-84. (In Russ.) https://doi.org/10.26896/1028-6861-2021-87-7-76-84

Просмотров: 67


ISSN 1028-6861 (Print)
ISSN 2588-0187 (Online)