03 декабря 2021
Ученый КФУ разрабатывает методы автоматического анализа сложности текстов

Главный научный сотрудник НИЛ «Текстовая аналитика» Института филологии и межкультурной коммуникации Казанского федерального университета Валерий Соловьев выиграл конкурс 2021 года на получение грантов Российского научного фонда по приоритетному направлению деятельности РНФ «Проведение фундаментальных научных исследований и поисковых научных исследований малыми отдельными научными группами».

Грант РНФ «Разработка нейросетевых методов и программных средств для анализа сложности и упрощения текстов на русском языке» продолжает цикл исследований, посвященных проблематике сложности текстов.

Профессор В. Соловьев рассказал, что проект посвящен созданию средств автоматического анализа сложности текстов на русском языке. Объективная автоматическая оценка текстов востребована в ряде областей, в первую очередь в образовании. Решение этой проблемы поможет в повышении качества учебных материалов. Однако она остается нерешенной даже для английского языка, хотя и привлекала внимание многих зарубежных исследователей.

Ранее коллективом НИЛ «Текстовая аналитика» был решен ряд первоочередных задач: реализованы простые модели расчета сложности текстов на основе небольшого числа формальных параметров. В новом проекте будет осуществлен переход от простых к усложненным моделям нового поколения, решен ряд важных исследовательских задач.

Одна из них – оценка сложности текстов нейронными сетями в рамках недавно предложенной технологии глубокого обучения. В проекте впервые в мире будет напрямую применена к оценке сложности текстов нейронная сеть BERT с архитектурой трансформера. Нейронные сети будут обучаться и тестироваться на ранее созданном в лаборатории корпусе ранжированных по сложности текстов.

«Следующая задача – распознавание сложных слов (Complex Word Identification, CWI). Ранее сложность слов оценивалась только по простым параметрам: числу букв, слогов, частотности или присутствию в лексических минимумах. При этом совершенно не учитывался контекст. Вместе с тем простое слово может оказаться сложным для понимания, если оно употребляется в переносном смысле в незнакомом контексте, и наоборот, неизвестное слово может быть легко понято в подходящем контексте. Задача CWI важна для решения имеющей теоретическую и практическую значимость проблемы автоматического упрощения текстов», – рассказал Валерий Соловьев.

Наконец, третьей является задача автоматического упрощения текстов. Ее решение, подчеркнул Валерий Дмитриевич, позволит по имеющимся, часто довольно сложным образовательным текстам, генерировать более простые, ориентированные на слабых учеников:

«Мы рассчитываем, что реализация данного проекта позволит существенно продвинуться в решении поставленных задач, а созданные технологии окажутся востребованными».

Автор: Центр медиакоммуникаций КФУ, фото: Максим Зарецкий

Источник информации: https://media.kpfu.ru/news/uchenyy-kfu-razrabatyvaet-neyroset-dlya-analiza-slozhnosti-tekstov-na-russkom-yazyke