Направление и задачи исследований: разработка методологии и инструментария автоматизированного лингвистического анализа естественно-языковых текстов.


Востребованность результатов исследований:

- используются в области бизнес-аналитики и могут быть коммерциализированы

-позволяют оперировать с большими данными, что является одной из сквозных

технологий Программы “Цифровая экономика РФ”

- способствуют индивидуализации и персонализации образовательного процесса.


Партнеры:

 Институт проблем передачи информации РАН (Москва)

Лаборатория SoLET (The Science of Learning and Educational Technology),

Университет штата Аризоны, США.

Политехнический университет  г.Бухарест,  Румыния


Базы данных

База данных содержит школьные учебники для 5-11 классов по Обществознанию А.Ф. Никитина и Л.Н. Боголюбова. Имена файлов в текстовом формате содержат номер класса и первые буквы фамилии автора. Для того, чтобы избежать нарушения авторских прав, предложения учебника перемешаны и расположены в случайном порядке.

При использовании базы данных просьба ссылаться на статью, в которой она была впервые описана: V. Solovyev, V. Ivanov, and M. Solnyshkina. Assessment of reading difficulty levels in Russian academic texts: Approaches and metrics. Journal of Intelligent & Fuzzy Systems, 34(5):3049–3058, 2018.

1. Частотные словари учебников 1-4 классов.xlsx

2. Учебники по обществознанию.zip

3. "Производственные" тексты.rar 

4. Corpus of Russian EFL textbooks (CORET).7z

5. Russian EFL textbooks.xlsx

6. Приложения к статье "Асимметрия дискурсивных маркёров в оригинальном и переводном текстах (на материале текстов PIRLS)"

7. CoConPresRu.zip

8. CoConPresEn.zip

9. Иллюстративный корпус лексемы view.docx