Руководитель:
Соловьев Валерий Дмитриевич – д.ф.-м.н., профессор
Исполнители
Солнышкина Марина Ивановна
Иванов Владимир Владимирович
Андреева Мария Игоревна
Вольская Юлия Александровна
Данилов Андрей Владимирович
Байрашева Венера Рустамовна
Аннотация проекта
В данном проекте будут предложены и протестированы технологии, позволяющие автоматически строить семантические словари. В результате выполнения проекта будет: (1) предложена технология, позволяющая строить семантические словари, (2) созданы два электронных словаря: абстрактной/конкретной лексики и позитивно/негативно окрашенных слов русского языка. Словари будут создаваться в рамках парадигмы нечеткой логики - для каждого слова будет указана степень (в виде числа), в которой они обладают рассматриваемым свойством (абстрактность, позитивность). При создании словарей будут использованы наиболее современные методы искусственного интеллекта, машинного обучения и компьютерной лингвистики, включая такие как word2vec. Планируется сопоставление словарей, создаваемых с помощью различных методов машинного обучения и на разных корпусах текстов (Википедия, Национальный корпус русского языка, Новостной корпус).
Финансовая поддержка: грант РФФИ № 19-07-00807 А № 20-312-90041.
Базы данных
Словарь словоформ с индексами конкретности.xlsx
Англо-русский словарь абстрактных слов.xlsx
Frequency Russian Abstractness-Concreteness 1000.xlsx
Машинный словарь на 64 тыс. слов.txt
Рейтинги с BERT 22 тыс. слов.xlsx
Рейтинги и стандарные отклонения после очистки словаря.xlsx
Отображение словаря на RuThes.xlsx
Позитивность-негативность-BERT.xlsx